长文本会降低调查实验的数据质量吗？

调研家SurveyPlus

2026-02-06

标签：调研家问卷设计实验调查长文本材料

调研家问卷设计实验调查长文本材料

在调查实验（Survey Experiment）中，研究者往往需要向受访者随机提供不同内容的背景材料、政策描述或情境设定，用以评估不同实验处理（treatment）的效果。为了确保有效性，研究者经常设计篇幅较长的文本刺激信息，并希望受访者逐字逐句认真研读。

然而，受访者是否真的会认真阅读这些文本？文本长度是否会影响实验的有效性？今天我们将分享Rettig和Blom 两位研究者2024年发表在调查方法权威期刊Journal of Survey Statistics and Methodology (JSSAM)的一篇研究，用以解答研究者普遍关心的这些问题。

文本长度是杀掉受访者注意力的重要元凶

Rettig和Blom通过德国在线样本库（German Internet Panel，GIP）进行了一项严谨的基于概率样本的调查实验。他们通过操控实验说明文字的长度，并在文字中嵌入注意力测试，来测量受访者是否认真阅读了文本。

注意力测试是一段操作指令，内容如下：

“要在整个过程中保持专注并不总是那么容易。为了完善我们的研究，我们想了解参与者是否认真阅读了文本。请不要回答下面关于德国欧盟成员国身份的问题。相反，请点击左上角‘Society in Change’的图标以继续。通过这种方式，您向我们证明了您已经阅读了这段文字。”（本处为译文）

这段操作指令被嵌在了四个不同长度的文字版本中并随机呈现给受访者（如下图所示）。其中，最短的文字版本仅包含了这段操作指令，最长的文字版本则长达四个段落。

图. 调查实验界面

值得一提的是，在答题过程中去点击页面上方的logo本身是一个非常“反常”的操作，而且仅有实验文本当页的logo是可以点击的，这样一个精妙的设计可以避免误打误撞操作正确的情况，确保只有确实认真读了实验文本的受访者才可能正确完成。

实验结果显示，当文本非常简短（仅包含必要指令）时，大约 80% 的受访者能够通过了注意力测试；而当文本增加到数百字、包含多个段落时，注意力测试的通过比例下降到 40% 左右。

图. 注意力测试通过率

这并不意味着受访者普遍不认真，而是反映了一个现实：人的注意力资源是有限的，文本越长，完整阅读的可能性越低。如果实验的刺激文本隐藏在长篇大论中，那么大部分受访者都可能未真正接收到实验处理，这将影响对实验效应的评估。

通过注意力测试剔除不认真的受访者是最佳解决方案吗？

当面对冗长的文本时，哪些受访者最先感到疲劳并失去专注力？Rettig和Blom的研究发现，注意力不仅受文本长度影响，还与受访者特征高度相关：男性、年轻的、受教育程度低的受访者更不容易通过注意力测试，他们更容易在阅读的时候走神。这与过往其他一些研究的发现是一致的。

这意味着，长文本对不同人群注意力的影响并不完全一样。在长文本的调查实验中，借助注意力筛查最终留下的认真答题的受访者，很可能是一群女性偏多、年龄偏大、高学历的特定群体。在分析中直接剔除注意力不足的受访者，可能导致剩余样本的结构产生偏差。

而且，这种直接剔除的方式将导致有效样本量的急剧下降——在Rettig和Blom的研究中，在文本最长的实验条件下，60%的受访者会被剔除。想要补充样本或通过配额调整分布偏差，都会显著提高调查成本。

因此，相比通过筛查和剔除的方式来事后“修正”数据，更稳妥的做法是从问卷和实验设计阶段入手，提升实验刺激文本本身的可读性及其对受访者注意力的友好度。

答题时长可以用来筛查受访者吗？

一个自然的问题是，Rettig和Blom使用的注意力测试虽然巧妙，但很难在常规的调查中运用，而且注意力测试如果设计得不够友好，还可能会让受访者产生心理上的抵触。那么，相比使用注意力筛查，如果使用答题时长来判定受访者是否专注，效果会如何呢？

Rettig和Blom的研究也回答了这个问题。他们展示了在四种不同文本长度条件下，通过注意力测试与未通过注意力测试的受访者，其答题时长的分布情况。

图. 答题时长：注意力测试通过者vs.不通过者

可以看到，随着文本长度的增加，通过注意力测试的受访者，其平均答题时长明显上升，而未通过注意力测试的受访者，其答题时长几乎不受文本长度影响。从这个角度看，答题时长确实可以作为判断受访者注意力的一个有用信号。

不过，与注意力测试类似，单纯依赖答题时长筛选受访者，同样可能引入年龄、性别、职业等方面的样本分布偏差。而且，由于认真与不认真的受访者在答题时长的分布上存在相当程度的重叠（见上图），仅将答题时长作为唯一的筛选标准还会出现误判的风险：一部分答题较慢但并未认真阅读的受访者可能会无法识别，另一部分阅读速度较快但实际上认真作答的受访者又会被判定为不认真。这种误判的风险在短文本情境下尤为突出。

更值得注意的是，这类误判并非随机发生，而是可能对不同人群产生不对称的影响。年轻的、高学历的受访者由于阅读速度较快，更容易误判为不认真的受访者。基于上一小节的结论，如果说年轻人本来就更可能是一批不怎么认真答题的受访者的话，那么，高学历的受访者可谓是受误判影响最严重的一个群体了——他们更可能认真答题，却又更容易被误判为注意力不集中。

因此，答题时长虽然可以用来识别极端不认真的受访者，但不宜设置得太过严苛而导致误伤，或者不宜作为判断受访者注意力的唯一标准。同样，相比依赖单一阈值进行事后筛选，从问卷与实验设计阶段降低阅读负担、提升信息可接收性，是一种更有效的做法。

小结

文本长度显著影响受访者对实验刺激的注意力，研究者需重视这一问题。
无论是通过注意力测试还是答题时长来剔除受访者，都可能导致剩余样本在结构上产生偏差，而且还会产生高昂的成本。
另外，基于严苛的答题时长来剔除样本，还可能导致大量对受访者不公平的误判。
最佳的提升调查实验数据质量的方式是在问卷和实验设计阶段，优化问题和文本刺激信息，降低受访者的阅读负担，使不同背景、不同能力的受访者都能更容易地认真阅读并作答。

【参考文献】

Rettig, T., & Blom, A. G. (2024). Investigating respondent attention to experimental text lengths.Journal of Survey Statistics and Methodology, 12(5), 1254–1277.

©图片来源网络