如何进行有效的问卷测试？

调研家SurveyPlus

标签：问卷测试数据收集

2021-08-27

问卷测试数据收集

作者|胡婧炜

编辑|赵秋瑶

数据收集需要成本，一项调查动辄花费十几万或几十万，有些追踪调查长期积累下来的花费甚至过亿。正因为如此，很多项目负责人在实地调查前不免忐忑不安：我设计的问卷能不能收集到我真正所需要的信息？流程会不会出错？在数据回收后，也经常会发生因为设计上的失误而导致数据缺失、错误等问题然而悔之晚矣的情况。

更糟糕的是，有些数据上的错误由于未能及时得以发现和调整，给人们的认知或决策带来极其负面的影响和不可挽回的损失。好的数据贵得是有道理的，数据收集的每一个环节都需要采取有效的质量控制措施，才能规避错误，避免项目投入的钱财和人力付诸东流。

其中，在调查项目投放实地之前非常重要的一项质量控制措施就是对设计好的问卷进行测试。遵循一定的程序和技巧，问卷测试可以有效地发现问卷在内容、逻辑、流程等各方面的问题。

下面我们重点介绍常见的几种问卷测试的方法：

专家评审（expert review）

专家评审指邀请各方面的专家基于其专业领域的知识和经验对问卷可能存在的问题进行评估和提出解决方案。一般来说，专家评审应至少包括四个方面的专家：

一是与项目主题相关的领域的专家，主要评估问卷对专业概念的表述是否准确、测量的维度是否全面等；

二是调查方法专家，主要评估问卷在设计上的科学性与可行性，如问题是否准确、流程是否适用、数据结构是否合理等；

三是项目执行专家，主要评估执行过程中可能遇到哪些潜在的问题，如预算的控制、进度的控制、访员的管理等；

四是计算机方面的专家，主要评估计算机辅助访问或网络访问中程序实现的难度以及可能存在的问题。

优势：

各方专家对问卷存在的潜在问题的识别范围较广，可以覆盖错别字、语病、跳转错误、概念表述错误、数据结构等各方面的错误。

快速且成本较低。

劣势：

测试的效果取决于专家的水平。

只涉及来自专家的意见, 而并无来自实际被访者的意见。

焦点小组访谈（focus group）

焦点小组访谈由一个受过训练的主持人带领5-10个被访者组成小组，对特定的调查主题和核心概念进行无结构化的轮流发言及深入讨论，以了解不同被访者对测量概念的理解的差异。

举例来说，一项研究希望了解人们观看和体验艺术表演的情况。在焦点小组访谈中，被访者对如何界定“观看和体验艺术表演”产生了争议，比如，在饭店吃饭时顺便听到了饭店的钢琴演奏算不算？在电视上看艺术表演算不算？调研者可以基于这些发现改进问卷，使问卷中的相关概念的界定和表述更加明确。

焦点小组访谈应尽可能地确保所招募的被访者在背景、经历和认知上的多样性，以发现尽可能多的问题。在访谈过程中，主持人应营造轻松的讨论环境，确保在不偏离主题的前提下所有人都有机会畅所欲言。

优势：

方法灵活，成本较低，效率较高。小组的形式可以节省时间，成员间的头脑风暴与深入讨论有利于产生更多意想不到的发现。而当意料之外的想法出现时，小组主持人还可以立马跟进。这种方式可以帮助调研员在短的时间内获取更多的信息。

收集的信息直接来自于与实际调查中的被访者相似的群体。

劣势：

测试的效果受到主持人的专业素养、沟通技巧及其在现场的引导与控制的影响。

访谈结论仅仅来自一小部分人群，其在多大程度上适用于更广泛的人群需谨慎考虑。

认知访谈（cognitive interview）

在认知访谈中，访员基于设计好的问卷对测试期选定的被访者进行一对一的访问，以了解被访者如何理解问题和如何完成回答问题的任务。认知访谈通常使用出声思维的方法（think aloud）鼓励被访者用自述的方式将回答问题时头脑中的思考过程描述出来，或是使用口头盘问的方法（verbal probing），由访员根据被访者的回答进行引导式的、循序渐进式的提问，如要求被访者按照其对问题的理解重新描述一下问题或解释一下问题中的某一个词语、提问被访者在回答过程中有什么困惑、提问被访者是如何得到答案的等。基于认知访谈，调研者可以评估现有问卷的叙述和逻辑是否合理，或被访者在题意理解上是否会出现偏差等，并基于此对问卷做出改进。

认知访谈与焦点小组访谈的目标非常相似，而且与焦点小组访谈一样要求所招募的被访者在在背景、经历、认知上尽可能的多样化。但二者不同的是，焦点小组访谈侧重于与被访者综合地、整体地探讨问卷中的一些核心概念，而认知访谈则侧重于发现被访者在回答一道道具体问题时的思维过程与答题策略。

优势：

收集的信息直接来自于与实际调查中的被访者相似的群体。

通过了解被访者在理解和回答问题时的思维过程，可以有效地发现问卷设计中的问题和导致问题的原因。

劣势：

成本较高。

被访者负担很重，而且并不是所有被访者都能够适应出声思维的方法，也不是所有的问题都能够描述出思维的过程。

被访者可能因为需要口头描述其思维过程而有意无意改变原本的答案。

访谈的实验室环境与实际收集数据的环境有差异，不一定能发现实际环境中的问题。

访谈结论仅仅来自一小部分人群，其在多大程度上适用于更广泛的人群需谨慎考虑。

预调查（field pretest / pilot）

预调查指在实际调查前小范围地对整个访问的过程进行预演。预调查通常选用有经验的访员进行访问，访问的数量在15-35人之间，被访者多为方便样本，但尽量保证与实际调查中的被访者的背景相似。除了被访者不是基于概率抽样的方法选出，预调查所使用的问卷以及所有的流程都与即将进行的实际调查一致，这样有利于发现实际数据收集过程中被访者或访员可能出现的问题。

大体来说，预调查的优势是能够模拟真实的数据收集过程，发现真实环境下可能出现的问题，并可以提供定量的可供分析的信息；劣势是成本相对较高，而且数据同样不具有代表性，测试的效果很大程度上取决于被访者多大程度上与实际调查中的被访者相似。

预调查的结果可以通过以下三种方式来进行评估，我们下面依次介绍以下三种方法：

（1）访员汇报（interviewer debriefing）调研者通过访员问卷调查或者访员间小组讨论来获取来自访员的意见。访员汇报的主要内容是他们在整个访问过程中的体验，以及他们实际遇到的或者他们认为可能存在的各种问题。

优势：

可以反映问卷给受访者带来的体验和困难，以及访员对导致问题的原因的评估。

劣势：

仅适用于有访员参与的面访或者电访调查。

信息往往是主观和非系统性的，如对于什么样的问题可以称之为问题，不同的访员的评判标准是不一样的。

访员发现问题的能力有差异。比如说，有经验的访员可能会无意识地修正问题中的错误，因而可能根本意识不到问题的存在。

（2）被访者汇报（respondent debriefing）调研者通过在原问卷上添加额外问题或再次联系被访者的方式获取来自被访者的意见。被访者汇报主要用于了解实际访问场景下被访者理解和回答问题的思维过程，以评估所收集的数据在多大程度上符合设计的预期。被访者汇报还可以了解被访者答题的主观体验以及对调查的整体反馈，如问题内容是否太过敏感、调查时间是否太长等。

优势：

可以有效地了解实际访问过程中被访者回答问题的思维过程，评估他们在理解和回答问题时可能出现的问题并进行改进。

劣势：

添加太多的额外问题会实际改变测量的工具并影响到预调查的流程，使得预调查并不能真正地模拟真实调查的情景。因而这种方法只适用于对一小部分问题进行评估（一般不超过6道问题）。

再次联系被访者获取的信息的准确程度依赖于被访者的记忆能力。

（3）行为编码（behavior coding）调研者在获得被访者同意的前提下，通过音频的方式全程记录访问的过程，然后对这些音频记录中访员和被访者询问和回答问题的行为进行编码，并统计出调查过程中出现各种问题的频率。其中，对访员行为的编码包括是否正确读出问题、是否对问题进行了改动以及改动程度如何、是否出现跳转错误等，对被访者行为的编码包括是否要求重读问题、是否要求解释问题、是否提供了选项之外的答案、是否打断问题、回答问题的语气是否不太确定等。对于出现频率特别高的问题，调研者应该考虑进行改进。

优势：

客观、系统、可复制、可量化的测试结果可以为研究者提供更可信的证据。

劣势：

编码只能反映访问过程中出现的问题，却很少能提示问题出现的原因，通常需要结合访员或被访者汇报来识别出产生问题的原因。

有些问题不能被很好的观察到，比如只要被访者自己认为自己能够正确理解问卷中问题，他们在答题行为上便不会有任何异常的体现。

统计方法（statistical methods）

统计方法建立在预调查的基础上。当预调查的数据量足够大时（一般30人以上），可以采用统计的方法并结合计算机技术来对问卷结果进行客观的评估。

通常来说，检查答案的分布可以得到一些有益的启示。比如说，如果一道问题的大部分的答案都集中在一两个选项，那么这道问题所收集的信息其实是非常有限的，选项的设置很有可能需要重新调整；再比如说，如果一道问题没有人问答，那么研究者可能需要考虑这道问题是否在跳转上存在错误，或者这道问题是否太难以致于被访者无法回答等。此外，变量间的相关关系是否符合预期也是评估问卷设计的一个依据。如果是网络调查，那么对并行数据（paradata）（如击键行为、鼠标的移动、答题时间、中途退出等信息）的统计分析也能发现一些问题。比如说，如果大量受访者在某一道题退出访问，那么这道题有可能太过敏感以致于很多人都放弃答题，或者这道题在编程上存在问题以致于很多人在答到此题时主动或被迫退出（如加载速度过慢）。再比如说，如果某道题的答题时间过长，那么这道题可能回答的难度过大。

优势：

对于调研者评估问卷数据的质量能够提供非常有用的信息。

基于已有的预调查数据进行统计方法的评估，成本是相对低廉的。

劣势：

数据不具有代表性，其所提供的信息的价值取决于被访者多大程度上与实际调查中的被访者相似。

除以上5种常用的问卷测试方法外，针对一些具体的测试目标我们还有别的一些具体的测试方法，此处不再一一介绍。总的来说，各种方法有各自的侧重点，我们可以根据项目的具体情况着重选择其中一种或几种测试方法。同时，由于各种方法都有其局限性，我们建议在经费许可的条件下，尽可能地采取多种测试方法，以互相补充，尽可能多地发现问题。

文献：

Fowler, Floyd J. 1995. Improving Survey Questions: Design and Evaluation. SAGE Publication, Inc.