如何提高定量访问的数据质量 – 事后篇

在定量研究中，数据的收集和分析是最重要的环节。作为结论依据的数据，质量的重要性不言而喻。以往，在市场调研还处于线下模式的时候，一线访问员承担了大部分的数据质量监督工作。现场会有多次被访者的甄别，还会有访问员全程指导被访者，确保他们对题目的理解无误，对选项的理解无误，以及做出尽可能详尽的回答。

近年来，随着互联网的普及，以及出于成本和效率的考虑，大部分的定量访问已经转到线上。线上访问大大缩短了时间周期，减少了人力成本，但随之而来的弊端是，数据的质量不再像以前那样有保障。被访者自己独自答题，有可能存在对问题的误解，也有可能存在虚假回答（比如为了能够参与调研获得奖励，而选择可以继续作答的甄别条件，给出虚假答案）。

这种情况下，就需要我们在处理定量数据的时候，多长些心眼，学会辨识“假数据”和“弄虚作假的被访者”们。

我们一般可以分“事前”和“事后”，去采取一些方法提高访问数据的质量。之前的一篇文章中，我们聊了如何在访问之前（也就是事前），采用一些方法，提前规避可能出现的数据问题，属于“防范”；在这篇文章里，我们重点谈数据收集完毕之后（也就是事后），清洗数据的一些方向，属于“处理”。

一般来说，我们清洗数据可以从以下几个方面去进行检查：

【题目出现异常值】

异常值指的是正常作答情况下，绝对不会出现的一些答题结果。比如说，填写年龄的题目，出现三位数，个位数；开放题的回答，出现牛头不对马嘴的情况；答题时间记录，远低于平均答题时间等等（在问卷网，我们会在后台报表记录每份答卷完成时间，以及统计平均答题时间，以作为数据清洗的参考）。

【机器人式作答】

所谓机器人式作答，是指很多类似的题目出现同样的答案。这种情况尤其会出现在量表题（打分题），需要做重点关注。比如，所有打分题都是给同一个分数，那么一般可以认为是随意作答，需要作为废卷处理。一般来说，我们以量表题选择相同数字超过70%作为标准。

【逻辑紊乱】

要发现这类问题，需要事先找好问卷中有相互关联的题目或者选项，在清洗数据的时候，重点查看这些关联是否符合逻辑。比如，前面一道题回答自己的身份是学生，但是后面有一道题问婚姻状况的时候，选择的是已婚有孩，这种情况基本就属于是逻辑紊乱。又比如：年龄25岁以上，还说自己在读高中；个人年收入大于家庭年收入等等。这里只是举了一些容易理解的例子，可能犯错的被访者不会很多。但实际情况下，当我们问卷达到一定长度，问卷逻辑关联变多，随便作答的被访者就很容易忽略逻辑关联，出现逻辑紊乱问题。那我们只要事先确定好可以互查逻辑的几道题，就能通过答案之间的相互关系找到不合格答卷进行废除。

【多选题选项个数】

如果，某个被访者所有多选题的选项都只选1个，尤其是那些明显不是一个答案的选择题（比如，你知道哪些洗发水品牌），也只选1个的时候，基本可以判定其为随意答题者，可以废除这份答卷。

【IP地址对应】

在消费者调研中，有些时候区域差异是特别重要的分析维度，因此被访者是否真实选择了自己常住地所在的城市，就非常重要。如果人在三线城市，却胡乱选择了一线城市，那么出来的结果肯定是不对的。我们在清洗数据的时候，就可以通过检查IP地址的记录，对应被访者所选择的城市（如需记录），看是否存在不匹配现象。如果存在，则可以视作无效问卷。

以上就是一些常见的数据清洗方法。但我们要注意，在清洗数据之前，我们一定要保留好源数据。对于有问题的数据，可以记录好其被访者ID或者编码，以确保在我们清洗数据之后，一旦存在误删除，还可以找到原来的数据填补回来。

在问卷网，我们可以保留被标为无效的样本数据，不会进入分析和报表。但是，所有标为无效的样本数据都将不会在后台删除，而是存放在无效数据中。如果存在误删，都可以通过样本编号，找到该份数据并进行复原，使其重新加入到总体的数据分析中。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/79822.html

如何提高定量访问的数据质量 – 事后篇

相关推荐

发表回复