在定量研究中,数据的收集和分析是最重要的环节。作为结论依据的数据,质量的重要性不言而喻。以往,在市场调研还处于线下模式的时候,一线访问员承担了大部分的数据质量监督工作。现场会有多次被访者的甄别,还会有访问员全程指导被访者,确保他们对题目的理解无误,对选项的理解无误,以及做出尽可能详尽的回答。
近年来,随着互联网的普及,以及出于成本和效率的考虑,大部分的定量访问已经转到线上。线上访问大大缩短了时间周期,减少了人力成本,但随之而来的弊端是,数据的质量不再像以前那样有保障。被访者自己独自答题,有可能存在对问题的误解,也有可能存在虚假回答(比如为了能够参与调研获得奖励,而选择可以继续作答的甄别条件,给出虚假答案)。
这种情况下,就需要我们在处理定量数据的时候,多长些心眼,学会辨识“假数据”和“弄虚作假的被访者”们。
我们一般可以分“事前”和“事后”,去采取一些方法提高访问数据的质量。之前的一篇文章中,我们聊了如何在访问之前(也就是事前),采用一些方法,提前规避可能出现的数据问题,属于“防范”;在这篇文章里,我们重点谈数据收集完毕之后(也就是事后),清洗数据的一些方向,属于“处理”。
一般来说,我们清洗数据可以从以下几个方面去进行检查:
【题目出现异常值】
异常值指的是正常作答情况下,绝对不会出现的一些答题结果。比如说,填写年龄的题目,出现三位数,个位数;开放题的回答,出现牛头不对马嘴的情况;答题时间记录,远低于平均答题时间等等(在问卷网,我们会在后台报表记录每份答卷完成时间,以及统计平均答题时间,以作为数据清洗的参考)。
【机器人式作答】
所谓机器人式作答,是指很多类似的题目出现同样的答案。这种情况尤其会出现在量表题(打分题),需要做重点关注。比如,所有打分题都是给同一个分数,那么一般可以认为是随意作答,需要作为废卷处理。一般来说,我们以量表题选择相同数字超过70%作为标准。
【逻辑紊乱】
要发现这类问题,需要事先找好问卷中有相互关联的题目或者选项,在清洗数据的时候,重点查看这些关联是否符合逻辑。比如,前面一道题回答自己的身份是学生,但是后面有一道题问婚姻状况的时候,选择的是已婚有孩,这种情况基本就属于是逻辑紊乱。又比如:年龄25岁以上,还说自己在读高中;个人年收入大于家庭年收入等等。这里只是举了一些容易理解的例子,可能犯错的被访者不会很多。但实际情况下,当我们问卷达到一定长度,问卷逻辑关联变多,随便作答的被访者就很容易忽略逻辑关联,出现逻辑紊乱问题。那我们只要事先确定好可以互查逻辑的几道题,就能通过答案之间的相互关系找到不合格答卷进行废除。
【多选题选项个数】
如果,某个被访者所有多选题的选项都只选1个,尤其是那些明显不是一个答案的选择题(比如,你知道哪些洗发水品牌),也只选1个的时候,基本可以判定其为随意答题者,可以废除这份答卷。
【IP地址对应】
在消费者调研中,有些时候区域差异是特别重要的分析维度,因此被访者是否真实选择了自己常住地所在的城市,就非常重要。如果人在三线城市,却胡乱选择了一线城市,那么出来的结果肯定是不对的。我们在清洗数据的时候,就可以通过检查IP地址的记录,对应被访者所选择的城市(如需记录),看是否存在不匹配现象。如果存在,则可以视作无效问卷。
以上就是一些常见的数据清洗方法。但我们要注意,在清洗数据之前,我们一定要保留好源数据。对于有问题的数据,可以记录好其被访者ID或者编码,以确保在我们清洗数据之后,一旦存在误删除,还可以找到原来的数据填补回来。
在问卷网,我们可以保留被标为无效的样本数据,不会进入分析和报表。但是,所有标为无效的样本数据都将不会在后台删除,而是存放在无效数据中。如果存在误删,都可以通过样本编号,找到该份数据并进行复原,使其重新加入到总体的数据分析中。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/79822.html