线上问卷投放成本低、回收时效高,但由于难以监控用户填答的过程,致使问卷中常隐藏着一些不真实的数据,因此,回收问卷后的第一步,就是给数据做清洗以保证数据尽可能的真实有效。
数据清洗是为了进一步的数据分析分析准备数据,从而收集具有可行性的建议,促使公司以数据为驱动力,进而适应幻化莫测的市场动态。
数据会以各种形式出现,并且在大多数情况下是不精准,不准确,重复出现,带有垃圾信息或带有不一致性的问题。对于要用于制定战略和计划决策的数据分析,通过数据清洗来实现数据准确性起着十分重要的作用。
数据清洗包含三个方面:规范数据视图、清理无效样本、对特殊题型进行处理。
1. 数据视图规范化
数据视图规范化是一个经常被忽视的环节,虽然它不对数据结果产生直接的影响,但是前期对数据视图做好规范化处理有利于减少后续数据分析、语法撰写出现失误的概率,也就是说,它是一个微小、但却可以提升工作效率的步骤。
2. 清理无效样本
清理无效样本遵循两个原则,从整体到部分、从一维到二维。首先,对问卷样本整体进行处理。
① 根据填答完整性处理
首先需要剔除未完整填答必答题的样本,即未完整填答问卷的样本。其次,为尊重用户隐私,我们会将一些敏感问题设置为非必答题,这时可以根据项目需求来决定是否需要剔除非必答题未完整填答的样本。
② 根据提交时间处理
提交问卷的时间同样重要,有时正式投放问卷前,调研员会对问卷进行测试填答,有时样本填答问卷的日期超出了计划日期,因此需要剔除问卷提交时间早于和晚于问卷投放时间的样本。
③ 根据填答时间处理
填答问卷时长过短或过多的样本均被视为无效样本,因此我们需要剔除少于最低填答时间(一般情况下,填答每道问题需要5秒,因此最低填答时间即为5秒*题目数量)和填答时间过长(一般情况下,问卷填答时间不超过30分钟)的样本。
其次,对问卷各部分进行处理,通常情况下,问卷设计会分为三部分。
①甄别部分:此部分会设置一些题目来甄别参与问卷调查的用户是否为我们的目标样本
②主体部分:此部分会根据项目的研究内容测量用户行为、用户态度
③属性部分:此部分会获取用户的人口属性(人口属性(性别、年龄、婚姻、城市)、社会属性(学历、职位、个人月收入、家庭月收入)以便做用户画像
3. 对特殊题型进行处理
问卷中时有一些文本题,如选择题中的“其他,请注明“选项或填空题。
在处理文本题时,有两种情况:
1. 回码,即当文本题的填答内容可量化或与原始选项可合并时,需将文本题的填答内容转置成可计算的数值,并删除文本题的填答内容。
如某选择题为“请问您使用过下列哪些网购平台“,即便选项中有”京东“,但用户没有注意到该选项,而是在”其他,请注明“选项中填写了”京东“,此时就需要对该样本的填答情况进行回码,将之纳入到京东选项下,并删除文本填答内容。
2. 重新编码,若文本题的填答内容不可回码,需要进行重新编码,并记录到编码簿中。
仍然以“请问您使用过下列哪些网购平台“这道题为例,若用户在”其他,请注明“中填写了未在既有选项中出现的答案,则需要对该答案进行重新编码,并做记录。
错误的数据误导了大多数的关键业务决策,只有在进行清洗,清理和充实数据之后,数据分析师才能充分发挥自己的对于数据分析的潜力,所谓清洗,即对数据集通过丢弃、填充、替换、去重等操作,达到去除异常、纠正错误、补足缺失的目的。
END
往期推荐
发布者:调研工厂,转载请注明出处:https://baike.survey.work/d2715ade8e/