(一)数据的处理与分析
大数据是繁杂混乱的,大量数据积累意味着由此形成的数据库会产生许多变量,对心理研究学者而言,数据的处理、分析无疑是个巨大挑战。上述案例样本数量均是上万的样本和信息,毫无疑问信息网络技术的发展为包括心理学等在内的社会科学带来巨大机遇,即有效克服了以往基于小样本抽样调查数据产生结论的代表性和有效性。但是当变量的数量很大即高维数据时,就会出现超拟合、虚假的群集、虚假的相关性、控制假阳性、特征选择、稀疏等问题。此外,样本量过大导致统计显著性的可能性增大,Cohen认为从本质上讲,每一个心理现象与其他心理现象在一定程度上会存在关联,特定的关联可能不太重要,但是当样本量足够大时,它在统计学上会变得显著。在大数据研究中,明确研究重点是至关重要的,在计划阶段研究者需要确定这项研究是否真的重要以及它的实践意义是什么?有没有影响效应大小的阂值?是否有一定数量的解释方差,其中一组变量提供了重要的解释力或预测力。
(二)伦理问题
数据隐私是一个巨大的问题,对于电子健康记录数据有严格的法律规定,对于其他数据则没有明确的法文规定。然而,对于不当使用个人数据,特别是通过连接多个来源的数据会对个人隐私造成伤害。行为科学研究是以保护数据和参与者隐私为基础的,大数据运用于心理学研究进一步强调研究的伦理问题。数据的挖掘、获取的过程直接窥测到用户信息,部分信息会涉及用户隐私。此外,包括网络爬虫在内的非正常访问大量出现,导致许多网站和组织部署各种预防机制,这可能会影响网页抓取项目的实用性和伦理性。为了防比不经许可的网络爬虫,有些网站会设置障碍防比数据获取的程序,反过来如何越过设置获取数据也成为爬取数据的重要话题。研究者需要谨遵伦理守则,不经许可的数据爬取并不值得提倡。但是现有大数据多为大型商业机构或专业机构持有,它们持有的大数据并不会对外公布,从而造成伦理与实际操作的两难困境
(三)数据源缺陷
科学心理学研究采用实验方法使经验观察变成科学实验.以实验室和统计抽样为基础的心理学研究更符合科学规范,但是也使研究结果的真实性、可用性、可推广性受到约束。大数据的出现给心理学研究带来了革命性发展,它使极大规模的用户实验和心理学追踪成为可能,但是由于数据固有的缺陷也给心理学研究带来挑战。区别于传统心理实验的直接观察,基于大数据的心理学研究主要是来自于第三方数据,例如个体的消费记录主要是由卖方提供,但是买方行为也会受到数据来源结构的影响。其次,由于字数或者输入内容限制,这些数据并不能完全表现个体的心理,如推特网允许用户输入最大上限为140个字符数,因为网站或者程序设置一些信息可能并没有表达出来,会对模型预测能力产生影响。社会意识偏差也可能会影响数据代表性,一个外向的人并不一定会在社交网站上经常发布自己参加聚会的信息,反而可能会发布关于读书的信息,此时通过数据获取的信息具有场而性,并不能真正说明数据背后个体的特征。数据体量巨大并不完全等同数据代表性高,诸如脸书和推特的用户并不能作为全体数据的样本代表,老年人使用这些新媒体或网站的比例不高,只有获取脸书用户的人口统计数据,才可以把它们当作分层样本,调整数据以反映人口统计信息。