广西师范大学教育学部心理学系,桂林
语言蕴含丰富的人类心理和社会文化信息。几千年来,人类在文明演进过程中积累了海量语言文本,其中蕴含着大量人类心理和行为信息。然而,直到计算机技术高度发达的21世纪,人们才开始以量化的方式利用语言文本探究人类社会、心理和行为规律。在过去的几年里,计算机科学的方法已经拓展至心理学领域,进而实现了新形式的研究设计和知识创造。例如,数学建模和网络科学使理论建构更加严谨(Borsboom et al.,2021)。特别是来自自然语言处理(文本数据的自动化处理)的方法,受到了心理学界的广泛关注,越来越多的文献为心理学研究中采用自然语言处理技术提供了指导(Berger & Packard,2022)。
自然语言是人类在发展过程中形成的一种信息交流方式,包括口语和书面语,反映人类思想。自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能的一个分支,旨在开发能够理解和生成人类语言的技术。近年来,越来越多的心理学研究者引入人工智能领域的自然语言处理技术,以度量实验刺激的语义及语义关系,这一趋势已逐渐成为心理学领域的重要研究方向。
近期NLP的研究主要集中在以下几个方面(Mihalcea et al.,2024):(1)大型语言模型(Large Language Models,LLMs)。例如GPT-4、LLaMA和Mistral,这些模型在理解语言和生成文本方面取得了重大突破,并推动了对话系统和生成高质量对话的能力。(2)词嵌入(Word Embeddings)和上下文嵌入(Contextual Embeddings)。这些技术将词汇映射到高维向量,捕捉其语义关系,并用于各种NLP任务,例如情感分析、机器翻译等。(3)BERT(Bidirectional Encoder Representations from Transformers)架构。一种用于上下文嵌入的预训练模型,在多种NLP任务中取得了优异性能。(4)知识整合:将知识库集成到LLMs中,以弥补其知识缺乏的缺点。(5)模型对齐。将LLMs与特定的价值观或观点进行对齐,以控制其行为和输出。(6)可解释性。开发更可解释的NLP模型,以便更好地理解其预测结果和潜在偏差。
此外,NLP研究也关注以下四个方面:(1)跨文化研究。 扩大研究范围,涵盖更多文化群体,以增强模型的普适性。(2)情感分析。深入解读情感状态的内涵及其对人类行为的影响。(3)机器生成欺骗的检测。针对LLMs生成的虚假内容,开发新的检测方法。(4)伦理问题。探讨NLP技术在数据隐私、模型偏见、可解释性等方面的伦理问题,并寻求解决方案。
语言分析在心理学研究中的应用,涵盖了从个体到人际再到群体层面的多个维度,具体包括以下层面(Mihalcea et al.,2024)。
首先,个体层面。第一,人格特质。通过分析个体语言中的词汇、语法结构等特征,可以推断其性格特征,例如外向性、开放性、责任心等。例如,外向的人倾向于使用更多积极情绪词汇和社交话题词汇。第二,价值观。通过分析个体语言中表达的观点、目标等,可以揭示其价值观,例如对个人价值、社会价值、权力等的态度。第三,思维方式。通过分析个体语言中的逻辑结构、叙事方式等,可以了解其思维方式,例如逻辑思维、叙事思维、问题解决方式等。第四,情绪状态。通过分析个体语言中的情绪词汇、情感表达等,可以识别其情绪状态,例如快乐、悲伤、焦虑、压力等。第五,心理健康。通过分析个体语言中的词汇使用、语法结构等,可以预测和监测其心理健康状况,例如抑郁症、焦虑症、创伤后应激障碍等。
其次,人际层面。第一,社会关系。通过分析个体语言中的代词使用、称呼方式等,可以了解其社会关系,例如亲密关系、权力关系、信任关系等。第二,欺骗识别。通过分析个体语言中的词汇使用、语法结构、情感表达等,可以识别其是否在说谎。第三,说服力分析。通过分析个体语言中的论点结构、情感表达等,可以评估其话语的说服力。
最后,群体层面。第一,群体动态。通过分析群体语言中的主题、价值观、意识形态等,可以了解群体的内部动态。例如道德观念、文化差异、社会规范等。第二,文化分析。通过分析不同文化群体语言中的词汇使用、语法结构、情感表达等,可以了解不同文化之间的差异。
主要研究方法包括:(1)基于词典的方法。使用预先定义的词汇表,将语言特征映射到相应的心理类别。(2)机器学习。运用机器学习算法,从大量数据中学习语言特征与心理状态之间的关系。(3)深度学习。使用深度学习模型,例如词嵌入和上下文嵌入,来捕捉语言中的复杂语义关系。(4)大型语言模型。使用大型语言模型,例如GPT-4和LLaMA,来生成和理解人类语言。
为心理构念下一个全面而准确的定义仍然是一项挑战,因为心理学中的潜在概念是无法直接观测。一般来说,心理学有两种基本的构念定义方法:一种是定量方法(自上而下的理论建构),将构念定义为可检验理论的一部分,该理论基于先前的研究和领域知识,通常采用自我报告的问卷调查法;另一种是定性方法(自下而上的理论建构),主要以文本形式收集数据,并基于探索性分析来定义构念。定量研究可能会导致对构念的理解不足,而定性研究则由于系统数据处理方面的挑战而受到限制,尤其是在大规模处理上。赫德里希等人(Herderich et al.,2024)提出了一种新的计算方法:构念挖掘管道(Construct Mining Pipeline),用于揭示心理构念的维度。该方法结合了定性研究的全面性和定量分析的可扩展性,通过让参与者基于结构化问题生成反映特定心理构念实例的句子,利用 NLP 技术对句子进行数值化表示,并通过聚类算法将句子分为心理相关的类别。研究者以“情绪调节策略分类”为例,详细展示了如何利用构念挖掘管道来揭示心理构念,并得出一个数据驱动的情绪调节策略分类系统。在推导出的15个情绪调节策略类别中,包括一些已知类别(例如认知重评)和一些在心理学研究中很少或没有关注的类别(例如自我提升)。
总之,该方法通过结合文本数据和 NLP 技术,提供了一种数据驱动的心理构念定义方法,弥补了传统定量和定性方法的不足,并具有可重复性、可扩展性和生态效度等优势,同时体现了机器学习与心理学的融合,为心理过程的概念化提供了新视角。
自动化文本分析,即通过计算方法对书面语言进行分析,正迅速成为社会和行为科学家的重要工具。随着互联网上文本数据的日益增多(例如社交媒体网站和数字化书籍文本),以及先进机器学习方法的发展,文本分析已成为利用大型数据集测试心理学问题的一种越来越有用的工具。拉斯杰(Rathje)等人(2024)探讨了GPT(一种大型语言模型)是否可以作为多语言心理文本分析的有效工具。该研究通过15个数据集,测试了不同版本的GPT在12种语言中准确检测心理构念(如情感、离散情绪、攻击性和道德基础)的能力。结果显示,GPT的表现明显优于传统的英语词典分析方法,并且几乎与一些顶尖的微调机器学习模型相当,有时甚至更优。总体而言,GPT可能在多种语言中实现较高准确度,且无需训练数据,易于使用,对编码经验要求较低,因此可能优于现有的许多自动化文本分析方法。研究者提供了示例代码和视频教程,并认为GPT及其他大型语言模型有助于普及高级自然语言处理技术,从而促进跨语言研究。
传统的量表开发过程耗时且费力。为此,拉斯杰等人(Rathje et al.,2024)提出一个基于神经网络的自动化问卷条目生成工具:心理测量项目生成器(Psychometric Item Generator,PIG)。这是一个开源、免费使用、自给自足的自然语言处理算法,该算法基于强大的生成性语言模型GPT-2,可在几个简单的操作下生成大量类似人类的自定义文本。PIG可以应用于开发新量表(例如对“渴望旅行”等新概念进行测量)或创建现有量表的简化版本(例如大五人格特质量表简短版),并且可以根据不同的研究目标进行定制。该工具设计旨在降低使用门槛,用户无需具备编程能力或本地计算资源,只需通过Google Colab平台即可操作。
社会心理学研究项目始于提出一个可检验的想法,这在很大程度上依赖于研究人员整合、回顾和准确处理现有研究的能力。然而,新研究成果的指数级增长使综合众多主题变得具有挑战性,可能导致研究之间的关联被忽视。班克尔等人(Banker et al.,2024)利用社会心理学研究基于言语模型的事实,使用两种大语言模型来生成假设。在第一种方法中,研究人员使用了过去55年间发表在50多种社会心理学期刊上的数千篇摘要以及预印本存储库(PsyArXiv)的数据,对第三代生成式预训练变换器(Generative Pre-trained Transformer 3,GPT-3)语言模型进行了微调,社会心理学专家在清晰度、原创性和影响力等维度上对模型生成和人类生成的假设给予了相似的评价。在第二种方法中,无需微调,直接使用GPT-4模型,根据提示生成新的社会心理学假设。结果发现,社会心理学专家在清晰度、原创性、影响力、合理性和相关性等维度上,对这些生成假设的评价高于人类生成的假设。总而言之,LLMs可以成为社会心理学研究的重要工具,帮助研究人员更有效地生成新的假设,并加速研究进程。然而,我们也需要意识到LLMs的局限性,例如模型偏见,缺乏创造力等。因此,LLMs 可以作为社会心理学研究人员的重要工具,但它们应该被视为人类认知能力的补充,而非替代。
关于利用语言文本进行群体心理测量,以往研究主要采用主题建模、情感分析、词频统计、词嵌入联系测验(WEAT)等方法。这些方法虽然能反映心理概念的流行度和量化词汇概念之间的语义关联程度,但无法考虑复杂语境信息和语义关联形式。相比于词汇层面的简单分析,大规模预训练语言模型(Pretrained Language Models,PLMs)不仅能深入理解自然语言的语义及其复杂关联,而且充分习得和继承了预训练语料中蕴含的大量人类知识、想法、态度、情感、行为及社会文化特征。
BERT预训练语言模型作为一种深度语言理解模型,可以对句子级语义关系进行更精准的命题推理,目前已有超过1万个开源模型变体。基于BERT语言模型及其特有的“完形填空”命题推理能力,包(Bao,2024)提出了一种新的宏观心理研究范式:掩码填空联系测验(Fill-Mask Association Test,FMAT)。该方法只需研究者根据理论构念的定义和内涵,设计合适的完形填空命题语句(Propositional Query),再直接使用预训练的BERT模型估计不同备选词在掩码位置(Mask)的语义概率,通过不同条件的对比,即可实现自然化、智能化、精细化、语境化的群体心理测量。该研究从社会事实、社会认知、社会偏见、社会变迁四个方面,通过15项系列研究为FMAT方法的信度和效度提供了全面证据。在实证层面,利用FMAT重复验证了以往基于人类被试、词频分析、词嵌入联系测验等方法的一系列经典效应(如性别—职业刻板印象、性别—学科刻板印象、社会偏见的历史变迁、个人主义—集体主义变迁、文化松紧性变迁等);在理论层面,支持并拓展了态度与社会认知的命题表征(vs. 联想表征)理论视角;在方法层面,开发了R包FMAT(https://psychbruce.github.io/FMAT/),使该方法的实际操作应用更简单和标准化。
总而言之,FMAT 利用 BERT 模型的上下文感知和语义概率估计能力,通过分析自然语言中的命题,为研究心理学、社会学、文化学和历史学等领域的现象提供了一种新的方法。
精神疾病已成为重大公共卫生问题。虽然精神障碍在人的一生中都可能发生,但生命早期阶段对心理健康尤为关键,因为大多数精神障碍在24岁之前发病(Kessler et al.,2007),且症状可能会持续到生命后期。然而,大多数受影响的年轻人并未获得治疗,通常是因为缺乏相关知识、担心受到歧视以及存在结构性障碍。因此,为年轻人提供低门槛的精神健康支持十分必要。基于聊天的咨询服务热线(Chat-based Counseling Hotlines)成了一种有前景的低门槛干预措施,用于服务年轻人心理健康。霍恩斯坦等人(Hornstein et al.,2024)利用自然语言处理技术预测接受心理干预的年轻人是否会再次通过聊天方式联系危机咨询服务。该研究从一家24小时咨询热线中收集了约19,000名儿童和青少年的匿名聊天记录(约800,000条消息)进行分析。通过训练XGBoost分类器并对模型参数进行优化。最佳模型在之前未见过的3942次最新咨询中获得0.68(p< 0.01)的AUROC评分。研究发现,年龄、性别、自我伤害和自杀想法等相关词汇与再次咨询的概率呈较高相关性。NLP预测模型可以帮助咨询热线识别需要额外帮助的青少年,并提供个性化的干预措施,例如转介到常规心理健康服务中心或进行更深入的心理咨询。
与传统上对人的心理和行为直接观测和分析的方法相比,基于自然语言处理的心理学研究方法具有多方面的独特优势。
第一,研究成本低。无需额外招募被试,节省了大量成本,可借助计算机程序快速处理文本数据,大大缩短研究周期,提高研究效率。
第二,样本代表性高。自然语言处理以海量文本为样本,这些文本来自不同地域、不同背景、不同年龄的人群,涵盖了社会的方方面面,分析结果更能代表总体人群。
第三,分析客观性强。通过计算机程序对文本进行量化处理,如词频统计、情感分析、主题建模等,整个过程无需人为干预。虽然语言本身是由人类产生的,但对语言的分析是量化、自动化、无需依赖人类主观报告的,因此分析过程具有相对客观性。而传统基于被试自我报告的方法容易受到主观性、社会赞许性和反应偏差的影响。
第四,研究结果可重复。若研究者使用相同的语料库和分析程序,理论上可以获得完全一致的结果。而传统研究中因被试个体差异、实验环境变化等因素可能导致结果不稳定。因此,在当前社会科学面临可重复性危机的背景下,基于自然语言处理技术的研究方法具有明显优势。
NLP作为一种工具,在心理学研究中已经并将继续展现巨大的应用潜力,同时也需要深入探讨其中的潜在风险。
第一,隐私问题。NLP 需要大量数据来训练模型,但收集和处理这些数据可能面临隐私和安全问题。因此,未来需要重点关注 NLP 技术的伦理问题。
第二,数据可靠性和代表性。从社交媒体等平台收集的数据可能存在质量问题,无法代表整个群体。例如,数据中可能存在错误、虚假信息或垃圾内容,影响分析结果。另外,许多研究使用来自WEIRD(西方、受过教育、工业化、富裕和民主)样本的语言,这将导致研究结果无法推广到其他文化或人群。未来需要扩大 NLP 研究的样本范围,以提高研究结果的代表性。
第三,模型偏见。NLP模型可能会复制和放大训练数据中存在的偏见,例如种族、性别和文化偏见,导致对某些群体的预测不准确或不公平。需要意识到潜在的混杂变量以及由此产生的数据偏见。
第四,可解释性和透明度。NLP模型的决策过程往往难以解释,这可能导致模型结果难以理解和信任。例如,模型会告诉我们某段文本具有欺骗性,但无法解释哪些语言特征得出这一预测,深入研究欺骗检测算法可能会发现欺骗文本中的“我”字很少,因为“我”字标志着自我反思,这是欺骗者所尽量避免的。开发可解释的NLP模型是未来的重要方向,可解释自然语言处理可以通过输出“解释文本”辅助理解决策原因,例如利用结构化的知识图谱、符号推理给出推理路径。
第五,深化社会科学与计算机科学的合作。尽管社会科学家和计算机科学家都认为理解人们使用语言的方式有助于理解和预测人类行为,但这些学科之间的合作往往存在复杂性。例如,大多数社会心理学家主要关注人们的行为,并将语言作为理解人们思维和感受的一种方式。相比之下,大多数计算机科学家的核心目标是实现行为预测。社会科学家与计算机科学家携手合作,可以最大化他们对语言的理解及行为预测能力。
总之,心理学的早期研究推动了NLP的发展,这反过来又为心理学带来新发现,如今这些发现正被用于重新理解NLP系统本身。随着这两个领域相互启发和推动,这一研究领域的未来是光明的(Mihalcea et al.,2024)。
[1] Banker S, Chatterjee P, Mishra H & Mishra A. (2024). Machine-assisted social psychology hypothesis generation. American Psychologist, 79(6), 789-797.
[2] Bao H. (2024). The Fill-Mask Association Test (FMAT): Measuring Propositions in Natural Language. Journal of Personality and Social Psychology, 127.
[3] Berger J & Packard G. (2022). Using natural language processing to understand people and culture. The American Psychologist, 77, 525-537.
[4] Borsboom D, van der Maas H L J, Dalege J, Kievit R A & Haig B D. (2021). Theory Construction Methodology: A Practical Framework For Building Theories In Psychology. Perspectives On Psychological Science, 16, 2131456849.
[5] Götz F M, Maertens R, Loomba S & van der Linden S. (2024). Let the algorithm speak: How to use neural networks for automatic item generation in psychological scale development. Psychological Methods, 29(3), 494-518.
[6] Herderich A, Freudenthaler H H & Garcia D. (2024). A computational method to reveal psychological constructs from text data. Psychological Methods.
[7] Hornstein S, Scharfenberger J, Lueken U, Wundrack & Hilbert K. (2024). Predicting recurrent chat contact in a psychological intervention for the youth using natural language processing. Npj Digital Medicine, 7(1).
[8] Kessler R C, Amminger G P, Aguilar-Gaxiola S, Alonso J, Lee S & Uestuen T B. (2007). Age of Onset of Mental Disorders: A Review of Recent Literature. Current Opinion in Psychiatry, 20.
[9] Mihalcea R, Biester L, Boyd R L, Jin Z, Perez-Rosas V, Wilson S & Pennebaker J W. (2024). How developments in natural language processing help us in understanding human behaviour. Nature Human Behaviour, 8(10), 1877-1889.
[10] Rathje S, Mirea D, Sucholutsky I, Marjieh R, Robertson C E & Van Bavel J J. (2024). GPT is an effective tool for multilingual psychological text analysis. Proceedings of the National Academy of Sciences, 121(34).