广西师范大学教育学部心理学系,桂林
在心理学实验的过程中,被试的认知、情感状态、行为和生理功能往往都是随时间变化波动的。传统的追踪研究或横断研究通常侧重于在特定时间点收集数据,这些方法虽然能够在描述和解释某些现象方面有效,但却忽视了个体心理状态和行为在时间维度上的动态变化,将其视为相对稳定的心理结构,不能详细揭示特定事件对个体的心理、行为等产生的持续性影响(Setodji et al.,2019)。面对这样的局限性,心理学家们开始寻求新的心理学研究方法,以更全面地理解个体心理的复杂性。
近年来,随着移动通讯技术(如移动设备、健康跟踪设备和脑电图等)的创新与发展,研究者在数据收集方面比以往更为便捷高效,密集追踪研究方法(Intensive Longitudinal Methods,ILM)逐渐在心理学领域获得关注。这种方法在现实生活环境下,在较短时间内通过对个体进行次数较多且频率较高的密集追踪测量,能够捕捉个体心理状态及行为的短期波动,获得个体随时间和情境变化的变量状态特征,可为开展精准的纵向研究提供数据支撑,在一定程度上弥补了传统心理学研究方法的缺陷,从而为心理学研究提供“实时、实地”的真实视角。
因此,本研究旨在深入探讨密集追踪研究这一新兴心理学研究方法,通过介绍ILM的方法、常用设计与特点、优缺点、信效度评估方法以及统计分析等多个方面,帮助读者全面理解这一新兴研究方法的应用潜力与实践意义。
ILM也被称为强化纵向方法,是在较短的时间间隔内,按照一定程序多次测量个体在日常生活中特定时刻的变量信息,实时地记录被试随时间变化的动态过程(唐文清 等,2020 ;Bolger & Laurenceau,2013)。
密集追踪研究包括但不限于经验取样法(Experience Sampling Method,ESM)、生态瞬时评估(Ecological Momentary Assessment,EMA)和每日日记法(Daily Diary,DD)等方法(Bolger et al.,2003;Bolger & Laurenceau,2013;Shiffman et al.,2008)。一般而言,在评估频率方面,日记法指在规定时间(从几天到几个月)每天对被试进行一次评估,而经验取样法和生态瞬时评估通常在一天中的不同时间点进行更为密集的多次评估。因此前者本质上是基于某一点的回顾性自我报告,被试负担和数据流失较小,后两者则关注经验发生的当下,取样更接近真实状态,回忆偏差更少。在使用频率方面,经验取样法因其操作步骤规范、生态效度高,得到了最广泛的应用。
尽管它们有所差别,但大多数学者将这些方法视为同一种或同一大类,如奥利等人(Ohly et al.,2010)将日记法、经验取样法和事件取样统称为日记研究,并认为这些研究手段本质上都是在事件发生的真实情况下,对被试的感受、态度、情绪、认知或行为的真实取样(段锦云,陈文平,2012)。
密集追踪研究方法常用的设计一般有四种,分别是间隔追随设计、信号追踪记录设计、事件追随记录设计和设备追随记录设计。
间隔追随设计(Interval-Contingent Designs)是参与者在有规律的、预先设定好的时间间隔内报告他们的经验感受,使用的时间间隔往往具有一定的逻辑或理论意义,如在日记研究中,参与者需要在每天结束时报告他们的经历、感受和行为。
信号追踪记录设计(Signal-Contingent Designs)是最常用的经验取样方法,要求参与者将接收到信号那一刻的瞬时行为记录下来,信号由专门的仪器发送,可以是随机的也可以是固定的,或者是二者的结合,如参与者收到信息并被要求回答一系列问题。
事件追踪记录设计(Event-Contingent Designs)是无论何时何地,只要发生特定的事件时,参与者都要被要求作出反应,如参与者在与亲密伴侣互动后被要求报告他们的经历、感受和行为。
设备追踪记录设计(Device-Contingent Designs)是利用随身电子设备获得的信息提示参与者对特定提示作出反应,或利用随身电子设备实时记录多模态数据。
与传统的横断研究和追踪研究相比,密集追踪研究方法有以下独特的特点:第一,即时评估,密集追踪研究方法在事件发生之后尽可能短的时间内进行测量,其目标是尽可能接近实际发生的时间来评估经验(傅麟筑,2023)。第二,自然环境,密集追踪研究方法强调在不断变化和不可控的自然环境下评估人们真实和自然的状态。第三,密集测量,密集追踪研究方法强调在一定时间框架内对被试进行较为密集的测量,这就意味着研究者不是只做一次调查,而是在某一段时间内对人们进行密集评估。
综上所述,实时性、真实性、重复性是密集追踪研究方法的三大典型特征,旨在评估个体经验和行为随时间的波动和起伏,在日常生活中捕捉和描述个体心理和行为随着时间和环境的变化(陈荣,2024)。
从密集追踪研究方法与其他研究方法(如传统的回顾性调查和实验室研究)的比较中,我们可以总结得出密集追踪研究方法的诸多优势。
第一,增加生态效度,使结果具有普适性。密集追踪研究方法由于是对真实情境进行测量,可以“实地、实时”地收集个体的动态数据,因此具有较高的生态效度,能更好地保证数据的有效性和真实性。
第二,从个体的角度探究变量的变化关系,深入评估个体内各变量随时间变化的关系(Wright & Woods,2020)。密集追踪方法对被试进行重复测量所获得的分层数据可以有效捕获个体内部和不同个体之间的变异性大小(Gunthert & Wenze,2012)。
第三,有助于减少回忆偏差的影响。相比于让被试自我报告过去一段时间的行为或心理状态,密集追踪方法在一定程度上可以减少被试在报告时的回忆偏差,从而开展更精确的纵向研究,更加准确刻画人们真实的心理与行为。
第四,更精准推断变量之间的因果关系。次数较多且频率较高的密集追踪数据能更精细地捕捉到个体的心理、行为和状态随时间的变化,帮助研究者更深入地探索变量的动态变化过程和变量间的相互作用机制,更有利于研究者进行变量之间因果关系的推断(郑舒方 等,2021;Hamaker & Wichers,2017;Zhou et al.,2021)。
密集追踪研究方法除了突出的优势之外,仍然具有一些不足之处和挑战。这也提醒我们在开展密集追踪研究时需要采用一定方法减少负面影响。
第一,较为密集的重复评估可能给被试造成较高的负担。由于需要追踪多个时间点,一般情况下参与者的人数不会很多,这可能会影响参与者持续参与调查的意愿,或导致抽样偏差、样本代表性不足等问题。
第二,传统信效度分析方法不适用,需要研究者重新评估测量的信度。考虑到测验信度的评估是数据分析和结果报告的关键步骤,也是衡量研究结果可靠性的重要依据(叶宝娟 等,2012;Scherer & Teo,2020),因此有必要针对密集追踪研究方法的数据特点,提出并采用适宜的信度估计方法。
第三,重复评估可能会改变被试的行为或反应。如果参与者知道他们必须报告日常行为,随着研究的开展,他们可能会产生期望效应,并出现虚假反应(段锦云,陈文平,2012)。
第四,不能避免自我报告的固有局限。虽然密集追踪研究方法能减少共同方法偏差的风险(Doty & Glick,1998),但仍有大量密集追踪研究采用被试自我报告的方式来测量个体在日常情境中的行为和状态,无法完全避免自我报告的固有局限。
第五,测量项目的数量和代表性问题。因每天进行密集的多次评估,为了减少重复测量给被试带来的负担,研究者们通常从相应变量的特质测验中选取一道或几道题目并进行一定的改编来测量变量动态变化的状态过程,这就意味着每次评估的时间和测试题目都不宜过长。然而,大部分研究者都没有对研究所用测验的信度等心理测量学属性进行合理和充分的评估(Stone et al.,2023),如很少研究明确提到信度的估计需要基于个体内水平的变异,直接以单水平的α系数作为测验信度的估计等,这些都会使密集追踪研究产生测量项目的数量和代表性问题。
第六,密集追踪研究数据的复杂性往往需要高级的统计方法。密集追踪数据存在嵌套结构,研究者必须同时对个体间水平和个体内水平进行分析,这就需要多水平建模方法。
相比于回溯性研究,密集追踪研究方法在一定程度上使测量过程更透明,可以减少回忆偏差。因此,从理想状态来看,密集追踪研究方法测量的构念更易实现构念测量的高信效度。
相较于传统问卷,密集追踪研究方法的问卷有其独特特征,因此采用传统的信效度分析方法并不合适。首先,与传统问卷不同,为了减少重复测量给被试带来的负担,密集追踪研究方法下的问卷通常会减少测量目标概念的题目数量。其次,密集追踪数据(Intensive Longitudinal Data,ILD)具有嵌套结构,误差来源并非独立。这两个独特特征给密集追踪研究的信效度分析带来了很大的挑战,采用传统的信效度分析方法很可能是有偏的,且遗漏了重要信息。因此对于密集追踪研究来说,采用传统的信效度分析方法并不合适。
在传统研究中,研究者通常会采用重测信度和内部一致性程度评估量表信度。但由于重测信度体现的是构念跨时间的稳定性程度,而密集追踪研究方法所测量的概念通常在天与天尺度上发生变化,所以与重测信度的内涵相矛盾。对于内部一致性系数而言,一方面,密集追踪研究问卷题目较少,更有甚者只用一道题测量某个概念,无法计算内部一致性系数。另一方面,密集追踪研究方法得到的数据具有嵌套结构,具有多方面特征。例如,传统回溯性量表只有一个方面的内容:题目(Item);而在密集追踪研究方法中,问卷不仅有题目,还有时点(Occasion)。我们可以计算所有时点题目的总分来估计信度;也可以计算每次施测各个题目的平均值,通过所有施测次数的总分来估计信度。但实际上,这两种方法都无法让我们得知整个密集追踪研究的信度,也就是完成所有次数的所有题目的信度,而不仅仅是所有题目或所有施测次数的信度。
因此,传统研究通常使用的重测信度和内部一致性系数很少被应用到密集追踪研究中。并且密集追踪研究数据的信度需要分开考察变量个体间和个体内两个水平的信度情况。所以为了更全面地了解密集追踪研究的信度,以下总结一些密集追踪研究方法常见的信度计算方法。
第一,概化理论(Generalizability Theory)。概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和误差的方差成分等。常见的克隆巴赫α系数可视为“概化理论”的一个特例。该理论同样支持估计嵌套设计的分数的可靠性。并能将密集追踪研究中题目的变异分解为个体间成分和测量误差,还可以描述变异如何受到个体间和个体内的影响(Bolger & Laurenceau,2013)。
第二,组内相关性系数(Intraclass Correlations Coefficient,ICC)。ICC系数可以表征各水平的变异比例。在密集追踪研究中,可通过计算各水平的相对变异来评估题目的信度。具体而言,通过构建零模型,可分别获得水平1的方差V1和水平2的方差V2,结合题目数量k,进而可采用公式来计算出信度系数。该系数在功能上等同于Cronbach ’s alpha系数。且具有计算简便,可适用于含缺失数据的密集追踪数据中(Nezlek,2017;Bonito et al.,2012)。
第三,多水平验证性因素分析(Multilevel Confirmatory Factor Analysis)。该方法通过因子载荷可以计算出最大信度H系数(Maximal Reliability)和合成信度ω系数(Composite Reliability)作为信度系数。作为信度指标,该方法不仅能够处理存在缺失的数据,还可以扩展到非连续结果的分析(Heck & Thomas,2020;Bolger & Laurenceau,2013)。
第四,多面Rasch模型(Many Facet Rasch Models,MERM)。该模型基于Rasch模型和项目反应模型,能够在密集追踪研究中同时纳入“时点”和“题目”两方面,计算估计的个人评分。该评分同时考虑了各方面的影响以及估计的个人评分的信度系数(Robitzsch & Steinfeld,2018)。
盖尔多夫等人(Geldhof et al.,2014)认为,当ICC系数足够大时(即ICC ≥ 0.05)时,采用特定水平的信度系数(如克隆巴赫α系数和合成信度ω系数)是可以的。但是当ICC系数较低或嵌套结构规模较小时,仍然建议采用多水平方法来估计信度,并且选择α系数可能略胜一筹。
在传统横断研究中,研究者通常采用效标效度、构想效度等方法检验量表的效度。这些方法同样可以用于检验密集追踪研究方法的数据。此外,还可以采用多水平验证性因素分析来检验变量结构是否符合理论预期。与信度类似,密集追踪研究方法数据的效度需要分开考察变量个体间和个体内两个水平的效度情况。
通过密集追踪研究方法收集而来,且至少有15~20次测量并且测量之间的时间间隔较短的数据叫作密集追踪数据(Intensive Longitudinal Data,ILD)。该数据具有时间间隔短、频次高的特点,并且可以记录被试的心理及行为随时间变化的动态过程(郑舒方 等,2021)。ILD可以随时间的推移对个体进行密集的评估,此类数据的基本特征是观测之间是不独立的,即同一个被试会进行多次作答测量,所以违背了独立性的基本假定;同时误差也是不独立的,意味着不同的观测值之间可能存在偏差。所以一些传统的统计分析方法可能不适用于ILD。
目前多水平模型(Multilevel Model,MLM)是分析ILD的经典方法,较为新兴的方法包括动态结构方程模型(Dynamic Structural Equation Model,DSEM)和组迭代多模型估计(Group Iterative Multiple Model Estimation,GIMME)。其中MLM和DSEM是自上而下的建模方法,它们将被试视为整体、同质化的群体,是一种基于整体的方法(Piccirillo & Rodebaugh,2019);而GIMME是一种自下而上的建模方法。
多水平模型(MLM)是分析ILD的最常用统计方法。一般而言,需要先采用零模型检验,计算组内相关系数ICC值,来判断因变量聚合到更高阶是否意义。MLM对于描述身体活动行为随时间变化的趋势是有用的,但这种方法没有考虑时间相关性。因此,当目标是描述变化并理解变化背后的机制时,需要动态建模方法。
动态结构方程模型(DSEM)被视为分析ILD最有前景的方法之一。该模型融合了时间序列建模、多水平建模和结构方程建模(Asparouhov et al.,2018),能够对个体特异性的变异、个体内时间序列、多变量,以及时间点特征的变异进行建模。
DSEM承接了传统MLM自上而下的思想,同时具备两个显著特点:其一,强调变量在时间尺度上的动态变化过程,分析变量间的复杂关系;其二,将各变量的变异分解为个体变异和时间变异进行解释。其三,允许在同一模型中建立双向的作用路径,这在一定程度上更贴合现实生活中的情况。
在模型设定上,DSEM通常假设测量时间点是离散化的,并且对时间节点和随机效应的数量没有特别的限制,具有一定的灵活性。它可以同时输出标准化和非标准化的结果,并且在水平1提供不同个体中各项标准化系数的平均结果。
总之,DSEM更适合那些需要考虑多个变量间复杂动态关系的研究,尤其是在变量间存在时间依赖性的情况下,以及当研究者希望探索变量间的双向作用路径时,它能提供一种更为系统化的方法来分析和解释变量间的动态关系。
盖兹和米勒(Gates & Molenaar,2012)在针对个人的模型的基础上,结合群体共享信息的优势,提出GIMME这一方法。GIMME以个体化的视角,对每个个体的时间序列进行估计,再将在大部分个体模型中都显著的路径纳入群体模型中,以得到群体水平的估计。因此,GIMME允许不同个体的模型结构之间存在异质性,并且能提供每个个体相对于整个群体的差异信息。
相比于基于整体的分析方法,GIMME可以尽可能减少个体特异信息的损失,并提供个体相对于整个群体的差异方面的信息(Wright & Woods,2020),而相比于纯粹基于个体的方法,GIMME在考虑个体特异性的同时大大提高了结果的普适性,一定程度上降低了模型过拟合的风险(Beltz & Gates,2017)
可见,GIMME更适用于关注个体特异性和个体间差异的研究,尤其是在个体水平上的动态过程和机制的特异性较为重要的情况下。它允许研究者针对每个个体的特定情况给出更个性化的解释。
密集追踪研究方法的未来发展将聚焦于多个重要领域,具体来说,将通过数据收集技术的革新、方法和实际应用的进步以及跨学科合作的加强,推动这一领域的前进。
随着移动设备和传感器技术的快速普及,研究者不仅能够更加便捷地实时收集个体数据,捕捉个体在日常生活中心理和行为模式的波动,从而获取更为全面和动态的信息。而且密集追踪研究方法将越来越多地涉及多种模态的数据,如生理数据、行为数据、环境数据等,如何有效融合多模态数据,挖掘其中的关联和交互作用,将成为密集追踪研究方法重要的研究方向。
与此同时,由于个体内认知、心理、行为等动态变化往往存在非线性作用模式,因此未来需要更多方法学研究者对允许进行非线性建模的模型方法进行深入研究,让密集追踪数据分析在方法学领域取得更多新进展。有关密集追踪研究数据分析的实际研究应用也将会越来越多,研究者们会越来越重视时间这一关键要素,利用各种新兴心理统计与测量方法分析日益复杂的数据集,通过这些创新的分析方法,研究者们对个体动态变化的理解将会显著提高,更准确地解释复杂的动态效应。
在这个过程中,对心理伦理和隐私问题的关注也显得尤为重要。研究者必须确保参与者的知情同意和数据安全,以保护其隐私并增强公众对研究的信任。这种重视将为研究的可持续性铺平道路,促进更多人乐意参与到密集追踪研究中。
未来,密集追踪研究方法有望在更多领域中发挥更大作用。通过对个体数据的持续监测,加强与其他学科的融合,为跨学科研究层面提供新的理论和实证支持。
总之,密集追踪研究作为一种新兴的心理学研究方法,凭借其独特的特点和优势,在揭示个体心理和行为的动态变化和内部机制方面展现出了巨大的潜力。通过对该方法的全面探讨,我们了解到其三个独特特点——实时性、真实性和重复性,能够有效克服传统研究方法的局限,为心理学纵向研究提供了全新的视角。
然而,密集追踪研究方法也面临着一些挑战,如被试负担、信效度评估的复杂性以及数据的复杂性等。尽管如此,随着技术的不断进步和方法学研究的深入,这些问题有望得到解决。未来,密集追踪研究方法将在多模态数据融合、非线性建模方法的发展以及跨学科应用等方面取得更多突破,为心理学及相关领域的研究和实践带来更深远的影响。同时,研究者在开展密集追踪研究时,必须高度重视伦理和隐私问题,确保研究的可持续性和公众对研究的信任度,从而使这一方法能够更好地服务于人类对心理现象的深入理解和实际应用需求。
[1] 段锦云, 陈文平. (2012). 基于动态评估的取样法: 经验取样法. 心理科学进展, 20(7), 1110-1120.
[2] 傅麟筑. (2023). 员工正念与主观活力的关系: 基于经验取样法的研究. 沈阳师范大学.
[3] 唐文清, 张敏强, 方杰. (2020). 时变效应模型及在密集追踪数据分析中的应用. 心理科学, 43(2), 488-497.
[4] 刘源, 都弘彦, 方杰, 温忠麟. (2022). 国内追踪数据分析方法研究与模型发展. 心理科学进展, 30(8), 1734-1746.
[5] 叶宝娟, 温忠麟, 陈启山. (2012). 追踪研究中测验信度的估计. 心理科学进展, 20(3), 467-474.
[6] 郑舒方, 张沥今, 乔欣宇, 潘俊豪. (2021). 密集追踪数据分析: 模型及其应用. 心理科学进展, 29(11), 1948-1972.
[7] Beltz A M & Gates K M. (2017). Network mapping with GIMME. Multivariate Behavioral Research, 52(6), 789-804.
[8] Bolger N, Davis A & Rafaeli E. (2003). Diary methods: Capturing life as it is lived. Annual Review of Psychology, 54(1), 579-616.
[9] Bolger N & Laurenceau J P. (2013). Intensive longitudinal methods: An introduction to diary and experience sampling research. Guilford Press.
[10] Bonito J A, Ruppel E K & Keyton J. (2012). Reliability estimates for multilevel designs in group research. Small Group Research, 43(4), 443-467.
[11] Chen Y & Zhang S. (2020). A Latent Gaussian process model for analysing intensivelongitudinal data. British Journal of Mathematical and Statistical Psychology, 73(2), 237-260.
[12] Doty D H & Glick W H. (1998). Common methods bias: Does common methodsvariance really bias results? Organizational Research Methods, 1(4), 374-406.
[13] Gates K M & Molenaar P C M. (2012). Group search algorithm recovers effective connectivity maps for individuals in homogeneous and heterogeneous samples. Neuroimage, 63(1), 310-319.
[14] Geldhof G J, Preacher K J & Zyphur M J. (2014). Reliability estimation in a multilevel confirmatory factor analysis framework. Psychological Methods, 19(1), 72-91.
[15] Hamaker E L, Schuurman N K & Zijlmans E A O. (2017). Using a few snapshots to distinguish mountains from waves: Weak factorial invariance in the context of trait-state research. Multivariate Behavioral Research, 52(1), 47-60.
[16] Nezlek J B. (2017). A practical guide to understanding reliability in studies of within-person variability. Journal of Research in Personality, 69, 149-155.
[17] Piccirillo M L & Rodebaugh T L. (2019). Foundations of idiographic methods in psychology and applications for psychotherapy. Clinical Psychology Review, 71, 90-100.
[18] Robitzsch A & Steinfeld J. (2018). Item response models for human ratings: Overview, estimation methods, and implementation in R. Psychological Test and Assessment Modeling, 60(1), 101-139.
[19] Ohly S, Sonnentag S, Niessen C & Zapf D. (2010). Diary Studies in Organizational Research: An Introduction and Some Practical Recommendations. Journal of Personnel Psychology, 9(2), 79-93.
[20] Scherer R & Teo T. (2020). A tutorial on the meta-analytic structural equation modeling of reliability coefficients. Psychological Methods, 25(6), 747-775.
[21] Setodji C M, Martino S C, Dunbar M S & Shadel W G. (2019, April 18). An exponential effect persistence model for intensive longitudinal data. Psychological Methods. Advance Online Publication, 24(5), 622-636.
[22] Shiffman S, Stone A A & Hufford M R. (2008). Ecological momentary assessment. Annual Review of Clinical Psychology, 4(1), 1-32.
[23] Stone A A, Schneider S & Smyth J M. (2023). Evaluation of pressing issues in ecological momentary assessment. Annual Review of Clinical Psychology, 19, 107-131.
[24] Wright A G C & Woods W C. (2020). Personalized models of psychopathology. Annual Review of Clinical Psychology, 16, 49-74.
[25] Zhou L, Wang M & Zhang Z. (2021). Intensive longitudinal data analyses with dynamic structural equation modeling. Organizational Research Methods, 24(2), 219-250.