1.中国政法大学社会学院,北京; 2.合肥工业大学计算机与信息学院,合肥; 3.中国政法大学刑事司法学院,北京
“非接触式实时动态心理测量系统”是中国心理学会法律心理学专业委员会、中国政法大学犯罪心理学研究中心负责理论论证、架构设计,合肥工业大学情感计算与先进智能安徽省重点实验室负责算法实现、系统研发的人工智能情感计算技术为基础的心理测量系统,经过层层筛选后,由中国心理学会推荐,入选中国科学技术协会《2019前沿领域科技成果推介手册》。“非接触式实时动态心理测量系统”目前主要应用于监狱内罪犯暴力犯罪行为与自杀自残危险行为动态风险评估领域,是一套与传统风险评估工具区别极大的新型评估智能装备。
那么,“非接触式实时动态心理测量系统”在心理测量理论体系中处于什么位置?在心理测量学视角下,与传统心理测量工具的区别是什么?如何对这种新型心理测量评估工具进行信效度检验?
首先,辛自强(2017)提出:心理测量方法总体上可以分为两种类型:其一,客观测量法,客观测量指的是根据心理现象的外部表现特征,对心理状态、心理过程、心理特征进行推论;其二,主观测量法,主观测量指的是被测量对象直接陈述、表达、报告自身的心理状态、心理过程、心理特征的方法[1]。
在客观测量法中,又包括三种子类型:其一,对心理活动的后果与“产物”进行测量,代表性的测量指标有:行为频次、行为反应时、行为强度、任务作业质量、行为轨迹等;其二,对心理活动的外部环境的测量,代表性的指标有:环境的刺激的频次、结构、时间、强度等以及包括但不限于城乡、经济社会地位、家庭状况、文化群体特征环境特征;其三,对心理活动的伴生生理活动进行测量,代表性的指标有:眼动、呼吸、心率、腺体活动、血流、皮肤电等[2]。
其次,“非接触式实时动态心理测量系统”所测量的心理概念,主要是情绪、犯罪行为风险。下面分别介绍目前心理测量领域主流的情绪测量与犯罪行为风险测量方法。
就情绪的测量而言,目前主要包括四大类型的情绪测量方法:
其一,情绪伴生的神经系统反应测量法,其中又可以分为两种子类型,第一种是情绪的自主神经系统反应测量法,包括:心血管状态测量、皮肤电阻与体温测量、呼吸频率及呼吸频率变异性和呼吸含潮气量测量、胃电测量[3]、瞳孔直径变化与眨眼等眼部活动[4]变化测量;第二种是情绪的中枢神经系统反应测量法,包括:脑电图(EEG:Eletroencephalograph)等高时间分辨率测量法以及正电子放射断层扫描(PET:Positron Emission Tomography)、功能性磁共振成像(fMRI:functional Magnetic Resonance Imaging)、脑磁图(MEG:Magnet Oencephalo Graphy)等高空间分辨率测量法[5]。其二,情绪伴生的生化反应测量法,其中主要包括肾上腺素测量法、皮质醇测量法、甲状腺素测量法、脑垂体测量法、促肾上腺皮质激素测量法、促甲状腺激素测量法等。其三,情绪的外部行为表现测量法,其中主要包括两种子类型,第一种是情绪的表情测量方法,表情测量法可以追溯到1872年达尔文撰写的《人类与动物的表情》,到20世纪90年代后,由保罗·艾克曼深入研究后,提出“高兴、愤怒、悲伤、恐惧、惊讶、厌恶”6种基本表情是具有跨文化一致性的基本表情[6];第二种是情绪的肢体动作测量方法,典型的如:根据人类行走的步态和步速进行情绪测量[7]。其四,情绪的自陈、自评测量方法。主要依靠测评参与者的自我报告、自我陈述以及填写自评量表进行情绪测量。其中,上述的前三种均属于客观测量类型,第四种属于主观测量类型。
就犯罪行为风险的测量方法而言,马皑和宋业臻[8]回顾了国内外犯罪风险评估工具并将其分为两种主要类型:
其一,半结构化访谈方法,主要依靠精神科专业医师和临床心理学家操作的半结构化访谈提纲;其二,统计精算测量方法,主要依靠大量的实证检验建立统计模型生成的犯罪行为风险评估工具。上述两种类型均属于主观测量类型。
最后,“非接触式实时动态心理测量系统”以人工智能的循环神经网络模型为基础,建立多通道数据采集系统,仅需要被测评对象在数据采集终端前每日站立3次,每次站立3-5秒,系统自动将被测评对象的呼吸频率、心率、眼部活动、表情、头部姿态、面部温度采集后进行数据归一化处理,生成一个6元素构成的数据集合作为输入数据,自动进行运算并自动输出被测评对象的以下数据结论:数据集合一,服务于单次测量的情绪类型判断,输出高兴、愤怒、悲伤、恐惧、惊讶、厌恶、平静7种类型情绪的相似度数值;数据集合二,服务于被测量个体与所在群体的常模建立,建立连续、累积、重复迭代计算得到的集合一的均值以及系统所在运行单位的被测评对象的总体均值;数据集合三,服务于差异比较/异常识别,建立新实施的某次测量值与数据集合二的差异程度值,并将差异程度分为低、中、高三个等级;数据集合四,服务于风险行为类型预测与推断,根据特定的数据分布特征,自动判断某次侧量是否存在暴力行为风险、自杀行为风险及其可能性[8]。
综上,首先,“非接触式实时动态心理测量系统”属于心理测量工具中的一种新型的纯客观化的测量工具,无需被测评对象进行任何自陈、自评方式的心理表达;其次,“非接触式实时动态心理测量系统”属于新型情绪客观化测量工具的一种,并且无需被测评对象佩戴任何接触身体的测量装置或者进行血液、体液抽检等任何接触式样本/数据采集行为;最后,“非接触式实时动态心理测量系统”属于客观化犯罪行为风险测量工具,相较于传统的半结构化访谈工具与统计精算工作带有很大程度的主观性,“非接触式实时动态心理测量系统”实现了主观测量向完全客观测量的技术飞跃。
表 1 非接触式实时动态心理测量系统的特征对比结果表
Table 1 Comparison Results of Characteristics of Non-contact Real-time Dynamic Psychological Measurement System
客观测量方法 |
主观测量方法 |
侵入/接触身体 |
|
情绪测量 |
|||
情绪伴生神经系统反应测量 |
√ |
√ |
|
情绪伴生自主神经系统反应测量 |
√ |
√ |
|
情绪伴生中枢神经系统反应测量 |
√ |
√ |
|
情绪伴生生化反应测量 |
√ |
√ |
|
情绪伴生外部行为表现测量 |
√ |
× |
|
情绪自陈自评测量 |
√ |
× |
|
犯罪行为风险测量 |
|||
半结构化访谈工具测量 |
√(采集部分客观数据) |
× |
|
统计精算工具测量 |
√(采集部分客观数据) |
× |
|
非接触式实时动态心理测量 |
√ |
× |
由此产生的问题在于,传统心理学测量工具的信效度检验方法是否适用于新型测量工具?如何对这一客观化的、基于情绪心理学与人工智能技术设计的新型情绪测量与犯罪风险测量工具进行信效度测试?
该部分主要围绕以下两个问题进行阐述:其一,心理学测量工具的信效度测试测试理论近年来的发展变化是什么?其二,如何在最新的心理学信效度测试理论下,对“非接触式实时动态心理测量系统”进行信效度测试?
首先关于信度测试,在测量学研究的语境中,当不同的个体作为测量参与者、采用不同测量工具对同一水平的心理特征进行测量,测量分数的可重复性、准确性与一致性程度越高,测量工具所测得数据的信度越高[9]。一般而言,不同类型的信度与不同的测量误差来源有关,信度总体上包括以下几种类型:内部一致性信度、重测信度、复本信度、标准参照信度、评分者间信度[10]。
其次关于效度测试,在测量学研究的语境中,效度描述的是一个测量工具是否能够测得其想测量的对象,“效度要验证的不是测量工具本身,而是对通过特定测量步骤所得到的数据进行解释”[11]。而测量工具测量所得数据具有较高信度,是对测量所得数据进行有效解释的必要非充分条件,即高信度是高效度的必要非充分条件。
效度理论总体上经历了三个阶段的发展过程:第一个阶段被称为“效标基准理论”阶段,主要是衡量某种测量工具在“预测特定的‘效标’值时候的精确程度”[9],“效标基准模型”没有衡量测量工具的内容,同时在某些领域中无法找到相应的效标[12],故效度理论迈向第二个发展阶段;第二个阶段被称为“概念基准理论”阶段,从内容、效标预测准确度、概念三个角度同时对测量工具所得到的数据进行解释[13];第三个阶段则是进一步扩展了第二个阶段的理论思想,被称为“统一概念基准理论”阶段,其核心思想与第二个阶段一致,均是从不同的角度对测量工具所得到的数据进行解释,包括:从经验层面的解释、从理论层面的解释、从推论层面的解释等[13]。
最后,在效度的“统一概念基准理论”视角下,一般而言从以下几个角度收集某个测量工具所收集到的测量数据:其一,内容效度,指的是与内容相关的、有代表性的和针对特定专业领域的证据,一般内容效度的证据评价主要针对能力测评或者社会心理学领域的一些抽象概念测量,“非接触式实时动态心理测量系统”的输出数据简单、清晰,故无需内容效度方面的相关证据;其二,实质效度,指的是在测量中观察到的现象与理论原理的一致性程度,一般而言实质效度方面的证据主要通过“测量参与者回答时的认知机制”、“参量参与者回答时的行为表现”以及“工具的功能分析”来获得实质效度方面的证据;其三,结构效度,指的是“评分结构对其所测量的概念领域的结构逼真度”,“非接触式实时动态心理测量系统”不涉及复杂内涵概念的测量,所以不考虑结构效度方面的证据;其四,效度概化,收集效度概化方面证据的目的是“根据数据得出的解释,在多大程度上数据可以推广到其他环境、群体中”,主要检验“跨总体不变性”、“跨组预测效度”、“情境稳定性”,其中的“情境稳定性”与“跨总体不变性”实质上将信度测试纳入了该部分;其五,外部效度,主要指的是“多特质多方法比较中,得到的汇聚性判别证据,以及与效标相关的实际应用方面的证据”[9]。
综上,“非接触式实时动态心理测量系统”的信效度测试主要从实质效度、效度概化、外部效度的角度进行证据收集。
“非接触式实时动态心理测量系统”目前在三个省市中的四家监狱运行较稳定,其中两家为女子监狱。测量参与者人数总计640人,其中A省女子监狱210人,G省女子监狱95人,G省B市监狱105人,D省S市监狱230人;其中女性测量参与者共计305人;初中及初中以下学历测量参与者464人,初中以上本科以下学历测量参与者158人,本科及本科以上测量参与者18人;采集持续不间断采用“非接触式实时动态心理测量系统”测量30天的数据,每天测量3次,共计57600条系统自动采集分析记录。
从功能分析角度来看,结合先前所述的“非接触式实时动态心理测量系统”的输出数据集合,分别进行实质效度检验。结合实质效度检验的理论要求,分别按照以下方法收集数据:其一,针对情绪识别功能及输出数据集合,要求测量参与者自我报告“当前的心情怎么样”,在高兴、愤怒、悲伤、恐惧、惊讶、厌恶、平静7种选项中选择,同时,要求两名他评人员回答上述问题;其二,针对异常程度识别功能及输出数据集合,要求测量参与者自我报告“跟平时比心情有波动吗”,在“是/否”两个选项中选择,同时,自我报告“给自己的波动程度打个分”,在“1/2/3”三个选项中选择,分值越大表明自我感知的波动程度越大,并要求两名他评人员回答上述问题;其三,针对风险行为预测功能及数据输出集合,要求他评人员进行观察,回答“是否出现异常行为”并说明异常行为类型。
表 2 非接触式实时动态心理测量系统效标数据采集表
Table 2 Data Collection Table of Effectiveness Criteria for Non-contact Real-time Dynamic Psychological Measurement System
题号 |
自我报告 |
他人观察 |
1 |
当前心情怎么样 |
被观察人当前心情怎么样 |
选择题:高兴()愤怒()悲伤()恐惧()惊讶()厌恶()平静() |
选择题:高兴()愤怒()悲伤()恐惧()惊讶()厌恶()平静() |
|
跟平时比心情有波动吗 |
被观察人跟平时比心情有波动吗 |
|
2 |
选择题:是()否() |
选择题:是()否() |
给自己的波动程度打个分 |
你认为被观察人波动程度有多少 |
|
3 |
选择题:1()2()3() |
选择题:1()2()3() |
被观察人是否出现下列异常行为 |
||
4 |
选择题:自伤自残()攻击他人() |
表 3 非接触式实时动态心理测量系统实质效度数据分析表
Table 3 Data Analysis of Substantial Validity of Non-contact Real-time Dynamic Psychological Measurement System
项目 |
系统测量-自我报告 |
系统测量-他人观察 |
情绪类型识别 |
||
高兴 |
匹配率99.6% |
匹配率83.6% |
愤怒 |
匹配率98.7% |
匹配率91.2% |
悲伤 |
匹配率99.2% |
匹配率94.2% |
厌恶 |
匹配率86.4% |
匹配率67.4% |
恐惧 |
匹配率92.3% |
匹配率89.6% |
惊讶 |
匹配率64.4% |
匹配率10.6% |
平静 |
匹配率98.9% |
匹配率93.6% |
异常与否识别 |
匹配率96.7% |
匹配率70.2% |
异常程度识别 |
相关系数0.873 |
相关系数0.762 |
风险行为识别 |
匹配率97.1% |
分析上述数据结果,系统测量结果与自我报告结果匹配率较高,高于系统测量结果与他人观察结果的匹配率;在高兴、愤怒、悲伤、恐惧、平静五种类型的情绪上,系统测量结果与自我报告、他人观察匹配率均较高,推断由于测量参与者与观察者较容易理解、识别该五种类型的情绪反应;在惊讶类型的情绪上,系统测量结果与自我报告、他人观察匹配率均较低,推断是由于惊讶情绪出现时间较短,且在日常生活中出现的频次较低,故观察者一般难以准确感知;在异常程度的识别上,他人观察并评分结果与系统评分结果相关性系数略低于自我报告评分与系统评分结果的相关系数。
根据上述效度理论所述,效度概化方面的检验证据,实质上将信度测试相关的内容纳入效度概化方面共同收集证据。下面按照7种类型的情绪,以及3种风险等级,按照时间段、单位、性别分别整理数据;筛选数据,剔除他人观察和自我报告数据结果不一致的数据,仅保留他人观察与自我报告数据结果一致的数据;对筛选后的系统测量数据进行跨时间段一致性的重测信度检验并检验系统测量数据的跨性别一致性、跨环境一致性,得到结果如下:
表 4 非接触式实时动态心理测量系统效度概化数据分析表
Table 4 Data Analysis of Validity Generalization of Non-contact Real-time Dynamic Psychological Measurement System
类型 |
跨时间段一致性 |
跨性别一致性 |
跨环境一致性 |
高兴 |
0.951 |
0.889 |
0.924 |
悲伤 |
0.976 |
0.876 |
0.963 |
愤怒 |
0.944 |
0.912 |
0.933 |
厌恶 |
0.898 |
0.823 |
0.862 |
惊讶 |
0.873 |
0.802 |
0.833 |
恐惧 |
0.922 |
0.902 |
0.923 |
平静 |
0.963 |
0.976 |
0.966 |
外部效度主要针对多特质多方法得到的汇聚性证据进行分析,在实质效度分析部分已经对情绪类型、是否存在情绪异常以及异常情绪类型的系统输出数据、自我报告数据、他人观察数据进行了多方法比较分析。但是在实质效度分析中,由于系统目前输出数据仅包含7种基本情绪类型,未能对构成较复杂的情绪进行分析,同时目前仅发现4起出现攻击行为的案例,2起确诊抑郁障碍的案例,故下面主要对系统分析出的一些复杂情绪案例以及4起攻击行为案例以及2个确诊抑郁障碍案例进行分析。
首先,在S市监狱出现7例个案,系统观测发现这些个案持续2个月出现高兴、悲伤、恐惧三种类型的情绪个体均值超过群体均值,个体单次测量结果频繁超过个体均值的情况。故推断这些个案持续处于悲喜交加以及担忧某些事件的状态。经过相关负责警官核实,并向7名个案进行多次访谈,得知这些个案即将在1个月内结束服刑并出监,这些个案出现高兴情绪,是因为重获自由;出现悲伤情绪主要是因为家庭变故,出监后严重缺乏社会支持;出现恐惧情绪主要是由于服刑时间较长,不熟悉外界环境,对自身未来的生存发展较担忧造成。
其次,在A省女子监狱出现2起个案,系统观测发现该2名测量参与者持续2个月以上长期处于个体平静、悲伤类型情绪均值远高于群体均值的状态,且其他类型的情绪均值远低于群体均值。后该2起个案均被确诊并医学鉴定为单相抑郁障碍。一般而言,单相抑郁障碍存在较严重的“负性认知”现象,即在认知信息加工方面,倾向于忽视积极刺激,侧重注意和编码消极信息,存在一定程度的扭曲信息加工、过度消极概化和任意消极推论的症状[14];同时,单相抑郁一般是由于长期处于预期未来无助状态造成的,个体习得自身反应与未来结果无关的认知集合[15]。相关负责人临床观察发现,上述2起个案符合单相抑郁的认知模式与成因描述。
最后,在G省和A省分别出现4起袭警的攻击行为案例,根据攻击理论分析,上述4起案例均属于反应性(情感)攻击事件[16],反应性攻击一般由以下几种原因引起:其一,当个体处于威胁信息刺激水平高、距离较近的情况下,容易出现反应性攻击行为[17];其二,当个体预期奖赏未能实现,出现反应逆转现象[18],上述4起案例中,3起属于期望奖赏未能实现的案例,1起属于面对威胁刺激信息的案例,系统观测数据显示,前述3起案例在出现高水平愤怒类型的情绪异常前,均持续3~5天处于悲伤情绪异常状态,前述1起面对威胁的案例,在愤怒情绪异常中,伴随出现了恐惧情绪类型的异常波动。
综上所述,“非接触式实时动态心理测量系统”属于心理测量工具中的一种新型的纯客观化的测量工具,无需被测评对象进行任何自陈、自评方式的心理表达;且属于新型情绪客观化测量工具的一种,并且无需被测评对象佩戴任何接触身体的测量装置或者进行血液、体液抽检等任何接触式样本/数据采集行为;系统属于客观化犯罪行为风险测量工具,相较于传统的半结构化访谈工具与统计精算工作带有很大程度的主观性,“非接触式实时动态心理测量系统”实现了主观测量向完全客观测量的技术飞跃。在效度的“统一概念基准理论”视角下,收集并分析系统的实质效度、外部效度、效度概化方面的证据,表明系统能够准确对测量参与者的单次测量情绪类型、是否存在情绪异常、异常情绪类型进行准确判断,并且当前有限的少量案例表明,系统能够提前预警攻击行为与疑似单相抑郁障碍的个体。
未来主要在以下两个方面进行进一步的效度检验,其一,结合情绪的中枢神经反应测量方法,以中枢神经反应测量结果为效标,进一步验证系统的测量准确率;其二,广泛收集更多地监狱内攻击行为与疑似抑郁障碍的案例,采用多方法收集相关数据,检验其外部效度。
本研究得到“中国政法大学交叉学科培育与建设计划——法证心理学”的资助。
[1] 辛自强.心理学研究方法(第二版)[M].北京:北京师范大学出版社,2017:34.
[2] 辛自强.心理学研究方法新进展[M].北京:北京师范大学出版社,2018:339-342.
[3] Kreibig S D.Automatic Nervous System Activity in Emotion:A Review[J].Biological Psychology,2010,44(5):787-806.
[4] 易欣.葛列众.刘宏燕.正负性情绪的自主神经反应及应用[J].心理科学进展.23(1),72-84.
[5] 傅小兰.情绪心理学[M].上海:华东师范大学出版社,2016:156.
[6] Ekman P.Are there basic emotions?[J].Psychological Reviews,1992,90(3):550-553.
[7] Roether C L,Omlor L,Christensen A,et al.Critical Features For the Perception of Emotion From Gait[J].Journal of Vision,2006,9(6):15.
[8] 马皑,宋业臻.情感计算技术如何推动犯罪风险评估工具的发展[J].心理科学,2019(in press).
[9] Dimitrov D M.心理与教育中高级研究方法与数据分析——从研究设计到SPSS[M].王爱民,等译.北京:中国轻工业出版社,2015:19.
[10] Cohen J.A Coefficient of Agreement for Nominal Scales[J].Educational and Psychological Measurement,1960(20):37-66.
[11] Cronbach L J.Test validation[M]//R L Thorndike(ed ),Educational Measurement (2nd ed).Washington,D C:American Council on Education,1971.
[12] Cronbach L J,Gleser G C.Psychological tests and personnel decisions(2nd ed)[M].Urbana:University of Illinois Press,1965.
[13] Messsick S.Validity[M]//R L Linn (Eds).Educational Measurement (3rd ed),1989:13.
[14] Teasdale J D,Barnard P J.Affect,Cognition and Change:Remodelling Depressive Thought[M].Hillsdale,NJ:Lawrence Erlbaum Associates,Inc.,1993.
[15] Seligman M E P.Helplessness[M].San Francisco:Freeman,1975.
[16] Berkowitz L.Aggression:Its Causes,Consequences and Control[M].Philadelphia:Temple University Press,1993.
[17] Blanchard R J,Blanchard D C,Takahashi L K.Attack and Defensive Behavior in the Albino Rat[J].Animal Behavior,1977(25):197-224.
[18] Cools R,Clark L,Owen A M,et al.Defining The Neural Mechanisms of Probabilistic Reversal Learning Using Event-related Functional Magnetic Resonance Imaging[J].Journal of Neuroscience,2002,22:4563-4567.