宁夏大学教师教育学院,银川
社交焦虑障碍,俗称“社恐”,是一种在社交场合中产生紧张、不适甚至恐惧情绪的心理障碍。其终身患病率约为12%,在大学生群体中更为常见(Kessler et al.,2005)。社交焦虑对大学生的危害是多方面的,不仅严重影响心理健康,还会损害执行功能。在心理健康方面,社交焦虑可导致抑郁、自尊心低下和自我效能感下降等问题(Lievore et al.,2025;Lysaker et al.,2011)。社交焦虑的大学生往往避免社交活动,感到孤独和孤立,这种孤立感不仅加剧了社交焦虑,还可能导致更严重的心理问题,如抑郁和社交退缩(ClarkandWells,1995)。此外,社交焦虑者对自己产生负面评价,认为自己不够优秀或不被他人接受,导致自尊心下降和自我效能感减弱(S.L.Williams,1995)。这种负面的自我认知进一步加剧了社交焦虑,形成恶性循环。在执行功能方面,社交焦虑会损害注意力控制、工作记忆和认知灵活性。社交焦虑的大学生容易被负面评价分心,难以集中注意力完成任务(Eysenck et al.,2007)。在工作记忆方面,他们难以有效地保持和操作信息,在复杂思维和决策任务中表现不佳(高艳杰 等,2011)。在认知灵活性方面,社交焦虑者在应对变化和调整策略时表现不佳(Rosa-Alcázar et al.,2021)。这些认知功能的损害不仅影响学业和职业表现,还会进一步加剧社交焦虑。因此,对社交焦虑的及时准确诊断至关重要。
然而,现有的诊断方法,如问卷和自我报告,存在主观性强、误诊率高的局限(Aderka,2009)。这些方法依赖个体的自我评估,容易受到社会期望和自我认知的影响。此外,社交焦虑具有明显的情境性,通常只在特定的社交场景中出现,增加了识别的难度(Clark and Wells,1995)。因此,探索更为客观、准确的诊断方法显得尤为重要(Hofmann,2007)。脑电技术(EEG)能有效反映个体在特定刺激下的情绪变化、注意力状态及背后的认知模式(Edwards and Ring,2010)。其中,事件相关电位(ERPs)可以揭示个体对特定事件的认知模式。社交焦虑者的重要认知特征是将社交情境视为威胁,因此当社交相关威胁信息出现时,高社交焦虑者更容易将注意力集中在这些信息上(注意偏向),并持续加工这些信息,从而干扰当前任务(Kalanthroff et al.,2016)。
过往研究揭示了社交焦虑群体与健康群体在执行功能上的差异。大多数研究表明社交焦虑障碍个体的执行功能会受到损害。例如,奥图尔(O’Toole)等人的研究发现,社交焦虑个体在执行功能任务中的表现显著低于健康对照组,且社交焦虑程度越高,执行功能越差(O’Toole et al.,2015)。2021年的一项研究表明,社交焦虑对大学生的工作记忆和认知灵活性产生了负面影响(Rosa-Alcázar et al.,2021)。在抑制控制方面,克拉克(Clark)等人认为,社交焦虑患者尤其会在意他人的负面评价,导致无法集中注意力于任务本身(Clark and Wells,1995)。艾森克(Eysenck)和德拉库尚(Derakshan)的注意控制理论提出,焦虑会使人们更多地关注潜在威胁,剥夺了对执行任务过程的注意(Eysenck and Derakshan,2011)。巴尔-海姆(Bar-Haim)等人的研究证实,社交焦虑个体在Emotion-Stroop实验中的反应时较长(Bar-Haimetal.,2007)。在工作记忆方面,蒋一波和李成实(2024)的研究发现,患有社交焦虑障碍(Jiang and Li,2024)的个体的工作记忆,特别是在言语记忆和视觉记忆方面,显著降低。巴克纳(Buckner)等人的研究表明,社交焦虑水平越高,越难以从不相关刺激中脱离出来(Buckner et al.,2010)。阿米尔(Amir)和博米亚(Bomyea)的研究发现,社交焦虑障碍患者对社交威胁信息的加工效率更高(Amir and Bomyea,2010)。在认知灵活性方面,Liu等人的研究表明,社交焦虑与认知灵活性之间存在显著的负相关(Liu et al.,2022)。藤井(Fujii)等人的研究发现,广泛性社交焦虑障碍患者在认知灵活性实验范式上的得分显著低于对照组(Fujii et al.,2013)。朴(Park)等人认为,焦虑会妨碍任务需求变化时在不同策略之间灵活转换的能力(Park and Moghaddam,2017)。
Go/No-go范式是常用于测量个体反应抑制的任务范式。洪翔飞等人的脑电研究发现,抑制控制任务主要与额-中央区的N2成分和中央-顶区的P3成分高度相关(Hong et al.,2017)。N-back范式是常用于测量工作记忆刷新能力的任务范式。在N-back工作记忆的ERP研究中,P3通常是主要研究的成分,反映了工作记忆表征的更新能力(李雪冰、罗跃嘉,2011)。任务转换范式是常用于测量个体认知灵活性的实验范式。在进行任务转换的过程中,N1、P2反映注意资源早期分配及过滤机制,N2与注意和抑制有关,P3可能与注意、决策、资源分配都存在一定的关系(Ahumada-Mendez et al.,2022)。
机器学习技术的发展为多维数据整合提供了新路径。相较于传统统计方法,深度学习模型(如CNN、LSTM)能有效提取EEG信号的时空特征(Kopp et al.,1996)。研究显示,多模态数据融合模型(行为+EEG)对社交焦虑的识别准确率可达89%(Xie et al.,2022),较单一数据源提升15%。当前研究多集中于单一认知维度分析,缺乏对执行功能三个子成分的系统整合。基于此,本研究拟构建多模态并行时序卷积网络(BEPTCNN),整合Go/No-go(抑制控制)、N-back(工作记忆)和任务转换(认知灵活性)范式的行为与ERP数据,旨在建立基于执行功能特征的客观诊断模型。
本研究招募某高校148名本科生完成Liebowitz社交焦虑量表(LSAS)中文版(何燕玲 等,2004)初筛,根据量表总分划分为高(≥60分)、低(≤40分)社交焦虑组。经独立样本t检验验证组间差异显著(t(49)=19.37,p<0.001),最终选取51名被试(高焦虑组25人,其中女21人,男4人;低焦虑组26人,其中女22人,男4人)参与实验。被试年龄17~25岁,均为右利手、视力正常、无精神病史及脑损伤史。实验前,被试签署知情同意书,完成实验后获得标准化报酬(Zhixiong,2024)。
研究采用三模块实验范式同步采集行为反应与脑电数据:(1)Go/No-go任务评估抑制功能,包含240试次(2个block,男女面孔按键规则交替);(2)任务转换范式评估认知灵活性,含480试次(形状判断、性别判断、转换任务各120/120/240试次);(3)N-back任务评估工作记忆,含240试次(1-back和2-back各120试次)。所有任务均采用中国情绪面孔系统(CAFPS-P)标准化刺激材料,经预处理统一为260×300像素黑白图片,去除面部毛发保留五官特征,情绪效价与唤醒度经独立样本t检验验证存在显著组间差异(p<0.05)。实验程序流程图,如图1、图2、图3、图4、图5所示。
图 1 GO/NO-GO 实验流程图
Figure 1 GO/NO-GO experimental flowchart
图 2 任务转换流程图 1
Figure 2 Task conversion flowchart 1
图 3 任务转换流程图 2
Figure 3 Task conversion flowchart 2
图 4 1-back 实验流程图
Figure 4 1-back experimental flowchart
图 5 2-back 实验流程图
Figure 5 2-back experimental flowchart
行为数据通过 Eprime3.0 记录反应时与正确率, 脑电数据采用Brain Products 64 导系统采集(采样率 500Hz,电极阻抗 <5KΩ)。预处理流程包括:(1)去除 F9/F10 电极;(2)1-30Hz 带通滤波及 50Hz 工频滤波;(3)基于刺激前 200ms 基线校正;(4)坏导插值与伪迹剔除(±100μV 阈值);(5)ICA 去噪后重参考至双乳突。
行为特征包含三类任务在积极/消极面孔条件下的正确率与反应时指标(51×45维),脑电特征提取59导联的N1、N2、P2、P3成分潜伏期与波幅(51×3776维),整合形成51×3821维特征矩阵。
为避免过拟合,采用逐步特征筛选确定最优输入维度:SVM(192特征)、随机森林(59特征)、XGBoost(22特征)。建立包含传统机器学习(SVM)、集成学习(RF、XGBoost)及深度学习(CNN、LSTM、TCN)的模型体系,创新提出BEPTCNN多模态网络,通过一维CNN提取行为时序特征,二维CNN捕获脑电空间特征,TCN建模时间依赖特征,采用ELU激活函数增强噪声鲁棒性。模型优化采用TPE贝叶斯算法搜索超参数空间,通过100次重复验证评估分类性能(Accuracy、F1-score、Recall、Specificity、PPV、NPV等指标)。
仅使用行为数据(正确率、反应时)作为特征,经典模型支持向量机与集成学习模型梯度提升树、随机森林表现均较差,三者中表现最好的支持向量机100次重复验证的平均F1分数也仅有0.5729,且方差为0.1625;表现最为糟糕的是随机森林,F1分数仅为0.3252,且方差高达0.2534,表现低于了随机猜测水平。如表1所示。
表 1 机器学习模型基于行为数据模型性能评估(100 次重复验证)
Table 1 Machine learning models based on behavioural data model performance evaluation (100 repeated validations)
SVM | XGBoost | RF | |
F1 Score | 0.5729 ± 0.1625 | 0.5020 ± 0.1522 | 0.3252 ± 0.2534 |
ACC/% | 57.00 ± 14.19 | 52.18 ± 12.57 | 39.36 ± 12.06 |
Recall/% | 59.53 ± 19.86 | 50.96 ± 21.49 | 46.41 ± 41.88 |
Specificity / % | 57.06 ± 24.27 | 57.50 ± 23.30 | 53.39 ± 39.30 |
PPV / % | 61.10 ± 21.79 | 57.59 ± 21.21 | 30.74 ± 25.10 |
NPV / % | 55.91 ± 22.85 | 51.28 ± 21.30 | 41.74 ± 30.19 |
仅将行为数据作为特征时,在100次重复验证中,深度学习模型表现较好,其中,LSTM模型在所有评估指标上表现最佳,其F1分数为0.9942±0.0376,准确率为99.36±4.11%,召回率为99.23±4.55%,特异性为99.60±3.97%,阳性预测值为99.66±3.31%,阴性预测值为99.06±5.49%,均为三种模型中最高。CNN模型在准确率(87.81±15.65%)和召回率(84.39±23.23%)方面较TCN稍弱,但仍然比较稳定地保持了一定的分类能力。TCN模型在大多数指标上表现良好,但在召回率和特异性上略逊于LSTM模型。如表2所示。
表 2 深度学习模型基于行为数据模型性能评估(100 次重复验证)
Table 2 Deep learning models based on behavioural data model performance evaluation (100 repeated validations)
CNN | LSTM | TCN | |
F1 Score | 0.8626 ± 0.1865 | 0.9942 ± 0.0376 | 0.9732 ± 0.0912 |
ACC/% | 87.81 ± 15.65 | 99.36 ± 4.11 | 96.81 ± 9.12 |
Recall/% | 84.39 ± 23.23 | 99.23 ± 4.55 | 97.39 ± 8.58 |
Specificity / % | 94.11 ± 10.29 | 99.60 ± 3.97 | 96.70 ± 12.43 |
PPV / % | 92.95 ± 12.24 | 99.66 ± 3.31 | 97.71 ± 7.84 |
NPV / % | 85.47 ± 20.73 | 99.06 ± 5.49 | 95.89 ± 13.05 |
经典模型与集成模型在脑电数据分类任务中的平均表现和标准差(±)。从表格中可以看出,SVM模型在大多数评估指标上表现最佳,其F1分数为0.8230±0.1131,准确率为82.90±9.47%,特异性为83.65±16.49%,阳性预测值为85.31±14.17%,均优于其他模型。XGBoost在召回率(81.78±16.92%)和阴性预测值(77.86±21.30%)上表现较为突出,但在总体准确率和特异性方面略逊于SVM。RF模型在所有指标上均表现相对较弱,特别是在F1分数(0.7087±0.1275)和准确率(71.09±12.75%)上表现最差。如表3所示。
表 3 机器学习模型基于脑电数据模型性能评估(100 次重复验证)
Table 3 Machine learning models based on eeg data model performance evaluation (100 repeat validation)
SVM | XGBoost | RF | |
F1 Score | 0.8230 ± 0.1131 | 0.7821 ± 0.1274 | 0.7087 ± 0.1275 |
ACC/% | 82.90 ± 9.47 | 77.81 ± 12.74 | 71.09 ± 12.75 |
Recall/% | 82.63 ± 16.49 | 81.78 ± 16.92 | 72.35 ± 18.26 |
Specificity / % | 83.65 ± 16.49 | 74.18 ± 20.50 | 73.79 ± 21.93 |
PPV / % | 85.31 ± 14.17 | 78.26 ± 16.59 | 75.04 ± 20.18 |
NPV / % | 81.61 ± 17.28 | 77.86 ± 21.30 | 69.87 ± 20.04 |
从表4中可以看出,三种深度学习模型在脑电数据分类任务中的表现都非常优异,具体如下:LSTM模型在大多数指标上表现最佳,特别是在F1分数(0.9944±0.0381)、准确率(99.45±3.81%)、特异性(99.80±1.98%)和阳性预测值(99.75±2.48%)上均为最高。TCN模型在F1分数(0.9950±0.0542)和召回率(99.50±4.97%)上略优于其他模型,同时在准确率(99.45±5.42%)和其他指标上表现也十分接近LSTM。CNN模型在各项指标上均表现优异,但相较于LSTM和TCN略逊一筹,特别是在特异性(98.95±8.31%)和阴性预测值(99.04±7.70%)上稍低。
表 4 深度学习模型基于脑电数据模型性能评估(100 次重复验证)
Table 4 Deep learning model performance evaluation of eeg data based models (100 repeat validation)
CNN | LSTM | TCN | |
F1 Score | 0.9931 ± 0.0644 | 0.9944 ± 0.0381 | 0.9950 ± 5.42 |
ACC/% | 99.18 ± 6.44 | 99.45 ± 3.81 | 99.45 ± 5.42 |
Recall/% | 99.35 ± 5.16 | 99.21 ± 5.33 | 99.50 ± 4.97 |
Specificity / % | 98.95 ± 8.31 | 99.80 ± 1.98 | 99.40 ± 5.96 |
PPV / % | 99.30 ± 5.80 | 99.75 ± 2.48 | 99.50 ± 4.97 |
NPV / % | 99.04 ± 7.70 | 99.17 ± 5.06 | 99.40 ± 5.96 |
SVM模型在大多数评估指标上表现最佳,其F1分数(0.8205±0.1031)、准确率(82.27±10.31%)、特异性(82.81±17.87%)和阳性预测值(85.03±14.45%)均优于其他模型。XGBoost在召回率(80.38±16.56%)和阴性预测值(77.73±19.84%)上表现较好,但在总体准确率和特异性方面略逊于SVM。随机森林(RF)模型在所有指标上均表现相对较弱,特别是在F1分数(0.7166±0.1368)和准确率(71.45±13.04%)上显示出最低的性能,如表5所示。
表 5 机器学习模型基于多模态数据模型性能评估(100 次重复验证)
Table 5 Machine learning models based on multimodal data modelling performance evaluation (100 repetitions validation)
SVM | XGBoost | RF | |
F1 Score | 0.8205 ± 0.1031 | 0.7790 ± 0.1215 | 0.7166 ± 0.1368 |
ACC/% | 82.27 ± 10.31 | 77.81 ± 12.15 | 71.45 ± 13.04 |
Recall/% | 82.57 ± 16.04 | 80.38 ± 16.56 | 73.50 ± 17.32 |
Specificity / % | 82.81 ± 17.87 | 75.73 ± 1937 | 73.46 ± 22.37 |
PPV / % | 85.03 ± 14.45 | 78.98 ± 16.75 | 75.08 ± 20.35 |
NPV / % | 80.72 ± 18.78 | 77.73 ± 19.84 | 70.37 ± 20.25 |
基于行为及ERP数据的多模态深度学习神经网络——行为脑电并行时序卷积神经网络(behavior-ERP parallel temporal convolution neural network,BEPTCNN)在所有指标上均表现出来优异的成绩,且标准差也非常小,如表6所示。
表 6 BEPTCNN 模型基于多模态数据模型性能评估(100 次重复验证)
Table 6 BEPTCNN model performance evaluation based on multimodal data modelling (100 iterations of validation)
BEPTCNN | |
F1 Score | 0.9969 ± 0.0241 |
ACC/% | 99.63 ± 2.85 |
Recall/% | 99.69 ± 2.17 |
Specificity / % | 99.60 ± 3.97 |
PPV / % | 99.71 ± 2.84 |
NPV / % | 99.54 ± 3.16 |
本研究通过整合执行功能范式与人工智能技术,为大学生社交焦虑的客观诊断提供了新的方法学框架。研究结果表明,深度学习模型在多模态数据分类中展现出显著优势,特别是本文提出的BEPTCNN模型在各项评估指标上均达到接近完美的分类性能(F1=0.9969±0.0241)。这一发现与近年来神经计算领域的发展趋势相吻合,即在心理健康评估中融合多模态生物特征能够显著提升诊断效能(Oloyede and Hancke,2016)。
传统机器学习模型(SVM、XGBoost、RF)在单一模态数据上的表现验证了前人关于其心理测量局限性的研究结论(Sharma and Giannakos,2020)。这些模型对特征工程的依赖性导致其难以捕捉社交焦虑的多维特征,特别是在处理非结构化脑电数据时表现欠佳(ACC=82.90±9.47%)。与之形成鲜明对比的是,深度学习模型通过端到端学习机制,在行为数据分类中即展现出显著优势(LSTMACC=99.36±4.11%),这与谢婉清等人(Xie et al.,2022)关于深度学习在心理特征提取方面的研究结论一致。
多模态融合模型BEPTCNN的卓越性能(NPV=99.54±3.16%)支持了神经影像学研究的两个关键假设:第一,社交焦虑的神经机制涉及分布式脑网络的功能异常(Yu et al.,2021);第二,行为表现与神经活动之间存在非线性交互作用(Pujol et al.,2013)。该模型通过并行时空特征提取架构,有效整合了前额叶皮层的抑制控制特征(N2成分)、顶叶的工作记忆特征(P3成分),以及行为反应模式,这与Eysenck注意控制理论(2011)提出的焦虑多维模型高度契合。
本研究突破性地实现了社交焦虑的客观量化诊断,其临床价值体现在三个方面:首先,诊断准确率(>99%)显著高于传统量表诊断(约75%~85%)(Bögels et al.,2010);其次,基于ERPs的早期成分(N1/N2)分析为症状前识别提供了可能,这对焦虑障碍的早期干预具有重要价值(Nelson et al.,2024);最后,模型输出的特征重要性图谱可为个体化治疗提供神经调控靶点,这与当前精准精神病学的发展方向高度一致 (L.M.Williams,2016)。
尽管取得显著进展,研究仍存在以下局限:首先,样本量相对较小(N=51),可能影响模型泛化能力,后续研究需进行多中心大样本验证(Vabalas et al.,2019);其次,实验室环境与真实社交场景存在生态效度差异,未来可结合虚拟现实技术提升数据生态效度(Riva et al.,2019);最后,当前模型主要依赖执行功能特征,建议整合社交认知范式(如眼神注视追踪)以增强特征完备性(Schmitz et al.,2012)。
未来研究可沿三个方向深入:第一,开发可解释性AI框架,通过特征反演技术揭示关键诊断生物标记(Samek et al.,2021);第二,构建纵向预测模型,结合ERPs神经可塑性特征实现疗效预测(Bian et al.,2024);第三,探索跨诊断应用,验证模型对广泛性焦虑、创伤后应激障碍等共病的鉴别效能(Dalgleish et al.,2020)。
本研究证实了多模态深度学习在社交焦虑客观诊断中的有效性,所构建的BEPTCNN模型兼具高准确性(>99%)和临床适用性。这一技术突破为发展基于生物标记的心理障碍诊断系统奠定了方法学基础,推动了人工智能与临床心理学的深度融合。