上海政法学院,上海
《国家中长期教育改革和发展规划纲要(2010—2020)》中明确提出:“注重因材施教,关注学生个性差异,发展其优势,挖掘其潜能。”自2014年提出高考改革以来,大部分省市已完成新高考政策的落实,一部分省市采取“3+3”模式,一部分省市采取“3+1+2”模式,都摒弃了传统的文理分科模式,变为多种学科组合,让学生能够有更多更自由的选择,其本质都是尊重学生个性发展,让其能够选择适配、心仪的专业。
但大部分高中毕业生受制于学业繁重、信息甄别能力较差、自我认知较弱、对各行各业了解有限等原因,对未来大学专业的选择并不清晰准确。中国青年报通过采访发现,在填报志愿时,22.36%的学生感到很迷茫,不知道自己适合、喜欢什么专业;57.18%的学生感到比较迷茫,有一些想法,但不是非常确定;只有20.46%的学生没有感到迷茫,有明确向往的专业方向。李美华在《新高考模式下培养高中毕业生生涯规划意识的思考》中提到,我国的高中毕业生中,80%以上不了解自我特长和社会对人才的要求,70%对填报志愿无自我想法;大学生当中,42.1%不满意其专业,65.5%想选择其他专业[1]。由此可见,新高考模式下所预期的学生个性化发展并没有得到很好的效果。
本研究基于用户画像技术,首先通过文献研究、教育数据分析与挖掘等方法采集高中毕业生的静态数据和动态数据(静态数据为基础,动态数据对用户画像进行更新和完善),并对数据进行预处理和提炼。接着以采集到的数据精炼出高中毕业生的共性特征,最后对高中毕业生进行用户画像。最后,建立高中毕业生画像与大学专业的关联规则,对高中毕业生进行个性化推荐,实现高中毕业生与其适配的大学专业的精准匹配。旨在帮助高中毕业生更好地认识自己,同时更好地实现学生的个性化发展,发挥其优势,挖掘其潜能。
用户画像研究是当前信息技术和数据分析领域的一个重要分支,它通过收集和分析用户的各种数据来构建用户的虚拟形象,以便更好地理解用户需求、行为模式和偏好。用户画像通常包含用户属性、用户特征、用户标签三个基本要素。其中用户属性可分为静态属性和动态属性两个部分,静态属性即用户的基本属性,如姓名、性别、年级、班级、生源地等;动态属性即用户的行为属性,如学生在校期间不断产生的数据,包括学习成绩、竞赛成绩、活动表现等[2]。用户特征是以用户属性为基础提炼出的共性特征,用户标签是对用户特征进行总结提炼出的标签化符号表示,画像构建的核心即为标签体系的建立。根据主体区分的原则,用户画像又可分为个体用户画像和群体用户画像两个部分[2]。
画像技术是依据目标用户的属性数据,构建用户虚拟模型的一种技术手段。画像存储了用户的基本情况,如年龄、性别、位置、知识水平、背景和技能、兴趣偏好等信息。[3]
用户画像作为实现精准信息服务的一种工具,近年来在电商、音乐、图书馆、旅游管理等领域得到了较为广泛的应用。曹芳等通过校园一卡通的数据进行学生画像,优化食堂管理[2];张蕾等通过采集学生校园平台的行为数据构建高校就业大数据服务平台,实现就业资源的个性化推荐[3];田雅慧通过MOOC后台学习数据进行学生画像,设计MOOC学情预警机制[4];胡鹏林在数据分析、调研访谈等基础上对网络游戏用户进行年龄、学历、职业和收入画像,并以此提出了针对未成年人用户的网络监管措施[5]。陈志伟提出一种基于用户画像技术的大学生群体综合特征画像标签体系与构建框架,以便更好地应用于大学生群体特征分析,从而推动教育的个性化发展[6]。龚黎旰基于校园一卡通消费数据构建学生画像,通过聚类分析识别经济困难及心理孤立群体,为高校资助帮扶和心理健康干预提供数据支撑[7]。彭利园基于云课堂数据构建资源与学习者画像,通过聚类与矩阵分解识别课程健康差异、设备偏好与知识关注,揭示移动端学习低、程序性知识更受关注,为高校优化资源与教学推荐提供依据[8]。由以上可知,对于学生群体,大部分研究通过对校园一卡通、在线学习平台等学生行为数据的采集进行学生画像,主要是针对高校学生的学情预警、学生管理、学生教育、毕业就业等方面的研究,专门针对高中毕业生与大学专业的精准匹配的研究较少。而随着新高考的改革,多样化选择的出现,个性化发展的倡导,高中毕业生对于选择适配大学专业的需求亟需解决。
用户画像的构建流程主要包括数据采集、数据预处理与挖掘、共同特征提取,标签体系建立,用户画像生成等步骤[2]。画像构建方法包括教育数据分析与挖掘、自然语言处理、协同过滤算法、双向聚类分析和画像的可视化等方法。
本研究采取静态数据与动态数据相结合的方式对高中毕业生进行画像。在高中入学时对高中毕业生进行数据采集,由于此时还未产生相关动态数据,所以主要为静态数据的采集。通过对静态数据的处理与挖掘,提取特征,建立标签,生成基础画像。在之后的在校学习期间,不断地采集高中毕业生的动态数据,对基础画像进行修正和更新,最后产生一个最终的学生画像[9]。通过该画像所体现的学生特质,为该学生个性化推荐大学专业,实现高中毕业生精准匹配大学专业。
图 1 高中毕业生画像构建框架
Figure 1 Framework for constructing a portrait of high school graduates
本研究将高中毕业生画像数据处理为静态数据与动态数据。静态数据,又称属性数据,是可直接获取的基础信息,并且在较长一段周期内保持不变,如性别、年龄、性格、家庭状况等。动态数据,又称行为数据,是高中毕业生在校期间不断产生的数据,如学习成绩、参加的活动、相关竞赛、学校担任相关职务等。
通过对这些数据的处理和分析,我们可以提取出学生的学科特长、个人素质、性格特征等关键信息,并为其打上相应的标签。这些标签共同构成了学生的画像模型,为后续的个性化推荐提供了有力的数据支撑。
静态数据包括学生姓名、性别、年龄、性格、省市等,可使用信息问卷和测评工具进行数据的采集。性格评测可使用MBTI职业性格测试,兴趣评测可使用霍兰德职业兴趣测试。由于静态数据并非一成不变,所以将定期进行三次采集,即高一、高二、高三各一次,以确保数据的准确性和有效性。
动态数据包括学生学习过程中和实践过程中所产生的行为数据。通过对教务系统中考试成绩等数据的采集,构建学习雷达图,直观地反映高中毕业生学习数据的变化,即时更新学生画像。实践过程中所产生的行为数据包括竞赛、各类活动、学校职务等,可由老师录入或学生自主录入,学校审批的模式进行数据采集,通过不断地动态数据的输入,形成围绕高中毕业生的词云。
数据处理是学生数据模型构建的重中之重,需要综合考虑学生在学校平台、移动终端、学习管理系统等网络环境中产生的数据。基于画像技术的高中毕业生择校资源个性化配置与实践探究,需要解决网络环境中产生的各类数据及其冗余、错误、缺失等问题,根据不同的需求进行筛选,最后针对有效且有用的信息进行分析[3]。在数据深度挖掘与处理方面,需要把初步采集的数据通过自然语言处理、词云分析法进行分析。对静态数据和动态数据进行整合,获悉高中毕业生的学科特长、个人素质、性格特征等信息,并将这些信息综合处理,通过基于统计的方法、基于元分析的方法以及基于相关性分析的方法构建相关标签,例如,对于高中毕业生行为特征信息的提取一般通过行为标签来体现。
表 1 学生基本信息数据模型表
Table 1 Data model table for basic student information
维度名称 | 示例 |
姓名 | 李** |
班级 | ***班 |
年龄 | 18 |
性别 | 男 |
MBTI | ISTP |
... | ... |
表 2 学生竞赛活动成绩记录数据模型表
Table 2 Data model table for student competition activity performance records
维度名称 | 示例 | |
姓名 | 李** | |
职务 | 校学生会主席 | |
比赛名称 | 全国中学生数学奥林匹克竞赛 | 一等奖 |
重大活动 | 校运会—1000米长跑 | 二等奖 |
... | ... | ... |
图 2 建立标签集
Figure 2 Establish a tag set
通过对高中毕业生静态数据与动态数据的采集、深度挖掘与处理,可以提取出相关关键词,以此来建立标签集。例如,高中毕业生A担任班长,组织了多个班级活动,则会被打上领导能力、组织沟通能力较强的标签;获得了某艺术竞赛的奖项,则会被打上艺术能力较强的标签。
通过对行为数据进行特征提取,产生一个个标签,最后形成标签集,为生成学生画像提供数据支撑,如图2所示。
基于上述数据采集、处理以及特征提取和标签建立的过程,我们可以生成学生的个性化画像模型。这一模型主要通过图形化面板呈现学生的综合能力特征,包括文字撰写能力、学习能力、沟通能力、逻辑思考能力、人格魅力等方面。
根据学生在不同维度上的表现,我们可以将其画像类型划分为研究型、创造型、实践型和社交型等四种类型[10]。这些类型的划分有助于我们更好地理解学生的特点和需求,并为后续的个性化推荐提供更加精准的服务。
研究型:通常表现为理科科目成绩较好,逻辑能力强,喜欢独立思考,抽象思维和动手能力较强,但不擅长领导他人。
创造型:通常表现为富有想象力和创造力,喜欢表达自身的情感与价值观,追求自由,做事理想化,追求尽善尽美。
实践型:通常表现为动手能力强,喜欢操作性任务,注重实践和执行,较偏好独立行事,社交能力较缺乏。
社交型:社会型的人善于交际;沟通能力强,社会义务和道德感较强;渴望发挥自己的作用并收到肯定;喜欢和谐友爱的环境,不喜欢与人起冲突[7]。
在用户画像构建完成之后,可以更加清晰地了解用户的性格、特征、优势与爱好,从而精准匹配更有针对性的大学专业,为学生提供个性化的推荐,进而实现高中毕业生与高校的精准化双向推荐。
大学专业资源个性化推荐的实现主要依赖于大学内开设专业资源系统的丰富性以及高中毕业生画像模型的准确性。
初期,高中毕业生择校服务平台的建设从学生和大学招生的角度出发,分别建立高中毕业生画像和大学专业资源信息库,各高校可发布当年招生需求信息,学生可根据自身的发展需求进行预设;平台将各高校的详细信息,如高校规模、地域、招生需求、学科专业、历年录取情况、人才培养等进行标签化处理,借助机器学习、协同过滤算法和双向聚类分析等技术,充分考虑专业与人才的双方需求因素,进行双向匹配,实现高中毕业生择校和高校招生的双向推荐。学生登录平台可以查看自己被推荐的大学及对应专业,并决定是否进一步了解,建立起双方的联系,实现与大学招生办的沟通。在高校和学生的双向选择阶段中,平台可以通过监督学生与高校的沟通过程,从而有效地保障双方权益,同时收集学生的专业需求与高校的招生需求数据,可进一步作为学生自身发展需求能力提升的依据,同时也作为对各高校进行评价和衡量的依据和参考。
后期,可通过分析该高校招生进度、录取学生的数量和画像等信息评估高校的信用、实力,进而优化高校招生数据资源,同时为下一届学生的大学及专业资源推送工作做好准备,以提供更准确更细致的个性化推荐。
针对高中毕业生的大学专业个性化推荐是建立在高中毕业生专业需求、能力与大学人才需求、专业相匹配的基础上的。高中毕业生择校服务平台收集了大量高中毕业生的多维度数据,能够对每位学生进行精准画像,通过分析学生在平台的各项能力和知识水平数据、主观专业偏好以及发展潜力估值,将学生的专业兴趣与个人能力量化,并与高校的招生专业及需求进行智能匹配,从而为学生提供个性化的专业推荐服务。
在实现推荐服务的过程中,需运用自然语言处理(NLP)技术对学生感兴趣的高校及专业信息进行深入挖掘。具体而言,首先需要整合相关文本(如高校介绍文本、专业描述文本),通过 n-Gram、CRF 和 HMM 等模型完成精准分词,计算词语出现的概率。接着,利用 TF-IDF 算法提取关键词,并通过 word2vec 技术对关键词进行编码处理。随后,将这些编码与学生的成绩、学分等因素结合,利用加权回归生成高校向量和学生专业向量表达。最后,通过计算向量之间的余弦相似度来评估学生与高校专业之间的匹配度,并根据匹配度对推荐结果进行排序展示,从而实现专业资源的精准化、个性化推荐,如图3所示。
图 3 择校个性化推荐路径
Figure 3 Personalized recommendation path for school selection
高中毕业生的画像越具体,维度越丰富,平台所提供的就读高校信息和匹配专业的准确性和适配性就越高。依据画像,平台匹配高校专业与高中毕业生的需求信息,计算出专业与学生能力的匹配值,进而实现高校及专业信息的推送。其中,高中毕业生择校服务平台包含人才及专业的双向匹配,并以平台推荐为主学校推荐为辅。平台推荐是指通过计算专业与人才的匹配值,给出学生与高校、专业的综合匹配度,以此实现高校和专业信息的智能推送;学校推荐是指在平台推荐的基础上,通过管理人员招生办人员或相关管理人员进行有目的有选择的干预,依据高校招生需求和学生培养方案要求,定向地向部分学生推送相关信息,以实现更精准的推荐服务[3]。
高中毕业生择校服务平台的核心是以毕业生未来的成长与发展为导向,依托各类学习平台和学校学生管理系统提供强大的资源支持,同时结合高校专业的大数据分析与控制系统进行全面的管理与干预。整体上,该平台从毕业生成长的角度出发,通过收集学生的静态数据和动态数据,在完成特征提炼、标签体系建立后初步绘制学生的择校画像。在高中学习阶段,学生的动态数据,包括课程学习、实践活动和竞赛成绩等信息不断输入,进而完善和丰富学生的择校画像。到了毕业择校阶段,平台根据已生成的择校画像,为学生推荐最合适的高校及专业,帮助学生提升个人能力,确保其能够匹配理想的院校与专业,从而实现学生的持续性成长与发展。
目前,我国在学生画像领域的研究仍处于起步阶段。一方面是因为收集的数据较为浅显、单一,如对高中毕业生画像的数据主要依赖于学习平台和各校学生系统,平台少且数据量有限,因此实现对学习者的精准画像仍存在困难。另一方面是在对用户能力量化描述的技术和机器模型算法仍需要完善与提高。
在未来的研究中,一方面需要结合行为科学的前沿研究成果和高中生在家庭活动表现出来的特质,采集更加全面、细致的学习过程数据,从而提升学习画像的准确性和全面性,为高中毕业生匹配适合的大学及专业提供更有效和准确的支持。另一方面,还需进一步完善高校大数据平台的专业资源信息,推进与各高校间的数据共享,优化高中毕业生择校服务平台。此外,要通过不断改进和优化机器学习模型的算法,提升高中生成长动态评估和专业匹配的准确性,推动教育走向“私人订制”“千人千面”的精准教育[11]。并在实际应用中持续升级完善,最终推动“互联网+教育”模式下的高中生择校新生态的形成。
[1]李美华.新高考模式下培养高中毕业生职业生涯规划意识的思考[J].教学与管理,2015(34):24-26.
[2]曹芳,章翰源.基于大数据的学生食堂消费画像构建及其应用[J].湖南邮电职业技术学院学报,2020,19(4):27-30.
[3]张蕾,贺琳,刘洪超,等.基于画像技术的大学生就业资源个性化配置与实践探究[J].信阳师范学院学报(哲学社会科学版),2022,42(5):82-87.
[4]田雅慧.基于学习者画像的MOOC学情预警研究[D].华东师范大学,2020.
[5]胡鹏林.谁在玩网络游戏:用户画像及未成年人监管[J].深圳大学学报(人文社会科学版),2025,42(1):59-68.
[6]陈志伟,李畅畅,许博涛,等.基于用户画像的大学生群体综合特征分析方法[J].软件导刊,2024,23(11):74-83.
[7]龚黎旰,顾坤,明心铭,等.基于校园一卡通大数据的高校学生消费行为分析[J].深圳大学学报(理工版),2020,37(S1):150-154.
[8]彭利园.基于在线学习平台的资源画像及推荐研究[D].华中师范大学,2020.
[9]卿青,汪丽娟.新高考背景下高中毕业生学业规划之大学专业选择策略研究[J].科教文汇(上旬刊),2021(25):130-133.
[10]吴瑞溢.基于RFM模型的福建省高职大学生行为画像分析[J].厦门广播电视大学学报,2021,24(2):78-84.
[11]孙发勤,董维春.基于学习分析的在线学习用户画像研究[J].现代教育技术,2020,30(4):5-11.