重庆科技大学冶金与动力工程学院,重庆
在全球碳减排目标和高端装备制造快速发展的时代背景下,功能材料轻量化已成为材料工程领域的重要研究方向之一。作为目前工程应用中密度最低的金属结构材料,镁合金凭借其优异的比强度、比刚度、电磁屏蔽与减震性能,在新能源汽车、航空航天及新能源装备等领域表现出了显著的应用潜力。特别是在新能源汽车与储能系统制造过程中,减轻结构件重量能直接提升能量利用效率与系统续航能力,这使镁合金成为实现高效、低碳装备制造的重要候选材料[1,2]。
但是,镁合金材料在实际应用中仍面临着塑性成形能力有限、耐蚀性不足以及成分、工艺参数、组织与性能之间互相影响等问题。同时,材料性能非常受合金成分设计和加工工艺参数的影响,导致镁合金材料研发过程长期依赖人工经验和试错的方式推进研究。这直接导致材料研发周期变长、成本升高[3,4]。Rakshith[5]等人在AZ31镁合金变形与严重塑性变形工艺的综述中也指出,加工方式与工艺参数会显著改变镁合金组织性能和晶粒结构,然后严重影响其力学性能。同时,重庆大学的米晓希[6]等人在相关研究中明确指出,当前新型合金的研发过程仍依赖试错方法,同时还强调研发过程中需要同时考虑合金成分和变形加工条件相互协同,否则难以获得优异性能。随着镁合金应用场景不断复杂化,传统以人工经验和传统文献检索为主的研究方法已不能满足材料工程领域快速迭代的研发需求。
Pablo[7]和Jain[8]等人指出,材料研究工程通过大规模计算模拟、实验与数据驱动方法的配合,为材料研发提供了新的技术方法。近年来,机器学习模型被广泛应用于镁合金力学性能、腐蚀行为及工艺参数优化等任务中,在一定程度上缩短了实验周期。重庆大学的米晓希团队在Mg–Mn基变形镁合金研究中指出,机器学习辅助合金设计能够在有限实验数据条件下缩短研发周期,快速建立合金成分、工艺参数和性能之间的对应关系。但是,Himanen[9]等人又指出现有方法仍高度依赖复杂的实验数据,对文献数据和实验经验等信息挖掘不深,导致在工艺研究决策中难以进行有效判断。
在此背景下,大语言模型(Large Language Models, LLMs)凭借其在自然语言理解、知识整合与推理生成方面的能力,为特定领域知识密集型任务提供了新的技术方法。通过使用大量的文本语料对大语言模型进行预训练,LLM能够在训练过程中积累丰富的通用知识,在不同问答任务中展现出了较好的理解生成能力。Devlin[10]等人提出BERT模型时指出,通过在大规模文本语料上的预训练,模型能够在训练过程中学习并存储丰富的语言知识,为下游自然语言处理任务提供通用理解能力。然而,通用预训练语言模型在材料等高度专业化领域中仍存在明显局限,其对专业领域术语、实验背景及实际工艺条件的理解认识不足。同时,当预训练语言模型在缺乏特定领域知识灌输的情况下,生成的结果容易出现事实性偏差和AI幻觉[11,12]。Grandi[13]等人也指出,通用大语言模型虽然在自然语言任务中表现优异,但在材料科学等高度专业化领域中,由于缺乏特定领域知识系统性的学习,其生成结果在准确性方面仍存在不足。
为提升大语言模型在专业领域中的适用性与科学性,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术逐渐成为研究热点。其中,低秩适配(Low-Rank Adaptation,LoRA)与提示向量微调(P-Tuning v2)作为两种具有代表性的微调技术,能够在冻结预训练模型主要参数的情况下,引入少量可训练参数来提升模型在特定任务上的表现[14,15]。相比于全参数微调,在本地化、私有化知识库问答系统中应用中PEFT方法在计算资源、训练成本和灵活性部署等方面具有显著优势。
研究表明LoRA与P-Tuning v2微调技术在自然语言处理任务中具有良好效果,但在轻量化结构材料中,针对镁合金的系统性研究仍然相对有限。不同微调策略在领域知识问答与决策支持任务中的作用机制、效果提升和可能存在的协同效应,仍有待通过相关实验加以验证
分析[9]。
本文以镁合金领域知识问答与决策任务为应用场景,选取DeepSeek-R1-Distill-Qwen-14B预训练模型作为基础模型,系统研究LoRA与P-Tuning v2两种主流参数高效微调策略在镁合金专业领域知识问答任务中的性能表现。通过构建镁合金领域问答测试集,分别对模型在未微调、单独微调以及联合微调情况下的性能进行对比评估,全面分析微调策略在提升模型专业领域理解能力与问答生成能力的有效性。
本文研究内容主要围绕以下两个目标开展,一是科学评估采用LoRA和P-Tuning v2技术在镁合金领域问答任务中的性能提升效果,并分析二者联合微调时可能产生的协同增效作用。二是通过多轮重复实验与多指标综合评价,验证参数高效微调策略在镁合金领域知识问答任务中的稳定性与鲁棒性。
本研究的核心内容是系统地剖析比较两种主流微调策略—LoRA和P-Tuning v2,在优化预训练模型DeepSeek-R1-Distill-Qwen-14B针对镁合金特定领域知识问答决策任务性能上的作用机制和效果。具体实验目标为独立地使用LoRA和P-Tuning v2两种微调技术于DeepSeek-R1-Distill-Qwen-14B模型上,并在预先准备好的镁合金领域问答测试集上采用准确率(Accuracy Rate)、ROUGE分数、BLEU分数和F1分数(F1-Score)等指标,量化其性能提升,同时探讨两者结合产生的协同增效作用,即联合微调策略对模型性能的进一步推动作用。同时,为了确保实验结果的准确性和稳健度,将采取多次迭代的方法,即将模型在同一测试集上反复验证20次,最后汇总计算各评估指标的平均成绩作为衡量模型性能的可靠基准。通过这种方式,能够更为准确地考察和论证微调技术在优化DeepSeek-R1-Distill-Qwen-14B模型处理镁合金领域知识问答任务时的实际效能。
LoRA(Low-Rank Adaptation)微调技术是一种创新的、参数效率极高的模型优化技术,适用于大型预训练语言模型在特定领域问答任务上的适应性调整。LoRA是一种高效、轻量级的微调方法,主要通过引入低秩矩阵来调整权重[14],如图1(a)所示。具体而言,它涉及冻结LLM的权重矩阵,同时合并可训练的低秩矩阵。这个低秩矩阵
表示为两个较小矩阵
(1)
其中
。
给定决策需求
,它可以表示为输入特征向量
然后通过线性变换对该向量
进行特征映射。在该变换中使用的微调权重矩阵表示为:
(2)
决策线性变换的结果要求
变为:
(3)
其中矩阵
可以被视为对输入要求
的特征调整,包含模型的预训练知识和创造的新的低秩信息。通过这种方法,LoRA能够在不显著增加模型参数规模的情况下,有效降低微调过程中的计算开销与存储成本。同时,通过保持预训练模型主体参数的冻结状态,该方法在不破坏模型原有泛化能力的前提下,进一步提升了模型对新任务和新领域的适应能力。
P-Tuning v2是一种革新性的局部微调技术[16],针对预训练语言模型进行优化设计,旨在保留模型固有知识结构的同时,增强其处理多种下游NLP任务的能力。P-Tuning v2是对P-tuning技术的进一步完善,早期P-Tuning技术通过在模型输入端引入可学习的连续提示向量,指导预训练语言模型完成特定任务。但是,相关研究发现,当模型结构较为复杂或参数规模较大时,训练过程中容易出现不稳定的现象,导致性能提升受限。针对此问题,P-Tuning v2技术在微调设计上进行了关键改进,它将可训练的提示参数从输入阶段引入模型内部的多层结构中,使模型在注意力计算过程中提示信息能够持续发挥作用。具体实现上,P-Tuning v2技术在各层自注意力模块中引入前缀形式的Key和Value,对模型内部的注意力计算过程进行调节,来增强模型对下游任务的理解能力[15]。
训练策略上,如图1(b)所示,该微调策略在各层引入可学习的提示参数,同时冻结预训练语言模型的主要参数,仅优化调整与提示相关的少量参数。这不仅能够显著降低可训练参数规模与计算资源开销,还可以有效抑制过拟合现象发生。同时,这种策略通过保持模型的通用语言能力,增强了它在面对陌生任务时的适应能力,使得模型能够在保持灵活性的前提下,快速适应新的任务要求。总之,通过对提示参数进行合理设计和优化,能够让预训练语言模型在无需经历大规模的重新训练,就能迅速而精确地应对各种复杂的自然语言处理任务。P-Tuning v2微调策略的关键概念地数学公式如下:
(1)Transformer层级表示与自注意力计算
设输入序列长度为
,隐藏层维度为
,在第
层Transformer中,其输入表示为:
(4)
通过线性映射得出查询(Query)、键(Key)和值(Value)向量:
(5)
其中
为预训练阶段已学习并在微调过程中保持冻结的参数矩阵。对应的自注意力输出计算公式为:
(6)
(2)P-Tuning v2的深层连续提示建模
与仅在输入层引入提示的传统方法不同,该技术在各层引入可学习的提示参数,来增强模型处理下游任务的能力。设在第
层中引入长度为
的提示嵌入矩阵:
(7)
同时,为解决直接调整高维度提示参数导致的训练不稳定问题,可以通过提示编码器对其进行映射,生成对应的键和值表示:
(8)
其中
为轻量级映射网路,参数规模远小于主模型。随后,将提示键值与原始键值在序列维度上进行拼接:
(9)
在保持查询向量不变的前提下,更新后的自注意力计算形式为:
(10)
这种机制可以让输入的真实token在每一层注意力计算过程中均能访问提示所提供的上下文辅助信息,从而在多层语义建模阶段引入任务相关性约束。
(3)参数冻结策略与优化变量定义
在P-Tuning v2的训练阶段,预训练语言模型的主干参数
保持冻结,仅对提示相关参数进行优化。设所有层提示参数的集合为:
(11)
在重参数化设置下,也可将其表示为共享基础提示向量与提示编码器参数的组合。模型的条件概率分布可统一表示为:
(12)
(4)训练目标参数
对于给定的下游任务数据集
,P-Tuning v2的核心目标是冻结模型的主要参数前提下,来最小化目标任务的损失函数:
(13)
对于分类任务,该损失通常表示在指定预测位置对类别标签对应词元概率的交叉熵。
(5)参数规模与效率分析
设模型层数为
,隐藏维度为
,提示长度为
,则P-Tuning v2中可训练参数规模近似为:
(14)
相比之下,全参数微调策略需要更新的参数规模为:
(15)
综上,P-Tuning V2通过在Transformer多层自注意力结构中引入连续可学习提示,实现了对模型内部表示学习过程的深层调控。该方法在冻结主模型参数的条件下,仅需优化少量提示参数,即可在多种自然语言理解任务中取得接近全参数微调的性能表现,体现出良好的参数效率与工程实用价值。
图 1 两种微调方法的技术原理示意图(a): Low-Rank Adaptation;(b): P-tuning v2
Figure 1 Schematic diagram of the technical principles behind two fine-tuning methods:(a)Low-rank adaptation;
(b)P-tuning v2
LangChain是一种面向大语言模型(Large Language Models,LLMs)应用开发的模块化框架,旨在简化LLM应用从开发、部署到运行监控的完整周期。该框架通过构建模块化的系统架构,为LMM实际应用提供了良好的可扩展性、系统管理和上下文感知能力。其设计的核心目标在于降低大语言模型在实际工程应用中的集成复杂度,重点解决模型调用、上下文理解、外部知识接入和本地部署等关键问题。从理论上看,LangChain的核心优势是其模块化和可组合的系统设计思想。该框架将大语言模型相关应用划分为若干功能清晰的模块,各模块在功能上相对独立,主要包括模型调用接口、提示模板设计、上下文记忆管理、索引与检索模块,以及向量存储等部分。通过这种结构设计,开发者能够根据具体任务需求对各组件进行灵活组合和扩展,从而在降低系统开发与维护成本的同时,提高应用在不同场景下的适应能力与复用价值[17]。从系统结构看,LangChain框架以检索增强生成(Retrieval-Augmented Generation,RAG)技术为核心处理机制。具体来讲,RAG(Retrieval-Augmented Generation)经常用于LLM中,以提高模型在特定领域任务上的性能,并增加模型处理信息检索和生成任务的能力[18]。检索策略与创建模型的能力相结合,以引入和利用外部知识。如今,LLM + LangChain的设计在市场上的大多数知识库中被采用,并且本研究中使用的LangChain技术基于RAG技术。在图2中说明了将用户问题向量化并将其与数据库中的文本向量进行匹配的过程,然后使用向量相似性算法来识别最相似的文本向量,并且将与这些向量相对应的上下文连同用户的问题一起沿着插入到提示中[19]。最后,将问题提交给LLM以创建答案。
图 2 基于LangChain + LLM的镁合金知识库问答模型数据流程图
Figure 2 Data flow diagram for a magnesium alloy knowledge base question-answering model based on LangChain + LLM
为了有效微调DeepSeek-R1-Distill-Qwen-14B基础模型,使用包含与特定领域和语言相关的问答对数据集至关重要[20,21]。微调过程的有效性主要取决于问答对的质量和数量。质量是指每个问答对中信息的相关性、准确性和丰富性。数量意味着有足够的数据量来全面训练模型[22]。针对特定领域知识微调LLM的一个主要挑战是,这些通用LLM被灌输了缺乏严格专业化的数据集专业知识[23],因此需要编译足够科学专业的微调数据集。为了构建镁合金领域问答数据集,本文从在线文献数据库等资料中收集了约10000篇镁合金领域的PDF参考文献。然后,利用大语言模型对文献内容进行初步解析与问答对生成。随后,通过规则筛选与人工校验相结合的方式,对生成结果进行质量控制,同时,所有问答对均保留知识库原始文献来源,以确保数据的可追溯性与可靠性。经过严格筛选和处理,最终精心构建了一个包含5130条问答对的镁合金领域专用数据集。(注:所有参考文献都是作者从学校图书馆资源库中下载,数据集和文献资源库也是作者构建,所用到的数据均没有设计保密、未开源的)。
为确保数据集的事实准确性、领域专属性与语言一致性,本研究建立了一套严格的质量控制流程。首先,为保证数据集的可靠性,研究团队组织领域专家对全部生成的问答样本进行了系统、全面的审查。专家组对无效、重复及不完整的条目予以剔除,确保每个样本均包含定义明确的问题及其相应答案。同时,专家还对数据中存在的逻辑不一致或信息冲突进行了修正,从而保证了数据集的准确性与内部一致性。其次,在文本净化与精炼阶段,清除了无关符号、多余空格及编码残留等干扰信息。最后,通过标准化处理,对技术术语、缩略语及单位进行了统一,参照领域权威文献及国际标准(如ASTM、ISO)术语表,确保术语表达的规范性与一致性。数值与单位格式亦按学科惯例进行规范化,以避免歧义和误读。
研究发现,通过对问答数据集进行主题标注,可以有效明确数据集样本所涉及的领域知识范围和问题类型,减少不同主题之间的语义混淆,提升数据在训练阶段的可解释性与可控性。具体实现中,本文采用基于统计权重的关键词匹配分类方法对数据集问答样本进行主题标注。该方法通过统计不同主题中关键词出现的频率和权重分布,构建主题词关键词集合,并依据问答对中关键词的累计权重对问答对进行主题归类,实现对数据语义重心的判定。相较于人工进行的标注方式,该方法在保证标注一致性的同时,兼顾效率和可扩展性[24-26]。该分类方法的关键原理公式如下:
(1)文本预处理,为消除文本长度及关键词数量差异对分类结果的影响,对关键词匹配得分向量进行归一化处理,具体表示为:
(16)
(2)主题词典构建,该步骤通过人工规则、领域知识或统计分析方式,为每个主题构建一组具有代表性的关键词集合,用于刻画该主题的语义边界。
(17)
表示第
个主题(类别)对应的关键词集合,用于后续的匹配与统计,是整个关键词匹配分类方法的核心知识基础。
(3)主题匹配得分方式,
是文本中所有术语主题
的关键词出现之和,是常见的关键词匹配得分模型。
(18)
(4)主题归属决策,选取最高得分的主题为最终类别,数学公式如下:
(19)
若所有主题得分均为0,则归为“其他”。通过上述措施,最终构建的数据集在标准化程度、一致性及技术准确性方面均达到较高水平,有效降低了模型从错误或含糊数据中学习的风险。数据集涵盖了从合金成分设计、显微组织表征、腐蚀机理及力学性能等多个技术子领域,标注分类结果如表1所示。
表 1 用于微调模型的镁合金数据集主题数量
Table 1 Number of topics in the magnesium alloy dataset for fine-tuning models
| 类型 | 关键词 | 数量 | 比例(%) |
| 工艺参数和成形控制 | 焊接速度、送丝速度、热输入 | 1480 | 28.80 |
| 成形质量 | 气孔、裂纹、飞溅 | 650 | 12.70 |
| 合金成分设计 | Mg、稀土元素、合金化、Zn | 920 | 17.90 |
| 微观结构表征 | 晶粒、析出相、SEM | 820 | 16.10 |
| 力学性能分析 | 屈服强度、抗拉强度、硬度、疲劳寿命 | 720 | 14.00 |
| 其他 | 热处理、表面改性等 | 540 | 10.50 |
使用上节概述的方法生成的微调数据集(测试集占总数据集的20%)来微调选定的基础模型。为提升模型在镁合金领域问答任务中的性能表现,本研究独立地使用LoRA和P-Tuning v2两种微调技术应用于DeepSeek-R1-Distill-Qwen-14B模型上,并在预先划定的测试集上通过准确率(Accuracy Rate)[27]、ROUGE分数[28]、BLEU分数[29]和F1分数(F1-Score)[30]等指标,量化其性能提升,同时再探讨两者结合产生的协同增效作用,即联合微调策略对模型性能的进一步推动作用。为了确保实验结果的准确性和稳健度,将采取多次迭代的方法,即将模型在同一测试集上反复验证20次,最后汇总计算各评估指标的平均成绩作为衡量模型性能的可靠基准。微调超参数是参照相关文献中的最优阈值,然后通过针对性的调整和验证进行优化,确保训练稳定性和使模型性能达到最佳状态。具体微调参数设置如下:训练总轮数epoch为20,学习率设为3e-4,同时选用基于标签平滑的损失函数作为优化目标。
采用准确率(Accuracy Rate)、ROUGE分数、BLEU分数和F1分数(F1-Score)等4个核心指标来定量评价微调LLM的性能。具体性能指标如图3所示。
图 3 迭代微调后模型性能指标图
Figure 3 Model performance metrics chart after iterative fine-tuning
如表2记录了不同微调技术中,模型在同一测试集上严格迭代20轮后,所取得的各项核心性能指标的平均值及其对比情况。
如表2所示,相较于未经微调的基础模型,单独采用LoRA或 P-Tuning v2微调技术均使模型在关键核心指标上得到了显著提升。更为重要的是,当两种方法结合应用时,模型在各项核心评价指标上表现出了显著的协同增强效应,验证了混合微调策略的有效性。
表 2 不同模型与微调策略在镁合金领域知识问答任务上的性能对比(平均值)
Table 2 Performance comparison of different models and fine-tuning strategies on magnesium alloy knowledge question-answering tasks(Average Values)
| Accuracy | F1-Score | ROUGE-Score | BLEU-Score | |
| LoRA | 0.795 | 0.771 | 0.619 | 0.616 |
| P-Tuning v2 | 0.800 | 0.791 | 0.610 | 0.602 |
| LoRA + P-Tuning v2 | 0.841 | 0.835 | 0.643 | 0.638 |
| 未微调DeepSeek-R1 | 0.741 | 0.732 | 0.531 | 0.554 |
这种协同增强效应源于LoRA与P-Tuning v2在机制层面的互补性[31]。两者在模型主要参数冻结的情况下并行应用,LoRA通过在Transformer的关键线性层中加入低秩参数对模型权重进行局部调节,使模型能够在改变少数参数情况下更好的学习适应新任务。而P-Tuning v2则在各Transformer层输入端引入可训练的提示向量,提供特定任务的上下文信息,优化注意力分配。通过这种同时对模型权重和输入提示进行调整的方法,微调后的模型能够在提升任务适应性和泛化能力同时,仅带来极小的训练参数增加[32]。对比实验结果表明,该联合策略在各项性能指标上均优于单一微调方法。
基于上述结果,本研究将经LoRA与P-Tuning v2联合微调后的模型集成至LangChain框架中,并导入针对镁合金领域构建的本地化语料库,随后在后续的参数优化与推荐任务中进一步提升模型的准确性与科学性。
本文面向镁合金领域知识问答与决策任务,针对通用大语言模型在专业领域中语言理解能力不足、文献知识分散和问答输出结果不可靠等问题,以DeepSeek-R1-Distill-Qwen-14B为基础模型,系统对比评估了LoRA与P-Tuning v2两种微调策略及联合微调策略的领域适应性。实验结果表明,在同一测试集与评估标准下,相较于未经微调的模型,单独采用LoRA或P-Tuning v2技术均能够在Accuracy、F1、ROUGE与BLEU等4项核心性能指标上实现稳步攀升。进一步研究发现,联合微调后的模型在四种指标上表现更优,体现出显著的协同增强效应,说明两种方法能够共同促进模型对镁合金问答任务的学习,提高生成结果的质量。基于上述结果,本文将联合微调后的模型集成至LangChain框架,为后续本地化部署镁合金知识库系统开展检索增强问答与决策支持提供可参考的工程实现路径。
[1] Gupta M,Ling S N M.Magnesium,magnesium alloys,and magnesium composites [M].John Wiley & Sons,2011.
[2] Joost W J,Krajewski P E.Towards magnesium alloys for high-volume automotive applications [J].Scripta Materialia,2017,128:107-112.
[3] Ghorbani M,Boley M,Nakashima P N H,et al.An active machine learning approach for optimal design of magnesium alloys using Bayesian optimisation [J].Sci Rep,2024,14(1):8299.
[4] Hirsch J,Al-Samman T.Superior light metals by texture engineering:Optimized aluminum and magnesium alloys for automotive applications [J].Acta Materialia,2013,61(3):818-843.
[5] M R,P S.Review on the effect of different processing techniques on the microstructure and mechanical behaviour of AZ31 Magnesium alloy [J].Journal of Magnesium and Alloys,2021,9(5):1692-1714.
[6] Mi X,Dai L,Jing X,et al.Accelerated design of high-performance Mg-Mn-based magnesium alloys based on novel bayesian optimization [J].Journal of Magnesium and Alloys,2024,12(2):750-766.
[7] de Pablo J J,Jones B,Kovacs C L,et al.The Materials Genome Initiative,the interplay of experiment,theory and computation [J].Current Opinion in Solid State and Materials Science,2014,18(2):99-117.
[8] Jain A,Ong S P,Hautier G,et al.Commentary:The Materials Project:A materials genome approach to accelerating materials innovation [J].APL Materials,2013,1(1).
[9] Himanen L,Geurts A,Foster A S,et al.Data-driven materials science:status,challenges,and perspectives [J].Advanced Science,2019,6(21):1900808.
[10] Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics:human language technologies,volume 1(long and short papers).2019:4171-4186.
[11] Bender E M,Gebru T,McMillan-Major A,et al.On the dangers of stochastic parrots:Can language models be too big?[C]//Proceedings of the 2021 ACM conference on fairness,accountability,and transparency.2021:610-623.
[12] Petroni F,Rocktäschel T,Riedel S,et al.Language models as knowledge bases?[C]//Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th international joint conference on natural language processing(EMNLP-IJCNLP).2019:2463-2473.
[13] Grandi D,Jain Y P,Groom A,et al.Evaluating Large Language Models for Material Selection [J].Journal of Computing and Information Science in Engineering,2024,25(2).
[14] Hu E J,Shen Y,Wallis P,et al.Lora:Low-rank adaptation of large language models [J].ICLR,2022,1(2):3.
[15] Liu X,Ji K,Fu Y,et al.P-tuning:Prompt tuning can be comparable to fine-tuning across scales and tasks[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).2022:61-68.
[16] Zhang Z R,Tan C,Xu H,et al.Towards adaptive prefix tuning for parameter-efficient language model fine-tuning[J].arXiv preprint arXiv:2305.15212,2023.
[17] Gupta M.LangChain in your Pocket:Beginner’s Guide to Building Generative AI Applications using LLMs [M].Mehul Gupta,2024.
[18] Lewis P,Perez E,Piktus A,et al.Retrieval-augmented generation for knowledge-intensive nlp tasks [J].Advances in neural information processing systems,2020,33:9459-9474.
[19] Xue X,Zhang D,Sun C,et al.Xiaoqing:A Q&A model for glaucoma based on LLMs [J].Computers in Biology and Medicine,2024,174:108399.
[20] Howard J,Ruder S.Universal language model fine-tuning for text classification[J].arXiv preprint arXiv:1801.06146,2018.
[21] Liu P,Yuan W,Fu J,et al.Pre-train,prompt,and predict:A systematic survey of prompting methods in natural language processing [J].ACM computing surveys,2023,55(9):1-35.
[22] Sanh V,Webson A,Raffel C,et al.Multitask prompted training enables zero-shot task generalization[J].arXiv preprint arXiv:2110.08207,2021.
[23] Lee J,Yoon W,Kim S,et al.BioBERT:a pre-trained biomedical language representation model for biomedical text mining [J].Bioinformatics,2020,36(4):1234-1240.
[24] Boyd-Graber J,Hu Y,Mimno D.Applications of topic models [J].Foundations and Trends® in Information Retrieval,2017,11(2/3):143-296.
[25] Dwivedi S K,Arya C.Automatic text classification in information retrieval:A survey[C]//Proceedings of the second international conference on information and communication technology for competitive strategies.2016:1-6.
[26] Sparck Jones K.A statistical interpretation of term specificity and its application in retrieval [J].Journal of documentation,1972,28(1):11-21.
[27] Powers D M W.Evaluation:from precision,recall and F-measure to ROC,informedness,markedness and correlation[J].arXiv preprint arXiv:2010.16061,2020.
[28] See A,Liu P J,Manning C D.Get to the point:Summarization with pointer-generator networks[J].arXiv preprint arXiv:1704.04368,2017.
[29] Graham Y.Re-evaluating automatic summarization with BLEU and 192 shades of ROUGE[C]//Proceedings of the 2015 conference on empirical methods in natural language processing.2015:128-137.
[30] Yacouby R,Axman D.Probabilistic extension of precision,recall,and f1 score for more thorough evaluation of classification models[C]//Proceedings of the first workshop on evaluation and comparison of NLP systems.2020:79-91.
[31] Ding N,Qin Y,Yang G,et al.Parameter-efficient fine-tuning of large-scale pre-trained language models [J].Nature machine intelligence,2023,5(3):220-235.
[32] Wu Q,Chen X,Luo M,et al.Research on the optimization of seamless steel pipe cooling process based on large language models [J].AIP Advances,2025,15(9).