1. 华东政法大学,上海; 2. 司法鉴定科学研究院,上海
为了解决一代测序技术成本高和通量低等缺陷,响应科研人员对更为先进、更低成本、更高通量的测序技术的诉求,基于大规模平行测序(Massively Parallel Sequencing,MPS)思想的第二代测序技术(Second Generation Sequencing,SGS)亦称新一代测序技术(Next Generation Sequencing,NGS)应运而生。依靠第二代测序技术研发的SGS测序平台主要包括基于焦磷酸测序原理的Roche公司推出的454基因组测序仪、Illumina公司推出的基于边合成边测序原理的Illumina测序平台以及Thermo Fisher Scientific公司推出的基于离子流半导体芯片DNA测序技术的Ion Torrent测序平台。与第一代测序技术(Sanger Sequencing)相比,第二代测序技术克服了Sanger测序操作繁琐且成本高的缺点,同时提高了测序通量和速度;与第三代测序技术(Single Molecule Sequencing,SMS)相比,第二代测序技术降低了成本的同时测序错误率较低。目前,由于市场运营等问题,Roche公司宣布其454测序仪退出市场,Illumina平台和Ion Torrent平台成为当下全球测序市场上主要的SGS测序平台,在法医学领域引起了学者的广泛关注和研究热潮。本文就应用SGS测序技术检测法医遗传标记的研究进展及常见的应用到法医学领域的SGS测序平台进行介绍和展望。
个体的单位遗传性状作为标志用于法医物证分析时,这种遗传性状就称为遗传标记(Genetic Marker,GM)。具有个体特异性的遗传标记的检测与分析是法医学进行个体识别的重要依据。目前在法医学中推广应用的遗传标记主要有以下三类:(1)短串联重复序列(Short Tandem Repeat,STR),是一类存在于人类基因组DNA中的由2~6个碱基的串联重复单位组成的DNA序列。STR基因座根据分布的染色体位置可分为常染色体STR基因座(A-STR)、X染色体STR基因座(X-STR)和Y染色体STR基因座(Y-STR);(2)单核苷酸多态性(Singlenucleotide Polymorphism,SNP),是人类基因组内特定位点上单个碱基序列的变异。在法医学领域SNP遗传标记可划分为个人识别SNP(Individual Identifying SNP,IISNP)、祖先信息SNP(Ancestry Informative SNP,AISNP)、表型信息SNP(Penotype Informative SNP,PISNP)、Y-SNP等;(3)其它,如能够对组织特异性进行检测的mtDNA以及mRNA等。
从20世纪80年代至今,人类基因组中广泛存在的微卫星DNA区域,也被称为简单序列重复(Simple Sequence Repeats,SSR)或短串联重复(Short Tandem Repeats,STR),是由核心序列2~6个碱基组成的串联重复DNA序列。STR序列在人类基因组中占5%左右,平均每6~10kb就出现一个STR基因座,其中大约一半具有遗传多态性。另外,STR重复单位小从而杂合子个体的两个等位基因在长度上差异小且两等位基因间不存在差异扩增的问题,因而易于PCR扩增成为法医学中最为常用的一类DNA遗传标记。目前国内外与法医学相关的DNA数据库主要是围绕STR基因座建立的。因此,SGS技术要想在法医学领域推广应用就必须能对这一类遗传标记进行测序检测。然而要将SGS技术应用于STR基因座检测仍有以下问题需要解决:一是现有平台测序读长的限制。STR基因座扩增子长度跨度大,大多数SGS测序平台的读长不能完全满足其检测的需求。二是检测和读取比对重复结构较多的复杂核心序列基因座或复合核心序列基因座(如D21S11、FGA等)的序列信息存在困难。三是要有符合法医使用习惯的且STR分型准确的生信分析软件,在数据处理层面上,不同重复结构的核心序列会使STR基因座更加复杂,倘若生信分析软件无法提供准确的STR分型,即使得到正确的序列信息,也需要大量的时间和人力去检查和清理数据。四是等位基因命名问题,通过测序揭示了STR基因座多态性的本质就是长度多态性和序列多态性,面对STR基因座中具有长度一致但序列结构信息不一致的同等位基因该如何命名是应用SGS测序技术检测STR基因座迫切需要解决的问题。随着测序平台技术的进步以及法医科研人员和SGS测序平台的厂商们的不懈努力下取得了一定的成果,早在2012年,由Bornman DM等人针对13个CODIS核心STR基因座的序列多态性通过Illumina GAII测序仪进行测序研究,其结果获取13个CODIS核心STR基因座的全部等位基因序列,这更加证实了SGS测序技术在STR基因座检测中的优势。之后,Illumina公司就针对Miseq测序平台先后推出相关测序试剂盒,如PowerSeqTM Auto System,ForenSeqTM DNA Signature Prep Kit,尤其是后者,它可以同时检测超过200个遗传标记,包含多种遗传标记(Amelogenin、27个A-STR、7个X-STR、24个Y-STR、94个IISNP、22个PISNP和56个AISNP),显示了SGS测序技术在法医学领域的多种应用方向,同时也反映了采用SGS测序平台进行STR基因座研究的优势。相信随着SGS测序技术不断完善,利用SGS测序技术检测STR基因座会更加成熟。
单核苷酸多态性(Singlenucleotide Polymorphism,SNP)是人类基因组中分布最广泛的二等位基因遗传标记。具有稳定可靠,PCR产物较短以及适用于降解检材检测等特点。作为法医学中最常见的一类多态位点,与STR基因座相比,单个二等位基因SNP遗传标记所含的遗传信息含量比单个多等位基因的STR遗传标记低,因而单个二等位基因SNP遗传标记的识别能力也低于单个多等位基因的STR遗传标记。但是二等位基因SNP遗传标记在基因组中分布广泛且数量多,所以必须通过检测更多的SNP遗传标记,才能满足个人识别和亲缘鉴定的需求。就SNP遗传标记的法医学应用来说主要可分为:(1)个人识别:一是降解检材个体身份信息识别,当生物检材高度降解时,STR基因座检测无法获得完整的分型信息,而SNP遗传标记是发生在单个碱基上的变异,设计的引物可尽量靠近变异区域因而得到较短的PCR扩增产物,更适合于分析法医降解检材。如个人识别SNP(Individual Identifying SNP,IISNP)遗传标记,在不同群体间具有较高的杂合度、扩增片段短(通常<200bp)、群体间分化度低以及不与常用STR基因座发生连锁反应等特点,在保证了不同遗传标记间的中立性同时降低了遗传结构差异对IISNP遗传标记造成的影响,使IISNP组合适用于不同地区的群体。早在2006年Sanchez JJ团队所发起的“SNPforlD”计划就是旨在开发可用于DNA分析的SNP遗传标记检测方法,通过SNaPshot技术构建的52个SNP遗传标记检测体系。Kidd KK团队发表了用于个人识别SNP遗传标记的筛选标准。随后,众多法医学者在构建更多的SNP位点的检测体系同时缩短检测片段方面取得了一定的成果。近年来随着测序技术的进步和测序平台的发展,法医工作者开始关注应用SGS测序技术检测SNP遗传标记的目标片段以提升降解检材的识别能力,如在2017年由GUO Fei等在MiSeq FGxTM平台上对ForenSeqTM DNA Signature Prep试剂盒(包含Amelogenin、27个A-STR、7个X-STR、24个Y-STR、94个IISNP、22个PISNP和56个AISNP)进行验证,结果显示DNA含量低至200pg,即可获得全部SNP位点的完整的分型结果。二是推断样本的种族来源,正是由于SNP遗传标记具有低突变率,突变率大约在10-10~10-8,因而才比STR遗传标记更易在人群中稳定遗传。而这种能较准确地判断样本始祖来源的SNP遗传标记称为祖先信息SNP(Ancestry Informative SNP,AISNP)遗传标记。AISNP遗传标记因为在预测样本的祖先信息方面的优势而应用于刑事案件调查。近年来,许多学者通过筛选构建了有效的AISNP遗传标记检测体系。如2011年,Kidd JR团队构建了一个包含128个AISNP位点的检测体系,可用于对全球119个人类群体进行验证。2016年,李彩霞等发表一个包含27个SNP位点的检测体系针对东亚、非洲和欧洲人群进行区分。之后,2019年,张林等构建了包含18个SNP位点的检测体系更加针对性地细分亚洲族群。通过不间断地筛选有效的AISNP遗传标记并建立相关的检测体系,为推断样本的种族来源提供了一种有效的检测手段。三是预测DNA身源者的体貌特征,与之相关的是表型信息SNP(Penotype Informative SNP,PISNP)遗传标记能通过推断个体的表型信息为案件侦破提供有用信息。2010年Walsh S团队构建的包含6个SNP位点的IrisPlex系统,可用于区分DNA身源者的眼球虹膜颜色(蓝色-棕色)。但是多基因表型与复杂的外界因素(如老化和环境因素),即便经过筛选的SNP遗传标记也不能够准确地呈现DNA身源者的表型信息。即便如此,法医学者对这一热点的研究仍将继续,希望将来可为案件调查提供有用信息。(2)亲缘关系鉴定:人类基因组中含有300多万个SNP位点,理论上若能检测足够多的SNP位点,就有助于亲缘关系的鉴定。这一原理主要是利用SNP单倍型的形式进行检测,而SNP单倍型是由连锁遗传且不产生重组的常染色体SNP遗传标记组合而成。SNP单倍型可提供足够多的SNP位点,有助于亲缘关系、迁徙模式、家系检索的判断。2010年Ge J等通过在22条常染色体上筛选出253个SNP单倍型区块来验证SNP单倍型在鉴定亲缘关系中的作用,结果表明SNP单倍型区块可提供比单个SNP遗传标记更多的遗传信息有助于亲缘关系的鉴定。随后,Morimoto C等基于ICS(Index of Chromosome Sharing)指数利用包含174254个SNP位点的Human Core-24 Bead Chip研究多层级的亲缘关系,结果显示可对5级内的亲缘关系和无关个体进行区分。2018年,鉴于大规模SNP遗传标记检测技术难度大、数据分析压力大及相关实验成本高的问题背景下,Mo SK团队发表了一个包含472个SNP位点的检测体系可用于亲缘关系的鉴定,为SNP位点应用于鉴定亲缘关系提供有力的检测工具。
除了上述常用的遗传标记外,SGS测序技术还可以应用于检测其他的法医遗传标记,例如微单倍型(MH),利用MH可以单次测序片段内检测3个及以上等位基因的位点的特点,为亲缘关系判定、未知个体身份信息识别以及医学诊断等提供重要的研究价值;通过检测mtDNA单倍群信息、mRNA表达情况来分析具有组织特异性的案件检材来源;通过对多种遗传标记联合检测,如STR-SNP复合遗传标记,为不同的刑事案件类型灵活地定制具有特定位点的遗传标记检测体系。通过利用SGS测序技术可以同时检测多种遗传标记,高通量的优势,提升了这些遗传标记在法医学领域中的应用能力。
如今市场上的SGS测序平台根据测序原理和测序通量的不同可划分为多种平台类型,以达到适用于各种科学研究的目的。本文仅介绍常见的适用于法医学领域的SGS测序平台,探讨其原理以及在法医学领域中的应用前景。
通量适中、较低成本以及较为操作简单的MiSeq FGxTM测序平台是Illumina公司专门针对法医学领域发行的SGS测序平台,其工作原理采用边合成边测序(SBS)测序技术,其核心是利用可逆终止子的方法来检测测序片段中每个碱基与DNA模板链的结合。由于每个测序循环中存在全部四种可逆终止子结合的dNTP(脱氧核糖核苷三磷酸),标记的荧光基团被激发从而可识别核苷酸种类。与其他测序技术相比,这种天然竞争最大限度地减少了结合偏向,并大大降低了测序错误率,从而更快更准确地识别出待检检材的遗传信息。即使对于碱基重复序列区域和均聚物,同样可以进行高度精准的逐个碱基测序,并且几乎避免了序列背景特异的错误。更重要的是,MPS检测的STR等位基因与目前的数据库格式完全兼容,提供了CE与MPS数据的无缝衔接。MPS数据的质量和准确性对法医基因组学至关重要,特别是在分析混合DNA样本、mtDNA异质性或STR和SNP数据结果时。目前,Verogen公司针对MiSeq FGxTM测序平台推出了ForenseqTM DNA Signature Prep试剂盒以及ForenSeqTM Universal Analysis Software(UAS)数据分析软件。2017年,Guo Fei团队对该试剂盒基于MiSeq FGxTM测序平台进行了法医学验证;随后2019年,Wu J等应用该试剂盒针对实际案件中的异常分型现象进行测序检测。相关研究结果均表明ForenseqTM DNA Signature Prep试剂盒及MiSeq FGxTM测序平台适用于法医学研究。
测序速度快、通量适中的Ion Torrent PGM平台的核心技术为半导体芯片上离子流测序,核苷酸依次通过半导体芯片,当NTP和DNA模板结合后,释放出H+离子引起PH值变化,通过半导体传感器阵列将该化学信号转化成电压差信号,最后结合特定的碱基流顺序定序,无须化学级联酶促反应,无须荧光和化学发光反应。在对多聚物的检测准确性上不如Illumina平台。目前,基于Ion Torrent PGM平台,Thermo Fisher Scientific公司推出了适用于法医学中STR基因座检测的Precision ID GlobalFilerTM NGS STR Panel v2试剂盒、针对个体识别的Precision ID Identity Panel试剂盒以及针对线粒体检测的Precision ID mtDNA Control Region Panel试剂盒和Precision ID mtDNA Whole Genome Panel试剂盒等。对于目前针对法医学常用的遗传标记(STR、SNP、mtDNA及microRNA)进行的相关研究而言,均表明Ion Torrent PGM平台对法医学研究具有较大的吸引力。
第二代测序技术的研发和应用使法医遗传学进入了一个全新的发展阶段,随着SGS测序技术及相关科研平台的发展与成熟,与常用的毛细管电泳技术(PCR-CE技术)相比,它可以同时容纳数百甚至数千个STR和SNP等多种遗传标记的同时并行检测分析。一方面SGS测序技术可针对样本不依靠荧光标记系统进行STR和SNP等多种遗传标记识别,同时可将二代测序文库构建的测序片段设计得更短,以容纳更多的遗传标记,从而达到对多个样本的并行检测分析;另一方面,多种遗传标记的联合应用,容纳的新遗传标记增多,检测系统的效能大大提高。基于上述优势,应用二代测序技术检测STR和SNP等多种遗传标记在法医遗传学领域是十分重要的研究方向。在关注第二代测序技术具有众多检测优势的同时,也要关注其不足之处。其一,测序平台生产商基于多种测序检测的需求而推出的多种商业化测序试剂盒,可应用于未知个体识别、复杂亲缘关系和族源推断等鉴定案件。但是,试剂盒中部分遗传标记在检测结果上表现并不理想,例如Illumina公司的ForenseqTM DNA Signature Prep试剂盒含有58个STR基因座、94个个人识别SNP(IISNP)、22个刻画表型特征的SNP(PISNP)和56个用于祖先推断的SNP(AISNP)。其中,STR基因座方面,D22S1045基因座在杂合子等位基因之间看到的片段计数在不稳定性上可能比其他基因座位点要高,在判断是否存在DNA混合液时,D22S1045基因座要考虑多位点基因型;SNP遗传标记方面,用于刻画表型特征的PISNP主要针对眼睛和头发的颜色,这在中国人群中应用价值较少。总而言之,仍需加大力度开发针对中国人群需求的第二代测序试剂盒。其二,随着第二代测序技术在法医学领域中的应用和推广,法医学者需要考虑如何科学合理地利用测序所得到的数据,如何合理合法、公正科学地解释这些测序数据,如何制定一套具有广泛认可度和公信力的数据采信标准是目前迫切需要解决的问题。另外,第二代测序技术相关的试剂及科研平台的投入成本高,相关商业化试剂盒的推出与验证评估,与现有法医遗传学数据库应用分析的衔接等方面是决定该技术能否在法医遗传学领域内广泛应用的关键因素之一。同时,对案件样本测序可能涉及的伦理问题等均是决定第二代测序技术何时能够替代或补充成熟PCR毛细管电泳技术成为主流的DNA检测技术以及普遍应用于刑事案件检测的关键。