中南财经政法大学,武汉
董少平,张则超.大数据证据的证据属性及种类认定[J].刑事司法科学与治理,2022,3(1):50-56.
2021年2月3日,中国互联网络中心(CNNIC)发布《第47次中国互联网络发展状况统计报告》指出我国当前网民规模接近10亿,其中城镇网民规模为6.80亿,农村网民规模为3.09亿,互联网普及率达70.4%。网络技术的蓬勃发展,我国进入了大数据时代,大数据技术的应用为人们提供了极大的便利,诸如人们可以通过手机地图APP分析路况,选择最佳路径到达目的地;电商平台可以获得用户的浏览记录,分析用户的购物偏好进而为用户提供个性化商品推送;政府部门在新冠肺炎疫情防控期间,通过大数据流调,分析病例轨迹,进行精准防控等等。但正如狄更斯所言“这是最好的时代,也是最坏的时代”,在数据信息技术为人们提供便利的同时,各种利用数据信息技术的犯罪行为也在悄然发生,大数据的应用在司法领域亦引起了巨变,无数不同于传统证据的材料涌入法庭,给司法人员带来了困惑。第一,我国《刑事诉讼法》规定了法定的八种证据,而通过大数据技术的应用得到的材料是否能作为证据使用,在司法实践中不同地方司法机关给予了迥异的回应。如作为“办案侦察线索”“侦察人员的工作说明”“法定证据中的电子证据”等。对于大数据技术产生的材料,不同的回应一方面体现了司法机关对大数据技术的深入应用和思考;另一方面,不同的回应亦引起了刑事诉讼中对于大数据材料应用的混乱,不利于案件事实真相的发现。第二,如若通过大数据技术的应用得出的材料可以作为证据使用,那么根据刑事诉讼法规定,大数据证据一定属于某种法定证据,那么该证据的种类归属为何,是解释为法定证据的一种还是作为一种新型法定证据抑或是其他的选择。
大数据证据由“大数据”和“证据”两部分组成,抽离出法律赋予的“证据”属性,界定大数据证据,势必要对“大数据概念”和“大数据技术”进行辨析。
研究“大数据证据”首先要从其概念入手,“大数据”一词发源于电子计算机领域,SGI首席科学家约翰·马西率先提出了“Big Data”概念,之后不同的学者或机构从不同的角度对大数据进行了定义。从演化比较的角度出发,麦肯锡(McKinsey)公司将大数据定义为“其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集”。从属性特征的角度出发,国际数据中心IDC将大数据定义为“大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。虽然直到现在无论是学界还是实务界对于大数据定义尚未有统一的认定,但从诸多定义中,仍不难发现其中的共同之处,而这正是大数据内在的、独一无二的特征:第一,大数据的数据来源是海量基础数据,其数据信息量庞杂而且多呈现非结构化特征,传统的数据分析技术更倾向于有限的结构化数据分析;第二,大数据的处理依据为算法技术,其分析路径来源于算法设计和机器学习;第三,呈现在人们面前的是一份非专业性的大数据分析报告,不具备相关专业资质的人可以通过报告来进行相关问题的判断和处理。
对大数据证据概念的理解,有一种较普遍的观点将大数据证据定义为“基于海量电子数据形成的分析报告”。这种定义方法具有一定的合理性,在司法实务中,实务部门往往将大数据证据归为书证、鉴定意见和电子数据,而法官在对大数据证据证明力的判断上主要通过分析报告所呈现的内容进行评价。有学者还从“因果角度”对大数据证据进行描述,以“海量基础数据”为“因”,以“分析报告”为“果”,“果”起着直接证明的作用,但这样的做法通常仅评价了大数据的证据“部分”。笔者从大数据的特征出发便宜处理,归纳大数据证据应包含三个方面:第一,海量基础数据;第二,算法分析技术;第三,大数据分析报告或分析结果。仅将大数据证据定义为一种分析报告,无疑在审判中默认海量基础数据和算法分析技术是正确无误的,这种未经审查的默认对于庭审中的相对人的人权保障以及司法公正亦是一种侵犯。而且所谓的“果”正是通过算法技术对“因”规律性的总结,是海量数据“因”的一种外部显化,如在洪汇非法吸收存款案中,该案涉及投资户318人,涉及投资金额2832.62475万元,且涉及多家支付平台,这其中公诉机关向法院展示的巨额流水汇总以及百名受害人即是通过“因”形成的“果”来证明被告人的犯罪事实。因此,笔者认为对于大数据证据的概念应定义为“形式上包含海量基础数据等三个方面的运用大数据技术证明案件事实的一切材料”。
对于大数据证据概念的认定,也有必要将其和大数据技术进行区分。证据法学可以借鉴自然科学,但不同于自然科学。证据法学是一门中立的学科,它不是某一部门法特有的“后花园”,只要是能够证明案件事实的材料都应归入证据法的研究范畴。虽然随着社会的发展,对证据法学的研究日益走向交叉学科研究,但从证据法本质来讲,其仍是一门社会科学,其研究的主要方法还是法解释学方法。而大数据技术相对于大数据证据来讲,其隶属于自然科学的范畴,因此在实务中往往以线索或者侦查方法来进行使用。另外,从倾向性角度分析,大数据证据更多地侧重于从“静态”维度来追溯还原过去已经发生的事件的特征;而大数据技术则更多地侧重于从“动态”维度来预测未来尚未发生事件的轨迹。因此,大数据证据和大数据技术不能一概而论。
一项证明材料只有具备证据的属性,才能具有成为证据的资格。而对于证据属性这一问题的讨论,学界存在不同的观点,有“两性说”“三性说”“四性说”和“新四性说”等。这些学说从不同的维度对证据属性进行考察,试图对证据的属性加以描述。目前主流观点以“新三性说”即合法性、客观性、关联性作为判断证据属性的依据。但“新三性说”认为证据的合法性是指“证据的形式以及证据收集的主体、方法和程序……方法的合法性”。此种解释方法重点强调证据收集手段、方法的合法性。证据只有合法,才能实现证据的真实性和关联性。对此,笔者更为赞同合法性是一定社会制度赋予证据的属性,合法性属于证据的外部属性,不应成为判断某项证明材料能否成为证据的标准。法律文本的规定一定是具有滞后性的,时代的发展,新兴事物不断涌现,证明材料也在不断地发生形式上的更新,如1996年刑事诉讼法修订将视听资料写入法定证据、2012刑诉法修订又增加电子数据。政策制定者很难预估未来会发生什么并制定相关法律,新的证据在产生之初往往难以在既定的法律文本中找到相关的表述和依据。难道因为该证明材料不具有合法性就将其排除在证据之外,这显然是有违实体正义和大众预期的。因此,本文对大数据证据属性的判定主要围绕关联性和客观性两个方面展开。
关联性作为证据的属性,是学界的通识,没有任何争议。刑事诉讼法中也以法律文本“用于证明案件事实”来加以佐证。关联性是证据与待证事实之间的一种特殊逻辑关系,区别于哲学层面上的普遍联系。与待证事实没有关联性的材料不能称之为证据。一项证据只有满足实质性和证明性才能认定该证据具有关联性。
实质性即证明对象和案件争议焦点之间的关系。证据的实质性要求该证据指向的对象对案件的结果起决定性作用,相反,如果一项证明材料对案件的结果事实没有决定性作用,则其便不具有实质性。而大数据证据的数据来源于海量的原始数据,在未经机器逻辑处理之前,呈现杂乱无序的状态。这些海量的原始数据类型多样,包括结构性数据、非结构性数据、源数据、处理数据等,在未经采集、清洗、分析之前,数据价值密度低。司法机关在侦察、审判过程中依据传统的证据理念,往往无法发现利用大数据技术分析海量数据得出的规律性认识,进而影响对案件事实真相的发掘。大数据证据虽然数据本身对待证事实呈现“弱关联性”,不同于传统证据的“强关联”因果联系,但经过机器逻辑即算法的运行加工后,由巨量“弱关联性”材料组成的大数据分析报告往往呈现出对案件事实更为精准的还原。
证明性即要求提出的证据较之于没有该证据对案件事实的证明有更可能或更无可能的趋势。在论证证据和主张之间的关系时,并非要达到优势盖然性的程度,只需达到证据法对证据证明力的要求即可,证据的证明力大小问题并非这里证明性所要涉及的问题,而是经过法庭质证由法官自由心证来确定。判断证据的证明性落脚于证明力有无,即只要该证据能够证明事实的存在比不存在更有可能或更无可能。大数据证据中原始数据对案件事实通常存在“弱关联性”甚至“模糊性”,即使经过算法处理得到了分析报告,也无法得出该大数据证据一定可以证明案件事实。但至少相比于没有该证据,在有这个证据的情况下,可以强化事实更有可能或者更无可能的趋势。大数据证据其证明性无法得到反驳,因此所有原始数据从这个意义上讲都是证据。
证据的客观性是指证据本身以及作为证据内容的事实是客观存在的。客观性作为证据的基本属性之一,是大数据证据能否成为证据的必然要求,然而目前有学者以证据的真实性代替客观性对大数据证据属性进行评价,笔者认为有待商榷。
我国刑事诉讼法第五十条分两款分别对证据的含义和定案依据进行描述,一项证明材料首先要符合证据属性,成为证据,然后再经过查证属实才能成为定案依据。即成为证据是作为定案依据的前置条件,至于证据能否上升为定案依据还要经过司法机关的查证。传统证据法并不区分证据的“采纳”和“采信”,因为在2012年刑事诉讼法修改之前,一直沿用1996年刑事诉讼法,而在1996年刑事诉讼法中是采用“事实说”来规定证据的含义。“事实说”通过立法的规定,实际上将证据和定案依据画上了等号,即证据就是定案依据。一项证明材料如果成为证据,那么一定是经过查证属实的,亦一定是真实的。因此,在传统证据法理论中,客观性即真实性。2012年刑事诉讼法修改后,“材料说”取代“事实说”成为立法规定的证据概念,对证据的审查由一步式审查变为二步式审查,在传统证据法理论中作为证据属性的真实性被从客观性中剥离出来,进入到“查证属实”的诉讼程序阶段。因此,客观性和真实性有了先后之分,对大数据证据的客观性认定,不应包含对证据真实性的判定,从另一个角度来讲,区分客观性和真实性,无疑对证据准入门槛是一种降低。
论证大数据证据的客观性,即论证大数据基础数据、算法、分析报告的客观性。正如我们所知,无论什么样的证明材料,如果要发挥证明作用,该材料所蕴含的信息必须要让司法人员感知和理解。作为大数据证据中直接呈现到法庭上的大数据分析报告是指对运用算法揭示出海量数据背后的事实和规律、数据种类、来源、收集方式以及技术运作过程与原理的记载与说明,其实质上是对基础数据及其运行逻辑算法的一种表达,这种表达是对证明材料蕴含信息的一种外部显化。因此,作为记载和说明的大数据分析报告其本身是否具有客观性取决于基础数据和算法的客观性与否。
大数据海量基础数据无论来自公权力数据库还是私权利自有数据库,都是对案件有关事实的还原,与案件有关事实不是主观臆想、猜测、分析和判断所产生的,而是客观存在物。另外作为证据内容的海量基础数据,其与案件的待证事实间的联系是客观存在的,能否从混乱无序的复杂联系中将其识别,依赖于人的认识能力。如果没有发现这种客观联系或者以没有客观联系的数据去证明待证事实,势必会造成事实真相的歪曲,乃至出现错误的判决,严重者甚至造成冤假错案的出现,进而导致人们对司法公信力及政府权威产生质疑。关于数据本身是否遭到更改、删减等涉及数据真实性的问题,是证据可信性探讨的范围,不作为证据属性的判断标准,而应交由法院庭审质证并由法官“自由心证”进行判断。
算法的本质是通过一系列步骤,用输入的数据得到输出的结果。在大数据证据中,算法处于核心地位,其主宰着从基础数据到分析报告的整个生命周期,杂乱无序的基础数据即输入的数据,大数据分析报告即输出结果的形象表达。如在涉税案件中,有些案件资金流水高达上亿条,账户上万个,海量资金数据只能依靠资金特征分析模型,而非传统的人工梳理。否则,难以在短时间内对案件真实情况进行完整刻画,提高效率,节约司法资源。在算法的运行中,算法的设计者或开发者,无疑起着决定作用,其脑海中的想法通过算法的设计表达出来,因此,算法是带有浓厚的主观意愿和个人色彩的。但这种主观性仅是其形式上的表现方式,证据收集、判断的主观性不能改变证据本身的客观属性。任何犯罪行为的发生都会在一定的时空留下痕迹,这是不以人的意志为转移的。相反,没有客观存在为依据的任何一种证明材料,都不是证据。而算法是对若干客观存在技巧性、规律性地分析、筛选、挖掘,并对其进行能动地表达。所以,大数据算法只是形式上具有主观性,实质上仍符合证据的客观属性。
大数据证据作为符合客观性和关联性的证明材料,其已满足证据资格。但鉴于我国刑事诉讼法律规定,大数据证据能够作为证据在法庭中使用并成为法官参考的依据,其必须符合刑事诉讼法第五十条法定证据种类规定才能作为证据在法庭中使用。对于大数据证据的种类认定,从现有资料来看,目前主要存在以下几种说法:第一,电子数据说。大数据证据和电子数据具有高度的一致性,无论其数据量再庞杂,经过整理之后大数据证据还是以电子数据的形式呈现出来。而且目前实务部门也往往对大数据证据进行便宜处理,如在李洪波、李辉盗窃罪一案中,公诉机关和法院均将云眼车辆大数据应用系统显示证实的车辆行驶路线认定为电子数据。有学者对大数据证据在司法审判中的应用情况进行实证分析,发现裁判文书中提及大数据证据的刑事案件共有145例,其中大数据证据以电子证据出现的次数高达95件,占比66%。因此,目前来看大数据证据在司法实践中还是更多地纳入电子数据的范畴。第二,鉴定意见说。对该学说持赞同观点的人认为,大数据证据和鉴定意见一样是一种专业性和科学性很强的证据,即使是结论部分的意见表达亦是普通人无法凭借常识理解的,另外大数据证据和鉴定意见具有形式上亲缘性和可比性,符合司法追求经济性的原则。在李奕、王舟等非法吸收公众存款罪一案中,非法集资的金额和投资人数的证据便采用鉴定意见的形式。第三,独立证据说。有学者从应然角度出发,呼吁将大数据证据单列出来作为一种新的证据形式,还有学者从大数据证据区别于传统证据的收集方式和大数据证据具有的结构体特质来论证其应作为独立的法定证据。第四,书证说。有学者认为,大数据集本身构成电子数据,而大数据报告构成一种特殊类型的书证。例如,在姚烨犯帮助信息网络犯罪活动罪一案中,公诉机关在裁判文书中将“国家反诈大数据平台推送资料”认定为书证。当前未形成对大数据种类认定的统一观点,这势必会导致实务部门在进行证据收集和认定方面的混乱,不利于实现客观真实和法律真实相结合。因此有必要针对大数据证据的种类认定进行探析,选择合适的方案跨越理论和实务的鸿沟。
以上关于大数据证据种类认定的学说,普遍采用了单一化的视角,而对于大数据证据本身内在的运行机理及其表现形式观察较少。具体而言,大数据证据的多重证据形式主要表现为:
从其内部运行机理及其表现形式出发,正如前文所述,大数据证据分为三个部分,分别是:海量基础数据、算法分析技术、大数据分析报告。首先,海量基础数据中包含着结构性数据、非结构性数据、源数据等内容,在证据法中呈现电子证据的外部特征。其次,算法分析技术是大数据证据中的核心,机器通过对PB、EB甚至ZB级别的数据进行反复迭代学习,从数据中发掘规律并作用于新的样本数据。Alpha Go便是机器学习的产物,通过人类围棋对弈的三千万种走法训练其神经网络来预测棋手的落子,并通过Alpha Go自己与自己对弈,产生新的下棋走法,其每天可以尝试百万量级的走法,短时间其围棋水平便超越顶尖棋手。因此,算法使大数据证据具备了“类人化”的特征,使其具备某一领域的专业知识并可以对待证事实进行鉴别认定,故我们可以说算法技术使大数据证据具有了“鉴定意见”的特征。但是“鉴定意见”的作出者是鉴定专家,当随着技术进步,当专家和法庭科学技术之间的关系超出辅助模式和协同模式两种类型到达控制模式时,具有机器学习功能的数据代码取代了人类专家的主导地位,即数据代码生成人类专家的鉴定意见,而这突破了当前由人类专家做出判断的司法鉴定体制。最后,大数据分析报告是以书证的形式对大数据证据运行的总结,以形象易懂的内容和思想跨越晦涩难懂的专业壁垒发挥证明作用。司法实践中,大数据分析报告表现为某某大数据平台截图或者查询结果,法庭也往往将其归纳为书证出现在法庭审判中。
我国当前法定证据种类的规定参考自苏联的法律关于“证据来源的种类”,如果某项证据并非出自法定的证据来源,则其难以具有证据资格。因此,从立法原意的角度出发,法定证据种类的设置实质上是对证据来源的指引性规定,相同来源的证据在当今复杂多变的现实社会中亦可能呈现为物证、书证、视听资料等不同的证据种类,不同种类证据之间也并不总是泾渭分明的。社会的不断发展,新生实物层出不穷,总会有跳脱出原有证据种类“藩篱”的证明材料出现,我国刑事诉讼法自1979年制定以来,关于法定证据的种类也不断进行修改,从1979年时的六种证据修订为2018年的八种证据,亦有从封闭走向开放的趋势。但一方面,法律的修订总是落后于实践发展需求的,难以做到具有预测性地修改,与此同时,新兴的证明材料随着科技的进步不断进行更迭,如若立法不断地随之进行修订,亦有违法律的稳定性。同时,法定证据种类的认定将证据的形式要件作为证明材料能否进入法庭的首要条件,忽略了证明材料本身的证明力即证明材料所蕴含的证明价值,无疑属于本末倒置,仍保有“形式证据”的遗毒。因此,与其探讨新兴证据材料属于哪一种法定证据,不如突破法定证据种类的桎梏,避免过多地纠结于证据种类的问题。
从域外各国的司法实践来看,采用开放式的证据种类规定,不失为一种突破当前我国法定证据种类并满足司法实践需要的措施。相关国家对证据种类的规定大致分为三种模式:第一,立法和实践二元式。采用该类模式的典型代表之一美国,在《美国联邦证据规则》中没有对证据种类进行规定,但在其司法实践中将证据划分为证言、物证、书证、说明性证据、当事人双方同意事实的协议以及司法认知六种证据,这些证据又具有极大的包容性,囊括了各类形形色色的证明材料。第二,以兜底式法律文本规定证据种类。如2011年《澳大利亚证据法》规定证据种类包括证人、书证和其他证据,“其他证据”便是以兜底性法律文本防止证据种类立法的不周延。第三,以专门条文形式对证据种类的开放性进行规定。《意大利刑事诉讼法典》以“不受法律约束的证据”这一专门法律条文对不属于法定证据种类的证据进行补充。对域外法规的借鉴需结合我国实际,直接废除法定证据种类的规定未免过于激进,不妨在司法实践中逐渐弱化对证据种类的要求,将目光更对地集中于对证据方法的探究,以回应新型证据材料的复杂性和多元性。
“沉舟侧畔千帆过,病树前头万木春”,司法体制应随着科技进步一同进步,大数据时代下,大数据证据满足证据属性的要求,理应在法庭上对案件的真实情况进行还原。但当前刑事诉讼法对证据种类的规定亦是对新兴证明材料的一种限制。回首司法实践,环顾域外立法,目前法定证据种类的法律规定已是一种落后。跳出现有法律文本的束缚,弱化对法定证据种类的要求,无疑应成为未来证据法研究的方向。