中南财经政法大学刑事司法学院,武汉
数据画像即信息的标签化,是指通过收集用户的多维度数据,对其行为特征、社会特征、自然特征等加以刻画,进而抽象出用户的数据全貌,并对这些数据进行分析、统计,挖掘潜在价值信息。在信息化时代尚未到来之前,“画像”技术就已经应用于侦查领域,但研究方向主要限于犯罪心理画像和犯罪现场重建等,并未针对犯罪嫌疑人的数据信息进行画像。随着数字赋能时代的到来,数据画像被广泛应用于商业领域,商户以用户消费行为留下的数据为基础,分析其消费行为,从而进行定制化营销。大数据时代的到来,依托互联网的犯罪行为日益增多,犯罪形势的变化不断推动警务实践的发展。2019年公安部发布的《公安机关办理刑事案件电子数据取证规则》明确了电子数据的收集、提取、保存、鉴定等内容,为警务实践中应用数据画像提供了数据基础支持。2021年11月发布的《“十四五”大数据产业发展规划》明确了大数据产业的发展方向,为及时打击和预防新时期的违法犯罪,促进侦查理论和技术的均衡发展,侦查需要与大数据技术紧密结合,有必要对大数据侦查中的数据画像进行探析。
侦查学中对画像技术运用较多的领域包括犯罪心理画像、犯罪现场重建以及犯罪地理画像。画像技术依赖于标签设计的不断完善。任克勤和艾明所进行的犯罪人标记行为研究,能够提高犯罪心理画像的可信度。李玫瑾认为,犯罪心理画像是以犯罪行为资料和人格资料的积累为基础,以心理学对人的心理规律与逻辑的研究为根据。崔海英在分析犯罪心理画像时,着重指出了目前犯罪心理画像的局限性。犯罪心理画像在理论方面具有可行性,并在侦查实务中解决了许多案件,但仍然存在缺乏实证研究、过于依赖特质理论等局限性。20世纪60年代后,犯罪地理学逐渐引入实证主义,研究从定性走向定量。从文献发表数量上看,近年来在中国犯罪地理画像的研究数量要多于犯罪心理画像。当前,警务地理信息系统(PGIS)实现了警务地理资源共享,但主要集中于地图数据,尚未引入犯罪的多维度数据。犯罪地理画像依托飞速发展的大数据技术,更能适应犯罪情势的变化,需要与更多维度的画像数据相结合。数据画像技术应用于案件侦查,能够对犯罪嫌疑人的定位更加清晰,并可通过整合犯罪人员的数据进行串并案件侦查。
在商业服务领域,画像技术主要用于分析用户的消费行为。谭琛等人提出高维精准画像体系和深度学习模型进行档位识别,分析卷烟零售户的销售情况,并探讨零售户档位的潜在影响因素。高维精准画像依托画像维度扩展和数据标签设计,对用户各个方面的数据进行分析,从而提供个人定制化服务。杨娉宁、孙若莹利用支持向量机方法对风险分类识别模型进行验证,证明画像指标及体系在识别大宗商品电子交易中心风险中的有效性。电子商务领域的数据画像通过对用户兴趣倾向的分析,能够为用户提供个性化服务。例如,李松等人利用词频分析方法挖掘用户兴趣词,建立用户兴趣词典,从而完成用户画像分析。在绝大多数刑事犯罪中,犯罪分子往往需要借助一定的工具。无论是自制工具还是购买现成的工具,这些行为都会留下相应的痕迹或信息,为案件的侦破提供线索。商业服务领域的用户画像数据就可以用于侦查实务,以发现案件线索,锁定侦查范围,查找犯罪嫌疑人。
用户数据画像在情报学和图书馆学中应用较为广泛,且理论研究较为充分。王兰伟探究了基于用户画像的分类用户数据库的构建,以推动数智时代图书馆的建设。在图书馆学方面的研究基本进入用户数据画像模型探索阶段,例如陈添源等人借鉴OSM模型构建不同层次、不同业务场景的用户画像标签,使用数据驱动用户画像,探索高校图书馆管理新路径。数据画像技术不仅可以对整个用户数据进行聚类分析,还能对特定用户群体进行分析,例如周昕、孔梦帆基于S-O-R模型,提出构建图书馆低幼儿阅读流失群体用户画像。此外,于风程对图书馆用户画像服务失灵的研究,也适用于所有使用数据画像技术的领域。
综上所述,随着数字时代的到来,画像技术在多个领域都有所发展,但在各领域的发展方向和水平存在差异。侦查学中数据画像的发展侧重于犯罪心理画像的应用,近年来犯罪地理画像也逐步发展;商业领域对用户的画像侧重于分析消费行为和商户的营销行为;情报学和图书馆学中数据画像的理论支撑较为完备,对画像模型的构建研究较多。要完成更为准确的犯罪数据画像,需要多维度的标签体系、广泛的数据源和精准的算法模型。
识别犯罪嫌疑人的各个方面特征,首先需要明确画像维度。邓祯钰在对卓越教师进行画像研究时,提出构成卓越教师的特征画像维度包括能力结构、品质特征、人际关系、知识体系、情意素养和自觉水平六大维度。林杰等提出隐匿涉案财物犯罪的被执行人多维画像维度,包括个人信息数据、可供执行财产、互联网金融信息、被执行人持有企业信息、历史涉诉信息、被执行人直系亲属信息。商瀑等人在研究大数据侦查时,提出用户画像应该包含自然属性、用户行为、用户消费、用户社交、地理信息五个维度的指标体系。
侦查以立案为时间节点,在立案之后,侦查机关可以采取强制性侦查措施。大数据侦查对个人权利的侵犯较其他侦查措施更大且更为隐蔽,因此笔者认为立案之前的预侦阶段不应采用大数据侦查。利用大数据进行预测性警务属于治安范畴,若将其简单划归侦查,则有侵犯人权之嫌。立足于立案之后,笔者提出侦查画像数据模型包括个人特征信息、社会交往信息、职业技能信息和案件动态信息四个维度。
个人特征信息是用来甄别嫌疑个体的情报信息,主要包括个体的社会特征信息和生物特征信息,涵盖个体的生活特征信息、生理特征信息和生物特征信息等。从个体特征识别来看,较为成熟的技术有指纹识别、虹膜识别、人脸识别、DNA识别等,这些技术被广泛应用于侦查领域。然而,在数据画像中,仅依靠个体特征是不够的,需要构建一个立体的犯罪嫌疑人特征体系。
侦查中可以用来数据画像的数据来源非常广泛,主要包括侦查机关掌握的数据、社会行业的数据、大数据公司的数据和电子设备中的数据。数据来源的广泛性是数据画像精确的前提。个人特征画像维度从宏观上看,包括行为人的性别、年龄、身高、籍贯、体貌、步态等特征;从微观上看,包括手印、指纹、足迹、声纹、DNA、人脸、虹膜等特征。随着数字时代的发展,个人特征画像也逐渐包括从各种数据分析得出的信息,例如从购物网站搜索记录得出的消费习惯信息、从医院预约挂号记录得出的基本生理信息、从网约车平台得出的行动轨迹信息、从视频监控摄像头获得的人身特征信息等。
侦查中调取的数据需要严格依照侦查实务的需要,立足于客观事实。犯罪现场存在大量与犯罪相关的信息,对侦查破案具有重要意义。犯罪现场是作案人实施犯罪活动的地点以及与实施犯罪有关的其他一切场所,包括实体空间和虚拟空间。从这个角度来看,个人特征画像维度可以表现为实体空间的数据画像和虚拟空间的数据画像。实体空间画像维度包括行为人的性别、年龄、身高、体貌、步态、手印、指纹、掌纹、DNA等信息;虚拟空间画像维度包括行为人的埋点日志、订单信息、访问记录、经济状况等信息。虚拟空间画像维度不同于上述从各种数据分析得出的信息,而是直接连接行为人与虚拟空间的数据。
无论是从个人特征的宏观与微观层面,还是从实体空间和虚拟空间进行画像,个人特征数据画像都不能局限于大数据本身,也应当与传统犯罪心理画像和“行为证据”相结合。“行为证据”是指用以证明与案件相关的行为内容、过程及其特征的材料,以及依据已知涉案行为内容、过程、特征或借助对涉案行为内容、过程、特征的分析研究而形成的用于证明案件事实的材料。例如,在毒品犯罪侦查中,侦查人员可以根据“中间人”与买家的网络联系记录,以及双方交易时发生的面对面接触,对“中间人”进行画像,再通过“中间人”找到“药头”。
社会交往维度的数据主要是通过对行为人亲友关系和犯罪团伙成员的分析,得出其关联性及关联强度,从而识别可能为其犯罪行为提供工具、技能、资金支持和操作帮助的人员。犯罪网络分析可以作为社会交往数据维度的上游理论。犯罪网络分析的重点在于人物(节点)和关系(链接),关系图类似于神经网络图。犯罪网络关系分析的准确性需要准确的数据和广泛的社交维度支持。
社交维度包括家庭情况、婚姻状况、朋友圈、通话记录数据、无线网络使用数据、手机及软件数据、行动轨迹数据、交易消费数据、旅居数据、开户数据、社交互动数据、过往犯罪记录等,这些数据可用于对行为人进行数据画像。社交维度的标签涵盖面极为广泛,基本包括生活中人与人进行互动的所有场景。因此,需要将社交维度置于犯罪网络关系分析之下,才能保证收集的数据足够精简,同时避免因过度收集行为人信息而引发侵犯人权的问题。
社交数据维度在侦查有组织犯罪中能起到重要作用。例如,厦门远华走私案的破获就是通过对赖昌星的多维度社交信息进行分析,查出了背后的“保护伞”。在有组织犯罪中,犯罪成员之间的结构较为严密,拥有自己的通信网络。侦查人员能够从案件所反映的行为人的社会交往情况入手深挖,再次将画像维度扩展,延伸至行为人社会交往圈内成员的社交网络,以此进行串并案侦查。对行为人社会交往数据的挖掘不仅要在标签体系内进行调查,还需要在每一个标签内进行纵向深挖,才能获取完整的行为人犯罪关系网。
职业技能对犯罪行为的影响是多方面的。一方面,专业技能可以成为犯罪行为的助力,使犯罪行为更加隐蔽和高效;另一方面,正如洛卡德物质交换定律所述,“凡有接触,必留痕迹”,专业技能的运用也可能成为犯罪侦查的线索。例如,在1998年武汉长江大桥爆炸案中,罪犯邹某某因曾经开过矿、懂得爆炸技术,在案发前购买了硝铵炸药。
此外,犯罪者在选择作案工具和手段时,往往会根据自己的职业技能和经验进行选择。这种选择不仅基于个人技能,还基于对这些工具和手段的熟悉程度和掌握程度。
同时,犯罪者在实施犯罪时可能会刻意避免使用自己的专业技能,以规避侦查。例如,一个专业的计算机程序员在实施盗窃时,可能会选择传统的物理手段而不是网络攻击,以避免成为侦查的重点对象。然而,无论犯罪者如何小心,他们在作案过程中总会留下一些线索,而这些线索往往与他们的专业技能和习惯行为有关。
职业技能维度包括行为人的学历、专业、工作类型、兴趣爱好、受教育水平、网站搜索关键词、亚文化圈子等。其中,学历和工作相关信息是可以直接被侦查机关获取的,而兴趣标签等则需要通过向大数据公司调取。以兴趣爱好为例,如今微博、哔哩哔哩、豆瓣、优酷视频等平台都会设置相应的兴趣标签,用户选择兴趣标签后,平台会推送与兴趣相关的内容。侦查机关在向大数据公司调取行为人数据时,需要调取用户信息和网站埋点信息,通过对数据的分析建立完整的行为人兴趣爱好模型,从而获取侦查信息。
通过对行为人的数据画像,能够基本确定行为人的职业技能,并将其与犯罪现场所表现出的特征进行比对,从而筛查犯罪嫌疑人,这也是摸底排队的条件之一。
上述三种犯罪数据画像维度并非相互独立,在刑事案件侦查中,更多表现为侦查人员综合多个维度进行数据画像。此外,应当注意,在有行为对象的犯罪案件中,行为人和行为对象之间会产生直接或间接的联系,因此也需要对行为对象进行数据画像,从行为人和行为对象两方面出发调查案件。
预谋型犯罪的作案人通常在实施犯罪前经过较长的准备时间,包括准备犯罪工具、计算行为时间、踩点、进行反侦查行为预演等。这些情况在侦查机关破案时都需要查明。然而,为了更好地预防和控制犯罪,仅仅依靠破案是不够的,还需要对犯罪行为的心理因素进行把握,掌握犯罪原因。
侦查机关使用大数据技术进行侦查时,可以将能够反映侦查对象心理动态的数据进行分析,从而把握其实施犯罪的原因。例如,侦查机关可以从犯罪嫌疑人近期的淘宝购买记录,分析其购买行为的驱动力;可以从犯罪嫌疑人近期的活动轨迹及时间,分析其心理动向;可以从犯罪嫌疑人的精神病就医记录或心理咨询记录分析其是否存在心理异常。
心理特征信息维度的扩展主要集中在反常行为举动、就医记录以及原生家庭情况等方面。侦查人员可以根据案件反映的情况,对犯罪嫌疑人进行数据画像。然而,这些维度中包含的信息有相当大一部分涉及犯罪嫌疑人的隐私。因此,心理维度的分析不仅在侦查破案中起着重要作用,还可以广泛用于串并案和犯罪规律分析中。
对犯罪嫌疑人心理特征的画像可以从犯罪现场、调查心理学、行为证据分析法等方面入手,将设计好的标签输入,并运用上述几种模型进行输出,最终得出犯罪评估,再进行侦查或犯罪预测。在数字时代,犯罪心理画像更需要坚持关联原则,即综合考量一些事物一起出现的频率,从大量数据之间发现相关性。由于犯罪心理的复杂性,必须以关联原则为基础,对大量数据进行分析,才能形成对犯罪嫌疑人的立体心理画像。
立案侦查后,侦查人员首先要做的是对犯罪现场进行勘察。如果是实体空间,侦查人员需要采集现场的痕迹物证,并对现场周边群众进行调查走访;如果是虚拟空间,侦查人员需要进行整机提取、锁定账号等措施。无论是哪种方法,都需要根据案件构成进行梳理。笔者认为,侦查数据画像可以从动态的案件构成开始,对行为人进行整体画像。
刑法第22条第1款规定:“为了犯罪,准备工具、制造条件的,是犯罪预备。”行为人的预备行为主要表现为周密策划、预谋准备。行为人在这个阶段多表现为购买犯罪工具、寻找共同犯罪人、踩点犯罪现场、模拟练习犯罪等。这一阶段的行为一般情况并不会直接显现于现场,因此侦查人员对犯罪预备阶段的画像需要侧重于消费记录、社会交往、行动轨迹等方面。侦查机关可以通过犯罪嫌疑人的购买记录锁定凶器,通过行动轨迹锁定踩点时间,通过社会交往信息确定犯罪嫌疑人的犯罪动机等。犯罪预备阶段画像是对犯罪嫌疑人犯罪实施之前行为的画像,因此需要准确掌控画像数据调取的时间。例如,在一起谋财杀人案件中,对犯罪嫌疑人犯罪预备画像数据的提取应该限制在较短时间范围内。但是在系列杀人案件中,考虑到犯罪嫌疑人的人身危险性较大,对社会公众安全造成严重威胁,因此需要从较长的时间范围进行锁定。然而,也应该认识到,在这一阶段,对行为人的数据画像属于预测性警务范畴,侦查人员应注意对高危人群研判的界限,确保不侵犯人权。
犯罪实施阶段是犯罪人心理、生理变化最激烈的时候,实施犯罪行为是犯罪人的终极目标。行为人在这一阶段与行为对象的接触最为密集,在犯罪现场留下的痕迹最多,破绽也最多。这一阶段对犯罪嫌疑人的画像维度应该包括上述所列举的三个维度,并且应进行纵向和横向交叉联系,构建对犯罪嫌疑人的整体形象。例如,在某起案件的侦破中,获得的画像数据包括三个维度:驾驶汽车技能、本地有落脚点、作案时使用过手机通信。对任意维度标签的分析都会得到庞大的数据,难以确定犯罪嫌疑人的身份,且仅靠这些标签综合考虑也较难获得突破。此时需要对另外多个维度的标签进行分析,例如加入过往犯罪记录、视频监控资料等维度,对数据进行碰撞分析,对数据画像进行综合分析,从而确定犯罪嫌疑人身份。
在侦查实务中,这项工作可以与摸底排队相结合。摸底排队是根据侦查人员刻画出的犯罪嫌疑人的特征,在一定范围内对有作案迹象和作案可能的嫌疑人进行排查的过程。数据画像的维度大部分可以对应摸底排查的条件,且画像技术对犯罪嫌疑人的刻画更加准确。对犯罪嫌疑人进行犯罪实施行为数据画像时,应更加注重现场所反映出来的情况。
掩盖行为通常表现为:伪装、破坏现场、销赃毁证、处理尸体、出示伪证、制造谣言、订立攻守同盟、杀害目击证人等。这一阶段的痕迹一般会与实施阶段的痕迹混合在一起,但又会表现出其独有的特征。例如,在持刀杀人案件中,掩盖行为会集中表现为行为人对被害人血迹的冲洗。侦查人员在进行数据画像时,不仅需要对现场痕迹物证进行个人特征维度画像,还需要结合社会交往、交易消费行为、行为轨迹等维度进行画像,抓住行为人逃避侦查的方式进行研判,确定犯罪嫌疑人的范围。
在侦查数据画像时,为尽快推进案件侦破进展,侦查人员通常会对上述三个阶段进行综合分析。但应该注意到行为证据所表现出来的层次性特征,逐步进行数据画像,再将标签数据进行碰撞分析,从而找出犯罪嫌疑人。在画像过程中要突破传统画像和网络数据画像的界限,打通数据,实现从简单特征到多维影像的刻画。
数据画像应用于串并案件侦查,是其在发挥侦破单一案件价值之外的更大价值体现。利用数据画像进行系列案件的串并是指,将针对某一案件进行的画像数据,应用于具有相同或相似案件性质、犯罪时空、侵害目标或作案方法的其他案件进行碰撞分析,确定数据交叉节点,从而在已经划定的犯罪嫌疑人范围内进行精准锁定。在进行串并案件侦查时,需要注意对关联点和关联强度的分析。应该选择某一容易区分且关联强度大的数据节点,并在此基础上设计二级关联节点。可以采用全息档案管理,实行“一线索一档”和“群体一档”的管理办法来提高画像数据的可视化程度。
在信息化时代,刑事案件所包含的信息更加庞杂,这为数据画像提供了有利条件。数据画像所依赖的数据产生于行为人与犯罪相关的行为。在数字时代,行为人实施犯罪行为产生的数据量更大,数据标签的维度更广,案件之间的关联节点更多,且案件之间的关联性更容易被侦查人员发现。
利用数据画像进行侦查,需要保证数据的准确性、画像标签体系的多维度以及算法模型的智能性。只有数据量足够大,才可以容许少量不精确的数据。然而,案件中所反映的数据并非大样本,可能会产生更多的偏差。多维度画像标签体系是数据画像必须要解决的问题,标签体系越完善,对行为人的数据画像就越全面,越容易确定犯罪嫌疑人的范围。在侦查实践中,侦查人员在案件侦办过程中形成的宝贵经验,可能会增加数据偏见,导致算法模型失效。在犯罪预测方面,基于各个数据库的数据资料形成的行为人数据画像也有侵犯人权之嫌。目前,侦查机关具备大数据技术的专业人才尚不足以支持将数据画像广泛应用于日常侦查实务中。
然而,应当看到,随着数字时代的发展,数据的准确性会越来越高,画像标签体系也会更加多维,算法模型会更加智能。侦查人员在生成数据的时候应做到客观中立,从第一次建立案件数据集的时候就减少数据偏见,避免基于有偏见的数据进行刻画。对于数据画像可能侵犯人权的问题,应具体规定数据画像所依托的大数据技术所应用的阶段和范围,将立案之前的预侦阶段的技术限定于确定案件事实的发生。数据画像在预侦阶段发挥的作用将越来越大,能够在限定数据库内进行画像,为社会治安综合治理做出更多贡献。进入侦查阶段后,数据画像所发挥的作用更为显著,侦查人员可以根据案件的特点,将与案件有关的数据进行标签化,从而查明案件真相,抓获犯罪嫌疑人。随着时代的发展,侦查机关将更加注重培养具有大数据技术的侦查人员,侦查人员的交叉学科素养将不断提高,能够更加熟练地应用数据画像技术侦破案件。