International Open Access Journal Platform

logo
open
cover
Current Views: 138120
Current Downloads: 111178

Criminal Justice Science & Governance

ISSN Print:2708-700X
ISSN Online:2708-7018
Contact Editorial Office
Join Us
DATABASE
SUBSCRIBE
Journal index
Journal
Your email address

基于机器学习的线条痕迹检验研究

Study on Examination of Striated Toolmarks Based on Machine Learning

Criminal Justice Science & Governance / 2020,1(2): 27-35 / 2020-12-10 look1013 look1295
  • Authors: 杨敏¹² 牟丽¹² 付一鸣³
  • Information:
    1.中南财经政法大学刑事司法学院,武汉;
    2.司法鉴定技术应用与社会治理学科创新基地,武汉;
    3.广东警官学院刑事技术系,广州
  • Keywords:
    Forensic sciences; Striated mark; Artificial intelligence; Machine learning
    法庭科学; 线条痕迹; 人工智能; 机器学习
  • Abstract: The traditional method of manual examination of tool mark is challenged in the court for its subjectivity. With reference to the challenging, the computer-based approach have been studied in the world. The approach mainly focused on extraction of striation feature and statistical examination of striations. The machine learning method was studied, and four groups of experiments were conducted with a 2D image dataset of tool marks made by screwdrivers, cutting pliers and bolt clippers. The four LBP derivatives operators were developed to extract the tool-mark features and then construct the features into a feature vector. The random forest algorithm was adopted to identify the labeled feature vectors by supervised learning. The experimental results show that the proposed method achieved a high-rate of identification of the striated marks generated under identical conditions, and reduced the uncertainty of results examined by traditional method. Furthermore, the proposed method is immune to the unstable illumination when the image data of the striated marks are collected, and avoids the difficulty in mark inspection caused by manually preset parameters in the existing methods. 传统的工具痕迹人工检验鉴定方法缺乏客观性受到法庭的强烈挑战。针对此挑战,国内外研究了线条痕迹的计算机处理方法,主要采用了提取线条特征与线条之间的统计检验。研究了基于人工智能的机器学习算法,对三种工具制作线条痕迹的2D图像数据集做了4组实验,通过提取线条痕迹的四种局部二进制模式(LBP)的衍生算子构建痕迹的特征向量,使用随机森林算法对带标签的特征向量进行监督学习。实验结果表明本方法对于在相同条件下制作的线条痕迹具有较高的识别率,且能够有效克服工具痕迹2D图像数据光照不稳定的缺点,也避免了现有方法中因人工预设置参数给痕迹检验带来的困难和检验结果的不确定性。
  • DOI: http://doi.org/10.35534/cjsg.0102026
  • Cite: 杨敏,牟丽,付一鸣.基于机器学习的线条痕迹检验研究[J].刑事司法科学与治理,2020,1(2):27-35.

一、引言

工具痕迹具有犯罪现场遗留率高、不易被破坏、易提取等特点,在确定侦查方向和范围、犯罪现场重建和诉讼证据等方面有着举足轻重的作用。工具与客体表面相互作用且做相对运动时,客体表面会留下线条痕迹。实际工作中,线条痕迹的检验鉴定是基于工具痕迹上的种类特征和细节特征,判断检材和样本特征的相似性来确定两者是否同一。传统工具痕迹检验方法的有效性受到来自法庭的挑战,问题主要集中在工具痕迹检验方法缺乏客观性和非定量化。针对该挑战,大量围绕统计学并以计算机为辅助的工具痕迹检验方法逐渐成为研究热点,线条工具痕迹计算机检验是将来的发展方向

螺丝刀线条痕迹因具有一致性的连续线条而常常被选择作为研究对象。Neel等针对螺丝刀线条工具痕迹的2D灰度图像和3D形貌数据,研究了线条痕迹间的相关统计特性,验证了已知匹配和已知非匹配线条痕迹统计定量检验的有效性,指出2D灰度图像数据易受光照影响。Faden等针对44把连续制造的螺丝刀,以每把螺丝刀的两个刀口面分别以30°、60°和85°接触角在铅块上制作痕迹,然后使用3D轮廓仪采集得到包含线条高度、深度和宽度信息的1D特征向量,将向量划分为35个小段,分别比较两个痕迹的向量各段的最大相关值来确定两痕迹间的关系。该研究说明了数学方法用于痕迹定量化检验是可行的。Chumbley等对Faden提出的痕迹相关性比对算法进行了优化,把相关性计算分为优化和证实两个步骤,改进的算法能够提高痕迹检验的效果。Baiker等提出了一种线条工具痕迹自动比对方法,结合多尺度配准线条痕迹,使用全局交叉相关值作为工具痕迹的相似测度,可识别螺丝刀工具在接触角度30°误差内形成的线条痕迹。Louis等研究了螺丝刀的轴旋转角度对形成的工具痕迹产生的影响,研究表明痕迹间的相似性和可重复性随着旋转角度(0°75°度间)增大而逐渐减小。同样地,Baiker等使用计算机仿真讨论了工具与承痕客体接触角度的变化、承痕客体材料性质和痕迹的深度对痕迹检验的影响。Nicholas等使用9个螺丝刀制作理想线条模式的可复制集,把线条痕迹图像沿着某个方向扫描,把图像灰度编码成1个高维特征向量,首次提出使用多统计(PLS-DA)、主成分分析、支持向量机(PCA-SVM)的模式识别方法对特征向量进行分类识别,其研究表明可用模式统计识别方法实现线条痕迹比对的稳定性。Bachrach等使用螺丝刀以不同接触角(15°、30°和45°)先后在铅块上制作线条痕迹,再以30°角在铝块上制作痕迹,使用舌槽钳剪切铅丝、黄铜丝和镀锌铁丝,最后使用共焦显微镜采集痕迹样本选定区域的3D形貌数据,对数据预处理后依据轮廓高度和深度信息构建1D特征向量,计算特征向量的相对距离作为相似测度来判断痕迹是否匹配。

提取线条痕迹的3D形貌数据,把其映射到1D 数据,再使用交叉相关值估计2个痕迹的相似性,这种方法是线条痕迹比对检验研究的热点。除了使用相关性参数测量痕迹间的相似性以外,也有其他方法应用于工具痕迹的检验。Taroni等使用基于经验贝叶斯统计思想用于评价工具痕迹比对结果,认为贝叶斯统计理论用于工具痕迹检验是一种有希望的思想和方法。Petraco等使用共焦距显微镜采集弹壳痕迹、螺丝刀和凿子制作的线条痕迹的图像数据,使用主成分分析、规范变量分析和支持向量机模式识别方法检验工具痕迹,并用经验贝叶斯公式预测检验结果位于0%3%区间的错误鉴定率的置信度为95%。Keglevic等使用卷积神经网络分析螺丝刀线条痕迹,该方法在工具与客体接触角于15-45度的范围内痕迹的识别率可达到95%的平均精度。Spotts等对50个连续制造的鲤鱼钳制作的剪切痕迹,使用优化—证实算法分析了痕迹的相关性,验证了剪切痕迹具有唯一性。

线条痕迹的计算机定量化检验研究中,大多通过共聚焦显微镜或三维扫描设备采集痕迹的3D形貌数据,对痕迹的3D数据进行分析。相对2D数据,3D数据能够清晰反映线条的高度、宽度和深度信息,且不受光照角度和强度的影响。但是,3D数据采集也有其不足之处,如3D采集设备比较昂贵,且因其高分辨率而造成对较大面积痕迹的采集效率变低,也会产生较多的痕迹冗余信息。剪切痕迹整体形态近似半圆形,痕迹中具有较多非连续性线条,一般在痕迹检验分析时,需要人工预先设定剪切痕迹的短轴和长轴的位置。人工预先设定参数会使检验过程变得复杂,对检验结果也会造成一定的不确定性。本文针对痕迹的2D数据,使用对光照条件具有较好鲁棒性的局部二值模式LBP直方图及其衍生算子提取痕迹特征,可以克服痕迹2D图像采集时光源照射角度和强度不稳定的缺点,使用平衡误差好、能够处理大量输入变量和分类效果好的随机森林模式识别算法对痕迹进行分类识别,可以达到较高的识别率,对剪切痕迹的检验也不需要预先设定剪切痕迹的位置参数,使得检验过程简单方便。

二、方法

(一)实验痕迹制作与数据集采集

选择10个没使用过的螺丝刀(刀口宽6 mm)、钢丝钳(刃口长25 mm)和8个断线钳(刃口长30 mm)作为实验工具。铅是一种延展性好、硬度低的金属材料,能够较好地复制工具作用部位上的特征,选用铅片和铅丝(直径为5 mm)作为实验客体材料。

钢丝钳和断线钳由2瓣对称钢质的剪切刃组装而成,当实施其剪切功能时,能够在客体剪切端面形成剪切痕迹。钢丝钳和断线钳由于其具有强大的剪切能力以及携带方便的特点,在犯罪现场常被用于剪切锁梁、门窗防盗网、电线电缆等障碍物和作案目标,在被剪切物断面形成剪切痕迹。剪切工具实施一次剪切,会形成两个断头和四个剪切坡面。工具的剪切刃的每个剪切面在剪切客体时分别对应形成一个痕迹剪切坡面。剪切刃的每个剪切面相当于一个独立工具,即一个工具形成的四个痕迹剪切坡面相当于是由四个不同工具形成,且每个坡面痕迹是不相同的。Spotts在实验中也验证了这个结论。

在铅丝上制作剪切痕迹,痕迹的坡面近似半圆形。在剪切痕迹形成的过程中,工具的剪切刃面与痕迹坡面之间存在切削作用和挤压作用。切削作用在痕迹坡面的剪切力方向(工具刃口运动方向)上形成线条,钢丝钳刃口阶梯斜刃会形成不连续的线条;挤压作用会让刃侧面的加工纹理印压到痕迹表面上,如钢丝钳刃侧面的加工铣纹会印压到痕迹上形成印迹。因剪切痕迹形成机理与螺丝刀线条痕迹形成机理不同,剪切痕迹表面线条模式更为繁杂,给传统的人工比对检验带来了困难。影响螺丝刀线条痕迹的最主要因素包括螺丝刀与客体的接触角和客体材料性质。螺丝刀在铅片上制作线条痕迹,会形成一致性非常好的线条。钢丝钳和螺丝刀在铅丝和铅片上形成的痕迹如图1所示。

图1 钢丝钳剪切痕迹(左)和螺丝刀线条痕迹(右)图例(钢丝钳剪切工具痕迹线条不连续,螺丝刀线条痕迹的线条是连续的)

图2 自制的螺丝刀线条痕迹制作装置(左)与剪切痕迹制作定位装置(右)

螺丝刀线条痕迹由自制的电动设备制作。螺丝刀和铅片固定在设备上,螺丝刀与材料之间接触角度以及刀口与材料之间的距离均可调节。实验中的接触角设定为45°。每个螺丝刀制作100个痕迹,10个螺丝刀共制作1000个痕迹。钢丝钳在制作剪切痕迹时,使用自制的剪切痕迹制作定位装置对刃口的剪切位置进行精度定位,每个钢丝钳制作100个痕迹,10个钢丝钳共制作1000个痕迹,选择同一个刃侧面对应的剪切坡面作为实验痕迹。断线钳具有2级杠杆结构,剪切能力更强,经常被用于盗窃案中。断线钳在剪切过程中,其刃口在2级杠杆带动下产生位移,造成剪切刃定位误差,实验中刃口剪切位置定位精度误差约为1-1.5 mm。每个断线钳制作100个痕迹,8个断线钳共制作800个痕迹,选择同个刃侧面对应的剪切坡面作为实验痕迹。自制的螺丝刀线条痕迹制作装置与剪切痕迹制作定位装置如图2所示。

所有制作的实验痕迹由一位经验丰富的痕迹检验人员使用视频显微镜采集2D图像数据。采集图像时,显微镜放大倍数为15倍,图像分辨率为1024×768(像素),光源的强度和照射角度自由调节但需保证采集的图像清晰。使用Photoshop CS5对采集的图像进行裁切。对于螺丝刀线条痕迹,靠近痕迹起始部位沿着痕迹整个宽度方向裁切图像,把裁切的图像保存大小为250×720(像素);对于剪切痕迹,只保留痕迹半圆形坡面区域,把裁切的图像保存大小为250×720(像素)。裁切的图像均按照工具类型和类别进行标记,保存到实验数据集。

(二)机器学习线条痕迹检验

工具痕迹检验包含四个流程,如图3所示。首先构建实验痕迹图像数据集,然后对数据集中的数据进行滤除噪声预处理,实验中使用了高斯平滑滤除噪声,标准差取σ=3像素。

图3 工具痕迹检验流程

工具痕迹的特征向量构建是痕迹识别比对的关键步骤,图像特征提取的效果直接影响识别比对结果的好坏。提取和构造痕迹数据的特征向量,包含三个步骤:四种LBP衍生算子特征提取、计算特征的直方图和构建数据的特征向量。LBP由Ojala等提出,对图像的每一个像素点,以该点的灰度值作为阈值,对其周围邻域8个像素进行二值化,并按照一定顺序将二值化结果组成一个二进制数,以此二进制数的值作为该点的响应。LBP特征对单调的灰度变化具有不变性,但对灰度突变无能为力,这种以邻域像素值计算中心像素值的方式对椒盐噪声敏感,稳定性差。为了弥补此不足同时加快计算速度,Liao提出了分块局部二进制模式(MBs_LBP)算子(其中s表示分块的大小)。在实验中,采用了3×3分块LBP算子,即MB3_LBP算子。

以1个像素的8邻域计算二进制数有28=256种模式,随着邻域内采样点数增加,直接采用LBP模式的统计量来表达图像信息时,数据量会过大,会造成痕迹特征维数剧增可能导致维数灾难的后果。对此问题,Ojala提出一种“等价模式”(Uniform Pattern)的LBP方法来提升图像灰度的统计性,即ULBP。

工具痕迹比对需要考虑痕迹局部特征的对应性,两个同一的工具痕迹其相同位置的局部特征应该相同。考虑到痕迹的局部特征与整体特征的关系,实验中把工具痕迹图像分成若干8×8的子区域。然后对各子区域进行统计得到等价化后灰度直方图,再将所有子区域的灰度直方图构建为一个特征向量。综合以上策略,实验分别使用了LBP、ULBP、MB3_LBP和MB3_ULBP四种算子对工具痕迹数据集进行特征提取并构建痕迹的特征向量,其流程如图4所示。

图4 四种算子提取特征的流程图,由上至下依次为LBP、ULBP、MB3_LBP与MB3_ULBP

最后,使用随机森林(Random Forest)分类器对所有痕迹的特征向量进监督训练。随机森林是一种基于多个决策树的集成学习方法,由Breiman提出。其与Bagging一样使用自主采样法生成多个训练样本子集,在每个训练样本子集上单独训练一个决策树,未被采样的训练样本则用来估计分类器的泛化能力。不同于Bagging,随机森林训练中加入随机属性选择,对于基决策树的每个结点,先从该结点的属性集合中随机选择k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。本文中随机参数取k=log2 d(d为特征向量维度。在每个样本子集上生成对应的决策树后,这些独立同分布的决策树就构成了一个森林,对于一个新的输入样本,森林中的所有决策树被用来判断其归属分类,最终的类别取为这些决策树输出类别的众数。

实验与结果

分别使用LBP、ULBP、MB3_LBP和MB3_ULBP四种算子提取图像数据集特征并构建特征向量,然后将特征向量输入随机森林算法进行分类训练。所有的实验中,均对每个工具制作的痕迹数据集取其数量的70%作为训练数据,余下的30%作为交叉验证集。随机森林算法中,决策树样本和属性选择所涉及的随机种子取值均相同。图5所示四种算子处理螺丝刀线条痕迹的误差率随决策树数量的变化曲线,表1为四种算子处理螺丝刀线条痕迹的性能。

图5 四种算子处理的螺丝刀痕迹的误分类率随决策树数量的变化曲线

表1 四种算子处理螺丝刀线条痕迹的性能

准确率(%) 特征向量维数 训练时间 单样本测试速度(S)
LBP 96.7 16384 0.92
ULBP 99.0 3776 1.11
MB3_LBP 94.0 16384 0.17
MB3_ULBP 91.7 3776 0.26

从对螺丝刀线条痕迹处理的检验准确率和综合性能来看,ULBP算子效果最好。使用ULBP算子对三种工具制作痕迹的数据集做了四组实验,如表2所示。实验1-实验3分别单独对螺丝刀线条工具痕迹、钢丝钳剪切痕迹和断线钳剪切痕迹的数据集进行比对检验。在实验4中,把螺丝刀线条工具痕迹、钢丝钳剪切痕迹和断线钳剪切痕迹的数据集合成1个数据集进行比对检验。

表2 四组实验

实验序号 实验数据集
1 螺丝刀线条痕迹
2 钢丝钳剪切痕迹
3 断线钳剪切痕迹
4 螺丝刀线条痕迹+钢丝钳剪切痕迹+断线钳剪切痕迹

(一)实验1

本次实验对螺丝刀线条痕迹进行比对检验。痕迹的误分类率随决策树数量的变化曲线和痕迹比对结果的混淆矩阵如图6所示,痕迹的识别分类的准确率为98.3%(准确率=正确分类的样本数/总样本数×100%;即:295/300×100%=98.3%)。混淆矩阵中,灰色小方框中的数字表示正确识别的痕迹数量,黑色小方框中的数字表示误分类的痕迹数量,坐标轴数字1-10表示为对应的10个螺丝刀制作的痕迹数据集。实验2-3的混淆矩阵中的数字表示均与此相似。

图6 螺丝刀线条工具痕迹识别误差率随决策树数量的变化曲线(左)和痕迹识别分类的混淆矩阵

(二)实验2

本次实验对钢丝钳剪切痕迹进行比对检验。痕迹的误分类率随决策树数量的变化曲线和痕迹分类结果的混淆矩阵如图7所示,痕迹的识别分类的准确率为99.6%。

图7 钢丝钳剪切工具痕迹识别误差率随决策树数量的变化曲线(左)和痕迹识别分类的混淆矩阵(右)

(三)实验3

本次实验对断线钳剪切工具痕迹进行比对检验。痕迹的误分类率随决策树数量的变化曲线和痕迹的分类结果的混淆矩阵如图8所示,痕迹的识别分类的准确率为81.3%。

图8 断线钳剪切工具痕迹识别误差率随决策树数量的变化曲线(左)和痕迹识别分类的混淆矩阵(右)

(四)实验4

本次实验对螺丝刀线条痕迹、钢丝钳剪切痕迹和断线钳剪切痕迹数据集进行比对检验。痕迹的误分类率随决策树数量的变化曲线和痕迹的分类结果的混淆矩阵如图9所示,痕迹的识别分类的准确率为93.7%。 混淆矩阵中,灰色小方框中的数字表示正确识别的痕迹数量,黑色小方框中的数字表示误分类的痕迹数量,坐标轴数字1-10表示为对应的10个螺丝刀制作的痕迹数据集,坐标轴数字11-20表示为对应的10个钢丝钳制作的痕迹数据集,坐标轴数字21-28表示为对应的8个断线钳制作的痕迹数据集。

图9 螺丝刀线条痕迹、钢丝钳剪切痕迹和断线钳剪切痕迹识别误差率随决策树数量的变化曲线(左)和痕迹识别分类的混淆矩阵(右)

四、讨论

从实验结果可看出,实验1和实验2分别对螺丝刀线条痕迹和钢丝钳剪切痕迹的识别比对准确率均在98%以上,比对结果优于痕迹的3D数据的识别比对结果。 然而,实验3对断线钳剪切痕迹的识别比对的正确率只有81.3%。实验1和实验2的结果好于实验3,最主要的原因是,螺丝刀线条痕迹由自制的线条制作装置完成的,钢丝钳剪切痕迹由剪切痕迹定位制作装置完成,两者痕迹数据具有较好一致性。但是,断线钳的剪切刃由2级杠杆控制,在剪切时铅丝与剪切部位会产生相对位移,每次剪切位置会有误差,剪切痕迹的一致性较差,对识别比对造成影响。

实验4中对螺丝刀线条痕迹、钢丝钳剪切痕迹和断线钳剪切痕迹进行识别比对,综合识别比对正确率达到93.7%。从实验4结果可看出,本方法对不同类型的工具痕迹综合数据的识别比对与单个类型的工具痕迹数据的识别比对的结果相差很小,绝大部分的错误分类仍在同一工具种类中,只有4个痕迹被错误的分类到其它工具种类中,如有2个2号螺丝刀线条痕迹误分为11号钢丝钳剪切痕迹,1个3号螺丝刀线条痕迹误分为18号钢丝钳剪切痕迹,1个24号断线钳剪切痕迹误分为4号螺丝刀线条痕迹。

本文实验中所有痕迹2D图像数据采集均没有对光照条件加以限制,即每个痕迹采集图像数据时光照强度和角度不相同。从实验结果可知,本方法对痕迹图像的识别比对具有较好的鲁棒性,对痕迹图像采集的光照条件具有较强的适应性,其主要原因是因为LBP算子具有光照不变性,图10所示同一痕迹在不同光照条件下采集的图像,经过LBP算子处理后的痕迹图像表现出很高的一致性。但是,采集图像时光照强度依然需要控制,光照强度过大或过小会造成图像的像素值为255或0,从而造成痕迹信息丢失。

图10 a为同一痕迹在不同光照条件下采集的灰度图像,b为经过LBP算子处理后的图像

线条痕迹比对算法中,比较有代表性的研究如使用基于相关计算的Wilcoxon秩和检验的优化和证实两步法,使用人工定义的窗口在指定的痕迹区域计算T1值,通过T1值的大小判断两痕迹的相关性。该方法对工具痕迹的比对检验可达到较好效果。该方法中需要人工定义搜索窗口和痕迹的搜索位置,窗口的尺寸和痕迹的搜索位置会影响计算效率,甚至会给计算结果带来误差。对于线条一致性较好的螺丝刀线条痕迹,人工定义参数对计算结果影响可能不大。但是,对于具有非连续线条的剪切痕迹,需要人工定义剪切痕迹的短轴和长轴来确定痕迹的搜索位置,这样会给计算结果带来不确定性。显然,本研究的方法避免了人工参数的定义,使用痕迹图像纹理的统计特征和基于人工智能的模式识别方法,在痕迹的比对过程中减少了人为影响,比对过程简单。

五、结语

本文提出了一种基于人工智能机器学习的工具痕迹定量检验方法,主要包括工具痕迹数据采集与预处理、LBP及其衍生算子特征提取,比对特征向量构造和随机森林识别分类。对10个没使用过螺丝刀制作的1000个线条痕迹、10个钢丝钳制作的1000个剪切痕迹和8个断线钳制作的800个剪切痕迹的2D数据进行单独和综合比对检验实验。实验结果表明,该方法对痕迹图像采集的光照条件要求不高,方便痕迹的2D图像采集,对相同方式下形成的线条痕迹和类线条痕迹(剪切痕迹),均有较好的识别能力。本方法对工具痕迹定量化检验鉴定具有一定实用价值,下一步将继续研究制作痕迹定位误差与识别比对结果之间的规律问题。


Already have an account?
+86 027-59302486
Top