数据要素产业
肌肉加速度描记神经肌肉监测的离群值检测:人工智能路径
摘要
目的:围手术期对神经肌肉阻滞患者进行神经肌肉功能的定量监测,是现代麻醉的必需与重要组成。临床中基于肌肉加速度描记(acceleromyography, AMG)神经肌肉监测仪所记录的伪影并不少见,使得其适用性受限。离群值分析(或异常值检测)是指在数据集中发现与预期行为模式不一致的数据。通过离群值分析技术,监测设备能够识别和标记异常信号。本研究旨在生成一系列特征(工程特征)集,能够检测AMG测量四个成串刺激(train-of-four, TOF)的离群值,并进一步通过建立离群值检测算法测试工程特征集识别TOF监测离群值的性能;
方法:由多中心AMG和陀螺仪传感神经肌肉监测建立数据集,包含 35 名患者的 533 次高灵敏度 TOF 测量值。基于原始数据提取第一组基本特征,第二组特征由TOF测量值提取的工程特征;使用敏感逻辑回归 (cost-sensitivelogistic regression,CSLR) 模型评估特征集的性能, 所建立的模型最终输出为二元分类形式表示 TOF 测量值是否为离群值;
结果:基于原始数据中提取7个基本特征,并由TOF测量值中提取8个特征,建立工程特征集。模型的训练和测试基于单独数据集:319 个测量值(18 个离群值),测试集共 214 个测量值(12 个离群值)。基于建立工程特征集的 CSLR 模型的F1 分数 (95%CI) 为 0.86 (0.48-0.97) ,明显大于基本特征的 CSLR 模型 (0.29 [0.17-0.53]; P
结论:基于原始数据建立的工程特征集结合离群检测算法,能够增加神经肌肉监测数据的一致性;神经肌肉监测器内部集成离群值标记算法,或可能减少AMG可靠性问题。
关键词:神经肌肉监测;离群值分析;机器学习;
背景:
术后肌松残留(Postoperative residual curarization,PORC)在目前临床中仍较为常见,能够导致胃部内容物误吸和缺氧时通气代偿能力受损等并发症,使得术后肺部并发症增加。因此,围手术期神经肌肉的定量监测已成为当今国际共识,有助于降低严重呼吸系统并发症的发生,不过同时也使医疗费用大幅增加。
虽然神经肌监测程序看似简单,但常因各种因素导致使用者对结果的判读出现偏差。如使用拇内收肌测量AMG时基线对照TOFR(T4/T1)常出现超生理值即(TOFR > 1) 。本研究旨在是开发能够应用于神经肌肉监测的人工智能模型,通过探索性分析AMG 神经肌肉监测的数据和变量,标记异常离群 TOF 测量值,并检测所集成模型的性能及其适用性。
方法:
研究参与者和数据收集
本研究所有数据均在前瞻性研究中收集,数据收集始于 2018 年 2 月,终止 于2019 年 4 月。研究收集用于算法开发的数据,使用专门设计的人工智能应用程序监测由周围神经刺激器刺激同侧尺神经引起最大的手部运动。收集数据包括三轴 (3D) 原始加速度值 (m/s2) 以及原始 3D 角度速度值 (rad s1)。研究包括 35 名患者,总共有 533 个TOF 测量值,其中总共 533 个测量值中的 30 个被确定为离群值,来源于TOF 检测中的 18 名患者的测量结果。
特征工程
加速度和角度信号通过开源的 Cordova Plugin Device-motion 数据库所获取,测量测量肌肉在三个正交运动方向(X、Y 和 Z)的收缩运动,对这些信号进行均方根分析,以表示其加速度所代表的肌肉位移范围(单位为 m/s2;图1),模型特征集的数据来源均为连续监测信号。
图1:正常和异常TOF 模式;上图显示正常的 TOF,下图表示异常。
为更好地了解在不同AMG 测量间变化的差异,利用一组AMG值计算算术平均值和标准差;为避免与其他描述性统计数据混淆,被标记为“AMG_StdDev”和“AMG_Mean”,设计用于评估特定 TOF 模式的特性如(表1,图2)。
表 1. 数据集的工程特征描述
图 2. 基础和工程特征示例(x 轴:时间,y 轴:组合角度和加速度),每种颜色代表TOF内的每个单独单个刺激:T1、T2、T3 和 T4由相应的多个加速/角度组成
模型开发、过拟合与评估
模型开发包括基本功能集和工程特征集。因研究数据集由2 个不同类别数据组成(正常和离群值),使用CSLR模型训练, 为避免过拟合在数据预处理阶段使用部分数据集作为测试集(图 3)。使用准确率、召回率、 F1 分数作为模型评估指标,根据受试者特性曲线 (ROC) 和曲线下面积 (AUC) 检测模型性能。
图 3. 数据集分区和模型训练概述
结果
描述性统计、模型训练和交叉验证
与基本特征相比,工程特征变量变异更大。图 4 显示散点图和基本特征 T1 和TOFR 的分布图、工程特征的 ratioT1 和deltaT4_T1 。与基础特征相比,工程特征中能够更清楚地检测出离群值。
训练数据集(n=319) 由 18 个异常值组成,而测试数据集 (n=214) 由12 个异常值组成。训练和测试数据实例以完全随机的方式从 scikit-learn 库使用train_test_split 函数选择。在分段测量 (n=533) 上,交叉验证期间的数据划分是单独执行的,训练和测试数据以分层方式进行,以保证相同的类别不平衡分布于整个数据集。所有模型训练、交叉验证和模型评估均使用 scikit-learn 和高级编程语言 Python完成。
图 4. A :TOFR和 T1 散点图;B :特征 deltaT4_T1 和ratioT1 散点图
模型性能
图 5 为模型训练期间的学习曲线和验证指标,包括F1 分数和 ROC-AUC。具有工程特征的 CSLR 模型与测试数据相比,训练数据集的指标性能有所提高,表明模型没有过拟合,但对于基本特征的 CSLR 模型结果却相反。工程特征的 CSLR 模型F1 分数 (95% CI) 为0.86 (0.48-0.97) ,明显大于基本特征 CSLR 模型(0.29 [0.17-0.53];P
图 5. 基本特征集(上图)和工程特征集(下图)的敏感逻辑回归模型的学习曲线;训练和验证指标是 F1 分数和 ROC-AUC 分数(y 轴);X 轴表示训练实例的数量
结论
本研究基于术中测量建立一组工程特征集能够实现AMG神经肌肉监测离群值的检测,有助于相似特征模型的建立,为神经肌肉监测的离群点检测技术的建立与开发打下良好基础,离群值检测算法在未来或可以集成至AMG神经肌肉监测设备中,实现TOF测量离群值实时自动地扫描标记。
神麻人智的述评:
在麻醉药物智能控制输注领域,对于神经肌肉的精确监测研究长期以来一直滞后于镇静与镇痛药物浓度的监测,AI或可能促进这一领域的研究进展,本研究主要结果表明对于术中 TOF 测量离群值的识别,基于工程特征的TOF 性能优于基础特征和临床常用的自动离群值神经肌肉监测。测试数据集中,基于基本特征的CSLR模型,标记离群值的准确率仅为三分之一,而基于工程特征的 CSLR模型的准确率可达到四分之三;另外,基于基本特征的CSLR模型报错率同样显著高于基于工程特征CSLR模型,提示该研究所建立的人工智能模型或可为未来肌肉神经功能的准确监测提供良好的借鉴,模型具有良好适用性。
特征工程本质上是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限,特征工程的最终目的是提升模型的性能。
本研究最大的限制在于收集的数据集和应用于开发本研究算法的样本量太小,未来仍需要建立更大样本量的数据集,以进一步提高模型的性能,另外,该研究没有对实施数据进行分析检测其离散值。