Select Language

AI社区

数据要素产业

准确率远超人类专家 谷歌用深度学习算法检测癌症

在检查患者的生物组织样品后, 病理学家的报告通常是许多疾病的黄金诊断标准。特别是对于癌症,病理学家的诊断对患者的治疗具有深远的影响。病理切片审查是一个非常复杂的任务,需要多年的培训才能做好,丰富的专业知识和经验也是必不可少的。尽管都经过培训,但不同病理学家对同一患者给出的诊断结果,可能存在实质性的差异,而这可能导致误诊。例如,在某些类型的乳腺癌诊断中,诊断结论一致性竟低至48%,前列腺癌诊断的一致性也同样很低。

诊断缺乏一致性低并不少见,因为如果想做出准确的诊断,必须检查大量的信息。病理学家通常只负责审查一张切片上所有可见的生物组织。然而,每个患者可能有许多病理切片,假设以40倍的放大倍数进行数字化切片图像,每个患者的图像数据都超过10亿个像素点。想象一下,要遍历1张1千万像素的照片,并且必须对每个像素的判断结果负责。不用说了,这里有太多的数据需要检查,而时间往往是有限的。

为了解决诊断时间有限和诊断结果不一致的问题,我们正在研究如何让深度学习数字病理学领域发挥作用,通过创建一个自动检测算法,在病理学家的工作流中提供辅助工具。谷歌研究院使用由Radboud大学医学中心提供图像数据来训练诊断算法,这些图片也在2016 ISBI Camelyon Challenge中使用,目前该算法已被优化,用于定位出乳腺癌向乳房相邻的淋巴结扩散。

在乳腺癌扩散定位任务中,使用现成的标准深度学习方法如Inception(也称为GoogLeNet),表现也是相当不错,虽然生成的肿瘤概率预测热图还是存在噪点。我们对这个训练网络做了增强定制,包括用不同的放大倍数的图片来训练模型(非常像病理学家所做的),从训练结果来看,我们有可能训练出一个系统,它的能力可以相当于一个病理学家,甚至有可能超过病理学家的表现,并且它拥有无限的时间来检查病理切片。

图1左图是来自两个淋巴结活检的图像,中图是早期深度学习算法检测肿瘤的结果,右图是我们当前的成果,注意第二个版本的可见噪声(潜在误判)已降低。

事实上,由该算法产生的预测热图已经改善了很多,该算法的定位得分(FROC)达到89%,明显超过没有时间约束的病理学家,他们的得分仅为73%。我们不是唯一一组认为这种方法是有希望的,其他组别的算法模型在同一数据集中获得了高达81%的分数。对我们来说更令人兴奋的是,我们的模型鲁棒性非常强,从不同的医院使用不同的扫描仪获得的图像都可以识别。相关的详细信息,请参阅谷歌研究院的相关文章“在千兆像素病理图像上检测癌症转移”。

图2 淋巴结活检的特写镜头。组织包含乳腺癌转移以及巨噬细胞,其看起来与肿瘤相似,但是是良性正常组织。我们的算法成功识别肿瘤区域(亮绿色),不会被巨噬细胞干扰。

虽然这些结果看来振奋人心,但有几个重要的注意事项需要考虑:

像大多数指标一样,本地化的FROC分数并不是完美的。在这里,FROC分数定义是预设带有少量假阳性的灵敏度,假阳性是指将正常组织错判为肿瘤,灵敏度则是每个载玻片所检测到肿瘤的百分比。但病理学家很少做假阳性的误判,例如上述73%的得分对应于73%的灵敏度和零假阳性。相比之下,假设允许更多的假阳性个数,我们的算法的灵敏度可以提升。如果每个载玻片允许有8个假阳性,我们的算法的灵敏度可达到92%。

这些算法在执行训练过的任务时表现良好,但相比人类病理学家,还是缺少丰富的知识和经验。人类病理学家可以检测出模型还没有训练的异常分类,例如炎症过程、自身免疫疾病或其他类型的癌症。

为了确保患者得到最佳的临床结果,这些算法需要作为病理学家的辅助工具,融入到他们的工作流中。我们设想我们的算法可以提高病理学家的诊断效率和诊断结果的一致性。例如,病理学家可以通过重点排查最靠前的肿瘤预测区域,以及每个载玻片多达8个假阳性区域,来降低其假阴性率,假阴性是指未检出肿瘤的百分比。另外,这些算法可以让病理学家准确地测量肿瘤大小,这与肿瘤预测的结果相关。

训练模型只是将有趣的研究转化为真实产品的第一步。 从临床验证到监管批准,还有很多困难需要征服。但我们已经起了一个非常有希望的开头,我们希望通过分享我们的工作,能够加快在这个领域的进步。