医疗领域中的AI应用
文章导读:本文主要介绍用于医疗保健领域的深度学习技术。讨论领域主要集中在计算机视觉(computer vision), 自然语言处理(natural language processing),强化学习和其他广泛使用的方法。本文将描 述这些技术如何影响医学的几个关键领域。 深度学习技术是机器学习领域的一个分支,再过去几年产生了很大的发展。原因是因为计算能力的 增⻓与可用数据集的增加。在这一领域中,机器学习在理解和处理图像,文字和语音数据方面产生 了惊人的进步。 趋势上看,由于逐年增⻓的巨大数据量的医疗数据,医疗产业将会从机器学习中受 益。 机器学习与一般性编程不同的是,机器学习使用数据驱动的规则转换输入输出。转换规则由大量数 据中产生。曾几何时,构建机器学习(Machine Learning)需要领域专家和工程师一起来设计特征提 取器,原始数据经过复杂的转换才能输入算法模型进行训练。深度学习是一种表征学习,表征学习 (或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。而深度学 习作为表征学习的一种形式,输入原始数据后可以自行习得模式识别所需表征,它们由多层表征组 成。这些层通常按顺序排列,并包含大量粗糙的非线性运算,从而使一个层的表征(最开始是原始 数据输入)输入到下一个层,最终转换成较抽象的表征。随着数据在系统各层中传播,输入空间不 断变形,直到数据点可识为止。用这种方式可以学得高度复杂的函数。 |
图1: 图a为简单多层神经网络对数据进行二分类的过程,图b为一种多模态神经网络,接受输入数据 为图像数据,时域数据等。这种多模态的能力在医疗行业的重要性与日俱增。
深度学习子在医疗行业的应用优势:
深度学习可以扩展到更大的数据集,持续改进,提高在更多数据的能力
深度学习模型接受多种数据的输入,主要是指图像,语音,文字等数据类型
强化学习在深度学习技术的加持下也取得了⻓足的进步, 首先是围棋(Go)游戏等领域取得了进步。在医疗领域中,当学习需要医生演示时,强化学习非常有用。例如机器人辅助手术中智能体 学习缝合伤口。
计算机视觉
近些年,深度学习技术一些重大进步出现在计算机视觉领域(computer vision)。计算机视觉主要研 究图像和视频理解,处理目标分类、检测和分割任务, 这些在判断病人射线照片中是否包含恶性肿 瘤时非常有用。卷积神经网络(CNN)用来处理具备空间不变性的数据(如图像,它们的意义不会 发生改变),也因此成为该领域的重要技术。
拿医疗成像来说, 它从图像分类和目标检测的近期进展中受益良多。很多研究在皮肤科、放射科、 眼科、病理科的复杂诊断中取得了不错的结果(⻅图 2)。深度学习系统可以为医生提供辅助意 ⻅,标注出图像中有问题的区域。
图2: 医疗成像,CNN在医疗影像上训练,包括放射科、病理科、皮肤科和眼科。信息流从左到右。 预测任务包括图像分类(恶性vs良性)和医疗特征定位(如肿瘤)
使用卷积神经网络进行图像级别的诊断已经很成功了。这很大程度上归功于 CNN 在目标分类任务 上可与人类媲美的性能。这些网络在迁移学习中展现了强大的性能,CNN 最初在与目标任务无关的 大型数据集(如 ImageNet)上进行训练,然后在目标任务相关的较小数据集(如医疗影像)上进行 微调。第一步,算法利用大量数据学习图像中的自然统计数据,如直线、曲线、颜色等。第二步, 重新训练算法的高级层来对诊断病例进行辨别。类似地,目标检测和分割算法可识别图像中与特定 目标对应的部分。CNN 方法使用图像数据作为输入,然后输入经过多次卷积和非线性操作进行迭代 变化,直到原始数据矩阵被转换成潜在图像的概率分布。
深度学习方法在大量诊断任务上取得了医生级别的准确率,包括识别黑痣和黑色素瘤,从眼底图像 和光学相干断层扫描 (OCT) 图像中检测糖尿病性视网膜病变、判断心血管⻛险,提供转诊建议,以及从乳房 X 光片中检测乳腺病变、使用核磁共振成像进行脊柱分析。甚至有研究证明单个深度学习 模型在多个医疗模态中都很有效(如放射科和眼科)。但是,这些研究的一个关键限制是人类医生 与算法性能之间的对比缺乏临床背景,它们把执行诊断的情形限制在仅使用图像的条件下。而这通 常会增加人类医生进行诊断的难度,现实医疗环境中医生可以看到医疗影像和一些补充数据,包括 病人的病史、健康记录、其他检测和口述等。
一些诊所开始使用图像目标检测和分割技术处理紧急、不易被发现的病例,如使用放射图像标注大 脑中的大动脉闭塞,病人在永久性大脑损伤发生之前所剩的时间极其有限(几分钟)。此外还有癌 症病理切片读取,该任务需要人类专家费力地扫描和诊断超高画素图像(或同样大小的实体图 像),现在该任务可以使用能够检测有丝分裂细胞或肿瘤区域的 CNN 来辅助进行。训练之后的 CNN 用于量化组织病理图像中的 PD-L1 数量,这项任务对确定病人要接受哪种免疫肿瘤药物非常 重要。结合像素级的分析,CNN 甚至被用于发现生存概率相关组织的生物学特征。
为新的医疗成像任务构建监督式深度学习系统的主要局限在于是否有足够大的标注数据集。用于特 定任务的小型标注数据集比较容易收集,但算法在新数据上的性能会比较差。在这些情况下,数据 增强技术对提高算法的泛化能力有所帮助。类似地,大型无标注数据集也很容易收集,但它需要改 进的半监督和无监督技术,如生成对抗网络(GAN)。例子,想象图、照片修复等。