对有兴趣涉足AI的医疗专家的建议

建议
作者

Rachel Thomas

发布日期

2017年8月21日

本周的“问问数据科学家”专栏来自一位医生。请将您的数据科学建议问题发送至 mailto:[email protected]。以前的文章包括

问:我是一名医生(医学博士)。我从事临床工作和基础科学研究的混合。我的研究主要涉及用于假设检验的小规模动物研究,尽管我实验室的其他成员也进行一些统计临床研究,例如配对队列分析。我对人工智能很感兴趣,想知道它是否以及如何应用于我的领域?

答:人工智能正应用于医学的多个领域,包括

Jeremy Howard Jeremy Howard,由Jason Henry为《纽约时报》拍摄

这是否意味着我需要“大数据”?不是。

目前,新闻文章中提到的“人工智能”通常是指深度学习,一种特定的算法族群。

尽管上述例子涉及相对较大的数据集,但深度学习正被有效地应用于越来越小的数据集。以下是我在之前的一篇博客文章中列举的一些例子:流行深度学习库Keras的创建者,现在在Google Brain的Francois Chollet,写了一篇非常好的教程,题为使用非常少的数据构建强大的图像分类模型,他在其中仅使用2000个训练样本训练了一个图像分类器。在Enlitic,Jeremy Howard领导的团队仅使用1000个带有癌症的肺部CT扫描样本,构建了一个算法,该算法在诊断肺癌方面比由4位专家放射科医生组成的专家组更准确。C++库Dlib有一个例子,其中人脸检测器仅使用4张图片(仅包含18张人脸)进行准确训练!

使用Dlib进行人脸识别

fast.ai学生Ben Bowles写了一篇关于数据平台Quid如何使用少量数据进行深度学习以提高其数据集质量的文章。

迁移学习是一种强大的技术,通过该技术,在较大数据集(由拥有更多计算资源的团队)上训练的模型可以进行微调以适应其他问题,所需的数据和计算量更少。例如,最初在ImageNet(包含1000个类别的图像集)上训练的模型是解决其他计算机视觉问题(例如分析肺部CT扫描以检测肺癌)的良好起点。迁移学习是我们面向程序员的实用深度学习课程的主要焦点。

机器学习与假设检验或配对队列分析相比如何?

机器学习擅长处理混乱的数据。受控研究或配对队列分析等技术依赖于在实验设置中(或在寻找配对时)仔细控制不同的变量,而当这不可能时,机器学习是一个绝佳的选择。

随机森林

深度学习只是机器学习的一种。另一种机器学习算法是随机森林,它非常适合观测性研究。

原始的随机森林论文成功地在一些小型数据集上测试了该算法,包括乳腺癌肿块细针穿刺的569张图像、来自345名肝脏疾病患者的数据,以及336个大肠杆菌样本

入门

如果您在大学,请寻找合作者或实习生。请注意,如果您有会编程的学生,他们可以学习深度学习。如果您正在寻找合作者,您不需要找深度学习专家。您只需要一个有一两年编程经验、对您的项目感兴趣并愿意学习深度学习的人。如果他们熟悉您的研究(例如,可能是一位已经在您实验室工作并且知道如何编程的学生),那就更好了。

我建议您学习编程。即使这不是您的重点领域,并且您将与程序员合作,了解一些代码也将帮助您更好地理解可能性,并更好地了解您合作的程序员正在做什么。

对于医生来说,我认为开始编程的最好方法是学习R:R拥有最易于使用的随机森林实现(这是一种很棒的通用机器学习算法),而且R是统计学家常用的语言,所以您很可能会遇到使用它的生物统计学家。Rstudio 是一个相对用户友好且免费的使用R的环境(尽管仍然需要编写代码)。这个免费的Coursera课程,由约翰霍普金斯大学的生物统计学家讲授,是入门的好方法。认识我的人可能会对这个建议感到惊讶:通常,我建议有志成为数据科学家的人学习Python;我建议青少年或喜欢艺术或游戏的人学习JavaScript;而现在我建议医生学习R。如果您开始学习深度学习,您需要学习Python,但R中的随机森林是开始机器学习的好起点(而且随机森林在许多领域仍然能产生高质量的结果——它们不仅仅适用于初学者!)