本周的“问问数据科学家”专栏来自一位医生。请将您的数据科学建议问题发送至 mailto:[email protected]。以前的文章包括
- 如何转行成为一名数据科学家
- 给家长的建议:如何鼓励您的孩子学习STEM
- 如何构建您的数据科学和工程团队
- 给对深度学习感兴趣的学生的建议
- 证明自己能力的学位替代方案
- 机器学习即服务(MLaaS)有效吗?需要博士学位吗?
问:我是一名医生(医学博士)。我从事临床工作和基础科学研究的混合。我的研究主要涉及用于假设检验的小规模动物研究,尽管我实验室的其他成员也进行一些统计临床研究,例如配对队列分析。我对人工智能很感兴趣,想知道它是否以及如何应用于我的领域?
答:人工智能正应用于医学的多个领域,包括
糖尿病视网膜病变是增长最快的致盲原因。筛查过程的第一步是由眼科医生检查眼底照片,但在世界许多地方,没有足够的专科医生来完成这项工作。谷歌的研究人员和斯坦福大学已经使用深度学习创建了与人类眼科医生一样准确的计算机模型。这项技术可以帮助医生更快地筛查更多的患者,从而缓解全球医生短缺的问题。
2012年,默克公司赞助了一场药物发现竞赛,参赛者获得了一个数据集,描述了数千种分子的化学结构,并被要求预测哪些分子最有可能成为有效的药物。值得注意的是,获胜团队直到最后一刻才决定参赛,并且没有生物化学方面的具体知识。他们使用了深度学习。
在2016年《纽约时报》的一篇文章中提到,由fast.ai的Jeremy Howard创立的医疗初创公司Enlitic在肺癌诊断方面比人类放射科医生准确率高50%。
Jeremy Howard,由Jason Henry为《纽约时报》拍摄
fast.ai远程研究员李鑫鑫正在与Ikaishe和Xeed合作开发用于帕金森病患者的可穿戴设备。传统上,医生通过观察患者行走来评估疾病进展,而可穿戴设备将允许收集更多、更精确的数据。
深度学习可以达到皮肤科医生级别的准确度来分类皮肤癌,正如今年早些时候在《自然》杂志上发表的文章所述。
Cardiogram是一款用于Apple Watch的应用程序,可以筛查用户的心脏健康,并能够以97%的准确率检测到心房颤动,一种常见的心律不齐形式。
这是否意味着我需要“大数据”?不是。
目前,新闻文章中提到的“人工智能”通常是指深度学习,一种特定的算法族群。
尽管上述例子涉及相对较大的数据集,但深度学习正被有效地应用于越来越小的数据集。以下是我在之前的一篇博客文章中列举的一些例子:流行深度学习库Keras的创建者,现在在Google Brain的Francois Chollet,写了一篇非常好的教程,题为使用非常少的数据构建强大的图像分类模型,他在其中仅使用2000个训练样本训练了一个图像分类器。在Enlitic,Jeremy Howard领导的团队仅使用1000个带有癌症的肺部CT扫描样本,构建了一个算法,该算法在诊断肺癌方面比由4位专家放射科医生组成的专家组更准确。C++库Dlib有一个例子,其中人脸检测器仅使用4张图片(仅包含18张人脸)进行准确训练!
fast.ai学生Ben Bowles写了一篇关于数据平台Quid如何使用少量数据进行深度学习以提高其数据集质量的文章。
迁移学习是一种强大的技术,通过该技术,在较大数据集(由拥有更多计算资源的团队)上训练的模型可以进行微调以适应其他问题,所需的数据和计算量更少。例如,最初在ImageNet(包含1000个类别的图像集)上训练的模型是解决其他计算机视觉问题(例如分析肺部CT扫描以检测肺癌)的良好起点。迁移学习是我们面向程序员的实用深度学习课程的主要焦点。
机器学习与假设检验或配对队列分析相比如何?
机器学习擅长处理混乱的数据。受控研究或配对队列分析等技术依赖于在实验设置中(或在寻找配对时)仔细控制不同的变量,而当这不可能时,机器学习是一个绝佳的选择。
随机森林
深度学习只是机器学习的一种。另一种机器学习算法是随机森林,它非常适合观测性研究。
原始的随机森林论文成功地在一些小型数据集上测试了该算法,包括乳腺癌肿块细针穿刺的569张图像、来自345名肝脏疾病患者的数据,以及336个大肠杆菌样本。
入门
如果您在大学,请寻找合作者或实习生。请注意,如果您有会编程的学生,他们可以学习深度学习。如果您正在寻找合作者,您不需要找深度学习专家。您只需要一个有一两年编程经验、对您的项目感兴趣并愿意学习深度学习的人。如果他们熟悉您的研究(例如,可能是一位已经在您实验室工作并且知道如何编程的学生),那就更好了。
我建议您学习编程。即使这不是您的重点领域,并且您将与程序员合作,了解一些代码也将帮助您更好地理解可能性,并更好地了解您合作的程序员正在做什么。
对于医生来说,我认为开始编程的最好方法是学习R:R拥有最易于使用的随机森林实现(这是一种很棒的通用机器学习算法),而且R是统计学家常用的语言,所以您很可能会遇到使用它的生物统计学家。Rstudio 是一个相对用户友好且免费的使用R的环境(尽管仍然需要编写代码)。这个免费的Coursera课程,由约翰霍普金斯大学的生物统计学家讲授,是入门的好方法。认识我的人可能会对这个建议感到惊讶:通常,我建议有志成为数据科学家的人学习Python;我建议青少年或喜欢艺术或游戏的人学习JavaScript;而现在我建议医生学习R。如果您开始学习深度学习,您需要学习Python,但R中的随机森林是开始机器学习的好起点(而且随机森林在许多领域仍然能产生高质量的结果——它们不仅仅适用于初学者!)