以前叫大数据,现在叫深度学习

技术
建议
作者

Rachel Thomas

发布日期

November 17, 2016

在几周前举行的金融时报-日经会议上,关于人工智能、机器人与我们,Andreessen Horowitz 合伙人 Chris Dixon 在我和 Jeremy Howard 上台前发表了演讲。Dixon 在他的演讲中说了很多完全合理的话——但评论那些没什么意思,所以我要着重讲他说的一些相当不合理的话,那就是:“几年前它被称为大数据,然后是机器学习,现在被称为深度学习”。他是否是说这些都是同一个事物的不同术语(它们绝对不是!),还是暗示“流行”的数据驱动方法年年都在变,这并非完全清楚。无论哪种情况,这都掩盖了深度学习是一个多么彻底的颠覆者。它不仅仅是 2016 年版的“大数据”(“大数据”一直是一个空洞的流行语)。它将产生堪比互联网影响力的影响,或者正如吴恩达(Andrew Ng)所说,产生电力般的影响。它将影响每一个行业,各种类型的组织领导者都将后悔没有更早地关注它。

首先,澄清一些术语

大数据:这是一个空洞的营销术语,错误地让许多人相信数据的规模才是重要的。它还让许多公司在实际上不需要的 Hadoop 集群上花费了巨额资金。这些集群的供应商竭尽全力维持这种无稽之谈的势头,因为当 CEO 们相信硬件规模才是关键时,如果你制造、销售、安装或服务这些硬件,那将是一个非常有利可图的局面……

Keras 这一流行的深度学习库的创建者 Francois Chollet,现在在 Google Brain 工作,他有一篇很棒的教程,题为使用非常少的数据构建强大的图像分类模型,他在其中仅使用 2,000 个训练样本训练了一个图像分类器。在 Enlitic,Jeremy Howard 领导的团队仅使用了 1,000 个包含癌症的肺部 CT 扫描样本,就构建了一个比 4 位放射学专家小组诊断肺癌更准确的算法。C++ 库 Dlib 有一个示例,其中人脸检测器仅使用4 张图像(包含 18 张人脸)就得到了准确的训练!使用 Dlib 进行人脸识别

机器学习:机器学习是一门让计算机无需显式编程即可执行任务的科学。例如,计算机可以观看多场国际象棋比赛并通过范例学习,而不是将国际象棋的规则和策略编写进程序。机器学习包含多种多样的算法。

深度学习:深度学习指的是多层神经网络,是机器学习算法的一个特定类别。深度学习在目前已应用的几乎所有领域,包括图像识别、语音识别和语言翻译,都取得了前所未有的、量级上的最先进结果。我个人认为深度学习这个名字不太好,但这并不是否定它的理由。如果你在 80 年代学过神经网络,想知道自那以后有什么变化,答案在于以下发展: - 使用多个隐藏层而不是只有一个。(尽管万能近似定理表明理论上只使用一个隐藏层是可能的,但这需要指数级更多的隐藏单元,这意味着需要指数级更多的参数来学习。) - GPGPU,即可用于视频游戏以外应用的 GPU 可编程库,使得深度学习的训练和推理速度提高了几个数量级。 - 一些算法上的改进(特别是 Adam 优化器、ReLU 激活函数、批量归一化和 dropout)使得训练更快、更稳定。 - 更大的数据集——尽管这是推动进展的一个因素,但其价值常常被过分强调,正如上面“少量数据”的例子所示。

Chris Dixon 提出的另一个常见误解是,深度学习人才极其稀缺,顶尖学校的研究生项目需要数年才能赶上需求。虽然过去需要获得为数不多的几所学校的研究生学位才能成为深度学习专家,但这完全是一个人为的障碍,现在已不再是这种情况。正如 Chartbeat 工程与数据科学主管 Josh Schwartz 在《哈佛商业评论》中写道,“机器学习不再只是专家的事”。尖端的可商用机器学习框架、主要云提供商(亚马逊和谷歌)发布的机器学习特定服务、教程、公开的代码和公开的数据集都在激增。

我们目前正在教授 100 名学生从零开始学深度学习,唯一的前提要求是一年编程经验。实体课程结束后不久,这将转化为一个 MOOC(大规模开放在线课程)。课程进行到第四周,学生们已经在使用 Python 构建世界级的图像识别模型了。

将组织内的领域专家培养成深度学习人才,远比将深度学习专家“空降”到组织内要好得多。深度学习博士毕业生很可能不具备你在最有效员工身上看重的广泛相关经验,他们更有可能对解决有趣的工程问题感兴趣,而不是紧盯商业上最重要的难题。在我们在多个行业、多年应用机器学习解决各种问题的经验中,我们持续看到组织低估和低投入其现有的内部人才。在大数据热潮的日子里,这意味着公司把钱花在了外部顾问身上。而如今错误的“深度学习专属论”流行语下,这意味着寻找那些稀有的深度学习专家,通常包括为失败的深度学习初创公司支付巨额溢价。