在机器学习和深度学习中,没有数据我们就寸步难行。因此,为我们创建数据集用于训练模型的人们是(常常被低估的)英雄。一些最有用、最重要的数据集成为了重要的“学术基准”;也就是说,它们是被研究人员广泛研究并用于比较算法改进的数据集。其中一些成为了家喻户晓的名字(至少在训练模型的圈子里是这样!),例如 MNIST、CIFAR 10 和 Imagenet。
我们都对那些为研究社区提供数据集的好心人感激不尽。因此,fast.ai 和 AWS 公共数据集计划 联手,希望能回报一点:我们将其中一些最重要的数据集集中放在一个地方,使用标准格式,并提供可靠快速的基础设施。如需完整列表和链接,请参阅fast.ai 数据集页面。
fast.ai 在 面向程序员的深度学习 课程中使用了这些数据集,因为它们提供了学生可能遇到的数据类型的绝佳示例,而且学术文献中有许多使用这些数据集获得模型结果的例子,学生可以将其工作与这些例子进行比较。如果您在研究中使用这些数据集中的任何一个,请通过引用原始论文(我们为每个数据集提供了相应的引用链接)来表示您的感谢,如果您将它们用于商业或教育项目,请考虑添加感谢语和数据集链接。
数据集示例:法英平行语料库
在 fast.ai 的课程中,最让学生感到惊叹的课程之一是我们学习神经机器翻译的时候。当我们能够教会模型将法语翻译成英语,即使我们自己不会说这两种语言时,这看起来就像魔法一样!
但这并非魔法;关键在于我们在本课中利用的出色数据集:由 宾夕法尼亚大学的Chris Callison-Burch 教授于 2009 年准备的法英平行文本语料库。该数据集包含超过 2000 万对法语和英语的句子对。他以一种非常巧妙的方式构建了这个数据集:通过抓取数百万个加拿大网页(这些网页通常是多语言的),然后使用一组简单的启发式方法将法语 URL 转换为英语 URL。该数据集对于研究人员尤其重要,因为它被用于对机器翻译模型进行基准测试的最重要的年度竞赛中。
以下是一些我们的翻译模型可以从中学习的句子对示例
这个名字来源于希腊语词根 astron(意为“星星”)和 nomos(意为“排列”或“法则”)。 | 这个名字来源于希腊语 astron,意思是“星星”,和 nomos,意思是“法则”。 |
天文学研究天体和现象——例如恒星、行星、彗星和星系——以及宇宙的大尺度性质,也被称为“大图景”。 | 它研究天体和现象,例如恒星、行星、彗星、星系以及宇宙的大尺度性质。 |
那么,Callison-Burch 教授现在在做什么呢?当我们联系他核实数据集的一些细节时,他告诉我们他正在准备宾夕法尼亚大学新的 AI 课程;他准备工作的一部分就是:观看course.fast.ai上的视频!世界真是小啊……
数据集集合
该集合目前包含以下类别
- 图像分类,重点关注细粒度分类和迁移学习
- 图像定位,包括2017 COCO 数据集
- 自然语言处理(NLP),包括用于语言模型、翻译和文本分类的数据集。
这些数据集都存储在相同的 tgz
格式中,并且(在适当的情况下)其内容已被转换为标准格式,适合导入大多数机器学习和深度学习软件。有关使用这些数据集构建实用深度学习模型的示例,请持续关注fast.ai 博客,近期将发布许多教程。