(更新 - 问题已解决!) Azure 和 AWS 的“GPU 全面可用性”谎言

技术
作者

Jeremy Howard

发布日期

2016年12月19日

更新

非常感谢来自 AWS 的 Boyd Mcgeachie 与我们联系,并为我们的 MOOC 参与者组织了一次(几乎)无障碍的 AWS 入门体验。他非常慷慨地接受了下方列出的批评和担忧,并解释说 AWS 已经意识到了这些问题,并正在努力为所有客户解决这些问题。我很高兴我们找到了一个解决方案,让我们的学生可以使用 AWS,因为 AWS 是一项很棒的服务,而且我们投入了大量时间来自动化和简化 AWS 实例的管理。

原文

Both 微软 and AWS 近日都大张旗鼓地宣布了其支持深度学习的 GPU 实例的全面可用性。不幸的是,它们的“可用性”远没有它们声称的那么高,而且它们甚至懒得将这些限制告知自己的支持团队,更不用说潜在客户了。

问题在于,这两家公司所谓的“可用”GPU 实际上无法被新用户购买。这一点没有在任何地方提及,而对于 AWS,他们甚至让你走完整个入职流程,然后才给出一个完全模糊的错误信息(“您请求的实例数 (1) 超过了您针对指定实例类型的当前实例限额 (0)”)。Azure 至少好一点(他们会将 GPU 实例类型灰显,并在上面写上“不可用”)。

我们明天将推出一个重要的深度学习 MOOC,我们认为它可能会很受欢迎(这是第一个展示如何使用代码中心方法创建最先进模型的课程)。许多学生将第一次学习如何使用基于云的机器。但是,就目前情况而言,除非他们拥有现有的 Azure 或 AWS 账号,否则他们无处付费租用基于 GPU 的机器。试图解决这个问题与 Azure 和 AWS 沟通的过程相当令人困惑,我不得不一遍又一遍地重复,向那些没有被告知此限制的支持人员解释。我不得不解释说,不,这不是用户错误(我们的 MOOC 基于的 面授课程 的 100 名学生不太可能都犯完全相同的错误!),是的,我们使用的是正确的区域,不,我们没有试图使用 Spot 实例,等等等等……

需要明确的是,我理解出于容量规划的考虑,可能需要限制对新实例类型的访问。我也理解存在欺诈者,并且公司希望保护自己。但所有这些都不能成为以下问题的借口或解释:

  • 不告知客户此限制
  • 不告知自己的支持人员此限制
  • 允许客户完成整个入门流程,包括选择 GPU 实例
  • 大肆宣传产品可用,但实际上(且秘密地)只对现有客户开放(确实,为什么要为一个那些看到宣传的人实际上无法使用的东西进行市场宣传呢?!)
  • 收到的请求回应完全不可思议。例如,我的联合讲师的请求(她在请求中包含了课程链接和她的领英,并且拥有杜克大学数学博士学位,曾做过量化分析师,是 Uber 的一名数据科学家)被拒绝了,而同一天里,一些没有提供任何证明的学生却被接受了!
  • 为什么我们的一些已全额付费的学生在课程进行到一半时突然发现他们的访问权限被切断了

我还要说的是,AWS 和 Azure 的支持和容量规划人员一直在不懈努力寻找解决此问题的方法。虽然两家公司都没有回复我告知他们此问题的推文,但都回复了支持工单(尽管在这两种情况下,我都需要向他们解释他们自己系统的限制)。在我发布这篇文章时,他们正在寻找解决方案。希望随着对此问题的更广泛认知以及它对那些第一次尝试深度学习的人们的影响,他们能够获得所需的资源来解决它。

恳请:如果您来自亚马逊或微软,或者认识那里的任何有权势的人,能否请您将此信息转达给他们并请求他们帮助我们?我们正在寻找一种方式,让我们的学生可以花钱获得 GPU 访问权限!我们的电子邮件地址是 [email protected]