《哈佛商业评论》最近发表了一篇题为“想要更少偏见的决策?使用算法吧。”的文章,作者是 Alex P. Miller。文章强调了人类在决策中存在很大偏见(这是事实),但忽略了许多重要的相关问题,包括
- 算法在实施时往往没有相应的申诉机制(这源于对算法客观、准确、不会犯错的误解)
- 算法的应用规模通常远大于人类决策者,在许多情况下,这会导致相同的偏见被大规模复制(算法吸引人的部分原因在于其使用成本低廉)
- 算法使用者可能不理解概率或置信区间(即使提供了这些信息),在实际操作中也可能不愿推翻算法的决定(即使技术上可行)
- 与其仅仅关注现存的“最不糟糕”的选项,不如探讨如何通过结合人类和机器的优势,创造出更好、更少偏见的决策工具,这更有价值
Miller 承认,“算法革命”的批评者“担心算法往往是不透明、有偏见且不负责任的工具,被机构权力所利用”,尽管他随后在文章的其余部分只关注了偏见这一点,而没有讨论不透明或不负责任的指控(以及它们如何与偏见相互作用)。
人与机器的对立框架没有帮助
媒体通常通过“人与机器对立”的视角来审视人工智能的进展:谁是某项任务的冠军。这种框架既不准确地反映了大多数算法的使用方式,也是思考人工智能的一种非常局限的方式。在所有情况下,算法都包含人类的组成部分,例如数据收集者(以及他们带有的偏见)、设计决策、实施方式、结果如何用于决策、不同利益相关者对算法正确使用和局限性的理解等等。
大多数从事人工智能医疗应用研究的人并不是想取代医生;他们试图创造工具,让医生更准确、更高效,从而提高医疗护理质量。最好的国际象棋“棋手”既不是人类也不是计算机,而是人类和计算机协同工作的团队。
Miller 的 HBR 文章(正确地)指出人类非常容易产生偏见,然后比较了我们目前“不算太好”的方法,看看哪种“没那么糟糕”。这篇文章没有提出这样一个问题:我们如何开发出偏见更少的决策方法(也许结合使用人类和算法)?而这才是远更有趣、更重要的问题。
算法的使用方式通常与人类决策者不同
算法通常被用于更大规模的应用,大规模复制相同的偏见,并被误认为是不会出错或客观的。Miller 分享的研究采用的是“苹果对苹果”的比较方式,没有考虑到它们在实际应用中常常被以不同的方式使用。
Cathy O’Neil 在《数学杀伤性武器》一书中写道,她所批判的算法倾向于惩罚穷人。它们擅长大规模处理,而且价格低廉。这正是它们的吸引力之一。相比之下,富人往往能从个性化服务中获益。一家顶尖律所或一所私立名校会比快餐连锁店或资金紧张的城市学区更侧重于推荐信和面对面面试。我们一次又一次看到,享有特权的人更多由人来处理,而大众则由机器处理。(我的强调)
O’Neil 书中的一个例子是一位患有躁郁症的大学生,他想找一份暑期杂货店打包员的工作。他申请的每家店都使用了相同的心理评估软件来筛选候选人,结果他被所有店都拒绝了。这揭示了算法的另一个危险:即使人类常常存在类似的偏见,但并非所有人都会做出完全相同的决定(例如,那位大学生可能还是有机会找到一家愿意聘用他的店,即便一些决策者对精神健康存在偏见)。
许多人会比信任人类决策更信任算法决策。虽然设计算法的研究人员可能对概率和置信区间有很好的理解,但普通使用者往往没有。即使人们被赋予推翻算法决定的权力,了解他们在实践中是否愿意这样做也至关重要。
需要有意义的申诉和解释机制
许多关于算法偏见的最令人心寒的故事,都没有涉及有意义的解释或有意义的申诉流程。这似乎是算法决策系统中的一个普遍趋势,或许因为人们错误地认为算法是客观的,所以觉得没有必要进行申诉。此外,如前所述,算法决策系统通常被用作一种削减成本的工具,而允许申诉会增加成本。
Cathy O’Neil 讲述了一个故事,一位备受学生、家长和校长喜爱的老师,却被算法莫名其妙地解雇了。她始终无法得知自己被解雇的原因。如果能有一个相对快速简便的方式让她申诉这个决定,或者甚至能确定与哪些因素有关,这样的故事就会没那么令人不安了。
The Verge 调查了一款软件,该软件在美国超过一半的州被用来确定人们可以获得多少医疗护理。在阿肯色州实施后,许多人(其中不少患有严重残疾)的医疗护理被大幅削减。例如,Tammy Dobbs 是一位患有脑瘫的女性,需要有人协助她起床、上厕所、吃饭等等,她的护理时间突然每周减少了 20 小时。她无法获得任何关于医疗护理被削减的解释。最终,一场法庭案件揭示该算法的软件实施存在错误,对患有糖尿病或脑瘫的人产生了负面影响。然而,Dobbs 和许多依赖这些医疗福利的人仍然担心他们的福利可能会再次突然且莫名其妙地被削减。
该算法的创建者,一位教授,并从该软件中赚取版税,被问及是否应该有沟通决策的方式时回答说:“这可能是我们应该做的事情。我也应该擦擦床底下。”他后来澄清说,他认为那是别人的责任。我们不能一直声称技术带来的问题是别人的责任。
本世纪初科罗拉多州曾使用一套独立的计算机系统来确定公共福利,结果发现系统中编码了 900 多条错误规则,导致了像孕妇被拒绝享受医疗补助(Medicaid)这样的问题。律师们通常很难发现这些缺陷,因为算法的内部运作机制通常受到商业秘密保护。用于医疗保健、招聘/解雇、刑事司法等影响人生的领域的决策系统,应包含某种人工申诉流程,并且相对快速且易于操作。许多关于算法决策的最令人心寒的故事,如果有一个简单的方式来申诉和纠正错误的决定,就不会那么令人担忧了。我们所做的任何事情都有可能犯错,因此建立一个紧密的反馈循环,方便发现和纠正错误,至关重要。
复杂、真实的现实系统
当我们思考人工智能时,需要考虑复杂、真实的现实系统。HBR 文章中的研究将决策视为孤立的行为,没有考虑到这种决策发生在复杂的现实系统之中。关于某人是否可能再次犯罪的决定并非孤立存在:它存在于我们刑事司法系统的复杂体系内。我们有责任理解我们的工作将与之互动的现实系统,并且不能忽视将受到影响的实际个体。
COMPAS 累犯算法被用于美国一些法庭,辅助进行审前保释、判刑和假释的决定。它是 ProPublica 调查的对象,调查发现白人被告的假阳性率(被标记为“高风险”但未再次被捕的人)为 24%,而黑人被告则为 45%。后来的研究发现,COMPAS(一个使用 137 个输入变量的黑箱算法)并不比基于两个变量的简单线性方程更准确。COMPAS 也不比未经训练的 Mechanical Turk 工作者更准确。(你可以在普林斯顿大学计算机科学教授 Arvind Narayanan 精彩的“公平性的 21 种定义”讲座中了解更多关于公平性各种定义的信息)。
Kristian Lum,统计学博士,人权数字分析小组首席数据科学家,与纽约法律援助协会律师、前公设辩护人 Elizabeth Bender,以及一位被捕且无法负担保释费的无辜男子 Terrence Wilkerson 一起,组织了一场研讨会。他们共同分享了法律系统中存在的障碍和低效问题的亲身经历,为围绕 COMPAS 的辩论提供了宝贵的背景信息。Bender 提到,公设辩护人要在雷克岛监狱会见被告(许多无力支付保释金的纽约市审前被拘留者被关押在那里),来回需要两小时的巴士车程,然后只有 30 分钟的会见时间,前提是狱警准时(但这并非总是如此)。Wilkerson 解释了许多无力支付保释金的无辜被告为了能更快出狱而频繁接受认罪协议的情况。再说一次,这一切都发生在甚至还没面临审判的人身上!这次小组讨论是阐明现实世界系统并普及第一手影响知识的绝佳方式。我希望更多的统计学家和计算机科学家能效仿这个例子。
正如这个例子所示,算法常常会加剧潜在的社会问题。美国法院和监狱系统存在深刻的结构性问题,包括种族偏见、现金保释的使用(美国有近五十万人甚至在审判前就因无力支付保释金而身陷囹圄)、掠夺性的盈利性监狱,以及极度的过度监禁(美国人口占世界 4%,囚犯占世界 22%)。我们有责任理解我们的算法可能与之互动的系统和潜在问题。
大多数反对不公正偏见的人并非反对算法本身
大多数批判有偏见算法的人反对的是不公正的偏见;他们并非憎恨算法的人。 Miller 认为,批判有偏见算法的人“很少询问他们分析的系统在没有算法的情况下会如何运作”,暗示那些反对有偏见算法的人可能不了解人类有多么偏见,或者只是不喜欢算法。我花了大量时间研究并撰写关于人类偏见的研究(特别是它们如何与科技行业相关),这远早于我开始撰写关于机器学习中偏见的内容。
当我发布推文或分享关于有偏见或不道德算法的内容时,常常会遇到反对意见,认为我一定是反对算法或反对技术的。这与事实相去甚远:我拥有数学博士学位;我曾担任量化分析师、数据科学家和软件工程师;我创建了一个免费的在线计算线性代数课程,并共同创立了 fast.ai,该组织运营面向程序员的实用深度学习课程,并通过巧妙使用算法赢得了斯坦福计算机视觉速度测试。
在这方面我绝非特例:我能想到的,大多数直言不讳批判有偏见算法的人都拥有计算机科学、数学或统计学博士学位,并且在各自领域持续活跃。看看公平性、问责制与透明度大会的一些演讲者(并观看他们的讲座)就知道了!其中一个例子是普林斯顿大学计算机科学教授Arvind Narayanan,他是Kaggle 社交网络挑战赛的获胜者,一门热门加密货币课程的教师,同时也直言不讳地反对算法偏见。
我希望关于有偏见算法的普遍讨论能够超越简单化的反驳,更深入地探讨其中涉及的问题。