定性人文研究对人工智能至关重要

深入探讨人工智能伦理中任何看似量化的问题(例如确定贷款申请评分软件是否存在种族偏见或评估 YouTube 的推荐系统),很快就会引出一系列定性问题。不幸的是,计算机科学家和社会科学家之间常常存在巨大隔阂,彼此之间存在过度简化的假设和根本性的误解。
ai-in-society
作者

Louisa Bartolo 和 Rachel Thomas

发布日期

2022 年 6 月 1 日

“所有研究都是定性的;有些研究也是定量的” 哈佛大学社会科学家和统计学家 Gary King

假设您想了解正在被采用的机器学习系统——用于招聘候选人贷款预测未来犯罪行为——是否表现出种族偏见。您可以通过计算不同种族群体的模型性能来找出答案。但是,种族是如何分类的——是通过人口普查记录、警察的猜测,还是由标注员?每个可能的答案都会引出另一组问题。深入探讨人工智能伦理中任何看似量化的问题,很快就会引出一系列定性问题。在整个 AI 领域,关于优化哪些指标、使用哪些类别、如何定义其界限、由谁应用标签,都会做出定性决策。同样,定性研究对于理解在社会中运行的 AI 系统也是必要的:评估超越短期指标所能捕获的系统性能,理解大规模研究(可能忽略细节和遗漏异常值)遗漏的内容,并阐明数据产生的环境(通常由众包或低薪工人产生)。

试图衡量种族偏见会引出定性问题

不幸的是,计算机科学家和社会科学家之间常常存在巨大隔阂,彼此之间存在过度简化的假设和根本性的误解。即使发生跨学科合作,它们也常常陷入“正常的学科分工:社会科学家观察,数据科学家构建;社会科学家做伦理,数据科学家做科学;社会科学家处理不可计算的,数据科学家处理可计算的。”解决方案不是让计算机科学家浅尝辄止地理解社会科学,而是进行更深入的合作。在一篇关于人工智能伦理中排他性做法的论文中,一个跨学科团队写道,计算机科学与人文学科(HSS)之间存在“冷漠、贬低和缺乏相互支持,[这]提升了技术人员作为‘伦理独角兽’无所不能的神话,尽管他们的学科工具最终是有限的。”

将计算机科学家与社会科学家结合起来存在挑战。(Gallery Britto 图像,基于知识共享署名-相同方式共享 4.0 国际许可协议)

这进一步体现在越来越多的 AI 伦理学家招聘广告中,这些广告将计算机科学学位列为一项要求,“优先考虑计算机科学的技术基础设施,而非能够评估 AI 社会影响的社会科学技能。这样做,我们正在建立的 AI 伦理领域恰恰复制了该领域试图解决的缺陷。” 对 26 位负责任的 AI 行业从业者的采访强调了许多挑战,包括定性工作未被优先考虑。不仅不可能仅通过量化指标完全理解伦理问题,而且还使用不恰当和误导性的量化指标来评估负责任的 AI 从业者本身。受访者报告说,他们的公平性工作是根据与创收相关的指标进行评估的,这与目标严重不符。

定性研究有助于我们评估人工智能系统,超越短期指标

当像 Google 和 YouTube 这样的公司想要测试他们提供的推荐(例如搜索结果或 YouTube 视频)是否“好”时,他们通常会非常关注“互动”或“停留时间”——用户花费在查看或观看推荐给他们的内容上的时间。但事实证明,不足为奇的是,狭隘地理解互动和停留时间,会引发各种问题人口统计学特征可能会影响停留时间(例如,年长的用户在网站上花费的时间可能比年轻用户更长,这只是他们使用互联网方式的一部分)。一个从用户的行为线索(而非“明确偏好”)中“学习”的系统可能会将他们锁定在一个限制性的反馈循环中,迎合用户的短期兴趣,而不是他们的“更好的自我”的兴趣。学者们呼吁进行更多定性研究来理解用户体验,并将其纳入指标的开发中。

在这里,人们会正确地指出,像 Google 和 YouTube 这样的公司在其机器学习系统中依赖于复杂的指标和信号,并且一个网站在 Google 上的排名或一个 YouTube 视频在推荐中的表现并非仅仅归结为简单的受欢迎程度指标,比如互动。Google 采用一套广泛的流程来确定搜索结果的“相关性”和“有用性”。例如,在其长达 172 页的搜索结果“质量”评估手册中,该公司解释了评估者应如何评估网站的“专业性/权威性/可信度”或“E-A-T”;以及哪些类型的有害性质的内容(例如,对受保护群体有害)应该获得“低”排名。YouTube 已识别出特定类别的内容(例如新闻、科学主题和历史信息),对于这些内容,“权威性”应被视为尤其重要。它还确定, dubious but not quite rule-breaking information (它称之为“边缘内容”)不应被推荐,无论视频的互动水平如何

无论我们认为 Google 搜索和 YouTube 现有方法有多成功(部分问题在于从外部评估它们的实施情况令人沮丧地困难),这里的关键在于,关于什么使搜索结果或推荐“好”,以及如何定义和量化专业性、权威性、可信度、边缘内容和其他价值观,正在不断地做出定性判断。对于所有机器学习评估来说都是如此,即使这种判断并非明确可见。在一篇指导公司如何对其 AI 系统进行内部审计的论文中,Inioluwa Deborah Raji 及其同事强调了采访管理和工程团队的重要性,以便“捕获并关注测量和指标之外的内容,并明确指标所隐含的假设和价值观。”(第 40 页)。

如果我们认真对待机器学习系统(无论是好的还是坏的)潜在的更广泛社会影响,深思熟虑的人文研究就显得尤为重要,因为这些影响往往是延迟、分散和累积的

小型定性研究讲述着重要的故事,即使(也许尤其)它们似乎与大规模“客观”研究相矛盾

假设您想了解医生在医疗预约中使用 AI 技术是否会降低对患者的注意力——您认为最好的方法是什么?您可以找到一些衡量“注意力”的标准和方法,例如跟踪医生和患者之间的眼神接触量,并在使用 AI 技术的代表性医疗预约样本中分析这一点,并与未使用 AI 技术的对照组医疗预约进行比较。或者,您会采访医生,了解他们在预约中使用该技术的经验吗?或者与患者交流,了解他们认为该技术如何影响或未影响他们的体验?

在研究圈中,我们将这些描述为“认识论”选择——您对何种方法构成“最佳”的判断与您关于我们如何声称“知道”某事的判断密不可分。这些都是解决该问题的有效方法,但您可以想象它们可能产生不同甚至相互矛盾的见解。例如,您可能得到以下结果: - 眼神接触跟踪实验表明,总体而言,引入 AI 技术后,医生对患者的注意力没有显著差异。 - 对医生和患者的采访显示,一些医生和患者认为 AI 技术降低了医生对患者的注意力,而另一些人则认为它没有影响,甚至增加了医生对患者的注意力。

即使人们“平均”不受某件事物的负面影响(例如,在我们上面假设的眼神接触跟踪实验中),仍然会有一些群体会经历负面影响,甚至可能是非常严重的影响。Matias、Pennington 和 Chan 在最近一篇关于“N-of-one”试验概念的论文中写道:“人们许多最紧迫的问题都与因人而异的影响有关。” 告诉人们他们的经历不真实或无效,因为它们未能达到大规模人群中的统计显著性阈值,这并不能帮助我们解释 AI 对世界影响的广度和性质。

关于 AI 系统影响的相互矛盾的知识主张之间的这种紧张关系比比皆是。那些认为自己被 Instagram 算法系统系统性降权(“影子封禁”)的影响者,Instagram 告诉他们这根本不是真的。鉴于这些专有算法系统的不可穿透性,影响者不可能令人信服地反驳 Instagram 的说法。Kelley Cotter 将此称为一种“黑箱煤气灯效应”:平台可以“利用其对算法的认知权威感知,来削弱用户对算法的了解信心,并破坏可信的批评。” 她对影响者的采访为利益相关者的担忧和观点发声,这些在 Instagram 关于其系统的官方叙述中被省略了。不同利益相关者对“现实”描述之间的不匹配具有启发性。例如,Netflix 员工广泛引用的一篇论文声称,Netflix 推荐“影响了 Netflix 上约 80% 的观看时长选择。” 但这一说法与 Mattias Frey 对英国和美国成年人进行的混合方法研究(代表性调查加上小样本访谈)形成鲜明对比,该研究显示不到五分之一的成年人表示他们在决定观看什么电影时主要依赖 Netflix 推荐。即使这是因为用户低估了他们对推荐系统的依赖程度,这也是一个至关重要的发现——尤其是在我们试图规范推荐并且如此多的人主张提供更好的用户级控制来制衡平台权力时。如果人们根本不认为自己如此依赖算法建议,他们真的会费心去更改设置吗?

定性研究阐明了数据标注的背景

机器学习系统依赖于海量数据。在许多情况下,为了使数据有用,需要对其进行标注/注释。例如,一个仇恨言论分类器(一种用于识别和标记网站上潜在仇恨言论的 AI 工具)依赖于标注为“仇恨言论”或“非仇恨言论”的庞大文本数据集来“学习”如何识别仇恨言论。但事实证明,在做标注以及他们是在什么背景下做的,这很重要。AI 驱动的内容审核通常被视为解决在线有害内容的方案。然而,一直被低估的是,这些自动化系统在多大程度上现在以及将来很可能仍然依赖于人工内容审核员筛选一些最糟糕和最具创伤性的在线材料,以为自动化内容审核所依赖的机器学习数据集提供支持。Emily Denton 和她的同事强调了标注员的社会身份(例如种族、性别)及其在标注任务方面的专业知识的重要性,他们指出忽视这些因素并简单地将结果“聚合”为“地面实况”,而不是恰当地探讨标注员之间的分歧以及这种分歧可能提供的重要的见解,是存在风险的。

《屏幕背后》(Behind the Screen),作者 Sarah T. Roberts;《Netflix 推荐》(Netflix Reccomends),作者 Mattias Frey

人工商业内容审核员(例如在 Facebook 上识别和移除暴力及创伤性图像的人员)常常在恶劣的条件下工作,缺乏心理支持或适当的经济补偿。Sarah T. Roberts 基于访谈的研究在揭示这些条件方面具有开创性。大多数众包数字劳务的需求来自全球北方,然而这些工人中的大多数位于全球南方,工资低廉。半结构化访谈揭示了在当前的监管环境下,工人感到无法有效争取更高薪资的程度。正如 Mark Graham 及其同事指出的那样,在多个政府和世界银行等超国家发展组织将数字工作视为一项有前景的脱贫工具的背景下,这些发现具有巨大重要性。

如何在机器学习系统中衡量“种族”的决定具有高度重要性,尤其是在当前评估这些系统“公平性”的努力背景下。Alex Hanna、Emily Denton、Andrew Smart 和 Jamila Smith-Loud 已经完成了关键工作,强调了依赖官方种族记录或其代理(例如人口普查记录)的机器学习系统的局限性,并指出此类记录提供的种族类别是“不稳定、偶然的,并根植于种族不平等”。作者强调了以优先考虑公平性指标旨在保护的边缘化种族社区的视角进行研究的重要性。定性研究是为机器学习系统中“种族”的考量做出贡献的理想方法,这种考量基于被压迫种族群体的生活经验和需求。

接下来是什么?

定量研究者和定性研究者之间的合作对于从各个角度理解人工智能伦理非常有价值。

考虑更广泛地阅读,跳出您的特定领域。也许可以使用此处列出的链接和研究人员作为起点。它们只是现有丰富资源的冰山一角。您还可以查看 Social Media Collective 的批判性算法研究阅读列表伦敦政治经济学院数字民族志集体 (LSE Digital Ethnography Collective) 提供的阅读列表,以及 Catherine Yeo 的建议

与其他领域的研究人员展开对话,并考虑合作的可能性。找一位略微超出您领域但您大致理解并喜欢其工作的研究人员,并在 Twitter 上关注他们。如果运气好,他们会分享更多他们的工作,并帮助您找到其他值得关注的研究人员。合作可能是一个渐进的过程:考虑邀请该研究人员参与讨论小组,主动联系说明您喜欢并欣赏他们工作的哪些地方以及原因,如果您的工作与他们的兴趣一致,也可以与他们分享您的工作。

在您的大学或公司内部,您能做些什么来更好地奖励或促进跨学科工作吗?正如人文学科计算学教授 Willard McCarty 略带沮丧地指出的那样,“对真正的跨学科研究给予专业奖励的情况很少见。” 当然,个体研究人员和从业者必须准备好展现自己、做出妥协挑战自己——但精心设计的制度激励和促进因素也很重要