负责任地进行数据科学以促进社会公益

虽然数据科学促进社会公益的项目可能很有用,但也存在需要避免的陷阱。
ai-in-society
作者

Rachel Thomas

发布日期

2021年11月23日

“数据科学促进社会公益”这个短语是一个宽泛且定义模糊的统称。正如许多 其他人已经 指出,这个术语常常未能明确说明是为好。数据科学促进社会公益可以指:非营利组织通过更有效地利用数据来扩大其影响力,科技巨头空洞的企业公关努力,出于善意却无意中导致对边缘化群体进行监视和侵犯隐私的项目,渗透着殖民主义色彩的努力,或许多其他类型的项目。请注意,上面列表中的类别并非互斥,一个项目可能符合其中几项描述。

图片来自非营利组织Delta Analytics创始人、谷歌AI研究员Sara Hooker于2018年的一次演讲,主题是为什么“数据促进公益”缺乏精确性

我参与数据科学促进社会公益的工作已有几年:2017年担任USF数据研究所会议“数据促进公益”专题主席;在担任USF应用数据伦理中心主任期间,协调和指导研究生在非营利组织实习:人权数据分析组(进行实体解析项目,以获得叙利亚和斯里兰卡更准确的伤亡冲突数据)和美国公民自由联盟(一名学生分析了加州的新冠疫苗公平性,另一名学生分析了针对黑人和残疾学生的学校纪律处分差异);现在是昆士兰科技大学 (QUT) 数据科学促进社会公益项目的联合负责人。在QUT,研究生和近期毕业生与非营利组织昆士兰癌症理事会(以其澳大利亚癌症地图集闻名)和FareShare食物救援组织(运营着澳大利亚最大的慈善厨房)合作。虽然数据促进公益的项目可能非常有益,但在开展数据促进社会公益时,也有需要注意的陷阱。

一些问答

我最近在QUT数据科学促进社会公益展示活动的一个小组中发言。我很欣赏主持人们Tim Graham博士和Char-lee Moyle博士提出的周到且细致入微的问题,他们提出了一些潜在的风险。我想在下方分享他们的问题,以及我更详细的回答。

您认为非营利组织在开始采用数据科学时应考虑哪些伦理和治理问题?

  1. 明确项目的目标以及不同利益相关者将如何受到影响:一系列对非洲数据专家的访谈显示,权力失衡、未能承认剥削性做法、未能建立信任以及以西方为中心的政策普遍存在。即使在“数据促进公益”项目中,数据被访问和共享的人们可能无法像控制项目的人那样获得好处。与数据主体相比,政府机构和非营利组织等利益相关者拥有更大的权力和影响力。存在为某个目标收集的数据最终被重新用于或共享给其他用途的问题。虽然西方的“隐私概念通常侧重于个人,但人们越来越认识到集体身份在许多非洲社区也很重要,共享关于社区的汇总信息也可被视为侵犯隐私。”
  2. 专注于要解决的问题,而不是花哨的解决方案。有时,机器学习从业者拥有的是一个寻找问题的解决方案。重要的是要保持对根本问题的关注,并对“普通”甚至非技术性的解决方案持开放态度。一个数据促进公益项目使用了肯尼亚1500万手机用户的记录,以量化前往疟疾流行地区从事季节性工作的工人的流动情况,并建议在他们返回家乡时加强疟疾监测。正如《自然》杂志的一位记者报道,“但尚不清楚这些结果是否是必要的,或者是否有用。疟疾控制官员尚未将这些分析纳入他们的工作中。”对“花哨”的大数据方法的热情与对蚊帐、杀虫剂、治疗药物和卫生工作者等已证实措施缺乏资金形成鲜明对比。
  3. 认真对待数据隐私。明确数据将如何存储、谁有权访问以及后续如何处理。询问真正需要哪些数据,以及是否有侵扰性较小的方式获取这些信息。请注意,上述追踪肯尼亚手机用户的例子引发了关于缺乏同意、侵犯隐私以及去匿名化风险的问题。
  4. 纳入受影响最严重的人群,并认识到他们的价值观可能与参与的非营利组织或学术利益相关者的价值观不同。AI Now Institute最近的一篇文章建议,“社会公益项目应在小范围内针对当地环境开发——应与受系统影响的社区或社会环境协商设计,以确定核心价值观和需求。”一个不同价值观的例子:原住民学者强调,主要由西方学者为改进数据发现和重用而开发的一套开放数据原则与原住民的价值观产生了冲突。FAIR原则于2014年在荷兰的一次研讨会上首次提出,并在发表于《自然》杂志的这篇论文中得到了阐述,该原则要求数据应可查找(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)。作为回应,原住民学者召集起来制定了原住民数据治理的CARE原则,呼吁集体利益(Collective Benefit)、控制权(Authority to Control)、责任(Responsibility)和伦理(Ethics),旨在作为FAIR原则的补充。
  5. 避免解决“错误的问题”。例如,许多欧洲政府目前正在使用算法方法来证明财政紧缩措施的合理性。尽管欺诈行为微乎其微,但常常伴随的是关于减少欺诈的论点。由于印度实施了生物识别身份系统,许多贫困老人因为指纹褪色、无法前往扫描点或互联网连接不稳定而无法再获得食物补贴

您认为用于社会公益的数据科学是否会加剧对弱势群体或社会特定阶层的监视和控制?

许多出于善意的项目,尽管意图良好,却无意中导致了监视的增加。在人道主义灾难发生后,来自二十多个低收入和中等收入国家的数百万手机用户的手机数据被匿名化并进行了分析。这些数据引发了人们对手机用户缺乏同意以及去匿名化风险的担忧。此外,这些结果是否真正有用,以及是否可以通过其他侵扰性较小的方法获得,常常是值得怀疑的。其中一个项目分析了塞拉利昂埃博拉疫情期间人们的手机数据。然而,这种方法并未解决埃博拉如何传播的问题(仅通过与体液直接接触传播),也未能帮助解决最紧迫的问题(即说服有症状的人前往诊所隔离)。

您认为政府和大学在支持和鼓励非营利部门采用数据科学方面应发挥什么作用?

学术界和政府可以发挥重要作用。非营利组织通常缺乏内部数据科学技能来利用他们的数据,而许多数据科学家则正在寻找有意义且有影响力的现实问题来解决。我们还需要政府对数据隐私等议题进行监管,以帮助保护可能受影响的人群。重要的是要认识到隐私不应仅仅被视为一项个人权利,更应被视为一种公共利益。

您对开发伦理框架以指导数据科学有什么看法——它们仅仅是提高数据科学可信度和声誉的营销策略吗?

我们需要伦理框架**和**监管。两者都至关重要。许多人想要做正确的事情,拥有标准化的流程来指导他们会有所帮助。我推荐Markkula中心科技伦理工具包,其中包含您可以在组织中实施的实用流程,以尝试在伦理风险造成损害**之前**识别它们。同时,在数据科学影响人权和公民权利的地方,我们需要法律保护。对于那些对他人造成伤害的人,需要有切实的后果。此外,政策是解决负面外部性的适当工具,例如当公司将成本和对社会的损害转嫁出去,同时为自己攫取利润时。否则,将永远存在“逐底竞争”。

您认为非营利部门需要哪些技能和培训来拥抱数据科学,以及提升技能的最佳策略是什么?

已经在组织中工作的人最适合理解该组织的问题和挑战,以及数据科学可以在哪里提供帮助。提升内部人才的技能并未得到充分利用。如果您组织中有人对此感兴趣并渴望学习,请不要觉得您需要招聘一位有漂亮背景的新人。我建议从学习Python编程开始。在学习过程中,可以着手一个您所在的非营利组织的项目,让这个项目激励您按需学习所需知识(而不是觉得需要花费数年时间学习才能解决您关心的问题)。fast.ai 的核心使命之一是培训不同领域的人自己使用机器学习,因为他们最了解自己领域的问题以及需要什么。有许多迷思认为需要超精英背景才能使用深度学习等技术,但这并不是魔法。任何有一年编程经验的人都可以学习使用最先进的深度学习技术

延伸阅读/观看

以下是我推荐的一些额外文章(和一个视频),以便进一步了解此主题:- 非洲数据共享的叙事与反叙事 - 为什么“数据促进公益”缺乏精确性 - 通过通话数据追踪人群能否改善生活? - AI新词汇:社会公益 - fast.ai 实用数据伦理 第6周:算法殖民主义