当我们低估数据工作、在并非为其收集数据的背景下使用数据或忽略人类在数据科学流程中扮演的关键角色时,数据科学和机器学习项目可能会灾难性地出错。一个新的由澳大利亚政府顶级科学资助机构 (ARC) 资助的、专注于信息韧性的多大学中心最近启动了。信息韧性是指在数据的获取、共享、转换、分析和消费等信息链条中,检测和应对故障与风险的能力。我很荣幸能成为战略委员会的一员,并且一直在思考信息韧性对于数据实践意味着什么。通过一系列案例研究和相关研究论文,我将突出这些风险,并指出更具韧性的实践方法。
案例研究:英国新冠追踪应用
一份研究论文使用了来自新冠症状追踪应用的数据,对长新冠(一种通常会使人衰弱的神经、血管和免疫系统疾病,可能持续数月或更长时间,有些患者已病了20个月且仍在持续)的患病率得出了极其不准确的结论。该应用的数据表明,只有1.5%的患者在3个月后仍有症状,这比其他研究发现的10-35%的估计值小了一个数量级。
这个研究项目怎么会错得如此离谱?首先,该应用的设计初衷完全不同(用于追踪1-2周的呼吸道感染),没有包含最常见的长新冠症状(如神经功能障碍),用户界面令人沮丧,导致许多患者放弃使用,并且错误地假设那些停止记录的患者已完全康复。这份有问题的研究论文结果被广泛传播,包括在BBC的一篇文章中,错误地让人们安心,以为长新冠的患病率比实际低得多。患者们一直以来都在表达对该应用的不满,如果研究人员早些倾听,他们本可以收集到更高质量、更准确的数据集。
这次研究失败揭示了数据项目中的几个常见问题: - 没有考虑数据的背景。用户界面、列出的类别、包含的功能——所有这些都是为了记录短期轻微呼吸道感染的数据而设计的。然而,当它被用于不同的目的(长新冠患者遭受了数月血管和神经症状的折磨)时,它的表现很差,并导致数据丢失和不完整。为一种背景收集的数据被用于另一种背景,这种情况太常见了。 - 受影响最大的人群(长新冠患者)被忽视了。他们对长新冠的实际情况拥有最准确的专业知识,却未被倾听。忽视这种专业知识导致了数据质量低下和错误的研究结论。患者拥有至关重要的领域专业知识,这与医生的不同,必须纳入医学数据科学项目中。从疫情一开始,那些曾遭受其他衰弱性病毒后疾病折磨的患者就警告说,即使是最初的“轻症”,我们也应该警惕长期疾病的出现。
数据至关重要
直接从患者那里收集有关新冠及其长期影响的数据是个好主意,但在本案例中执行得很差。由于存在隐私和监控风险,我经常提醒人们不要记录他们不需要的数据。然而,这次疫情很好地提醒了我们到底需要多少数据,以及当数据缺失时有多么困难。
在美国疫情刚开始时,我们对正在发生的事情几乎没有数据——政府没有统计病例、检测或住院信息。当我们不了解有多少病例、死亡率是多少、疾病的传播性如何以及其他关键信息时,我们怎么知道如何应对?在对事实缺乏基本了解的情况下,我们又如何做出政策决定?
2020年3月初,两名记者和一名来自药物发现平台的数据科学家开始将新冠数据汇总到电子表格中,以了解美国的疫情情况。这启动了一个持续15个月的项目,共有500名志愿者汇编和发布了美国的新冠病毒检测、病例、住院和死亡数据。在这15个月里,新冠追踪项目(Covid Tracking Project)是美国最全面的新冠数据来源,甚至比CDC拥有的数据还要全面,它被CDC、众多政府机构以及特朗普和拜登政府所使用。它被学术研究和数千篇新闻文章引用。
该项目的一位数据基础设施工程师兼贡献者后来回忆说:“很快就明白,每天与数据进行密切接触是理解各州报告情况所必需的。各州经常改变报告数据的方式、内容和地点。如果我们早在2020年3月就建立了一个完全自动化的数据捕获系统,它几天内就会失效。”该项目使用自动化来支持和补充人工工作,而不是取代它。在多个时间点,警觉的数据科学家通过指出差异,发现了州报告机制中的错误。
这种利用自动化支持人类工作的愿景,与fast.ai对“增强型机器学习(augmentedML)”而非“自动化机器学习(autoML)”的兴趣产生了共鸣。我之前写过文章,并在一个AutoML研讨会上做了主题演讲,谈论了自动化常常如何忽略人类输入的重要作用。与其尝试自动化一切(这往往会失败),我们不如专注于人类和机器如何最佳地协作以利用各自不同的优势。
数据工作被低估
对来自3大洲6个国家的53名AI从业者进行的访谈发现了一个模式,这对许多从事机器学习的人(包括我)来说都非常熟悉:“每个人都想做模型工作,而不是数据工作。” 元数据的缺失会导致错误的假设。数据收集实践常常与一线合作伙伴(如护士或农民)的工作流程相冲突,而他们通常不会因这些额外的工作而获得补偿。数据工作往往是艰苦、无形且被视为理所当然的。低估数据工作会导致不良实践,并常常导致负面的下游事件,包括危险不准确的模型和数月的工作损失。
在整个疫情期间,关于新冠(包括初始病例和长新冠)的数据常常不足。许多国家经历了检测短缺,导致新冠感染人数被低估。CDC决定不追踪突破性病例,除非它们导致住院,这使得难以了解突破性感染的患病率(这是一个特别令人担忧的决定,因为突破性感染仍可能导致长新冠)。9月份,据透露,加拿大不列颠哥伦比亚省一旦患者不再具有传染性,就不再将其纳入ICU计数,这是一个秘密的决定,模糊了ICU的满员情况。一些针对长新冠的研究未能包含常见的症状,如神经系统症状,这使得难以理解其患病率或性质。
数据有其背景
新冠疫情让我们亲身体验了数据(我们有时可能想将其视为“客观”的)是如何受到无数人类决策和因素塑造的。在症状追踪应用的例子中,关于包含哪些症状的决定对计算出的患病率产生了显著影响。影响易用性的设计决策影响了收集的数据量。缺乏对应用使用方式(以及人们为何停止使用它)的理解,导致对哪些病例应被视为“康复”做出了错误的决定。这些都是数据背景的例子。在这里,收集的数据对于理解初次新冠感染(一两周的呼吸道症状)来说是合理的,但对于经历了数月神经和血管症状的患者则不适用。数字不能孤立存在,我们需要理解它们是如何测量的,包含了谁,排除了谁,相关的设计决策,以及在什么情况下数据集适合使用 vs. 不适合。
再举一个例子,考虑新冠检测计数:谁能获得检测(这涉及到健康不平等,例如种族差异或城市 vs. 农村),谁被鼓励进行检测(在不同时期,无症状者、儿童或其他群体曾被劝阻不要检测),准确性各异(例如,PCR检测对儿童的准确性较低,漏报了几乎一半后来发生血清转化的病例),以及关于什么才算作一个“病例”的决定(我认识多个人,他们的检测结果交替出现:阳性、阴性、阳性,或反过来——什么才算是一个阳性病例?)
一种捕捉这种背景的提议是数据集的数据表(Datasheets for Datasets)。在斯坦福大学攻读计算机视觉博士学位并随后共同领导谷歌AI伦理团队之前,Timnit Gebru 博士曾在苹果公司从事电路设计和电气工程工作。在电子学中,每个元件(如电路或晶体管)都附带一份数据表,其中列出了制造的时间和地点、安全使用条件以及其他规格。Gebru 博士借鉴这一背景,提出了一个类似的数据集概念:列出数据集创建的时间和方式背景、包含/排除的数据、推荐用途、潜在的偏见和伦理风险、维护所需的工作等等。这是一个有价值的提议,有助于使数据的背景更加清晰。
受影响最大的人群
通过借鉴患者的专业知识,本可以避免新冠追踪应用中不准确的研究和不完整的数据。如果在应用设计和相关研究中咨询患者,本可以更快、更全面地收集到更高质量的数据。机器学习的参与式方法是一个令人兴奋且正在增长的研究领域。在任何领域,那些最可能受到错误影响的人需要作为合作伙伴被纳入项目设计中。
通常,我们解决公平或其他伦理问题的方法会进一步集中系统设计者和操作者的权力。该主题的一个ICML研讨会的组织者呼吁采取更具合作性、民主性和参与性的方法。我们不仅需要考虑可解释性(explainability),还需要考虑给予人们可操作的补救措施(actionable recourse)。正如Berk Ustun 教授强调的,当有人问为什么他们的贷款被拒绝时,他们通常想要的不仅仅是一个解释,而是知道他们可以改变什么才能获得贷款。我们在设计系统时需要考虑可质疑性(contestability),从一开始就纳入人们应该能够挑战系统输出的想法。我们需要纳入常常被忽视的专家意见小组,根据应用的不同,这可能意味着前或现被监禁者、不开车的人、收入非常低的人、残疾人等等。华盛顿大学科技实验室的“多元之声”项目提供了如何做到这一点的指导。至关重要的是,这不仅仅是象征性的参与洗白(participation-washing),而是在其设计和运营中扮演有意义、获得适当报酬且持续的角色。
迈向更强的数据韧性
我希望我们可以通过以下方式提高数据韧性: - 重视数据工作 - 记录数据的背景 - 与数据密切接触 - 让受影响的人群有意义地、持续地参与并给予报酬
我希望当我们的数据代表着人群时,我们能记住其人性的一面。正如AI研究员 Inioluwa Deborah Raji 所写:“数据不是用来堆叠的砖块,不是用来开采的石油,不是用来挖掘的黄金,不是用来收割的机会。数据是需要被看见的人,也许被爱,希望能被好好照顾。”