2019年,发表在《科学》杂志上的一项研究发现,Optum公司的人工智能(AI)正促使医疗专业人员更多地关注白人而不是黑人,而许多卫生系统在使用这种人工智能来发现应该接受后续治疗的高风险患者。AI识别出来的人中只有18%是黑人,而82%是白人。在对实际病情最严重的病人的数据进行审核之后,研究人员计算出这一数字应该分别为46%和53%。其影响十分深远:研究人员估计,这项AI已被应用于至少1亿名患者。
虽然参与创建Optum算法的数据科学家和高管从未打算歧视黑人,但他们陷入了一个普遍得惊人的陷阱:用反映历史歧视的数据来训练AI,结果导致有偏见的输出。在这个特定案例中,所使用的数据表明,黑人获得的医疗卫生资源较少,这导致该算法错误地推断他们需要的帮助较少。
人工智能存在大量证据确凿且广为人知的伦理风险;无意的偏见和侵犯隐私只是其中最明显的两种类型。在许多情况下,风险是针对特定用途具体而言的,比如自动驾驶汽车可能会碾压行人,或者AI生成的社交媒体新闻推送可能会散播对公共机构的不信任。在某些情况下,它们构成了重大的声誉、监管、财务和法律威胁。由于AI的构建是为了大规模运作,当问题出现时,它影响到所有与该技术打交道的人,比如,每个对招聘信息作出回应或在银行申请抵押贷款的人。如果企业在规划和执行AI项目时不谨慎处理道德问题,他们浪费大量时间和金钱开发的软件最终可能因风险过大而无法使用或销售,这一点已经广为人知。
你的企业的AI战略需要考虑到几个问题:我们设计、采购和部署的AI如何可能带来无法避免的道德风险?我们如何系统、全面地识别和降低这些风险?如果置之不理,我们需要花费多少时间和人力来应对监管机构的调查?如果被发现违反了法规或法律(更别说玩忽职守了),我们可能会缴纳多少罚款?如果钱能解决问题,我们需要花多少钱来重建消费者和公众的信任?
对这些问题的回答将凸显你的企业在多大程度上需要一个AI道德风险计划。它必须从高管层开始,并渗透到你公司的各个阶层,最终到技术本身。在本文中,我将重点关注这种计划的一个关键因素——AI道德风险委员会——并解释为何将伦理学家、律师、技术专家、商务策划师和偏见侦察员纳入该委员会至关重要。然后,我将探讨该委员会需要什么才能在大型企业中发挥作用。
但首先,为了让人们了解这样一个委员会为何如此重要,我要深入探讨歧视性AI的问题。请记住,这只是AI带来的风险之一;还有许多其他的风险也需要系统地进行调查。
AI为何以及如何进行歧视?
有两个因素让AI中的偏见成为一项严峻挑战:各种各样的偶然途径都可能导致偏见,而且它并不能通过技术修复来纠正。
AI中的偏见有许多来源。正如我已指出的,一个问题是,现实世界的歧视通常反映在用于训练AI的数据集中。比如,非营利性新闻编辑部the Markup在 2019年的一项研究发现,贷款人拒绝向有色人种提供住房贷款的可能性高于具有类似财务特征的白人。在对200多万份常规购房抵押贷款申请的统计分析中,研究人员在保持17个因素恒定不变的情况下发现,贷款人拒绝黑人申请者的可能性比拒绝白人申请者的可能性高80%。那么,建立在抵押贷款历史数据上的AI程序极有可能学会不向黑人贷款。
在某些情况下,歧视是因对AI所影响人群的数据采样不足而造成的。假设你需要通勤人士旅行方式的有关数据,旨在创建公共交通时间表,那么你就会收集通勤时间段内智能手机地理位置方面的信息。问题是,15%的美国人,或者说大约5000万人,没有智能手机。许多人根本买不起设备和数据流量套餐。那么,经济条件较差的人在用于训练AI的数据中就不会有充分的代表性。因此,你的AI就会倾向于做出有利于富人居住区的决定。
代理偏见是另一个常见的问题。在一次调查中,ProPublica得到了在佛罗里达州布劳沃德县被捕的7000多人2013年和2014年的累犯风险分数。这些分数由AI生成,旨在预测哪些被告在被捕后两年内有可能再次犯罪,从而帮助法官裁定保释和量刑。当ProPublica在核查有多少被告在接下来的两年中实际被控犯有新罪行时,它发现分数的预测并不可靠。比如,在被预测会犯暴力罪行的人中,只有20%的人这么做了。从事评分工作的算法将黑人被告错误地标记为未来罪犯的可能性也两倍于标记白人被告的可能性。
尽管AI算法的开发者Northpointe对ProPublica的发现(稍后会有更多内容)提出异议,但其背后的偏见值得研究。也就是说:可能有两个犯罪率相同的亚人群,但如果其中一群比另一群受到更多的管制(也许因种族定性之故),其逮捕率会更高,尽管犯罪率相同。因此,当AI开发者使用逮捕数据作为实际犯罪发生率的代替指标时,他们生产的软件就会错误地声称一个群体比另一个群体更容易犯罪。
在某些情况下,问题在于你为AI设定的目标——也就是说,在于对AI应该预测什么做出决定。比如,如果你在判断谁应该接受肺移植,你可能更倾向于给年轻患者移植,这样你就可以最大限度地延长肺的使用年限。可是,如果你要求你的AI决定哪些患者最有可能最长时间使用这些肺,你就会在不经意间歧视黑人患者。为什么呢?因为根据美国疾病控制和预防中心(the Centers for Disease Control and Prevention)所属全国卫生统计中心(National Center for Health Statistics)的数据,美国全体人口出生时的预期寿命是77.8岁。黑人人口的预期寿命只有72岁。
解决这类问题并非易事。你的公司可能没有能力说明数据中的历史不公,也没有资源开展必要的调查,来对AI歧视做出充分知情的判断。而这些例子提出了一个更广泛的问题:在亚人群中产生不同的结果何时在道德上是可以接受的,何时是对平等的侮辱?答案会因案例而异,而且不能通过调整AI算法找到。
这给我们带来了第二个障碍:技术——以及技术专家——没有能力有效解决歧视问题。
在最高层次,AI接受一系列输入,执行各种计算,并创建一系列输出:输入贷款申请人的这些相关数据,AI就会产生谁获批或谁遭拒的决定。输入何时、何地、由谁进行了何种交易的相关数据,AI就会生成交易是合法还是欺诈的评估。输入刑事司法历史、履历和症状,AI就会分别对累犯风险、面试价值和身体状况做出判断。
人工智能正在做的一件事是利益分配:贷款、减刑、面试等等。如果你握有接受者人口结构统计方面的信息,那么你可以看到这些实惠是如何在不同的亚人群中分配的。然后你可能会问,这种分配公平、公正吗?如果你是一名技术专家,你可以尝试通过运用一个或多个公平性量化指标来回答这个问题,这些指标是由日渐增多的机器学习研究挖掘出来的。
这种方法存在大量问题。也许最大的问题是,虽然现有大约二十几个衡量公平性的量化指标,但它们彼此之间并不兼容。同时依据所有这些指标,你根本不可能做到公平。
比如,提供被告风险评级的软件COMPAS的制造商Northpointe在回答歧视指控时指出,它使用的是完全合法的量化指标来衡量公平性。更具体而言,COMPAS旨在最大限度地提高其对黑人和白人被告中会犯新罪行之人识别的准确率。但ProPublica使用了一个不同的衡量标准:黑人和白人被告的误报率。Northpointe希望最大化真报率,而ProPublica则希望最小化误报率。问题是,你不可能同时做到这两点。当你最大化真报率时,你会增加误报率,而当你最小化误报率时,你又会降低真报率。
技术工具在这里是不够的。他们可以告诉你,对你的AI进行各种微调都会导致在不同的公平性指标上获得不同的分数,但他们不能告诉你该使用哪种指标。对此需要做出道德和商业判断,而数据科学家和工程师没有能力做出这种判断。原因与他们的性格无关;只是因为他们中的绝大多数人在处理复杂的道德困境方面没有经验或未经过训练。那么,问题的部分解决方案是建立一个具有恰当专业知识、有权力产生影响的AI道德风险委员会。
AI道德委员会的
职能和管辖权
你的AI道德委员会可以是你企业内的一个新实体,也可以是你向其分派责任的现有机构。如果你的企业规模庞大,你可能需要不止一个委员会。
在高层,该委员会的职能很简单:系统、全面地识别并帮助降低内部开发的或从第三方供应商处购买的AI产品的道德风险。当产品团队和采购团队向该委员会提交AI解决方案的建议时,它必须确认该解决方案不带来严重的道德风险;建议修改提议,而一旦被采纳,要对其进行第二次审查;或者建议干脆不要开发或采购该解决方案。
你需要研究的一个重要问题是该委员会将有多大的权力。如果向该委员会咨询不是必须之举,而只是被建议的行为,那么你的团队中只有一部分(而且可能是很小一部分)会这样做。而这一部分团队中又只有一部分会接受委员会的建议。这就存在风险。如果道德健全位于你公司价值观的金字塔顶端,授予该委员会否决提议的权力是不错的想法。这会确保它可以产生真正的商业影响。
此外,你可以通过定期表彰员工来加强委员会的工作,以非正式(比如说,在会议上表扬)和正式(也许通过晋升)的方式认可他们真诚维护和加强了AI道德标准。
当委员会被赋予真正的权力时,它就能够与公司的员工、客户、消费者及其他利益相关者(如政府)建立巨大的信任,尤其是在企业对委员会的运作保持透明的情况下——即使对其确切的决定不透明。然而,那些尚未准备好授予内部委员会这种权力但又对降低AI道德风险持认真态度的公司仍然可以找到一个中间地带。他们可以允许高级管理人员(最有可能是最高管理层中的某个人)否决委员会的决定,这会让他们的企业承担他们认为值得的道德风险。
谁应该在委员会中任职?
现在是时候深入研究一下成员的跨职能专长了:谁会在你的AI道德委员会任职以及为什么是他?
伦理学专家。这些人可以是拥有哲学博士学位、专门研究道德问题的人,或者拥有刑事司法(或者你从事的任何行业)伦理学硕士学位的人。然而,他们不是来对公司的道德进行裁决的。他们之所以在那里,是因为他们拥有了解和发现大量道德风险所需的培训、知识和经验,熟悉有助于清晰进行道德审议的概念和区别,并且善于帮助团体客观地评估道德问题。这并不是说你需要配置全职的伦理学家;相反,你可以把他们请来,在适当的时候咨询他们。
律师。由于技术工具不足以解决偏见问题,法律上允许的事通常会成为重要的考虑因素。
当然,律师比任何人都更有能力弄清楚,使用对不同亚群体会产生不同结果的某一特定公平性指标是否会在法律上被视为歧视。不过,律师也可以帮助确定使用技术工具来评估公平性是否合法。它很可能是反歧视法所禁止的行为,因为反歧视法不允许在范围极广的决策中考虑受保护阶层的相关变量数据。
商务策划师。AI的预期财务回报因用途不同而异,商业风险也同样如此(已向客户做出承诺,而且合同已经签订)。道德风险的大小和种类也各不相同。另外,解决这些风险的策略以及这些策略所需的时间和金钱投入也不一样。
因此,采取何种策略降低风险,何时采取,由谁来执行等等都应纳入商业考虑。虽然我倾向于将识别和减轻道德风险放在第一位,但我必须承认,在某些情况下,这种风险足够小,而其他商业风险足够大,所以采取克制的方法来管理道德风险合乎情理。所有这一切就是为何让一个牢牢掌握必要业务的人在委员会中任职本身就是一种商业必要。
技术专家。虽然我已经解释过技术专家不能做的事情,但我也必须承认他们能做什么:帮助其他人理解AI模型的技术基础,降低风险的各种策略的成功概率,以及其中一些策略是否可行。
比如,使用技术来标记可能之偏见的前提是,你的企业掌握着人口结构统计数据并且能够使用这些数据来确定某一模型的输出如何在不同的亚人群中分配商品或服务。可是,如果你缺乏人口结构统计数据,或者像金融服务领域发生的那样,法律禁止你收集这些数据,你就会寸步难行。你将不得不转向其他策略——比如创建合成数据来训练你的AI。而这些策略在技术上是否可行——如果可行,它们难度有多大——只有技术专家才能告诉你。这些信息必须找到途径进入委员会的审议过程。
偏见侦察员和主题专家。减少偏见的技术工具会衡量AI模型的输出——在数据集被选择以及模型得到训练之后。如果它们检测到的问题不能通过相对最小的调整来解决,你就必须从头再来。从产品开发的第一步——数据收集期间和模型训练之前——开始减少偏见会大大提高效率,并大大增加你的成功机会。
这就是为何你需要委员会中有人可以在这一过程的早期发现偏见。主题专家通常擅长于此。比如,如果你的AI将被部署在印度,那么一位印度社会方面的专家应该对其发展发表意见。这个人可能更理解收集数据的方式,对人口中的哪些亚群体采样不足——或者说,实现为AI制定的目标可能会加剧哪些现有的不平等。
对于一项有望带来巨大机遇的强大技术,一个强有力的人工智能道德委员会是识别和减轻其风险的重要工具。如果不仔细留意你是如何创建该委员会以及它是如何融入你的企业的,这可能会对你企业的声誉、最终对其盈亏底线造成极大破坏。
里德·布莱克曼是道德风险咨询公司Virtue的创始人和CEO,也是德勤人工智能研究所的高级顾问。他著有《道德机器:完全公正、透明、敬人的AI简明指南》(Ethical Machines: Your Concise Guide to Totally Unbiased, Transparent, and Respectful AI)(哈佛商业评论出版社,2022年),本文改编自该书。
里德·布莱克曼(Reid Blackman)| 文
永年 | 译 时青靖 | 校 李源 | 编辑
已有0人发表了评论
哈佛网友评论