网络上流传着一个美国前总统奥巴马说“清醒点,XXX”的视频截图。视频当然是伪造的,是奥巴马的脸和喜剧演员乔丹·皮尔(Jordan Peele)的嘴巴以及声音拼合而成。搞这种东西是为了引起人们注意——假新闻正在向视频蔓延,其产物即使无法以假乱真,也足以令人警惕。
研究假新闻的专业人士早已预测到这类行为。前不久在硅谷举行的峰会上,与会者有顶尖技术人员、网络安全专业人士、社交媒体和平台公司专业人士、研究者、媒体从业者、人权活动者以及视频与验证方面的其他专家。他们的目的是探讨如何对抗这类“深度造假”(deep fakes)和其他合成媒体的恶意应用。这类技术滥用可能会导致公众对电子信息进一步失去信任,影响一些依赖声誉和公众信任开展业务的公司。
峰会组织者之一是萨姆·格雷戈里(Sam Gregory),一位荣膺多个奖项的项目负责人,供职于人权组织WITNESS。这个组织的关注重点是,有关压迫的信息和文献材料如何在视觉媒体和社交网络上传播。格雷戈里主持的项目主题是人权相关的见证视频创新,以及信赖、可信度和影像。他还负责WITNESS的Tech + Advocacy项目,帮助平台科技公司了解人权活动者如何利用其平台。他在拉美和亚洲参加过活动,对美国国会、英国议会和联合国的政策及法律修改做过贡献。他还是世界经济论坛全球未来理事会人权未来领域成员,国际刑事法庭技术顾问委员会成员。
格雷戈里认为,奥巴马/皮尔的视频是个让我们警醒的信号,但他担心的不只是广泛传播的大规模造假。他担心“数字野火”(digital wildfires),即针对特定人群有目的的小型深度造假,影响范围虽有限,影响力却依然强大。他说,公司必须了解,深度造假和其他形式的合成媒体不只是政治闹剧,这类活动可能损害任何一个依赖于公众信赖和名誉的组织,“这不是小事”。
《哈佛商业评论》与格雷戈里聊了聊深度造假,以及他所说的“数字炒作”(computational propaganda)。以下是采访节录。
HBR:从“深度造假”这个术语开始吧。你如何定义这个概念?
格雷戈里:我知道这个词现在很流行,对于不一样的人群来说,所指的东西不一样,不过本义是指利用机器学习和人工智能操控媒体。具体来讲,就是把一个人的面孔放到另一个人身上。比如我可以把你说的话录下来,然后在你的影像里叠上另一个人,看起来就像是另一个人说出了你说的话。或者换个思路,让另一个人冒充你说“我的文章都是瞎编的”,录下视频,然后把你的脸放进这个视频里,就好像这句话是你说的。甚至我还可以做一段模仿你的音频,放进模仿你的视频里,彻底伪造一段影像。
而且不需要被冒充的对象合作?
对的。目前最有名的例子是乔丹·皮尔模仿奥巴马的视频(有粗口)。
这就是我们对深度造假的定义。不过,如果用更广泛的视角,这也算是AI生成内容的一种进步。AI生成的内容,为无数合成媒体的产生提供了空间。编辑和定制音频及视频、模拟面部表情等行为变得越来越简单了。
也就是说,这个问题不只是有人擅长编辑照片或视频,或有人能模仿你的声音?
当然。很多最新的合成媒体是通过机器学习的进步实现的,特别是“生成对抗网络”(generative adversarial networks)技术:把两个人工神经网络模型放到一起,根据同样的数据展开对抗,一个用于生成(比如伪造逼真的图像),另一个来分辨真实和伪造的图像。这种技术把学习过程变成一场博弈,可以加速学习,并且让模型造假的能力得以提升。
我要说一下,这项技术如果运用得当,可以产生非常强大的作用。我觉得积极的方面被低估了。在增强现实和虚拟现实方面,将人像叠映于内容的能力非常有用。举例来说,肌萎缩侧索硬化症(ALS)患者可以建立语音库,以备自己失去说话能力时使用。这项技术的积极用途范围很广,不过我们还是必须谨慎考虑它不好的用途。
乔丹·皮尔的视频令人震惊,可是看起来就不像真的。目前深度造假的水平真能达到以假乱真吗?
看你用它来做什么了。多数情况下,换脸是能看出来的,嘴巴和鼻子的动作会有点不协调。如果视频背景元素太多,换脸的效果也不会很好。这个涉及很高端的技术。现在的生成对抗网络要求还是挺高的,要有强大的处理器、性能优越的显卡、经过良好整合的待处理图像的数据,还要有耐心。不过我们已经进步很多了,以前这项技术是用来给好莱坞电影做特效的。随着计算能力和网络的进步,这项技术会继续演化,与之相关的威胁会转向移动领域,但现在还没有。
所以目前深度造假还是只有专家能做?
也不是。但威胁模型会随着技术进步一同演进。深度造假的门槛已经大大降低,代码是公开发布的,人们已经在这个基础上有所动作。不过做这个还是得聪明,哪怕是第一步寻找图像素材也要动动脑子。反正换脸真的很有难度,从威胁的角度来讲,我最担心的也不是这个。
比换脸更让人担心的是什么?
三个方面。第一是微调,比如在一段视频增删某些元素,这种做法的难度很快就会降下来,而且足以彻底改变图像或视频表达的意思,比如在镜头里放一面有争议的旗帜、抹掉事件相关的重要目击者、抹掉地上的一把枪,等等。
第二,深度造假不必那么逼真,也可以产生影响力。在色情出版物领域,深度造假是一大体裁,把名人放进色情片里,效果不用太真实,就足以吸引观众。再举个更贴近主流世界的例子,我们在人权工作中看到,拙劣的深度造假也会对可信度和真实性造成负面影响。比如伪造一段女性记者在印度参与性活动的视频,不必太真实,就能对这位记者造成危害,带来严重的威胁。关键似乎在于媒体本身的特性,而非造假的可信度。
我考虑的第三点是数字野火蔓延——意图不良的片段被传播(通常是在封闭式通信应用里),迅速在当地造成极坏的影响。这种东西通常是非常模糊的深度造假影像,以愿意相信谎言的特定人群为受众,内容不一定是公众人物煽动暴力,却也能迅速反扑主流价值观。我们在印度看到了这样的状况:一段经过编辑的视频声称有人绑架儿童,导致两名男子被暴徒私刑打死。这正是合成媒体造成的典型威胁。从政治和人权的角度来讲,我担心这个问题,公司角度也一样。
公司如何识别针对自身的深度造假及其他合成媒体行为?
公司注重名誉,深度造假可以伪造出公司领导者宣扬某些观点的内容,从而损害公司名誉。用于判断上市公司价值的信息,是进行公司交易的基础。热门视频会影响公司声誉,进而影响股价。我们已经看到假新闻被用来炒作股票,还有其他诸如此类的欺诈。深度造假和其他合成媒体也可以这样利用,导致公众对市场丧失信心。这不是小事。
不过,我考虑的不只是针对整个公司的深度造假阴谋,还有较低层次的数字野火内容,比如伪造的食品污染或产品安全问题相关视频,音质很差的暗示公司涉嫌阴谋的高管发言音频,或者让某位立法者出洋相的假视频。这些内容即使经过辟谣,也会继续影响公司名誉和公众对信息的整体信赖感。
与个人一样,公司也应当注意合成媒体和其他信息滥用趋势的共同作用。这些趋势包括其他形式的数字炒作,如机器人程序和算法用于模拟和充实人类活动,以及在聊天室和线下协调线上行为的方式。合成媒体的利用还涉及一些普遍存在的社会问题,比如对新闻媒体缺乏信任,当然还有社会观念的两极分化。
要不要考虑文化素养问题?虚假信息和炒作宣传不是什么新事物。学着对信息进行批判性思考就行了。
差不多。我们本能地更加信任视觉内容,而且比较缺乏核实查证这类内容的经验。我们缺乏这方面的素养,不会抱着十分怀疑的态度去评估视觉内容。这种东西可以培养,而且将来可能必须培养。
什么都不能轻易相信,这样活着可真难啊。
这种担忧古已有之:如果无法相信任何东西,那就应该什么都别信。故意污染信息环境侵蚀信赖的行为很常见。因此我们必须设法提防。不过还有另一层更切身的担忧:针对具体目标的深度造假和其他合成媒体。在人权方面,可能是找一个人当作仇恨言论针对的目标,伪造自己身边的人或某位有声望的领导者发言。而在商业中,我觉得可能会有冒充熟人声音的钓鱼诈骗。我们在尝试广泛处理虚假信息和虚假情报带来的风险的过程中设计过这一类威胁模型。
所以我们要如何着手应对这些威胁?
前不久的会议上,我们列出了12个大致方向。总体来讲,我们认为有必要在合成媒体更为普及、风暴来临之前主动寻找解决方案。我要重点讲讲我认为最有前景的三到四种方法。
第一,了解如何运用传统的取证方式去发现深度造假和伪造的影像,如何向媒体或调查员等把关者通报,最终让消费者知悉。我们正在寻找取证的新方式。举例来说,目前深度造假无法再现心脏跳动造成的面部变化,但真实视频放大后可以从像素上检测出这一点。这类技术能否应用于甄别伪造视频?这方面有很多科研投资。
第二,利用深度造假的技术去甄别深度造假。前不久研究者建立了名为FaceForensics的伪造图像数据库,培养神经网络模型的检测能力。第一轮下来,神经网络模型的表现比人眼优秀得多。当然,能够识别的伪造图片和信息都可以放进培训数据集,帮助算法提升甄别能力。这方面前景不错,可是技术界也有针对学习速度的质疑声:发现造假的速度赶得上造假技术本身发展的速度吗?对这个问题,目前很多人有信心。不过还需要提高技术可及性,并且整合建立平台,才能真正打击造假。
于是接下来就是第三点:将平台应用于实践并制定政策。如何区分恶意造假和艺术讽刺?艺术家会提意见说,让领导者说出没有真正说过的话,只是政治漫画的一种延伸,歪曲正是评论的一种手法。如何在控制恶意内容的同时不限制自由表达?平台必须设法解决这些问题。社交网站Reddit处理过深度造假的专题论坛(subreddit),Giphy和Pornhub也处理过深度造假。平台、搜索引擎和社交网站都面临这个问题,需要我们设法解决。
最后,我觉得用技术手段确保信息来源和真实性是很可行的。能不能给图片来源分类,显示监管链,增加人们对真实图像的信任?可以提供文件创建时的元数据,通过区块链及其他标记方法,记录编辑过程。这些方法也有缺陷,因为人们没有保障,不能冒险把太多个人信息跟重要泄密或罪案证据相关联,但我们必须开展对话,讨论如何建立对照片和视频的信赖,以及来源和真实性能起什么作用。
你有信心用以上这些策略扼制深度造假吗?
没有万灵丹,上述每个方向都有不足之处,但既然无法保证解决问题,我认为,这些是最有希望建立信赖的方案。对图像、音频和视频的普遍篡改,对我们来说还比较陌生。即使我们熟悉了,也还要去理解人们为什么明知是伪造却仍然想看这些东西。
(本文由蒋荟蓉翻译)
斯科特·贝里纳托是《哈佛商业评论》高级编辑,著有《HBR数据视觉优化指南》(Good Charts: The HBR Guide to Making Smarter, More Persuasive DataVisualizations)。
已有0人发表了评论
哈佛网友评论