罗杰·尚克(Roger Schank)原是一名教授,现从事研究工作。他对人工智能有独到理解:计算机应该能看懂《西区故事》并识别出《罗密欧与朱丽叶》的故事情节。尚克及其学生认为,故事是衡量智力、推理能力、理解力的关键。按照尚克的标准,今天的AI根本就没有智能。
本周早些时候HBR网站发布的AI文章恰恰就说明了现在计算机还不能做的事情(颇具讽刺意味)。文章的两位作者根据数十年的行业经验,构想主题、收集证据、撰写文字。三位编辑协助整理近5000字的文章后终于定稿。
软件还不能写这篇文章,这件事本身对AI的发展影响不大(即便有证据证明AI不是革命性技术,AI的开发也不会戛然而止),但可以让我们借此了解到机器学习技术的应用原理、本质、当前的不足,以及未来成为写作工具,甚至作家的提升路径。
AI暂时写不出长篇文章
如今,AI的运作原理是将任务转化为预测问题,之后使用统计技术和海量数据完成预测。举例来说,短信类预测问题之一是自动完成(auto-complete)。如果我将“还算”作为一段话的开头,我的手机就会通过数据和统计模型预测接下来的文字,比如“顺利”“好”或“比较”。我想打的是“顺利”,而选择这个词之后,手机就会接着预测下一个词。这次它非常自信,只给我“吗”的选择(确实是正确的预测),然后直接跳到下一个词汇的选择,比如“和”或“今天”。在机器学习中,这类预测问题被称之为“监督学习”。算法会得到包含正确答案的数据组,在本案例中就是完整的短信,随后算法学习识别固定模式,比如“还算”往往和“顺利”搭配。另一类机器学习为“无监督学习”,运作方式完全不同,但监督学习是带动该领域发展的主要技术。
但你不能将杂志文章的写作流程提炼成预测问题,至少现在还不能。纽约大学教授山姆·鲍曼(Sam Bowman)在近期的AI与新闻业大会上指出:“如果没有指定记者风格的明确模版,想要撰写一篇逻辑缜密的长文目前看来根本不可能。”虽然研究人员已经证明,机器学习在特定背景下有能力撰写合乎逻辑的文章,但鲍曼认为,“我们现在还很难真正创建能将抽象概念或一组事实,变成合乎逻辑长文的系统。”
鲍曼援引一部名为《阳春》(Sunspring)的电影剧本,来阐释机器创作的难度。《阳春》的剧本2016年在机器学习的协助下完成。研究人员将数十本科幻电影剧本逐字输入到神经网络(机器学习算法类型之一)中,也就是说算法学习的数据单元是文本中的单个字母。学习到字母的组合模式后,算法可以预测下一个字母该是什么。
虽然《阳春》中的演员说话逻辑混乱,但它们能讲英文对白这件事本身就让人震撼不已了。神经网络在“阅读”剧本前,并不知道如何撰写剧本,也不懂英语。它学习剧本的特征,比如台词应分配给不同演员,而且剧本中要写清楚舞台指示。神经网络只读了几十部剧本,就学会以上所有技能。
但它没有从这些剧本中学到叙事艺术。《阳春》没有故事情节,角色的存在,只是为了说出分配给他们的台词。这部剧本说明,机器学习在成为叙事大师,或者说获得“智能”的路上,还有很长一段路要走。但算法在造句和识别剧本基本特征方面的能力表明,AI会影响到未来写作方式,但影响力有限,至少近期是如此。
AI写总结
机器学习在写总结方面已经有了长足进步。找出一段文字的中心语句并得出结论是最常见的写作任务之一:新闻团队汇集每日新闻中的“要闻”;记者写报道时总结之前的进展;智库总结新案例;图书编辑整理新章节。这些工作中有的已经可以由机器完成,初创公司和科技企业还在加速推出协助机器写作的工具和产品。
自动总结技术通常可归为两类:提炼或抽象。提炼方法指,查找文档中最重要的语句,然后整合这些语句,变成一段总结。这一技术的现代版本相当复杂,但最初的设想相对比较容易理解。汉斯·彼得·卢恩(Hans Peter Luhn)于1958年首次把这一理念带进IBM。他指出,文章中最常使用的词语(除了一些诸如“这”“和” 的高频词)可以反映出文章主题。由此推知,含有这类词语的语句就是最能代表文章含义的句子;将这些句子提炼出来并整理成一个自然段,基本上就完成了文章总结。(即便我描述的是最原始做法,还是将原理简单化了。更多信息请见哥伦比亚大学的凯西·麦基翁(Kathy McKeown)和宾夕法尼亚大学的阿尼·奈恩科娃(Ani Nenkova)合著的《自动总结》一文,两人在论文中阐释了该分支学科的发展历史。)
抽象总结则指,算法用自己的语言解释一篇或多篇文章涵盖的信息。抽象方法更具野心,但之前效果一直都不好,直到近期才有所改善。《阳春》剧本说明,创造新语句的难度极大。但机器学习分支学科之一深度学习领域的进展,重新激起了人们对抽象总结的兴趣,也取得了可喜的成果。
为进一步了解机器学习的能与不能,我们来对比一下人类编辑对本期AI文章的总结以及两篇分别用提炼和抽象方法写的总结。(见边栏《三篇总结:人类、提炼和抽象》)
第一篇总结由《哈佛商业评论》编辑撰写,语法正确,包含文章重点内容,并用第三人称讲述(例如“作者描述了”)。
第二篇是提炼总结,使用的模型由研究公司Fast Forward实验室提供。Fast Forward团队从图书推荐网站上找到一些文章和总结,用这些信息训练神经网络,要求它按照语句可能出现在总结中的可能性给语句打分。得到最高分的语句按照出现在原文中的位置顺序排列,最后成为一篇总结。在我们的文章中,该模型的最高分语句开头是“我们这个时代最重要的通用技术是人工智能”,而这句话确实是本文主题。从这个意义上说,提炼总结方法的确有效。但得分最高的7句话按原文位置依次排列好后,第一句中的代词“这些”前面并没有指代物。(教这些系统找到代词指代的名词很困难,Fast Forward的模型也没有在这方面做出尝试。)
第三份是抽象总结,其创作得力于哈佛工程学教授亚历山大·拉什(Alexander Rush)。拉什训练他的系统用3句话总结CNN文章,虽然他强调他的系统并非当前最先进技术,但愿意尝试用该系统总结我们这篇AI文章的前450字。“我的系统理论上是抽象的,”他说,“所以它在创作时会自由发挥。但在实际应用中,它写下的句子好像多数都是它在原文中看到的语句。”换句话说,该系统避免了《阳春》中出现的不合逻辑问题,但失去了原创性。这份总结和上文的提炼总结都有同样的错误:文章的主题虽然抓到了,但指代“技术”时并没有提供必需的背景资料。
这些总结足以替代人工撰写的文字吗?可能为时尚早。但问题问得也不准确,更合理的问法是,AI撰写的总结初稿会否加快我们的写作进度?这个问题的答案当然是肯定的。
AI当调研助理
总结貌似任务范围太窄,不足以改变整个写作流程,但若能搭载上相关技术,就有机会辅助作者完成最为关键的写作流程——调研。调研是“我们作家工作中最困难的部分,”科技刊物SingularityHUB主编大卫·希尔(David Hill)如是说。
谷歌的搜索算法依托AI,而且已经改革了调研流程,帮助作者大幅提高效率。但谷歌本身不是高效调研助理。希尔用“肤浅”“疯狂”这类词汇来形容谷歌搜索。“这上面所有的搜索都极其耗时费力。”Vox网站编辑苏珊娜·洛克(Susannah Locke)说。她发现自己总在想:“有没有能帮我搜索的东西?”科技博客媒体Ars Technica的蒂姆·李(Tim Lee)这样形容他的“随性”阅读方法:围绕一个主题找到10到15篇论文,开始阅读并记笔记。他希望有工具帮助他找到和主题相关的1000页材料,然后确定最先开始阅读的10页内容。
现在的机会不是将调研流程完全自动化,而是将流程系统化并提高效率。“我不明白为什么新闻网站不让你点击一下名字,然后就能收集到背景资料。”汤森路透实验室的数据科学家布莱恩·阿力克尼(Brian Ulicny)抱怨道。(爆料:他的妻子和我是同事)阿力克尼2006年时在Lycos工作,曾在论文中提到“信息融合引擎”的概念,即你在使用谷歌时可以输入一个名字或标题,之后你不会收到一个链接列表;相反,系统会将网络中找到的大段内容编辑成“逻辑清楚的总结报告或背景介绍”,阿力克尼将之形容为“类似于维基百科初稿水平的稿子”。
阿力克尼不是唯一提出用软件自动整理话题或新闻综述的人。计算机科学家在这条路上的探索已经超过15年了。他们创建系统、发表论文,但这些项目技术复杂,标准不一,而这些科学家面临同样的问题,使用类似的流程。
数据科学家兼Fast Forward实验室创始人希拉里·梅森大致列出了这些系统必须完成的几项任务:首先,系统必须确定源数据,即新闻稿等文字文档的大概数量。接下来系统需要确定并提炼出这些文档中最重要的信息,最后将这些信息提供给终端用户。在整个流程中间,很多系统还会多加一道工序:确定故事框架。这是按时间顺序记录独立事件的吗?是人物传记,还是更大故事框架中的部分内容?框架不仅有助于系统决定哪些信息更重要,还大致确定了文章呈现给终端用户的方式。
上述流程类似于人类做简单调研及写作任务的方法。约翰·奥尼尔(John O’Neil)是彭博社解释性新闻媒体QuickTake的编辑,此前他在《纽约时报》负责主题页面的编辑工作。奥尼尔阐释了他和团队曾经合作撰写主题页面文章的流程(页面格式后来发生改变):首先,找到四到五篇《时报》之前出版过,和现在的主题有关的重点文章;然后,确定每篇报道的背景段落;再之后,整合这些背景段落的信息,写成一篇总结。至少人类和软件写主题页面报道的主要步骤都差不多。
AI与写作的未来结合
如果说上述工具已经问世多年,就算此前版本过低,也不至于对写作只有这么小的影响吧?AI之所以未能深刻影响写作,问题在于文化和众多革命性技术的阻碍。一方面,很多作者不认为自己有使用这些工具的需求;另一方面,计算机科学家不关心人们如何使用自己的产品。阿尼·奈恩科娃指出,自动总结领域的科学家一直将关注点放在提高准确度上,而不去思考如何将技术嵌入人们真正会使用的工具中。
金钱也是原因之一;许多作者和编辑部都没有多少钱。“多数情况下,只有安全问题分析师和政府对监控外国新闻感兴趣时,自然语言处理领域才可能出现进展。”奈恩科娃说。她本人的博士学位就是在美国国防高级研究计划局(DARPA)资助下取得的。机器学习和自然语言处理在金融领域有一定影响力,很大程度上也是因为受到资金热捧。
AI工具尚未在写作领域取得进展的最后一个原因很好理解:应用结果不尽人意,不能持续为读者提供优质服务。阿力克尼在论文中描述了系统对退役曲棍球运动员马里奥·拉谬(Mario Lemieux)自动检索的背景信息。系统识别一些可以编入背景介绍的重要小标题,比如“比赛”“赛季”“匹兹堡企鹅队”等,并添加与这些信息有紧密联系的词汇,例如“冰”,但实际上人类作者肯定不会在曲棍球选手的介绍中使用这类词汇。
但一切都在改变。技术越来越发达和便捷,更多作者和媒体公司认识到,智能软件可以协助他们的工作。在我看来,机器学习近期在很多类型的写作中都能担负重要任务;虽然机器学习多半情况下还是写不出完整、条理清楚的文章,但可以帮助记者更高效地完成写作任务。
很多人都在为上述目标而努力改进工具。大卫·希尔得到一笔经费,支持他创建开源调研助手。波士顿的早期初创公司Frase正在研究类似工具,只不过创始人计划将内容营销人员定位为早期客户。Google Docs已经创建了这样的工具,但用途不广。
Vox创建了一个Slack自动程序,可以展示过往文章,供作者查阅并援引案例。IBM沃森建立的Watson Angles模型可以总结新报道、创建时间表并标出重要引文。Watson Angles中还有一些重要元数据,比如对Reddit用户如何回应某新闻报道的情绪分析(从正面到负面),但该模型去年秋天已经从网络上移除。
以上项目还仅仅是个开端。我们想象一下该领域的可能进展:最近,对伦敦大火的新闻精准报道,你某个住在大楼里的朋友一小时前发帖称,她现在平安无事;文本可以自动匹配读者的背景知识水平;文字处理器中自带信息核实功能;主题网页报道小众喜爱,但极少出版商有能力报道的长尾话题;调研助理检索一个世纪前所写相关报道和一周前报道的速度一样快。
算法还不能像人类一样写记叙文,也不能写一部合乎逻辑的剧本或通过尚克的《罗密欧与朱丽叶》测验。多数情况下,算法还不能分析事情的前因后果,也写不出令人激情澎湃的文章,更不能劝政府官员公开倡导某项重要政策。但算法还是大有可为——AI也许不能妙笔生花,但能帮我们把故事讲得更生动。(刘筱薇 | 译 牛文静 | 校 李全伟 | 编辑)
沃尔特·弗里克是《哈佛商业评论》英文版高级编辑。他是哈佛大学2016年Knight Visiting Nieman奖学金项目的访问学者之一,并在此期间研究了机器学习将如何改变解释性新闻领域的课题。
已有0人发表了评论
哈佛网友评论