过去十年人类在人工智能,即机器学习的各个方面都取得了卓越进展。亚马逊、苹果、Facebook和谷歌等科技巨头利用这种通过数据输入进行预测的技术,极大改进了自身产品。很多初创企业也借此推出新产品和平台,有时甚至可以和大型技术公司相抗衡。
位于多伦多的初创企业BenchSci就是如此,该公司致力于缩短药物研发流程。医药公司内部数据库和公开发表的科研论文数量庞大,科学家搜索时无异于大海捞针,该公司的目标是降低信息筛选难度,将精力集中在其中最关键的信息上。为筛选可供临床实验的新药,科学家需要进行大量耗时耗钱的实验。BenchSci公司注意到如果科学家能从已经进行的大量实验中提取更精准的信息,可以减少实验数量,取得更多成功。
BenchSci发现,如果科学家借由机器学习,读取科研信息、分类并提取洞见,便可以将药物在进入临床实验之前需要操作的实验数量减半。再说得具体点,他们可以利用这项技术找出合适的生物试剂——影响并量化蛋白质表达的关键物质。在新药研制过程中,结合科研论文找到这些生物试剂比从零开始探索节省了大量时间。每年因此节约的成本可能达到170亿美元,在医药这个研发回报极微薄的行业,可以彻底改变市场形态。此外,新药能更快问世还可以挽救众多生命。
BenchSci令人惊叹之处在于,该公司在其专业领域所做之事类似于谷歌为整个互联网所做的:利用机器学习引领搜索。用户可以通过谷歌找到修理洗碗机的方法,不必跑到图书馆查找且省下一大笔维修费用;类似的,BenchSci帮助科学家找到合适的试剂,且免去了多余的研究和实验带来的花费和麻烦。在此之前,科学家常常利用谷歌或者PubMed寻找文献(往往花上数日),阅读文献(又要好几天),订购并测试3-6种试剂,然后从中选一(历时数周之久)。
如今,科学家只需花几分钟在BenchSci上搜索,订购并测试1-3种制剂,再从中选一(耗时和测试数量都更少)。许多企业已经知道如何采用切实可行的步骤将AI技术融入运营,并增强企业自身力量。但随着熟练度增强,企业需要扩大思考范围:该如何利用机器学习为业务打造护城河,打造竞争对手无法轻易模仿的能力。举例来说,BenchSci初期的成功是否会引发谷歌的竞争,一旦竞争,BenchSci该如何保持领先?我们将在接下来的文章中介绍拥有AI赋能产品或服务的企业该如何打造可持续竞争优势,并提高追随者的进入门槛。我们发现,尽早行动会有重大优势,但并非决定性因素。较晚采用新技术的企业如果能找到利基市场,至少能修复部分失地,甚至有机会领先。
用AI预测
企业通过机器学习技术识别规律,预测什么能够吸引消费者、提升运营、制造更好的产品。但在制定预测战略之前,企业必须了解预测流程所需的材料,获取材料的阻碍以及倘若未来希望通过算法更好地进行预测,需要什么样的反馈机制。
机器学习环境下的预测是输入数据、运行算法然后输出信息。例如,手机导航应用程序在预测两点间的最佳路线时,使用的输入数据是路况、限速和道路宽窄等因素。之后利用算法计算出最快的路线和所需时间。
几乎所有预测流程最主要的难点在于训练数据:为获得合理输出,输入数据必须人为创建(例如雇用专家对数据分类)或者引用现成的外部来源(例如医疗记录)。企业很容易从公开资料(例如气候和地图信息)中获得某些数据。如果有激励因素,消费者也可能会愿意提供个人数据。例如健康和健身管理设备Fitbit运动手环和苹果手表的用户,允许企业通过设备收集关于自己运动水平、卡路里摄入等数据。
但是如果企业需要用大量个人数据来训练预测能力,缺乏直接激励因素的用户很难主动提供。例如,导航App可以通过追踪或者通过用户主动报告获得交通情况的数据。App可以发现堵车几率高的路段,提醒前往该地的其他车辆。但是已经陷入堵车的司机即使参与也没有什么收益,所以可能并不想让App获得他们的实时位置信息(还有可能记录行车路线)。如果堵车中的司机拒绝分享信息或者干脆关掉地理定位,App提醒用户交通情况的能力将会大打折扣。
另一个难题是需要定期更新训练数据。有时候这并不难:如果做出预测的基本情景保持不变就不存在这个问题。举例来说,放射学分析的是人体生理学,这方面人和人的差异一般不大,也不会随时间发生多大变化。因此超过某个值之后,在数据库增加一条训练数据的边际价值几乎为零。但另外一些情况下,为了反映算法应用环境的实际变化,企业需要频繁更新数据库的所有数据。例如导航App,如果不更新地图设计之初使用的训练数据,假以时日,新的道路或环岛、改名的街道等变化将会降低App的准确性。
很多情况下,企业可以通过反馈数据不断提升算法。获得反馈数据的方法是,通过将输入数据的所有预测性输出结果都罗列出来。范围定义清晰,但变数很大情况下特别适合使用这一工具。例如,手机面部解锁之所以能通过安全校验,是因为之前你已经训练手机有了这种识别能力。但你的样子可能发生很大变化。也许你没戴眼镜,换了新发型,化了妆,胖了或瘦了。因此如果手机只依赖最初的训练数据进行预测,可靠性会降低。实际情况是,手机会使用你每次解锁时的照片不断更新算法。
但当情景不断变化、反馈难于分类和溯源时,创建这类反馈环就会变得很难。例如,只有当机主是唯一输入面部数据的人时,该手机面部识别的反馈数据才能获得更好的预测结果。如果和手机所有者长得很像的人持续使用该手机,在预测使用者是否为机主时准确性将大大降低。
机器学习很容易产生偏见,这也很危险,特别是当多种因素发挥作用的时候。假设债权人使用AI流程来评估借款人的信用风险、收入水平、工作经历、人口统计特征等。如果算法的训练数据歧视某个群体——比如有色人种,反馈环将会反复印证甚至不断强化这种偏见,导致有色人种申请人被拒几率增加。若不谨慎定义参数,选择可靠且公正的数据源,反馈很难安全融入算法中。
打造预测的竞争性优势
打造机器学习的可持续业务在很多方面和打造任何行业的可持续业务一样,首先你要拥有能卖出去的产品,占据防御性的市场先入位置,并让后来者很难进入。要做到这点,先要回答好以下三个问题:
1你是否拥有足够的训练数据?最开始,预测机器需要做出足够好的预测,才能在市场存活。“足够好”的定义可能由监管(例如为患者诊断的AI必须达到政府要求),可用性(聊天机器人要和顾客顺畅沟通,而不是让他们等待人工服务)或竞争(想要进入互联网搜索领域的企业需要拥有能和谷歌一较高下的预测准确性)决定。因此进入门槛之一是,要想做出足够好的预测,企业需要花多少时间和精力评估或创造所需的训练数据。
这一门槛可以非常高。以放射科为例,为达到临床安全性,医院需要实实在在的指标说明预测机器比技艺高超的人类更出色。因此,首个打造广泛应用的放射科AI(可以读取任意X光片)的企业最初可能没有竞争对手,因为需要积累大量数据才能成功。但是如果市场飞速发展,初期优势并不会维持太久,因为在高速成长的市场里,获得大量训练数据的收益足够吸引资金雄厚的大企业加入竞争。
和很多其他事情一样,经济规模决定了输入训练数据的要求。高速增长的市场吸引投资,新进入者的门槛会逐渐提高,迫使该领域的参与者花更多钱研发或推销自身产品。因此你会拥有更多可以训练机器的数据,后来者的进入门槛也更高,这就引发了第二个问题。
2你的反馈环有多快?预测机器利用的是人类曾经的优势:学习。如果它们融合反馈数据,就能从结果中学习,提升下次预测的质量。
但是,企业拥有的优势取决于获得反馈所需的时间。以X光扫描为例,如果需要解剖尸体来验证机器学习的算法是否能准确预测癌症,那么反馈将会非常慢,即便企业也许已经在收集和读取扫描结果方面有了早期优势,学习能力也会受限,继续领先的可能性不大。相较之下,如果在获得预测之后,很快给出反馈数据,早期优势将会变为持续性的竞争优势,因为即使最大的企业很快也将无法触及其最小有效规模。
2009年微软推出搜索引擎必应(Bing)时,公司投入数十亿美元,给予全力支持。但十多年后,无论是搜索量还是搜索广告收入,必应的市场份额仍然与谷歌相差甚远。必应难以追赶的一个原因是反馈环。搜索服务中,预测(针对一条查询贡献一页建议性链接)和反馈(用户点击其中一个链接)之间的时间差很短,一般只有几秒。换言之,反馈环又快又强大。
必应进入市场时,谷歌已经采用基于AI的搜索引擎十多年之久,帮助数百万用户每天完成数十亿搜索。用户每进行一次查询,谷歌都会预测出最相关的几个链接,用户选择最佳链接,谷歌在此基础上更新预测模型。随着搜索空间的不断拓展,谷歌也在不断地学习。在如此多的用户提供的大量训练数据基础上,谷歌比必应识别新事件和新趋势的速度更快。最终,快速的反馈环加上谷歌对大规模数据处理设备的持续投资,以及用户更换搜索引擎实际或预计成本等一系列因素,让必应难以赶超。其他尝试和谷歌以及必应竞争的搜索引擎甚至没有机会开始。
3你的预测有多准确?产品的成功最终取决于性价比。如果消费者在同样价格的两个相似产品中做选择,通常会选择他们认为质量更好的。
众所周知预测质量往往容易评估。放射学、搜索、广告等场景下,企业可以以一个清晰的质量指标设计AI:准确性。和其他行业一样,最高质量的产品从更高的需求中获益。但是AI产品与其他产品的不同点在于,其他产品的高质量多数意味着高成本,低档货的卖家可以靠使用更便宜的原材料或更便宜的加工流程,收取较低价格存活。
AI产品的竞争环境不适用这一战略。因为AI是基于软件的产品,低质量的预测和高质量的预测成本一样高,打折并不实际。如果更好的预测和更糟的预测售价一样,没人会去买较差的那个。
对谷歌而言,这也是它在搜索领域立于不败之地的原因之一。竞争者的预测一般和谷歌很类似。在谷歌或者必应输入“天气”,得出的结果大体相同,最先弹出的都是天气预报。但是如果你输入一个不太常见的词就会看到差别。例如“颠覆”,必应的结果首页通常会跳出词条定义,谷歌的链接则会同时包含定义和关于颠覆式创新的相关论文。和谷歌相比,必应在某些文本搜索方面做得差不多,但另一些预测则没有那么准确。必应在其他搜索类别方面也没有表现得更出色。
追赶者
本质在于,AI领域的先驱企业可以借由快速的反馈环和清晰的表现能力获得建立在规模化基础上的竞争优势。那么对于后来者这意味着什么?上述三个问题中隐含了两种后来者可以在市场找到一席之地的方式。潜在的竞争者可以两种方式都尝试,无需二选一。
找到替代数据来源,并加以保护。在一些预测工具市场,也许有一些潜在的训练数据来源是在位企业尚未发现的。再以放射学举例,上万名医生每人每年要看数千张X光片,也就是说会产生上亿(甚至数十亿)的新数据点。
早期进入者可以从几百名放射科医生手中获取训练数据。一旦软件开始应用,企业数据库中X光片的数量和反馈数量将会显著增长。但对于后来者而言,如果他们能够将此前分析和验证过的数十亿张X光片汇总分析,这将是赶超的机会。若真如此,他们也许能研发出足够优秀的预测AI并推出市场,之后从反馈中获益。
后来者还可以考虑用病理学或解剖学数据而非人类诊断数据训练AI。虽然获得数据后的反馈环会变慢,但这种战略会让他们更快达到质量门槛(因为人体活组织检查和解剖比放射科照片更权威)。
还有一种办法,后来者不必寻找未被发现的训练数据来源,而是找出相比在位企业使用的反馈数据,更能提升自身学习速度的反馈数据新来源。(BenchSci是这方面成功的例子)。后来者可以通过使用反馈更快的新数据来源,通过用户行为和选择学习并改进产品。
但是如果企业所在市场的反馈环相对较快,在位企业运营规模很大,使用这一方式的机会将受限。反馈速度极大增快的情况会颠覆现有企业,后来者将不会和在位企业竞争,而会取而代之。
预测差异化。另一种帮助后来者具备竞争力的战术是重新定义什么是“更好的预测”,即使只针对部分消费者。例如在放射学中,如果市场需要不同类型的预测,可以使用这一战略。
早期进入者很可能用来自一家医院、一种硬件或一个国家的数据训练算法。后来者可以通过使用不同系统或国家的数据(以及反馈数据)进行训练,为截然不同的用户类型定制AI。举例来说,美国城市居民和中国农村居民的医疗条件差异很大,用于诊断其中一类居民的预测机器在预测另一类时就会缺乏准确性。
如果企业从特定类型的硬件中提取数据进行预测,从而降低商业模式的成本或提高客户的可达性,也会有市场机会。如今很多放射科使用的AI都从最常见的X射线仪器、扫描仪和超声波设备中提取数据,这些仪器往往由通用电气、西门子等成熟制造商生产。但是,如果数据来自其他设备,算法的预测准确性也许会降低。因此,后来者可以通过为其他设备找到定制的AI产品,发现利基市场。如果售价或运营成本更低,或者能满足某些客户的需求,医疗机构会有兴趣使用。
预测机器潜力无穷,科技巨头无疑赢在了起跑线上。但别忘了预测就像精心设计的产品,会贴合具体目的和情景变化。即便只是稍微改变一下目的和情景,你也能为自身产品打造防御空间。虽然决定成败的是收集和使用数据的细节,但这也是你杀出重围的途径。
尽管如此,和AI赋能的科技巨头竞争,制胜关键其实在于一个问题,这个问题只有人类能够回答:你想要预测什么?找到答案并非易事,必须拥有对市场动态的深度理解,对具体预测及其应用产品及服务的潜在价值的全面分析。因此也难怪BenchSci公司A2系列的融资中,首席投资人并非加拿大当地的技术投资人,而是谷歌旗下一家关注AI的风投资本公司Gradient Ventures。
阿杰伊·阿格拉沃尔(Ajay Agrawal)约书亚·甘斯(Joshua Gans)阿维·戈德法布(Avi Goldfarb)| 文
阿杰伊·阿格拉沃尔是多伦多大学罗特曼管理学院创业和创新Geoffrey Taber教席教授,创造性破坏实验室(Creative Destruction Lab)创始人。约书亚·甘斯是罗特曼管理学院技术创新和创业Jeffrey S. Skoll教席教授,创造性破坏实验室首席经济学家。阿维·戈德法布是罗特曼管理学院人工智能和医疗Rotman教席教授,创造性破坏实验室首席数据科学家。三人合著《预测机器:人工智能的简单经济学原理》(Prediction Machines: The Simple Economics of Artificial Intelligence),哈佛商业评论出版社,2018年
牛文静 | 译 时青靖 | 校 李源 | 编辑
已有0人发表了评论
哈佛网友评论