2017年12月,假日旅游旺季即将到来的时候,缤客(Booking.com)设计总监提出了一项激进的实验:将公司网站首页全新改版并进行测试。原本的网站首页提供了许多酒店、度假公寓租赁和特价机票选项,改版后则只显示一个小窗口,询问客户的目的地、日期和同行人数,提供三个简单的选项:住宿、机票、租车。网站花费数年进行优化的其他内容和图片、文本、按钮、留言等设计元素都会移除。
时任缤客CEO的吉利恩·坦斯(Gillian Tans)表示怀疑。她担心改版会令公司忠实客户不安。而当时的核心实验团队负责人卢卡斯·弗米尔(Lukas Vermeer)赌一瓶香槟,宣称该实验一定会彻底失败,导致顾客转化率(即浏览网站的人用网站订房的比例)这一关键绩效指标下降。他们都不看好这个实验,高管层却为何没有否决?因为否决提案有违缤客的核心原则:公司所有员工都有权进行任何测试,不必经过管理层批准。
缤客同时进行着一千多项严格的测试,据笔者估计,一年中测试数量超过2.5万。公司随时都进行着无数亿次的登陆页面置换,意味着身处同一区域的两位用户打开网站看到的都不会是同一个版本。正是这样的实验,帮助该公司在不到20年的时间里从荷兰一家小小的初创公司发展成为全世界最大的网络住宿平台。
除了缤客以外,其他公司也发现了在线实验的力量。亚马逊、Facebook、谷歌和微软等数字巨头都发现,在营销和创新领域,在线实验能够扭转局势。举例来说,在线实验帮助微软必应(Bing)部门实现了连续几十个月的在线升级,每年每次搜索带来的收入总体提升了10%到25%(详见《哈佛商业评论》中文版2017年10月刊的《网络巨人的实验课》)。联邦快递(FedEx)、State Farm和H&M等没有数字网络根基的公司,也已经采用了在线实验,用来寻找最佳数字触点、设计选择、折扣和产品推荐。
“当今世界数字化程度越来越高,倘若不进行大规模在线实验,公司是无法长期存活下去的——在很多行业,连短期都撑不下去。”捷达集团(Expedia Group)CEO马克·奥克斯托姆(Mark Okerstrom)告诉笔者。“我们每时每刻都运营着成百上千个并行实验,涉及几百万网站访问者。因此我们不必猜测客户想要什么:我们可以通过网络一次又一次运营规模最大的‘客户问卷调查’,让他们自己告诉我们,他们究竟想要什么。”
不过,在研究了十多个组织、分析过一千多组匿名实验数据后,笔者发现,Booking.com、捷达等企业的做法并非常态。许多公司并没有一年进行几百上千次在线实验,而是只有几十次测试,且影响甚微。
既然实验如此重要,为什么很多公司不加大力度?探索这一问题数年后,笔者得出结论:关键在于文化。公司在尝试提升在线实验能力的过程中往往发现,障碍并不在于工具和技术,而在于组织内部共通的行为、理念和价值观。实验成功和失败的比例接近1∶10,在许多重视效率、可预测性和“胜利”的组织看来,失败就意味着浪费。
要想成功创新,公司必须让实验成为日常工作不可或缺的一部分——即使预算紧张也不例外。这意味着要营造一个良好的环境,能够培养员工好奇心,重视数据甚于意见,让每个人(不只是研发部门的人)都可以执行或委托执行测试,实验能够以合乎道德伦理的方式完成,而且管理者乐于接受新的领导模式。本文将介绍几家在这些方面表现出色的公司,主要关注缤客——在笔者考察的组织里,该公司的实验文化可谓是一流水准。
(点击查看大图)
培养好奇心
组织中自上而下的所有人都要重视意外惊喜,尽管要为此调拨资金非常困难,而且无法预测惊喜会在何时以何种频率出现。不过,一旦转为这种思路,好奇心就会在组织中占优势,员工不再把失败当成昂贵的错误,而是将其视为学习的机会。
亚马逊对手机游戏《空中防御》(Air Patriots)的修改就是一个经典的例子。在这个塔防游戏里,玩家要应对飞行中队的袭击。一次推出新版本时,用户反馈令开发团队大吃一惊:七天用户保留率暴跌70%,收益下降30%。团队发现,新版本无意中将游戏难度提升了约10%。亚马逊立刻进行修复,但开发者怀疑,降低游戏难度可能无法为用户保留率和收益带来大的起色。为了验证这一假设,开发团队进行测试,提供了四个新的难度级别,以及一个对照组,发现最简单的版本效果最好。经过进一步细化,亚马逊推出新版本,这一次用户游戏时间增加了20%,收益也增长了20%。一个意外带来了令人惊讶的洞察,成为新实验的起点。
可惜,这样的应对方式并非常态。在许多公司里,实验涉及的风险令管理者不愿为之投入资源。但敢于尝试的公司通过实验获益良多,这个事实应该会让其他公司也获得勇气。
很多组织还在实验的性质和数量方面过于保守。过分强调成功实验的重要性,可能会鼓励员工关注类似的解决方案,或其他已知的可行办法,避免尝试可能失败的新创意。而且,同时进行大量实验,风险其实比少量实验更低。缤客只有约10%的实验获得了积极成果——出现积极成果的定义是,尝试改进某些因素(如销售量、回头客比例、点击率或用户停留在网页上的时间等)的实验组,在随机用户群中的效果优于保持常态的对照组(除对照测试以外,缤客还有其他更加复杂的测试,同时评估多个变量)。虽然成功率较低,但如果同时进行的实验数量巨大,这一小部分成功的具体数量便也十分可观,反过来可以抵消失败带来的经济和情感成本。假如公司每年只进行寥寥几项实验,其中可能只有一项成功,或者运气不好完全没有成功的,那失败就显得非常醒目了。
笔者研究的公司里,在全新项目开发早期进行测试的创意成功率更低,但及早犯错可以让开发者迅速去除不合适的选项,转而关注更有可能成功的方向。
在实验文化中,员工不会畏惧失败。“在我们这里获得成功的人,富有好奇心,愿意接纳不同意见,渴望学习和了解新事物,即使自己的想法被证明是错误的也没关系。”现任缤客测试负责人的弗米尔说。公司招聘人员寻求的正是这样的人才。为确保这样的人才能够将灵感付诸实践,公司为新员工制定了严格的入职流程,提供实验培训,并让他们接触所有测试工具。
坚持数据甚于意见
在线实验的实证数据与固有观点相冲突时,不管提出该固有观点的是什么人,都必须选择相信数据。这正是缤客的态度,但大部分公司都很难实践这一点,原因可以理解:人类本性如此。我们倾向于欣然接受确证自己偏见的“好结果”,面对与自己假设不相符的“坏结果”则往往会提出质疑并全面调查。
应对这个问题的方法是,坚决实行实验数据基本确证的改变。缤客的一位负责人告诉我,“如果测试表明网站版头应该用粉红色,那就应该是粉红色。一定要根据测试结果行事。”
要让公司高管层遵守这条规则并非易事(美国作家厄普顿·辛克莱(Upton Sinclair)有句妙语:“如果一个人的薪水取决于自己不理解某件事,那么要让这个人理解这件事是很难的。”)但让高管遵守规则至关重要:最能遏制创新的就是所谓HiPPO——薪水最高的人的意见(highest-paid person’s opinion)。
请注意,我并不是说所有管理决策都可以或应当以在线实验为基础。有些东西很难测试,几乎不可能实现,比如是否收购某家公司的战略决策。但如果在能够测试的方面都充分实行在线测试,实验就可以为管理决策发挥重要的辅助作用,推动健康的争论。有时讨论可能会导向其他有意识的选择,否决数据结论。建立了复杂的大规模实验体系的奈飞(Netflix),在关于一部喜剧的决策中就出现了这种状况。《华尔街日报》2018年刊登的一篇文章称,奈飞的测试表明,电视剧《同妻俱乐部》(Grace and Frankie)的宣传图上只放主演之一莉莉·汤姆林(Lily Tomlin),获得的点击量比放上汤姆林和另一位主演简·方达(Jane Fonda)两个人更高,公司高管层的意见出现了分歧。内容团队担心,不放方达会显得疏远她,而且可能违反合同。他们认为,数据实证有违“战略考量”。经过激烈的争论,奈飞决定,选择使用两位主演一同出镜的宣传图,尽管客户数据并不支持这一决策。不过,实验证据令这种权衡更加透明。
实验民主化
前文提到,缤客所有员工都可以发起涉及数百万客户的实验,不必经过管理层许可。公司1800位技术和产品相关人员中,约有75%主动使用公司的实验平台。平台上的标准模板,让他们能轻松设置测试,而招募参与者、随机取样、记录浏览者行为和生成报告等步骤都是自动进行的。核心实验团队和其他5个卫星团队,过去时常为公司提供培训和支持,但随着公司需求逐渐变化,实验团队结构也发生转变,改为4个中心团队,向弗米尔和被派到产品团队中的专业人士(“大使”)汇报工作。
为了推进实验,个人或团队要填写电子表格。填写项目包括实验名称、目的、主要受益方(客户或供应商)、过往相关实验,以及要在对照测试中检验的变量数目,公司其他人都能看到表格内容。实验开始后的最初几个小时,团队要密切关注,如果主要指标或次级指标迅速失败,团队可以停止测试。最初一段时间过去之后,平台会继续自动运行数据质量检验,在出现问题时发送警告信息。为了鼓励坦诚公开,缤客提供了可以搜索的重要存储库,保存了过去的实验,以及对成功、失败、迭代和最终决策的完整描述。所有人都能看到实验生成的实时数据。
“有点讽刺,令我们组织实现分散化的,正是我们实验基础架构的集中化,”弗米尔告诉笔者,“大家都用一样的工具。这一点让我们信赖彼此的数据,可以讨论和承担责任。其他一些公司,比如微软、Facebook和谷歌,可能在机器学习等领域拥有更先进的技术,但我们用简单的对照测试,就成功地让所有员工都参与进来。我们在整个组织里让测试实现了分散化。”
当然,实现民主化要解决一些难题。一是缤客的网站流量巨大,做实验的团队或个人可能会弄坏一些东西导致网站崩溃。二是每个团队都必须设置实验方向,明确要解决的是哪一个用户问题。这要求团队成员广泛接受培训,并为确定问题进行持续的讨论。公司鼓励争论,员工发现实验中哪里有问题,都会去找同事探讨。每个人都可以推进实验,也都可以中止实验。不过这种情况很少见,除非实验出现了灾难性的巨大问题——比如说,某天夜里一位员工独自在办公室,看到某个实验引起了客户转化率等关键指标暴跌,继续下去会让公司收益蒙受数百万美元的损失。
这个系统让团队获得了将自己认为有价值的新方法付诸实践所需的自主权,让公司上下所有员工参与监督实验,并实时提供反馈,真正让每个人都摆脱了束缚,可以尝试任何创意,帮助缤客做得更好。
增强道德伦理敏感性
构思新实验的时候,公司必须仔细考虑,用户是否会觉得相关测试不道德。这个问题的答案并不总是清晰明确,不考察这个问题的组织可能会引发用户抵制。例如,2012年Facebook开展为期一周的实验,研究平台上的情绪状态是否具有感染性。在实验中,Facebook更改了信息流(算法生成的发帖、文章和活动列表),验证阅读正面新闻数量减少是否会使用户发送的积极内容减少,反过来,如果人接触的负面新闻较少,发送的消极内容是否也会随之减少。实验涉及近69万随机挑选的用户,其中约31万首页信息流的情绪表达被调整过(且对此不知情),其余用户首页则随机略去了一定数量的信息。
Facebook和康奈尔大学的研究人员在学术期刊上发表了研究成果,引起公众愤怒。Facebook数据科学团队已经用毫不知情的用户进行实验数年之久,从未有过争议,然而情感操控却踩到了雷。批评家提出质疑——参与者对Facebook通用数据使用协议的许可是否足够?他们认为,Facebook应当更明确地说明,用户可以选择不参与,而且收集数据是为了研究用途。从学习的角度来看,这场实验是成功的:研究发现互联网上存在情绪感染,不过影响非常轻微。但一些用户感到Facebook打着科研的旗号利用了他们。
研究表明,比之未经过实验就直接采取新方法的竞争对手,测试新创意的公司首先面临的是更严格的客户审查。生物伦理学家米歇尔·迈耶(Michelle Meyer)等人发表过一篇对医疗、汽车设计和全球贫困等领域16项研究的分析报告,报告得出结论,参与者认为A/B对照测试在伦理上比普遍的未经测试直接选择A或B实施更有问题——即使A和B两个选项都无可非议也不例外。
显然,企业需要伦理道德相关培训和监管。难题在于,监管如何不引起人们过度警觉,不牵扯繁琐的手续。由于这两个具体的原因,缤客回避了自上而下强加规定,实行何种测试不由管理层决定,而是鼓励员工思考,某项实验或某种做法对客户有益还是有害。“我宁愿远离政策或伦理审查委员会,”缤客首席产品官戴维·维曼斯(David Vismans)告诉笔者,“这种解决方式无法扩大规模,只会造成阻碍。而且测试相关政策会让员工觉得没有赋权感。”公司鼓励在向全体员工开放的内部网络论坛上发起讨论。员工可以激烈辩论,而且这样的讨论已经解决了一些问题,比如利用一定的技术促使客户完成交易(比如“请立刻预订,否则您将失去为您保留的房间”或“只剩三间房”这样的信息)。“我更喜欢会自我调节的社区。”维曼斯解释说。
为了达到这个目的,缤客的入职流程中也有道德伦理培训。领英(LinkedIn)的实验项目规模更大,但方法略有不同。领英建立了内部指南,表明公司不会进行“蓄意给用户造成负面体验,有意影响用户心情或情绪状态,或篡改用户当前的设置或选项”的实验。
接受不一样的领导模式
公司若能实现实验民主化,并遵从测试结果,员工就有能力自行做出好的决定,加速创新和改进。但如果多数决定都是这种方式,公司高层领导者除了设定战略方向和处理收购等重大决策以外还能干什么呢?至少有以下四件事可以做:
设定一个可以拆分为可验证假说和关键绩效指标的大目标。
员工需要了解自己的实验如何对整体战略目标起到支持作用。例如,缤客高层领导者给员工出了难题,让他们设计业内最佳线上体验。领导人可能是期待绝佳线上体验能够增加客流量,吸引更多供应商来到缤客平台,进一步拓展客户群、提升活跃度。为了设法实现这一目标,员工可以提出假设及相关指标,例如,突出显示重要文本可以让访问者更容易找到关键信息,进而提升转化率,“轻轻一点,免费取消”的选项则可以大幅度提升用户重复使用率,且不会导致网络酒店预订量下降。
为大规模实验准备好相应的系统、资源和组织结构设计。运用科学方法对绝大多数创意进行测试,需要相应的基础设施:仪器、数据管道和数据分析师。一些第三方工具和服务,让企业可以轻松尝试实验,但若要扩大规模,高层领导者就必须将测试能力与公司流程紧密结合。这需要在集中化和分散化之间找到平衡。
在集中化的团队里,开发者、用户界面设计师和数据分析师等专业人士可以为整个公司推进实验,重点关注的是引入目前最先进的方法和工具。但如果测试局限在一个小小的专家团队中,就很难扩大实验规模、改变公司文化。而分散化测试,则是公司将专业团队分散到不同事业部中去。这样会将实验推广到组织的更多部门,但可能会阻碍知识分享,导致专业人士各自的目标相互冲突,无法妥善协调。分散化可以用来在初期让整个组织参与到实验中,但这个阶段过去之后,公司就应当转而提升实验能力。缤客正是如此。该公司最初建立卫星团队,将实验推广到公司各个角落,但却发现为实验者提供支持会耗费大量时间精力,无法集中提升整个公司的实验能力。为了解决这个问题,让各个团队齐心协力,前不久Booking.com转向“卓越中心”(center-of-excellence)模式,为事业部提供支持,将公司的实验方法统一标准化,并确保最佳方案能得到采用和跟进。
以身作则。领导者必须跟其他员工一样遵守规则,对自己的创意进行测试。“你不能自负,觉得自己知道得最多,”坦斯说,“在我们公司,假如身为CEO的我对某个人说,‘我希望你这样做,因为我觉得这样对业务有好处。’员工就会看着我说,‘好的,没问题,我们会测试一下,看看你的想法对不对。’”高管应当表现出理性的谦逊,不要害怕承认“我不知道”。要听从科学研究方法之父——弗朗西斯·培根(Francis Bacon)的教诲:“一个人如果在开始时胸有成竹,结束时就会疑窦丛生;但如果愿意从一开始就满怀疑惑,结束时就会胸有成竹。”
认识到仅靠语言无法改变行为。说到底,在实验驱动的组织中担任领导者,就意味着放手,让员工全权把握自己的测试——只跟员工说一句可以自由做测试,实验是不会自动出现的。要推动实验,可以参考IBM的协调努力。
2015年时,实验还不是IBM的核心活动:IBM的IT部门提出进行测试,但成本高昂,要向事业部收费,而且必须遵守严格的测试流程。测试只由一名专业人员负责,这个人同时也负责项目审核,他拒绝了很多测试请求,因为他觉得没有太大意义。结果,2015年全年,IBM公司只进行了97项测试。随后,时任公司营销分析负责人的阿里·谢因金(Ari Sheinkin)接管了实验,在首席营销官的支持下,赋权给世界各地的5500多位营销人员自行开展测试。为了引导这些营销人员,谢因金采取了一系列措施。他提供了方便易用的工具,建立了卓越中心提供支持,引入实验参考框架,
为每个人提供培训,并让所有业务团队免费使用在线测试系统。他还在初期开展“测试闪电战”,规定每个营销单位必须在30天内完成30项在线实验,其后则每季度举办一次竞赛,评选最具创新力或最具推广性的实验。他还采用了更强力的策略:IBM将营销单位预算的一部分与实验计划绑定。这些措施发挥了作用。到了2018年,IBM公司一年进行的测试次数增加到了2822。要想发挥实验的变革力量,必须付出
长久的努力。持续一段时间,实验就会带来许多大大小小的转变,叠加在一起,产生巨大的效益。提供合适的工具是必不可少的,但却只是容易做到的第一步,并不足以让实验成为公司日常工作的常态。维曼斯说得很好:“要我对CEO提建议,那只有一点:大规模测试不是技术上的问题,而是文化上的,你必须完全接受这种文化。你要向自己提出两个大问题:你有多么希望每天被别人质疑自己犯了错?你愿意给自己手下的员工多少自主权?如果你的答案是不愿意被指出错误,不愿意员工自行决定产品的未来,那你就做不好。这样下去你永远发挥不了实验文化的潜力。”
总结一下:重要的并不是某个实验的成败,而是组织内部在不确定的情况下如何决策。决策不应该只建立在信念或个人意见的基础上。假如能够测试,那就应该测试。
斯特凡·索凯(Stefan Thomke)|文
斯特凡·索凯是哈佛商学院工商管理学William BarclayHarding教席教授,著有《实验的作用》(Experimentation Works: The SurprisingPower of Business Experiments,暂译,哈佛商业评论出版社2020年)。
蒋荟蓉|译 刘筱薇|校 李源|编辑
已有0人发表了评论
哈佛网友评论