近年来,在线对照测试的价值及其所需的低技术成本,越来越为企业所欣赏,迅速得到大量运用。如今,数字化企业和越来越多的传统公司每年进行上万次在线对照实验,评估某产品或服务的实验组表现是否优于对照组(通常是现有方法)。在线实验可以迅速获取用户的反应以便进一步改进,因此能帮助公司寻找数字产品升级和新产品开发的最佳方案。这种方法在向全体用户推广创新之前,先利用随机挑选的一小部分用户检验效果,降低了发生意外的风险。而且,对照实验对变更造成的影响进行客观评估的独特能力,使公司可以将实验中的改进因素为收益、参与度或其他关键业务指标带来的增长与其本身的自然增长区分开来。这样的重要信息,令公司能够发现机遇,并准确评估投资回报率。
对于许多公司而言,对照测试如今是产品开发周期中的一部分。何时、如何发布全新产品或调整已有产品,是否要渗透、如何渗透尚未开发的市场或客户群体,如何向不同领域分配资本等决策,都要以测试结果为基础。可以说,成功的对照测试对于这些公司的未来至关重要。可是,公司往往在进行实验时犯下严重的错误。根据我们在哈佛商学院进行的研究,以及我们在奈飞和领英担任数字科学领导者的经验,我们总结了公司进行实验时的三大雷区。本文将介绍奈飞和领英验证过的几种技术,帮助你避开这些陷阱,并且更有效地利用实验提升公司表现。
雷区之一:眼界局限于平均值
关注创新对相应业务指标平均值的影响,是一个常见错误。如此一来,公司实质上是在评估创新对某个并不存在的“平均一般人”产生的影响,忽略了现实中不同客户群行为的巨大差异。某一项改变也许很能博得某个客户群的欢心,但另一类客户可能会因此弃用。
想象一下,推出一项新产品,让平均用户消费提升一美元。我们会下意识地假设,每一位用户都会多花一美元。然而,如果一部分用户花了更多的钱,其他所有用户都放弃我们的产品,那也可能让平均用户消费出现一美元的提升。典型的对照测试控制面板只会显示全球平均值的差异,不会区分以上这两种情况。
核心业务指标由一小部分大客户或超级用户主导时,平均值的误导性非常高。除非决策者不再将客户想象为理想化的典型代表,否则就有为重度用户进行优化、失去轻度用户的风险。这样很危险,因为设法推动轻度用户消费提升往往才是公司最大的机遇所在。
在某些情况下,答案也许是设法为全体用户找到一个通用的最佳版本(用实验术语来说,“调整版”)。不过还有一些状况适合的则是根据几大重要用户群的偏好提供不同的版本。对照测试可以帮助公司做到这一点。用户分组可以利用国家、行业、过往参与度等预设指标,也可以运用机器学习技术,区分出会对创新有不同反应的人群。即使一部分结论不具备可执行性,测试结果也可以让公司评估潜在的机会,寻找抓住机会的方法。
应对客户群的异质性,公司应当采取以下措施:
运用能够反映不同客户群价值的指标和方法。奈飞希望为全体用户(不只是重度用户)提供更多价值。假如时下流行的电视节目更频繁地出现在所有用户的推荐栏里,那会怎么样?可能会促使高频用户观看更多节目,大幅度提升奈飞的平均用户使用时间。但这样的改变没有考虑到用奈飞观看小众内容的用户的需求,这部分人的观看时间可能会减少。这是一个问题:总体而言,参与度较低的奈飞用户获取的价值少于重度用户,取消订阅的可能性更高。因此,增加这部分用户想看的内容数量,哪怕只是一小部分,效果也会比促使高频用户增加观看时间更好。
为了处理这样的问题,奈飞采用了两种方法。第一,运用交替式对照测试设计。这种技术是让每位用户交替体验“实验组”和“对照组”:用户第一天体验原版,第二天体验调整版,或者反过来。如此一来,奈飞就可以在兼顾不同用户行为偏好的前提下找出效果最好的创新。第二,奈飞没有关注平均播放时间,而是开发了一个衡量指标,平衡了创新对轻度用户和重度用户的影响,确保不会因为惠及一个群体而使另一个用户群的利益受损。
评估创新对数字接入质量的影响。
这里的“数字接入”是指用户网络状况如何,是高速稳定,还是速度慢、不稳定;用的是最新的高性能设备,还是不那么好用的旧设备,诸如此类因素。根据这类因素区分用户群,有针对性地设计并分析对照测试,可以为用户找到最适合其数字接入环境的体验。
技术指标(如软件加载速度、播放视频的延迟时间和卡顿率等)方面,要了解某项改进给不同用户获得的服务质量带来的影响,这一点十分重要。为此,奈飞和领英都在追踪这些指标在数字接入环境质量为高、中、低的三组用户处的表现,以及平均值的变化。调整版的软件加载速度,在高速网络环境和低速网络环境下是否都比原版更慢?抑或是调整版很适合高速网络环境的用户,却不适合低速网络用户?奈飞用这种方法测试创新,以期提升不同网络环境下、不同设备上的流媒体播放质量。
始终重视不同群体的行为特征。领英对照实验平台自动以群体为单位计算对体验的影响,例如分别计算某一新功能对各国用户的影响,因为在美国效果好的功能放在印度不一定有用。领英还根据社交网络状况为个人用户分组——因为增进交流的改动对于好友众多的人和社交稀少的人产生的影响是不一样的。举例来说,领英前不久的一项测试发现,即刻向求职者发送新增工作机会的列表,会使得社交密度较低的用户申请职位的比例出现极大的提升,因为这部分人通过其他渠道获取求职信息的可能性低于社交密度高的人。
最后,领英还会追踪调整因素对不平等本身的影响,检查创新是否提升或降低了最顶端1%用户带来的收益、页面访问量及其他重要收入指标的比例。这确保领英不会为最活跃用户优化过度,并影响参与度较低的用户的利益。
关键细分市场。重视国别差异,令领英和奈飞在继续为主要市场提供服务的同时进入新的市场,没有将原有的经验盲目运用在其他地区。举例来说,在印度,人们主要是用移动设备上网,会降低软件加载速度的任何改动都会导致用户参与度显著下降,下降比例比美国等一些市场大得多,因为这些市场的消费者不太会依赖老旧的移动设备或速度较慢的3G网络。因此,要满足印度及相似市场的需求,领英开发了轻量版手机应用。为了加快速度,轻量版降低了图片分辨率,调整了用户界面,减少了软件要处理的数据量。而在奈飞,针对设备使用的市场调查引导公司进行实验,并最终推出了满足印度市场需求的手机会员专用套餐。
雷区之二:忘记客户之间有关联
标准的对照测试,即设置实验组和对照组,预设两组用户之间没有互动。在传统的随机分组实验(比如衡量新药有效性的临床实验)中,这个预设通常是合理的。但在线对照实验参与者之间会有互动,可能对实验结果产生影响。
举个例子,一项测试针对的改进是让用户在领英上更容易与其他用户开始对话,比如通知你现在有谁在线,向你推送某个提供你感兴趣的职位的公司联系人、让你在这个页面给这些人发信息。在这个实验中,对照组用户可能会收到实验组用户发来的更多信息,相应地回复更多信息,显示出正向的变化。倘若决策者不考虑这种“污染”,就可能会出现若干错误的衡量结果,导致错误决策——比如错判某项改进相应的效果。以下是避免这一误区的几种方法:
运用网络式对照测试。领英制定的测试方法,能够衡量参与者互动的程度,或者避免不同组之间发生互动。后者是将实验组和对照组用户隔开——确保每一名参与者的行为只受同组其他参与者影响。运用这些方法,可以更详尽地了解用户行为。比如一种新的内容推荐算法,显示更多的新闻等长文本内容,减少图片数量。一般而言,图片内容获得的点赞较多、评论较少,新闻文章则是点赞较少、评论较多。不过,比起好友只点过赞的内容,用户更愿意回复好友评论过的内容。标准的对照测试会显示,新算法能让内容获得更多点赞,而网络式对照测试不仅会记录点赞数目变化,还会一并给出来自用户的更多回复进一步促成的积极影响。更广泛地说,网络式对照测试帮助领英管理者了解新改进的整体影响,已经多次促成了战略方面的重大改进。
运用时间序列实验。这种对照测试让整个市场在两种方案间随机切换。有许多买家和卖家进行互动的网络市场(如在线广告拍卖或拼车平台),非常容易出现“污染”。哪怕是只针对部分用户的小型对照测试,也可能会影响市场平衡,无法呈现出相关改进对所有用户的影响。而时间序列实验则可以准确测量整个市场受到的影响。
举例来说,假设领英开发出了一种新的算法,为求职者推送相应的工作机会。为了评估这种算法的效果,领英会让某个市场中的所有招聘信息和求职者接触新算法30分钟,接着随机决定是转为原有算法还是保持新算法。这个过程会持续至少两周,确保观察到所有类型的求职模式。这种方法比较通用,奈飞的交替战略就是对此法的一种特殊应用。
雷区之三:过度关注短期效果
对照测试要想成功,实验持续时间必须足够长。只关注短期的信号会出问题,原因有以下几点。第一,一项测试的初期信号,往往与成员习惯新体验后的结果不尽相同。涉及用户界面改动的实验尤其如此,这方面新鲜感或“衰退”效应很普遍:用户通常会对新功能产生很大的热情,随着时间推移逐渐消减。第二,创新可能会使用户与产品的互动发生速度缓慢的长期转变。比如推荐算法或手机应用的渐进式改进,可能不会出现立即就能衡量的效果,但可能会缓慢而显著地提升客户满意度。以下是几种应对方法:
合理设置实验长度。确保衡量新特性对用户的稳定影响,而不是短期持续的新鲜感。多长时间才足够?这要根据具体情况而定,举个例子,用户对用户界面改版和推荐系统变化的反应不一样。因此,对照实验应当持续到用户行为稳定之后。领英和奈飞都在关注用户对新特性的反应随着时间而变化的趋势,并且发现,多数测试的影响都会在一周后趋于稳定。
进行“不参与”实验。在让全体用户参与某些改进测试时,分出一小部分用户,在预设的一段时间内(通常是一个月以上)不接触相应的改进。这种方法可以帮助公司衡量一些实现速度缓慢的效果。领英发现,在许多渐进式改变造成的累积效应最终能够促成改进,或需要用户花费一段时间才能发现新特性的时候,“不参与”实验很有用。
想象一下,你在测试一项这样的功能:突出显示社交媒体信息中好友的职业大事记(比如找到新工作)。这个功能是间歇式激活,一周可能只会出现一两次,取决于用户的好友是谁。在这种情况下,实验可能需要持续数周或数月,确保实验组用户接触这项更新的次数足以测试该功能对社交媒体信息品质的影响,或测试相关用户对这类内容的感受。
在线对照测试能够有效地帮助你了解潜在变化对不同客户群体、不同市场的影响。不过,标准的对照测试倾向于关注新体验对平均用户的短期影响,容易误导公司,得出错误的结论。本文介绍的几种方法可以帮助管理者避免常见错误,在全球范围内为具有重要战略意义的客户群找到最有价值的短期和长期机会。
亚沃尔·波季诺夫(Iavor Bojinov)纪尧姆·圣雅克(Guillaume Saint-Jacques)马丁·廷利(Martin Tingley)|文
亚沃尔·波季诺夫是哈佛商学院技术及运营管理部门助理教授,曾在领英担任数据科学家,负责因果推理项目。纪尧姆·圣雅克是领英计算社会科学负责人,曾任领英实验科学团队技术负责人。马丁·廷利是奈飞实验研究负责人,此前曾在澳大利亚保险集团和宾夕法尼亚州立大学任职。
已有0人发表了评论
哈佛网友评论