杰夫·唐纳克(GeoffDonaker)金炫进(Hyunjin Kim)
迈克尔·卢卡(Michael Luca)| 文
牛文静 | 译 时青靖 | 校 李源| 编辑
网络评价正在改变消费者选择产品和服务的方式:我们通过TripAdvisor制定旅行计划,在Zocdoc上搜索医生,通过Yelp寻找新馆子。在亚马逊、Airbnb等网络市场中,评分系统也扮演了重要角色。包括斯坦福医院(StanfordHealth Care)和美国10大零售商中的9家公司在内,越来越多其他领域的机构通过评价系统,帮助顾客了解产品和服务。
如能妥善管理,评价体系可以为买卖双方创造价值。在信誉良好的评价体系的帮助下,消费者无论是购买新书,还是在当地寻找饭店用餐,都能增加对陌生产品的信心。本文作者之一迈克尔进行的研究发现,Yelp的高评分可以给企业带来高营业额。个体户受影响更大,因为它们刚开始打造信誉。
评价还能通过反馈环为商家提供有价值信息。例如,优步通过评分将不合格司机拉黑,评价还可以为生产者提供改进产品及服务的指导。
但并非所有评价体系都发展良好,很多并没有作用,既没人评价也没人参考。一些网站评价虽多,但内容信息量低,缺乏令消费者信任的因素。例如,如果一个平台充满好评,消费者可能会以为受评价的产品质量很好,也可能会认为评价系统失效,难以甄别好坏。如果评价是片面的,则会误导消费者。刷单行为会破坏平台评价体系的信用。迈克尔和乔治斯·泽瓦斯(Georgios Zervas)合作研究发现,如果企业有信誉危机,或行业竞争格外激烈,更有可能会出现虚假评价。
很多评价体系之所以失败都是基于一个假设:构建评价体系需要攻克技术问题而不是管理问题。
很多企业管理者往往会在技术方面斥巨资,打造评价体系,但未能积极管理内容,导致出现很多有共性的问题。糟糕的体系设计会带来严重后果:消费者之所以信任爱彼迎(Airbnb),是因为房东逐渐积累起了信誉(很大程度上依赖评价);亚马逊购物者也是通过评价完成无缝购物。金炫进和迈克尔从学术角度,和Yelp等公司合作,研究了一些出色的网络平台评价体系(金炫进也是Yelp经济学调研实习生)。杰夫十多年来担任Yelp首席运营官,在他的努力下,该公司的评价生态系统成为全球领先的当地服务信息主要来源。
近年来,越来越多学者在研究,选择怎样的设计方案能让评价体系更加健康发展,并构建起信誉。本文来自我们的研究、教学以及和企业合作的案例,我们探索了管理评价生态系统的框架,以及可能产生的问题,如何通过奖励机制和设计方案规避常见陷阱。我们会逐一具体分析这些问题及解决方法。
评论数量不足
Yelp刚成立时,几乎没人知道——一座空城,没人评价也没人浏览评价。很多评价体系都经历了缺少评价的阶段,特别是在刚开始。虽然大多数人会在购物前通过评价了解产品,但很少有人会在平台撰写评价。况且,评价系统有很强的网络效应,这让事情更难办:没人读,自然不会有人想写,没人写,也很难有人读。
想要获得足够数量的评价,我们建议可以尝试三种方法:引导评价,给予奖励,合并相关产品评价。企业要根据系统发展阶段,产品数量,以及系统目标,选择搭配不同方法。
引导评价。早期,平台可以考虑付费评价或从其他平台调取评价(通过合作或合适的归类)。Yelp在新城市上线时,为了给用户创造价值,吸引流量,并获得评论,雇用了兼职“小分队”,他们会上传照片并写下评价。在平台走上正轨前的几个月,公司一直采用这种方式。无论是想自己打造评价生态系统,还是想展示评价但不打算自己建立平台的公司,都可以考虑和专业评价网站合作。亚马逊和微软等公司会从Yelp等网站调取评价。
如果企业希望搭建属于自己的评论生态系统,引导评价在早期尤为有用,因为企业不需要等品牌成熟,才能激励用户评价。但是,评价大量产品和服务会给企业带来很高成本,评价质量也有别于自发产生的内容,所以平台需要结合自身目标,选择是否要尽快从这个阶段过渡到下一个阶段。
提供奖励。通过奖励,鼓励平台用户撰写评价和打分,这种方式更有发展空间,而且有助于打造社群。你可以采用现金奖励:2014年,爱彼迎用25美元赠券换取评价,之后评价率提升了6.4%。当然,赠品或身份标识等非现金奖励也可以激励评价者,特别是在品牌成熟的条件下。“谷歌本地指南”项目中,用户撰写评价、上传照片、纠错或答题,都会获得积分。用户可以将积分兑换成奖励,包括最早试用谷歌新品,或者免费升级1TB谷歌硬盘等。Yelp高产、高质的“精英小分队”评价者会被授予平台特殊称号,还会受邀参加私人聚会和活动等。
如果产品线太多,现金奖励也许会成为企业负担。但更让人担心的是,如果设计得不好,无论现金还是非现金奖励都会产生副作用,使得用户在短期内提供大量敷衍评价,丝毫不会帮助其他消费者。
合并评价。通过重新给评价分组,你可以将一个评价用于多个产品。例如在Yelp,在同一间理发店工作的理发师所获得的评价,都会出现在同一个理发店条目下。这种聚合效应极大增加了Yelp中单个企业能积攒的评价数量,因为任何一个理发师的评价都会出现在该公司的页面。况且,很多理发店的理发师流动性很大,理发店的声誉对潜在客户和理发师同等重要。同样地,平台如果让用户评价卖家(例如eBay卖家),也许比单独评价每个售出产品能收集更多有用评价。
企业最好能从一开始就决定,是否以及怎样将多个产品评价合并到同一系统中,这样做很有益处,因为它决定了平台本质(该站点是用来分享理发师信息还是理发店信息?)随着产品类别增多,合并评价会更有吸引力,因为可以将更多条目以更有用的方式合并起来。
但这么做的风险在于,为获得更多评价而合并评价,可能会让搜寻特定产品的消费者找不到所需信息。例如,理发店每个理发师服务各不相同,针对某个理发师的评价,对另一个理发师的潜在客户并无参考意义。
亚马逊合并网上书店的评价时,会考虑到书籍形式。同一本书的文本出版物(包括精装本、平装本和Kindle版本)评价会被放到一起,而有声读物的评价会在有声品牌下单独展示。对想了解这本书内容的读者来说,了解音频和文本评价同样有帮助。但对有声书的读者来说,音频质量和朗读者信息是重要因素,将这些评价分开展示也许更好。
以上战略都能帮助企业缓解评价不足的问题,随着用户从中获益并参与其中,内容会逐步实现有机增长。但是,平台不仅要考虑评价数量,还应考虑它们的信息量,后者会受到选择性偏差和系统博弈的影响。
选择性偏差
你在网上写过评价吗?如果写过,当时为什么决定这么做?研究显示,用户往往会因为消费体验决定是否写评价。有些网站,消费者在获得满意体验时,更可能留言评价,有些则只在极度满意和极度不满的情况下,才会写评价。无论哪种情况,都会因选择性偏差,影响最终评分。这样的评价也许无法准确展现该产品用户体验全貌。比如,如果只有对产品满意的顾客留下评价,产品评分就会虚高。如果企业只鼓励满意的客户评价,选择性偏差的影响会更明显。
eBay在2011年遭遇过选择性偏差问题,发现卖家评分高得可疑:多数卖家的好评率超过99%。公司在经济学家克里斯·诺斯克(ChrisNosko)和斯蒂文·泰迪利斯(Steven Tadelis)的帮助下,发现用户在获得满意体验后,更有可能写评价:在网站已完成的约4400万项交易中,只有0.39%获得差评或负分,但实际出现“争端”的人有两倍之多(1%),7倍以上(3%)的交易显示,买家曾联系卖家抱怨产品质量。实际上相比卖家得分,买家是否给卖家写评价的决定,能更好预测未来买家是否会投诉卖家,也能更好体现产品质量。
eBay提出假设,网站如果能纠正评价者的选择性偏差,更准确地筛选出高质量卖家,改进买家购物体验,就能提升销售额。eBay将卖家得分统计标准改为所有产生好评的交易占总交易比例,而不是好评占总评价数量的比例。新标准极大地拉开了评分分布差距,中位数为67%,和控制组相比,参考新得分的潜在用户回购率更高。
你可以通过类似方式规划平台评分,调查你的评价系统是否存在偏差,以及问题严重程度,加入更多数据是否会有所改善。任何评分系统,都能通过设计改善出现几率最高的偏差。企业可以在整个评价流程中,从最初邀请用户写评价,到用户输入评价时获得的信息,提供机会鼓励用户更客观地评价。企业可以通过尝试不同的系统设计方案,找出如何降低评价者的选择性偏差,以及避免用户评价方式趋同。
要求评价。还有一种更强硬的方式,平台要求用户在下次购物前必须提交评价。但这种方式要小心使用:这么做有可能会流失用户,或引发用户采用没有信息量的默认评价——为系统制造垃圾,走向另一个极端。鉴于此,平台往往会采用其他方式来降低选择性偏差。
允许非公开评价。经济学家约翰·霍顿(JohnHorton)和约瑟夫·戈尔登(Joseph Golden)发现,在给自由职业者评分的网站Upwork上,雇主如果不满意一名自由职业者的服务,往往不愿公开给出负面评价,但愿意给出仅供Upwork查看的评价。(非公开情况下给出差评的雇主,在公开情况下,近20%会给五星好评。)Upwork从中了解到,用户在什么情况下愿意或不愿给出评价,哪些自由职业者是有问题的,这些重要信息能帮助网站改变匹配自由职业者的算法,或者提供有关自由职业者的整合性评价。整合评价会影响雇佣决定,证明它提供的信息有参考价值。
小心设计提示信息。大部分时候,人们会在系统提示他们留下评价时去评价。平台可以精心设计用户的评价选择环境,通过不同因素,尽量消除偏差。这种方式一般叫作选择架构,卡斯·桑斯坦(Cass Sunstein)和理查德·泰勒(Richard Thaler)在《助推:事关健康、财富与快乐的最佳选择》(Nudge: Improving DecisionsAboutHealth, Wealth, and Happiness)一书中首次提及,它包含了提示信息的撰写以及用户选择项等内容。
我们在Yelp曾做过实验,通过多种提示信息,鼓励用户撰写评价。一些用户看到的是通用信息“请继续下一个评价”,另一些则收到“帮助本地企业获得更多客人,或帮助其他消费者发现本地企业”。我们发现,后一组信息获得的评价更长。
刷单和虚假评价
卖家有时会(不道德地)假装成真正的消费者,给自己写好评或给对手写差评,来提升自己的评分。这就是我们熟知的刷单。平台影响力越大,越多人会尝试刷单。
由于刷单会损害消费者利益,政策制定者和监管部门已经介入。2013年,彼时的纽约州总检察长艾瑞克·施耐德曼(Eric Schneiderman)开展了一项解决该问题的行动,并称我们的研究起到了推波助澜的作用。当时的州检察院宣布,与19家帮助企业在网上刷单的公司达成协议,要求它们停业,并支付因虚假广告和诈骗性商业行为产生的高额罚金。但是,刷单和入店行窃一样,企业不能完全依靠执法部门杜绝这类行为,为避免陷入虚假评论,他们必须进行自我保护。迈克尔和乔治斯在合写的论文里提到,包括Yelp在内的一些企业会进行“突击搜查”,找出并处理弄虚作假的企业。
如果卖家和买家互评,以好评换取对方好评时,也会带来一些问题。例如你在爱彼迎订房后,网站会发送信息,让你评价房东,对方也会收到同样信息。2014年之前,如果你在房东之前给出评价,对方可以在看完后再决定如何评价你。结果呢?你可能会在给差评时更谨慎。
企业如果想减少刷单和评论造假,更换平台设计方案和内容调整是两种重要手段。
为评价者制定规则。在决定设计方案时,企业首先要决定谁能看到评价,以及重点推荐哪些评价。例如,亚马逊会核实产品购买信息,提示谁是真实购买者,以帮助消费者过滤潜在的刷单评价。Expedia则更进一步,只允许在该网站订过票的用户写评价。蒂娜·梅兹林(DinaMayzlin)、雅尼夫·多佛(YanivDover)和茱蒂丝·舍瓦利耶(JudithChevalier)合作进行的研究表明,这类政策能减少刷单行为。但同时,如果企业对评论者身份要求过严,可能会极大减少真实评论和评论者数量。减少潜在刷单行为的同时,可能获得更少有效评论,平台要权衡前者收益是否超过后者的损失。
平台还能决定是否提交并公开某评论。爱彼迎发现不评论的用户,往往比评论者体验更差后,采取了“同时公开”规则,避免了房客和房东的互惠评价,让网站反馈更加完整客观。平台会在房客和房东都给出评价后,同时公开评价内容,并规定双方必须在截止日期前完成评价,过期不候。安德烈·佛兰德金(Andrey Fradkin)、艾琳娜·格雷瓦尔( Elena Grewal)和戴维·霍尔兹(David Holtz)研究发现,在该公司做出这些改变后,房客和房东的平均分都降低了,但评价率却提升了,说明评价者在不满意服务时,因为不必担心受到报复,更加敢于留下负面评价。
设置版主。无论你的系统设计方案多么完善,都无法避免问题:可能会出现垃圾评论,不良商家仍会与系统博弈,两年前具有指导性的评价现在可能过时了,一些评价比另一些更有用。例如,平台可以删除非购买者留下的评价,但剩下的评价里也可能有误导性,或者缺乏信息量的问题。版主可以基于评价内容,而非评价者身份或评价时间,删除误导性评价。
企业可以通过三种方式调整内容:员工、社区和算法。
员工版主(一般被称作社群管理者)可以全天候服务,和其他用户在线互动,删除不合适内容,给管理层提供反馈。这种方式成本最高,但能帮助你最快理解什么有效,什么无效,确保有人全天候管理网站内容。
社区管理是让用户帮助管理并标记不良内容,包括刷单、垃圾信息等其他滥用行为。Yelp用户如果看到可疑评价,可以通过简单图标标记,这类评价包括骚扰其他评价者或给其他公司打广告等。亚马逊会问用户哪些评价有用,哪些无用,通过搜集这类数据,优先展示有用评价,淡化无用评价。但只有少部分用户会帮助平台筛选内容,所以企业如果希望社区管理正常运转,需要积累一定数量的积极用户。
第三种调整内容的方式依赖于算法。Yelp的推荐软件系统每天按照数十种因素逐个分析某条评价,以“推荐”的方式优先展示某些评价。2014年,该公司称任意时段的评价中,不到75%的评价获得推荐。亚马逊、谷歌和TripAdvisor采用了评价质量算法,移除令人不适的评论。算法必然能超越二元分类,评估每个评分应有的权重。迈克尔和黛西·戴(Daisy Dai)、 金杰·金(Ginger Jin)和正民·李(JungminLee)合作的论文讨论了聚合评价问题,重点分析了如何给每个评价分配权重,帮助企业解决潜在评价流程中存在的问题。
综述
他人的体验一直是用户了解产品质量的重要信息来源。美国家庭医生学会(TheAmerican Academy of Family Physicians)建议大家在找医生时,让亲朋好友推荐。评价平台加速了这一流程,并将其系统化,让我们在集思广益的同时更加便捷地评论。网络评价对顾客、平台以及政策制定者都有用处。例如,我们在了解很多社会问题的时候,会使用Yelp数据,包括中产阶级化时期社区变化,以及调高最低工资给商业营收带来的影响。但想让评价对消费者、卖家以及更广泛大众发挥作用,管理评价系统的人需要认真思考设计方案,并考虑如何最准确地反映出用户体验。
杰夫·唐纳克曾担任Yelp首席运营官和董事会成员。金炫进是哈佛商学院战略部的博士生。迈克尔·卢卡是哈佛商学院工商管理Lee J. Styslinger III教席副教授,和马克思·巴泽曼(Max H. Bazerman)合著有《实验的力量:数据驱动世界中的决策制定》(The Power of Experiments: Decision Making in a Data-DrivenWorld)(麻省理工学院出版社,即将出版)。
已有0人发表了评论
哈佛网友评论