EnglishRSSApp/Android客户端iPad客户端Kindle版手机版天猫旗舰店

如何正确地向数据科学家提问?

作者:Dr.Michael Li,Madina Kassengaliyeva 2017-02-10 16:11:36 0

大数据与商业的交集日益增加。尽管企业在过去的几十年中都在学习分析法,但数据科学仍是一个相对较新的能力。与一个由数据驱动的全新文化交流十分困难,尤其是对于那些不是数据专家的人而言,更是如此。

许多人正在面临一个特定的挑战:如何从数据科学家那里获得新的数据或分析。他们不知道如何正确地提问,正确地使用术语,也不知道在获取所需的信息时应考虑哪些因素。最后,分析师们不知该如何继续,经理们也感到沮丧,因为他们并没获得想要的信息。

在The Data Incubator,我们和数百个公司合作。这些公司都在寻找雇佣数据科学家和数据工程师们,或者使其员工参与我们的培训项目。聘用客户和培训客户常常会问我们应该如何与数据专家们交流。尽管我们不可能给出一份涵盖所有问题的答案,但当你开始进行一个数据搜索时,应当留意下文列举出的一些在与数据专家沟通时需要考虑的重要因素。

我们应该问什么样的问题?

当你开始和数据分析师一起工作时,要清楚你期望达成的目的是什么。想想这些数据在商业上的影响力,以及公司在这份数据上的行动力。通过了解在数据科学家的帮助下,你希望获得的是什么?他们才能同你一起合作,来规划要提的问题,并且更好地理解需要寻找的信息究竟是什么。

即便是最细微的模棱两可也可能会造成巨大的影响。例如,广告经理可能会问数据分析师,“通过广告增加销量最有效的方法是什么?”尽管这个问题看上去十分合理,但它可能不是正确的问题。因为大多数公司的最终目的并不是促进销量增长,而是使其利润最大化。一份来自广告从业者协会的调查显示,相比于推动销量增长,通过广告降低价格敏感度会带来双倍利润。见解的价值高度依赖于问题本身。因此请尽可能地使问题具体且可行。

我们需要什么样的数据?

当有了正确的问题和分析目标,你和你的数据科学家则须评估数据的可得性。询问一下是否有人已经收集并分析了相关的数据。随着公共数据变得越来越多,常见的问题能轻易地找到答案。Cerner,一家美国提供医疗健康IT解决方案的公司就使用美国卫生和福利部的数据来补充自己的数据。英国iMedicare公司则用医疗保险和医疗补助服务中心的数据来制定政策。思考一下这些公共数据是否也适用于你的问题,同时你也可以和组织内其他数据分析师一起讨论公司内部是否已有人出于相似理由分析了这些数据。

接着,评估这些可用的数据是否足够。数据可能并没有涵盖你的问题所需的所有相关信息。一些不容易被发现的隐藏因素也可能影响这些数据,比如说民间借贷的年代效应--即使看似一样的借贷数据根据发行时间的不同也大有区别,尽管他们在当时可能有相同的数据。这种影响来自发行时基本承销标准的波动,而这些波动并不会在借贷数据中显示。

你还应当留意一下这些数据是否客观,因为单单依靠样本量并不足以保证数据的可靠性。最后,问问数据科学家是否有足够数据支撑他的答案。通过判断哪些是有用信息,你可以帮助数据科学家更好的推进数据分析。

我们如何获取数据?

如果需要更多的数据,数据科学家就需要在下面两种方案中做出选择:

1.使用公司在做生意的过程中所积累的数据,比如说观察性研究。

2.在实验中采集数据。

作为与分析师对话的一部分,你需要问问如何权衡这些选项的利弊。观察性研究可能更简单,成本相对较低,因为在这过程中没有和观察客体的直接交流。但是相比较而言,它的结果也未必那么可靠,因其只能找到相关联系,而非因果关系。

实验法中有更多的可控制因素,因此也能获得更多因果关系的结论。但它的成本更高,也更难操作。此外,即便看起来无害的实验也可能隐藏着伦理或道德影响,以及实际的财务结果。例如,Facebook曾试图操控其“信息流”功能来观察情绪在社交媒体上是如何传播的。这一举动引起了极大的公愤,尽管这一实验完全合法,但其众多用户并不喜欢在不知情的情况下参与此项实验。管理者们需要考虑的不仅仅是数据,更要考虑在数据搜集过程中可能的影响,并且同数据科学家们一起理解这些后果。

在将大量资源投入新的分析之前,必须确保公司能合理且有效地运用从分析中获得的洞见。要做到这一点,必须运用现有的技术项目,为自动化系统提供新的数据,并且建立全新的流程。

数据是否干净且便于分析?

总体来说,数据有两种形式:结构化数据和非结构化数据。正如它的名字,结构化数据十分规整,很容易就能加入一个数据库。大部分的分析师也觉得它更易分析,更好掌握。而非结构化数据通常来说结构松散,无法轻易地存储在企业最常用的关系数据库之中。根据一份来自瑞尔森大学Amir Gandomi教授和Murtaza Haider教授的研究报告显示,尽管全球95%的数据都是非结构化数据。但对于许多大公司来说,储存并操作这些数据以提炼有效的信息需要投入大量的资源。因此,在确定初始目标之前,要与你的数据科学家一起评估使用这种数据所带来的额外成本。

即便是结构化数据也须清洗,或检查其中的不完整和不准确之处。如有可能,建议分析师优先使用干净的数据。否则他们会在检查和纠错中浪费许多宝贵的资源和时间。在市场调研公司Ascend2 2014年的一份调查中显示,近54%的被调查者有过这样的抱怨:“数据的质量和完整性的匮乏”是他们最大的阻碍。寻找干净数据可以避免显著的问题,节省大量时间。

数据模型是否太复杂?

用来分析数据的统计技术和开源的工具有很多,但简单的仍是最佳选择。越复杂、弹性越大的工具可以适用更多的情况,但也需要时间来开发。与你的数据科学家一起找到更简单的技术和工具。只有在简单的方法不能解决的问题上,才转向复杂的模型。遵守KISS法则十分重要:“保持简单,傻一些!(Keep It Simple, Stupid!)”

在数据收集和分析的过程中,成本和各种问题难以避免,但你总可以想办法降低成本和风险。向你的分析师提正确的问题,这样可以保证合作的有效性,并且获得你前进时所需的信息。(秦煌|译 齐菁|编校

Dr.Michael Li是The Data Incubator 创始人和执行主席,数据科学家。他曾在Google,Foursquare和Andreessen Horowitz 工作,常常在VenrureBeat,The Next Web和《哈佛商业评论》上发表文章。Madina Kassengaliyeva是Teradata旗下的Think Big公司客户服务总监。她通过有效地运用大数据和分析解决方案,帮助其客户抓住有影响力的商机。Raymond Perkins是普林斯顿研究员、普林斯顿量化交易会的执行主席,研究方向为统计、数据和金融。他也在香港科技大学、数学科学研究所以及密歇根州立大学进行过研究。

本文摘自HBR Guide to data Analytics Basics for Managers, 有删减。

关键词:
相关阅读

已有0人发表了评论

哈佛网友评论