原文链接 Slack 工程师 : why-is-data-hard?

做数据挖掘时,常常需要考虑很多方面。其中一个方面,常常会涉及到跨功能,复杂且琐碎的一些事项。数据准备以及评价指标的制定,就是这些事项之一。

等等,似乎干数据这一行,并不容易?

当大多数的组织谈到数据时,他们想的其实是指标——能反应近期业务、或是能够提供数据驱动的决策、抑或是能够监测企业经营状况的指标。

按上面的说法,我们应该能够招聘到聪明且能干的分析师,做出酷炫的可视化仪表盘,并马上投入使用。

“Every second of every day, our senses bring in way [more] data than we can possibly process in our brains.”– Peter Diamandis, Founder of the X-Prize

拥有大量的数据并不会立马产生价值。当你是在数据增长快如 Slack 这样的公司处理数据时,不仅怎样驾驭数据和指标极其重要且困难的,更困难的是你像是在 “building the plane as it is flying”。

数据金字塔:评价指标(metrics)最为重要

数据金子塔大致可以分为4个级别。每一个级别都高度依赖下一级。

数据金字塔
数据金字塔

见解/洞察(Insights)

大部分的老板和公司董事关心的是这一层。见解(Insights)是我们所讲的关于数据的故事,即什么驱动了商业,或者是有什么新的机会能够推动大量的增长。

在理想的世界中,有一个共享的、不断演进的关于业务性能的数据叙述。这种数据叙述在整个组织中传播,以建立对业务的共同理解。

探索以及工具

为了获得见解,我们需要雇佣很多人定期去探索数据。只有当有人在盯着数据的时候,才能有策划和故事!

在快速增长的业务中,最优的数据探索涉及到一些关键事物:

  • 数据探查的多样性。要真正建立起,对正在发生的事情和重要的事情的理解和见解,我们需要每个人都拥有,对数据的关注和探索的主人翁意识。现实情况是,如果探索困难,只有管理员(分析师)能够完成这项工作。你要么雇佣更多的分析师来深入挖掘你的见解,或者,你可以找到简化数据访问的方法,让团队能够自行解决问题。Slack 的做法介于两者之间——我们不断寻找,在整个组织中增加自助数据服务的方法;同时也确保,我们有优秀的分析师参与到每一个核心功能来。

  • 频繁使用。像所有良好习惯的养成一样,查看数据和指标的一致性,是建立对所期望东西见解的唯一方法,什么样的结果是出乎意料的,什么样的问题是需要分析数据的。分析师可以帮助挖掘趋势,有些趋势值得挖掘,而许多趋势则不然。如果老板经常查看数据,那么你的分析师就更有可能对他们的精力,进行最优配置。

例子:本周活跃用户增加了4%。这是好是坏?是预期的增长放缓?还是因为这周,我们推出了新产品,所以实际上我们希望的是,高于平时一周的增长?

分析师能够挖掘并做出各种比较,以帮助老板对数字进行说明。分析人士可以将该数字与往年做比较,深入了解这些新要素的组成,以及他们来自哪里。也许4%符合你的期望。但事实上,它比平时要低,我们没有推出任何新产品,且处于一个缓增长放缓期。这就是您希望董事会和分析人员构建的见解。你不会希望在某些事情上耗费精力,这些事情并不会带来业务的增长,或者改变我们的决策。

  • 发现能力与数据探索。数据探索不同于在仪表盘上点来点去,这是我想在这里指出的。仪表盘是用一组具体的需求创建的,通常在特定的粒度级别上报告指标或世界的某些视图。数据探索是一种能力,即通过各种不同的特征结合来调查指标,以确定在固定的仪表盘中不会立即出现的趋势或机会。可以将其考虑为,能够对数据进行转换和筛选,从而向监控之外的数据提出问题的能力。看到活跃用户的激增吗?太棒了!也许我们需要探究这在所有国家都这样,还是仅仅出现在英国。那周我们是否发起了一项针对英国的营销行动?销售团队是不是在那周完成了一个大单子?

企业主离数据越近,他们就越有能力着手进行自助服务的探索,就能发现更快捷、更有效的关键见解。这是因为,他们更有能力将我们在业务中所做的事情,与我们在数据中可能表现的特点结合起来。反之亦然!那些从商业伙伴那里拥有大量业务背景的分析人士,可以更快地找到正确的见解,而不是身陷各种假设之中。对于一个快速成长的组织来说,你可能希望两者都存在于你的组织中,这样每个人都能带着主人翁意识,理解我们最大的机遇和存在的差距。

指标和维度

在探索和工具层面,有很多数据驱动的决策。但我们在 Slack 发现,如果数据不容易理解、不清晰或是不可信,即使工具各种各样,也无法进行更广泛的数据挖掘。这是为什么,一致性、被充分理解的、明确定义的指标和维度是如此重要。

由于各种原因,数据可能不可信;或是不可获得(没有权限);也可能数据是错误的(数据丢失或是跟踪出了问题);再或者是不清楚数据代表什么以及如何使用它。在这种情况下,数据本身的完整性就不那么重要了。更需要关心的是,数据使用者在能够进行挖掘之前,需要花多少时间来检查和测试他们的工作。

例子:在 Slack 公司,我们有两种不同的地理定位方式。如果你想了解用户数据,了解我们的国际活动和产品发布是如何进行的,或者寻找更多的机会让我们的业绩更上一层楼,那么地理位置是很重要的。

我们的地理定义有两种:一由团队和用户的IP地址(他们使用 Slack 的地址),二是由团队的账单地址(通常是公司总部)来定义的。

对于以上两种方法,我们都有充分理由。当我们考虑产品特性和发布时,我们真正关心的是产品实际使用的地方。基于 ip 的位置绝对是我们想要看到的。另一方面,对于财务报告和衡量我们的收入来源,我们则希望通过账单地址来理解数据。

但是,我们的新用户在数据上可能会感到疑惑。先是会对使用哪个版本的位置信息感到困惑,再者是在使用一个版本,会看到不同版本的报告、并且数字不匹配。无论哪种情况,这个新用户都会对你的数据挖掘能力产生怀疑,或者对数据本身失去信任。

解决这个问题的方式有很多。通常,最有效、最简单的解决方案不是技术上的。对于我们来说,我们对每个指标或维度,都进行了更清晰的解释和标注。我们对公司进行了培训,指导他们在什么情况下,使用哪种指标。这是分析团队在和客户合作时的主要工作。

在整个公司中,重要的是要非常清楚地了解,业务的关键指标和维度是什么,以及这些指标和维度是如何定义的。这些对普通的数据使用者来说是显而易见的吗?通过文档、培训和打标签,我们能更容易理解吗?我们是否在使用和讨论,我们团队中达成共识的度量标准和维度?

我们现在还在做很多这样的工作,因为有很多方法可以让组织更好地进行迭代,使我们做得更棒。更重要的是,你在继续成长,更多的新人加入团队,并推出由你主导的新产品!

基础设施

在所有这些基础之下的是数据基础设施,使上面的一切能够稳定、可靠,甚至在 100 倍的尺度范围内都可以访问。数据基础设施是连接所有产品的管道,它输出了我们需要了解整个组织中,正在发生事情的原始信息。一旦拥有了作为业务监视、探索和驱动见解所需的指标、维度和定义,你就需要确保实际上收集了原始数据,以便在产品的任何地方支持这些指标和维度。

在一个看似简单的指标下,基础设施通常包括:

  • 仪表盘: 产品的原始数据收集。这些数据收集通常是通过产品团队和数据工程团队的同事来完成的。

  • 聚合: 原始数据需要聚合成一个干净、一致、可信的形式。这通常是由数据工程团队实现,其中有一些来自分析团队的贡献。

  • 指标逻辑: 最后,在聚合数据的顶部,应用指标逻辑来生成业务指标。这再次是数据工程团队和数据分析团队之间的协作;通常,主要来自于分析方面。

没有基础设施,就没有数据可看。在某些情况下,随着数据需求的发展,你必须添加新的工具。如果你发布了一个新产品特性,并想要衡量是否采用该特性,该怎么办?是否有数据采集,可以捕获你想了解的,关于是否采用的信息?我们是否能够将这些数据,聚合在一个可以用于测量和见解的水平上?基础设施是实现这一切的生命线。​

数据反馈

数据金字塔的循环
数据金字塔的循环

在这4个层次中,成功的数据和洞见来自于不断的反馈以及和后台工程师之间的密切关系,数据的终端用户,以及介于两者之间的人。这些总是需要不断地迭代和反馈。随着公司的变化,快速增长,以及不断地寻找增长点,这一点变得更加重要。

快速增长: 产品增速超过数据

在实际中,做数据并不容易,因为它涉及很多跨职能的团队,而且很多公司的大多数人都没有意识到,需要实现“底层”工作。见解只是冰山的一角。

每个快速增长公司的需求,都会超过其数据能力。是什么样子的呢?

  • 市场营销活动的复杂性增加。启动一个销售团队,或是通过新的供应商进行新的营销活动。系统被引入来支持这些团队,但不能在数据上有明确的暴露。​
  • 增加产品特性,或仅仅增加产品线。推出一个新的企业产品。国际化。​

如果没有基础设施来收集所有相关的数据,或者如果有太多的系统不能相互通信,不能建立可靠的数据集,那么你就会陷入数据泥沼。当团队快速发展,并专注于实现目标时,这并不少见。

那么,你该如何脱离泥沼?或者,为什么要涉及策略?

记住数据金字塔。与一般的企业主所理解的相比,需要更多的依赖性和基础性的工作。摆脱泥沼,需要去做更多基础性的工作。对于一般的数据项目来说,这意味着公司的培训和支出是工作的重要部分。看起来就像:

  • 深入了解情况,与团队沟通公司的现状以及我们所处的环境。​
  • 在12-18个月的时间里,为数据策略构建一个远期规划,并制定一个计划,明确达到目标,所需的资源和时间。​
  • 让所有的数据团队按上面的做,并创建一个论坛,以便继续处理这些跨组织的项目和专项任务,这样才能实现全局的最优(我们喜欢称之为 #data- XFN)。

说起来容易做起来难!但是,我们已经知道:干数据这一行并不容易。但从更大的尺度来讲,正确地处理数据,将使更多的团队能够理解业务并做出正确的决策。