翻译自:《What is DataOps? Everything You Need to Know》 From Oracle Data Science Blog

图片自:《DataOps is Not Just DevOps for Data》By DataKitchen in Medium

DataOps, 看到它的第一眼,大多数人会觉得陌生。但是提到另一个词——DevOps,做开发的同学可能会有些熟悉。DataOps 的理念与 DevOps 类似:将开发或者说是数据,与运维、测试相结合,自动化业务的交付以及架构的变更,使得构建、测试和发布能够更加快捷、频繁且可靠。

DevOps&DataOps
DevOps&DataOps

DataOps,全称 Data Operations,是一种敏捷运维方法,无感知地将IT基础设施和大数据分析技术结合起来。它的目的是通过结合数据管理的目标与过程,加快分析的速度与准确度。而这一过程,通常会涉及数据的多个流程:数据获取、数据质量检查、自动化、集成,以及最终的模型部署与管理。

DataOps pipeline
DataOps pipeline

最核心的,DataOps 是为了方便管理数据、特别是当你有了一个特定的数据目标的时候。举个例子:为了降低客户的流失率,可以通过利用客户数据构建一个推荐引擎,推荐客户相关的东西,以此来减少浏览到下单的时间,减少客户流失。

这是一个很自然的想法,但是却并不是一件容易的事情。上面的设想需要以下条件:

  1. 你的数据科学团队能够获取到他们需要的数据,同时能够有工具去部署模型。
  2. 除此之外,还需要能够将模型集成到你的网站中去,在新数据上训练以持续的改进。
  3. 最后,需要一套报表系统来监控其表现。

现在比较流行的做法,做好上面的事情,需要多个部门的合作,包括工程师、IT运维人员以及业务团队。

谁能从 DataOps 中获利?

总的来说,几乎所有人都会从 DataOps 中获利

  • 更好的数据管理将会带来更多可利用的数据;
  • 越好的数据质量会有更准确的分析,与之相伴的就是更好的 insights、商业策略以及更高的利润。

DataOps 起一个润滑剂的作用,使数据团队、工程师团队和技术专家之间的工作更加紧密、更加自动化,以此来充分发掘数据价值、减少时间。

Ashish Thusoo,Qubole 的联合创始人曾在书籍《Creating a Data-Driven Enterprise with DataOps》写道:我在2007年的夏天加入 FaceBook 的数据团队。像平常一样,公司里的任何人想获取无论多小的数据,都不得不找到数据团队,并发起流程。我们的数据团队很优秀,但是他们的精力也有上限。很明显,这是一个瓶颈

业务团队与数据团队需要频繁对接
业务团队与数据团队需要频繁对接

DataOps 这一概念从何而来?

DataOps 起源于 DevOps 这一概念。据了解,财富1000强的公司里,80%的公司已经采用了 DevOps 这一方法。DevOps 的成功主要仰仗于:它把之前独立的两个部门联合在了一起——开发和运维。在 DevOps 的世界里,软件的发布是迅速且持续的,因为整个团队都被整合在了一起,用来检查并处理当下的问题。

DataOps 继承了这一观念,并将之应用在数据生命周期里。DevOps 的持续集成、交付和运维的理念在数据的处理和产品化过程中也有所体现。具体来讲:数据科学团队利用软件版本控制工具 git、svn 来记录代码的变更,同时使用 Docker 和 Kubernetes 等容器技术来创建分析和部署模型。将数据科学与 DevOps 相结合的过程,也可被称之为“持续分析”。

如何在组织中应用 DataOps?

正如你所看到的,DataOps 的应用,并非某种特定方法,而是一些关键领域的聚焦

以下是相关领域:

Data Democratization

根据 Experian Data Quality 调查显示:96% 的首席数据官认为相关人员需要比以往更多的数据权限,53%的人认为数据权限是最大的决策障碍。与之相反的是,我们当下有大量的数据在产生、存储。据测算。截至2020年,我们将会产生 40 zettabytes 的数据,相当于地球上的人每人拥有 5200 GB

正如 thusso 在他 Facebook 工作期间看到的一样,缺少数据权限将是创新的极大障碍。自助的数据权限和相关的基础设施显得尤为重要。机器学习和深度学习应用需要持续不断的新数据以训练和改进;而想成为顶尖公司则需要其数据真正容易获取。

Leverage Platforms and Open Source Tools

在一期 Forbes 中,Technology Strategy Crystal Valentine 的 VP MapR 描述道这一层次的 DataOps:“首先,在工具层面,DataOps 需要一个社区主导、支持主流语言和框架的数据科学平台。”除此之外,数据迁移、编排、集成、性能监控的平台也同样重要。

数据科学平台
数据科学平台

敏捷并不意味着需要浪费时间开发非必须的东西,或者是重复造一些已经开源的工具轮子。综合考虑你的数据需求且评估你的技术栈,选择合适的开源工具即可。

Automate, Automate,Automate

这一理念直接取自 DevOps:为了更及时的评估数据集成的价值,自动化一些步骤是非常重要的。比如说质量保证测试数据分析的管道监控

自动化监测
自动化监测

采用微服务自给自足也是同样的道理。 举个例子:让你的数据分析师能够以 API 的方式自行部署模型,这意味着开发团队能够在不重构的基础上集成该功能。这将带来生产力的提升。

Govern With Care

越来越多的公司开始采用 Center of Excellence 的方法来实现数据科学管理,这并非是偶然。只有在建立一套数据的处理、工具平台、基础设施、权限划分以及性能监控后,才能真正获取数据科学、或者说是 DataOps 的投资回报。

因此,在该领域62%的优秀人士有一个清晰且正确的数据科学发展计划。与之相对应的是仅仅28%的普通人和29%的公司有这么一个想法。

Smash Silos

除上面列到的4项以外,跨部门合作也是应用 DataOps 非常重要的一点。DataOps 化过程中引进的工具和平台应该服务于更大的目标:整合不同的团队以更高效的使用数据。

跨部门合作
跨部门合作


“注意:数据并不属于 IT、数据科学家或者数据分析师。”Thusso 写道:“它属于业务中的所有人。所以,你的工具应该允许雇员创造他们自己的分析与可视化报告,并且能够在同事间分享他们的发现。

关于译者