一、数据挖掘的定义

什么是数据挖掘?

  • 数据挖掘是一个用数据发现问题、解决问题的学科。
  • 通常通过对数据的探索、处理、分析或建模实现。

数据挖掘学习路线

  • 大学里并没有数据挖掘这么一个专业,现有的数据挖掘工程师大都来自工科或统计学等专业。
  • 目前的数据挖掘工程师大都来自不同背景,计算机科学、数学甚至是机械工程。要想成功胜任,其诀窍是热情、好奇心,不断学习新的工具的能力,以及对数据清洗和分析的耐心。

给新人的建议

  • 最重要的三个品质:好奇心、是非观以及批判性思考。这三个品质,放在其他领域同样适用。
  • 专业领域的三种能力:编程能力、统计基础、商业思维。编程和统计在大学较为容易学到,商业思维需要多实践总结。

二、数据挖掘在做什么

数据挖掘工程师的一天

  • 检查日常报表数据是否异常,寻求数据波动的合理解释。
  • 针对新业务,设计指标,搭建数据模型。
  • 搭建商品推荐系统、价格预测系统、文本分类系统或是聊天机器人。

数据挖掘的算法

  • 使用复杂的机器学习算法并不能保证效果。一般来讲,最好的解决办法,通常很简单。
  • 生产环境使用简单的算法,并不意味着要放弃前沿算法。每一套新的方法,其目的都在解决前面的薄弱之处。

数据挖掘与服务器

  • 本地 PC 由于硬件与系统限制,工程师常在服务器进行大规模数据的运算、脚本部署与接口部署。

三、商业中的数据挖掘

作为公司,该如何开展数据挖掘

  • 评估可能的收益与需要的投入
  • 开始收集数据
  • 招募数据挖掘团队

招聘数据挖掘团队

  • 好奇心应该是数据挖掘从业者的最重要品质。
  • 招聘时,应确保候选人对工作内容感兴趣。
  • 候选人应具备一定的成果意识。商业更重成果,而不是过程。

数据挖掘应用

  • 广告位点击预估
  • 信用卡风控评估
  • 用户流失干预

四、数据挖掘工具

数据挖掘工具与大数据

  • 掌握以下工具:Python、Linux、Pandas 及 Jupyter、关系型和非关系型数据库。
  • 大数据通常指传统数据系统无法处理的数据。体量和增速都相当大。处理工具以 Hadoop 为代表。

五、数据挖掘进阶

神经网络和深度学习

  • 神经网络出现已数十年,但由于条件限制,这一方向搁置了数十年。目前随着新的优化方法的出现和算力的提升,这一方向的工业化逐渐成为可能。

如何更上一层楼

  • 掌握基本的编程知识,更多地去理解背后的原理。
  • 流程化意识,及时复盘总结,规范流程(复用)。
  • 成果导向,将知识转化为行动和成果,给他人带来价值,服务更多人。