机器学习现状与问题

2012,数据科学击败生命科学,成为”21世界最性感的职业“。2016年,AlphaGo 战胜人类顶尖围棋手,深度学习、人工智能一度占领新闻头版头条,并引起一股机器学习新热潮。

这一效应,一直持续到今年:在2019这一年,高考志愿填报金融遇冷,计算机一跃成为抢手专业,在各大工科院校中,有取代传统电气、机械之势;各学院的研究生院,纷纷开始往人工智能、深度学习上贴近。

这从一个侧面,反应了民众对于计算机、人工智能、机器学习的就业预期。但是,随着原来越多的从业者涌入,项目落地越来越多,机器学习这一领域的问题也开始暴露,亟需解决。

机器学习中的常见问题

机器学习的问题,由其特性所致。众所周知,机器学习的发展,离不开大数据技术。海量数据的收集、存储,让算法有了更强大的生命力。通过对大量数据的挖掘、学习,机器学习能够猜你所想,提升购物网站的转化率;能够识别障碍,让自动驾驶成为可能;能够识别风险,扩大业务同时减轻坏账。

由此,针对模型和数据的关系,大致可以分为三类问题。第一种:数据量不足,模型过拟合。算法学习的过程就犹如考前刷题,过拟合相当于只刷一套题,这样的后果就是上一套不同的卷子,算法就懵逼了。第二种:数据量充足,模型欠拟合。欠拟合的算法就像是心思不在学习上的孩子,报再多的补习班,结果也不会太好。最后一种:数据不稳定。算法前期可能很好的学到精髓,但是随着数据的变化,时间的流逝,模型很可能将变得不可预测。

测试驱动开发的解决之道

机器学习的实现方式还是通过软件工程、代码实现,既然是代码,那就存在应对范式。这里,就不得不提 Test Driven Development(测试驱动开发),简称 TDD。TDD 是一种很朴实的想法,在编码开始前,评估需要交付的功能点并写测试用例,一开始的时候测试会失败,接着编写代码修复测试,最后测试通过,修复代码。这里的方式,通俗来讲就是:目标导向,先成事,再迭代。

测试驱动有一个明显的好处就是,能够加快产品发布速度。以往的项目,需求讨论会占据很大时间,讨论完之后,开发方案一旦定下来,后续变更就很难。而现实却是需求常常变更,这往往会导致产品发布的延期。而在机器学习上,测试驱动好处更多体现在保证模型质量上。具体来讲,常通过以下办法:

  • 交叉验证 通过交叉验证来验证拟合效果
  • 运行速度测试 根据奥卡姆剃刀原则:”如无必要,勿增实体“;简单模型胜过复杂模型
  • 衔接测试 对数据的输入输入进行检测,以防止数据异常波动对模型影响
  • 指标追踪 监控关键指标,不断追踪模型的性能,防止失效模型继续运行

机器学习的债务危机

测试驱动开发一定程度上能减轻机器学习中的问题,但是它只是一种表象。测试通过了,不代表算法模型就没有问题了。魔鬼藏在细节中。机器学习目前仍存在一些技术债务,仍需按特定原则对代码修复,迭代演进。

什么是技术债务

技术债务是一个比方,类比的金融领域的债务。一般指为了加快软件开发速度,折中妥协,选择易于实现的方式,结果是短期加速了软件开发,但长期来讲,开发负担累计,发布逐渐停滞。债务不都是有害的。在业务扩张,市场抢占时期,适当的债务有助于公司扩张。但是若一直不管不顾,最后只能花更大的成本去维护它,直至无法维护。

机器学习中的技术债务

机器学习项目中同样存在债务危机,Google 还就此写了篇文章 《Machine Learning: The High interest Credit Card of Technical Debt》。总结起来有三种:一、边界模糊,数据之间彼此依赖关联。二、没有系统级别代码分离,胶水代码处理一切。三、机器学习系统随着外部世界的改变而彻底改变。

偿还债务

代码重构,就犹如对你的资产进行一次清点盘算:清除不良资产、偿还债务、进行资产上的重新配置。重构能够有效减缓技术债务带来的负面影响。

面向对象的 SOLID 原则

SOLID 原则由罗伯特·C·马丁提出,是五项原则–单一职责、开闭原则、替换原则、接口隔离、依赖倒置的缩写,是面向对象设计与开发的五个基本原则。通过这五项原则,写出来的程序可读性、可扩展性都大大提高,软件维护和系统扩展变得更加容易。

  • SRP 单一职责原则:一片代码只做一件事,及一块代码只实现某一特定功能,尽量减少逻辑的交叉堆叠。
  • OCP 开闭原则:对象对于扩展开放,对于修改关闭。即保持最小单元,写完后不去修改它,而是通过扩展或者配置的方式补充功能。
  • LSP 替换原则:任何的子类应该轻松由同一对象树的其它对象替代。
  • ISP 接口隔离原则:不同的接口做不同的事,软件开发没有银弹,接口也是。解耦能解决掉开发过程中“牵一发而动全身”的情况。
  • DIP 依赖倒置原则:抽象来自于细节、来自于底层,开发依赖抽象。

机器学习与 SOLID 原则

将 SOLID 原则应用于机器学习,会发现:机器学习与 SOLID 原则相互交织。诸如机器学习中的降维,是在减少耦合;胶水代码、数据依赖又与 SOLID 原则相抵触。

  • 单一职责
    • 机器学习中的数据相互依赖,更有利用 GBDT 生成特征,这一情况与单一职责冲突。所幸可通过降维、正则化的手段减轻影响。
    • 数据获取、数据处理、特征工程、模型训练、模型预测、数据监控,各模块无系统级代码分离,胶水代码处理一切。开发时应小心谨慎。
  • 开闭原则
    • 代码上可以做到开闭,但机器学习会作用于真实世界,引起的反馈将传导至模型内部。如模型预测出一批”潜在犯罪“,于是加大警力盯住这些人,最后发现他们的犯罪率果然高于常人。但他们就真的比别人更”坏“吗?这里有一个”预测、实施、证实“的偏差存在,算法无形中放大了偏见。
  • 替换原则
    • 机器学习的模型效果常由强特征决定,且特征众多。应用尽可能少的特征和数据,取得稳定结果。
  • 接口隔离
    • 模型的数据上游,可能会多个部门共用,数据源的人为变化,可能会导致模型的突然失效。因而需要对数据输入进行监控。
  • 依赖倒置
    • 测试代码、中间数据大量堆积,各个部分相互依赖。应定时对遗留代码和中间数据进行清理。

总结

机器学习、人工智能在经历这几年的爆发之后,出现了很多病症。测试驱动开发、SOLID 原则重构能够有效的缓解病症,还系统健康。如果你的项目已经落地,用 SOLID原则进行一次检查;如果项目还未实施,不妨尝试下测试驱动开发。系统更好的可读性、可维护性,不仅是程序员的责任,更是评判机器学习从业者的一把尺子。

不知道读者朋友对此怎么看,欢迎就此在评论区发表你的看法。喜欢本文的读者,别忘了点赞、喜欢、加关注哦,你的鼓励,将是我写作分享的动力💪

参考

  • wikipedia SOLID 原则
  • 《Python 机器学习实战– 测试驱动的开发方法》
  • 《高效程序员的45个习惯–敏捷开发修炼之道》

关于作者

谷粒,华中科技大学毕业,某游戏公司从事数据挖掘工作,常与机器学习、数据系统打交道。