之前逛论坛,或者学习网站,看到很多人喜欢推荐书。自己早些时候也是这样,但是只 mark,却很少去看。如今作为一名社会人,虽说工作之余时间少了很多,但业余仍在坚持阅读。其中,支撑学习动力的一本书便是:《穷查理宝典》。书中查理·芒格提到的多学科思维,以及复利思维,一直在影响我的交友、做事和看问题的方式。
有关注某校友的公众号,他是做爬虫和可视乎的。某天在推荐 Python 学习资料。封面看着挺美,点开一看,书单质量实属一般。倒像是接的推广,很多估计他自己都没有看过,不太负责任。于是乎,便萌生了出一期书单的想法。而定位,便是数据科学家、数据挖掘工程师、算法工程师的书单。
首先声明,这份书单不是单纯的技术向书籍,不会有什么西瓜书或是算法导论之类的。他们也是好书,但不会出现在这里。因为在工作中大家就会发现,技术只是工具,好的工匠 != 熟练使用工具的熟练工。看见大局,同时有跨学科的思维,能够从事物的本质去出发,理解和思考它,也很重要。
作为一个数据挖掘工程师,以下是推荐的核心7本书单。为什么是7本呢?因为人一下子能记住的东西是有限的,记不住就忍不住收藏。收藏了就几乎等于很少看了。收藏一时爽,一直收藏一直爽。所以,书单从原来的二十几本变为了现在的7本。
这7本书的逻辑是从底层到高层。底层是构成我们一部分的东西,是我们的认知。中间则是我们的技能。而高层,则是我们的自我实现。最终又回到我们的认知。简单来说,就是从软技能到硬实力,再到软实力。
通识与概念
- Top 7
通识趣味读本–《赤裸裸的统计学》
该书讲了很多身边的例子,让人对统计学的应用有一个初步认识。且是一个检验兴趣点的很好方式。如果你对这些东西都不是很感冒,那么可能这行除了薪水,没有别的能吸引你。后面的内容也就没有读的必要了。
除了例子以外,本书也有很多反常识反直觉的东西。诸如统计数字会撒谎、因果关系与相关关系的混淆。黑天鹅、三门问题等地很考验一个人的智商。看完之后有醍醐灌顶的感觉。
与之类似的书还有《大教堂与旧集市》、《编码》等。
- Top 6
大而全–《信息论、推理与学习算法》
如果你对第一本书的内容感兴趣,想要深入了解背后的原理,那么这本书不容错过。这本书更像是一本大百科全书,涵盖了传统信息论到最新算法的大部分内容。从熵、到编码、再到概率与推理,最后到常见的模型和神经网络。是一本适合高年级学生或者专人人员的查阅宝典。
这本书说实话有些厚重,限于版面,如果只推荐一本,会推荐它。当然如果想看更多元的内容,附加的书籍📚可不容错过。由于本身的专业偏传统工科,编码、信息压缩也有接触,因而过渡起来不会很困难。
与之互补的书还有《推荐系统实战》、《信息检索导论》、《集异壁》等。
工具与思想
- top 5
吃饭工具–《SQL 必知必会》
作为一个工程师,常自嘲自己是 sql boy。那是因为,在实际生产环境中,数据处理花了很大事件。大部分时间都是和sql 打交道。做过比赛的同学可能知道,数据处理、特征提取是很关键的一步。
在企业中,这一情况越发突出。有时候原始数据分散在各个地方,连规整的数据都没有。因而需要掌握一定的 sql 技能。虽然有些专业会学习数据库这一门课程,但这本书可以起到一个梳理作用,同时也有一些小的注意点。
掌握了这本书的同学,推荐《 SQL 反模式》,讲 sql 范式更进一步。虽说是给数据库开发人员看的,但是知其然并知其所以然,也是很好的。
如果想看到更大的图景,那么 ddia 一定不容错过。ddia 在一年前就很火,网上也有他的公开中文翻译。讲解整个数据系统很透彻。适合各类程序开发人员阅读。
- top 4
《利用 python 进行数据分析》
这本书也算是启蒙书。涉及的内容基本面很广,该有的都有了。介绍了 python 在数据科学领域的基础知识,同时也有案例解析。
读完这本书,参加小型的数据挖掘、机器学习类的比赛不会存在门槛了。与此类似的书还有《集体智慧编程》,以及近期比较火的 hands on ml。
思考与呈现
前面都是技术向、原理向的内容。是不是掌握了以上内容,就可以美滋滋的享受生活了呢?其实这是很多软件从业人员、甚至是工科同学的一个共同误区。觉得把我的技术学好了,就万事大吉,酒香不怕巷子深了。在这里千万不要忽略掉你的软实力。
在某些头部公司、ppt 文化盛行。虽然有些走极端,这其实也是一种现状。从原则上来讲,只讲 PPT 画大饼而不做事是不对的,所以他们被放在最后讲。与此同时要记住,硬币的反面也是不对的,只埋头苦干,而不去扩大影响力,事情的价值就很可能被低估。
- top 3
《金字塔原理》
主要是逻辑性思维的呈现原则,以及最核心的一点站在对方的角度看问题。书中罗列了很多报告撰写、演讲呈现的方法技巧。比如自上而下思考,自下而上表达,横向概括、纵向分类,独立穷尽。这些机巧用在你的日常生活中的表达和演讲,将会大大加分。
与之类似的书还有《演说之禅》,以及稍微和职业更靠近的《数据可视化之美》。
- top 2
《咨询的奥秘》
这本书是集中在讲思维方式的。咨询也算是数据科学家的一重身份。如何看待问题,如何给出建议,这本书都有很好的示范。
与之类似的有《你的灯亮着吗》、《学会提问》。
实践出真知
- top 1
实践
top 1 没有书,top 1 是实践。收藏了那么多资料,不如潜心研究一两个案例,去实践来的快。追踪学术前沿,去做一些实践;或者是对一些好玩的东西,做一些 demo,收获不会比上面的阅读小。
如果想要更进一步,那就试着对外输出:无论是看到的知识,或者是方法论,抑或是工具使用技巧,还是对自己有帮助的 demo。这些都能很好的锻炼思维,让人更进一步。
总结
以上是给大家推荐的从业者的7本书,都是经过本人检验的。从通识到基础概念,从工具到学科思想,最后又回到普罗大众,思考和呈现我们的工作。希望能帮助诸位更进一步,在职业生涯上大放光彩。