转行数据科学路上看过的一些书总结推荐


前言

这些书的看书周期大概有一年半吧

一年半前决定转行数据科学

当然转行不能只是说说而已,还是要下功夫的,于是买了很多书,也被送了很多书,下面谈谈我这一年半看过的相关的书:

SQL

SQL 学习指南
SQL_SQL学习指南_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★

SQL 是学数据分析挖掘必须会的,这本书因为之前买的,就看的这个,个人感觉,初学者会在多表连接和查询那里纠结很久,当然,我 SQL 学的并不是很好,还需多多加强,可惜的一点是,这本书的数据好像并没有提供,所以我没办法实操一下。

Python

Python 基础教程

Python_Python基础教程_数据分析_大数据_机器学习_数据科学

个人推荐指数:★

书的内容是用 Python2 写的,不太适合初学者学习,因为 Python2 不久将不在维护,还是学 Python3 好,在京东等商城销量很高,但是不建议作为入门书籍,因为第六章就开始写到参数魔法,新手会很难理解,入门书应当是生动有趣易理解的,这也是我写 Python 从零开始入门连载的原因之一。

听说已经出的第三版是 Python3 写的

像计算机科学家一样思考 Python

Python_像计算机科学家一样思考Python_数据分析_大数据_机器学习_数据科学

个人推荐指数:★

这本书销量很高,看的时候印象最深的就是递归的思想,如果你已经看过我的 Python 入门基础课,可以不看这本,这本书相对多出来的知识点问我在 Python 进阶文章前几篇已经写出来了。这本书不适合作为入门书,原因是每个点讲的不全面。

Head First Python
Python_Head First Python_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★ ★

这本书是我最开始接触 Python 看的几本书之一,书中大量插画,使用 Python 解决一些实际问题,初学者可以不按照本书内容敲代码,看懂即可,因为本书代码量太大,可能让初学者从入门到放弃。

Python 程序设计基础
Python_Python程序设计基础_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★

这本书推荐给喜欢应试教育的朋友,作为入门书也是很合适的,基于 Python3 写的,再说 Python 已经加入全国计算机二级考试,这本书作为教材也是很 OK 的。

流畅的 Python
Python_流畅的Python_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★ ★

这本书是奉献给那些想将 Python 写的更优雅的朋友,深度剖析 Python 的深层内容,细细品读,每章都有极大收获,当然,书很厚,我还没看完。

网络爬虫

精通 Python 网络爬虫
网络爬虫_精通Python网络爬虫_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★

我学网络爬虫是看的韦玮老师视频,通俗易懂,很棒!之后韦玮老师这本书出版之后,就看了一遍,书中对网络爬虫原理,urllib 库,正则表达式,scrapy 讲得比较透彻,推荐大家额外看看 BeautifulSoup,xpath 等给力解析库,本书使用 Fiddler 抓包分析,但我更推荐谷歌浏览器的开发者模式。

数据分析

深入浅出数据分析
数据分析_深入浅出数据分析_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★ ★

这本书适合作为学数据分析的入门书,书中大量插图,生动形象,深入浅出,每章都是为了解决特定问题而反复思考迭代。

机器学习

白话大数据与机器学习
机器学习_白话大数据与机器学习__数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★ ★

推荐这本书入门机器学习,不要纠结书中的代码,看每种机器学习的举例介绍,通俗易懂,书中很多漫画插图,算法原理推导基本不深,特别是隐马尔可夫部分讲的很棒,作为入门机器学习的书非常棒!

机器学习
机器学习_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★ ★ ★

周志华老师的机器学习,应当算是国内机器学习书籍销量最高了吧,除去国外书籍,这是你学机器学习必看的经典书籍(因为我所了解的国外有好几本经典的机器学习书籍)。这本书从西瓜数据开始,到西瓜数据结束,每个算法点到即止(不代表深度不够,这里指的是篇幅上不废话)。对我帮助最大的是本书第二章的模型评估选择,讲的非常成体系。当然,书上的理论推导很难,有兴趣可以看看一些学习笔记。

机器学习基础教程
机器学习_机器学习基础教程_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★

这本书是理论书,从线性回归开始,将最小二乘法和极大似然法实现全都详细推导一遍,酣畅淋漓,之后的贝叶斯方法和贝叶斯推理,理论性太强,看的让人想撕书,不过通俗易懂,再之后的分类聚类降维写的没什么特色。数学好的同学可以挑战看看。

集体智慧编程
集体智慧编程_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★

这本书 Python 代码是 2 版本,书比较老(经典)了,这本书我看了一部分就放弃了,原因是书中的数据提供的网站很多都失效了,不过这本书的思想还是不错的,以后还会回来看看的。

机器学习实战
机器学习实战_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★  ★ ★

这本书非常给力,基本不用 sklearn 等别人造好的轮子,基本都是自己定义函数实现功能,对你从底层了解机器学习代码实现非常有帮助,注释不够多,你可能不明白某段代码的含义,你可以使用 print 函数输出看看,然后加以理解,遇到没见过的方法,可以百度它的作用,因为书比较老,所以有些方法已经改动过或者不用,你百度最新替代的方法试试。

Python 机器学习及实践
Python机器学习实践_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★

整本书 180 页,不到两天就能撸完,书中提供的代码是 Python2,自己稍作修改改成 3 运行一遍,有 Python 基础就跳过第一章,第二章将常见机器学习算法的实现,主要有用的是 sklearn,通过看完这章,你就知道了用 sklearn 做机器学习的步骤:导入数据,数据预处理,训练数据训练模型,测试数据预测,模型性能评估。第三章是本书两点,讲到了特征提升、模型正则化、模型检验、超参数搜索优化。本书在模型的欠拟合和过拟合部分阐述的很好,之后讲到了一些流行的库,包括 NLTK、Word2Vec、XGBoost、Tensorflow,涉及自然语言处理,深度学习。全本书原理一笔带过,最后一章讲到鼓励参加 Kaggle 比赛,并拿出了三个案例讲解。本书适合学完 sklearn 基础的朋友想用 sklearn 实现完整机器学习项目,缺点是书中模型基本使用的都是默认参数。

统计学习方法
统计学习方法_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★ ★ ★

想学数据挖掘或者机器学习不可避免要接触数学相关理论,尽管你可以只用 sklearn 等做机器学习,但不懂底层理论,是无法做深入的,而这本书,就是给你打好机器学习基础的书,先修内容大学数学三件套(高等数学、线性代数、概率论与数理统计),如果你不是数学基础特别好,看这本书的时候会像我一样看不懂一些公式推导,莫慌,百度一下别人的学习笔记或者技术博客,慢慢钻研,本书适合看多次,每次都有新的收获,书本身不厚,230 页,建议边看边将感悟推导公司等写在旁边,方便下次看。

数据挖掘

数据挖掘导论
数据挖掘_数据挖掘导论_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★

说是导论,大家不要以为他很简单就能看懂,还是有难度的,第一章简介,第二章详谈了数据这一概念,你会接触很多没听过的专业术语,分类算法讲的不多,SVM 中对核函数的引入讲解的特别传神,本书花了大量笔墨在关联分析和聚类分析,这两处挖得很深,本书最后讲到异常检测,书中全是理论,没讲代码实现。

数据结构算法

大话数据结构
数据结构算法_大话数据结构_数据分析_大数据_机器学习_数据科学

个人推荐指数:★ ★ ★  ★

如果你还是在校学生,并且想通过校招找一份数据分析挖掘或者机器学习岗位,那必然会面对数据结构算法问题,如果你和我一样非科班出身,刚接触数据结构算法一定会很懵逼,那我推荐你这本书,书中大量插画,帮助理解,上课式情景教学,非常棒,帮你打开数据结构算法大门,让你破门而入!

总结

看视频过程中,能快速掌握核心的技术,至于想拓展,可以翻翻工具书或者看官方文档

学无止境,不断看书总结提升非常有必要,还有很多书等着我看,以后继续给大家分享~

买书如山倒,读书如抽丝,别只有三分钟热度,学习是一件持久战,哦不,是持久快乐的过程

买书可以经常去京东、当当看看,好像是年中大促会有 5 折之类优惠哦,平时也经常有优惠,最近当当有 100-40 买书优惠(我要去领盒饭了)。

学习使我快乐!

文章来源:Python 爱好者社区
CPDA数据分析师海报