数据科学入门 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:人民邮电出版社

作者:[美] Joel Grus

出品人:

页数:304

译者:高蓉

出版时间:2016-3

价格:69.00元

装帧:平装

isbn号码:9787115417411

丛书系列:图灵程序设计丛书

图书标签:

数据分析
数据科学
机器学习
Python
数据挖掘
计算机科学
计算机
CS
数据科学
机器学习
Python
数据分析
统计学
数据挖掘
人工智能
R语言
可视化
入门教程

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到本本书屋

onlinetoolsland.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

数据科学是一个蓬勃发展、前途无限的行业，有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作，教授数据科学工作所必需的黑客技能，并带领读者熟悉数据科学的核心知识——数学和统计学。

作者选择了功能强大、简单易学的Python语言环境，亲手搭建工具和实现算法，并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

通过阅读本书，你可以：

学到一堂Python速成课；

学习线性代数、统计和概率论的基本方法，了解它们是怎样应用在数据科学中的；

掌握如何收集、探索、清理、转换和操作数据；

深入理解机器学习的基础；

运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型；

探索推荐系统、自然语言处理、网络分析、MapReduce和数据库。

作者简介

Joel Grus

是Google的一位软件工程师，曾于数家创业公司担任数据科学家。目前住在西雅图，专注于数据科学工作并乐此不疲。偶尔在joelgrus.com发表博客，长期活跃于Twitter @joelgrus。

目录信息

前言　　xiii
第1章　导论　　1
1.1　数据的威力　　1
1.2　什么是数据科学　　1
1.3　激励假设：DataSciencester　　2
1.3.1　寻找关键联系人　　3
1.3.2　你可能知道的数据科学家　　5
1.3.3　工资与工作年限　　8
1.3.4　付费账户　　10
1.3.5　兴趣主题　　11
1.4　展望　　12
第2章　Python速成　　13
2.1　基础内容　　13
2.1.1　Python获取　　13
2.1.2　Python之禅　　14
2.1.3　空白形式　　14
2.1.4　模块　　15
2.1.5　算法　　16
2.1.6　函数　　16
2.1.7　字符串　　17
2.1.8　异常　　18
2.1.9　列表　　18
2.1.10　元组　　19
2.1.11　字典　　20
2.1.12　集合　　22
2.1.13　控制流　　23
2.1.14　真和假　　24
2.2　进阶内容　　25
2.2.1　排序　　25
2.2.2　列表解析　　25
2.2.3　生成器和迭代器　　26
2.2.4　随机性　　27
2.2.5　正则表达式　　28
2.2.6　面向对象的编程　　28
2.2.7　函数式工具　　29
2.2.8　枚举　　31
2.2.9　压缩和参数拆分　　31
2.2.10　args 和kwargs　　32
2.2.11　欢迎来到DataSciencester　　33
2.3　延伸学习　　33
第3章　可视化数据　　34
3.1　matplotlib　　34
3.2　条形图　　36
3.3　线图　　40
3.4　散点图　　41
3.5　延伸学习　　44
第4章　线性代数　　45
4.1　向量　　45
4.2　矩阵　　49
4.3　延伸学习　　51
第5章　统计学　　53
5.1　描述单个数据集　　53
5.1.1　中心倾向　　55
5.1.2　离散度　　56
5.2　相关　　58
5.3　辛普森悖论　　60
5.4　相关系数其他注意事项　　61
5.5　相关和因果　　62
5.6　延伸学习　　63
第6章　概率　　64
6.1　不独立和独立　　64
6.2　条件概率　　65
6.3　贝叶斯定理　　66
6.4　随机变量　　68
6.5　连续分布　　68
6.6　正态分布　　69
6.7　中心极限定理　　72
6.8　延伸学习　　74
第7章　假设与推断　　75
7.1　统计假设检验　　75
7.2　案例：掷硬币　　75
7.3　置信区间　　79
7.4　P-hacking　　80
7.5　案例：运行A/B测试　　81
7.6　贝叶斯推断　　82
7.7　延伸学习　　85
第8章　梯度下降　　86
8.1　梯度下降的思想　　86
8.2　估算梯度　　87
8.3　使用梯度　　90
8.4　选择正确步长　　90
8.5　综合　　91
8.6　随机梯度下降法　　92
8.7　延伸学习　　93
第9章　获取数据　　94
9.1　stdin和stdout　　94
9.2　读取文件　　96
9.2.1　文本文件基础　　96
9.2.2　限制的文件　　97
9.3　网络抓取　　99
9.3.1　HTML 和解析方法　　99
9.3.2　案例：关于数据的O'Reilly图书　　101
9.4　使用API　　105
9.4.1　JSON（和XML）　　105
9.4.2　使用无验证的API　　106
9.4.3　寻找API　　107
9.5　案例：使用Twitter API　　108
9.6　延伸学习　　111
第10章　数据工作　　112
10.1　探索你的数据　　112
10.1.1　探索一维数据　　112
10.1.2　二维数据　　114
10.1.3　多维数据　　116
10.2　清理与修改　　117
10.3　数据处理　　119
10.4　数据调整　　122
10.5　降维　　123
10.6　延伸学习　　129
第11章　机器学习　　130
11.1　建模　　130
11.2　什么是机器学习　　131
11.3　过拟合和欠拟合　　131
11.4　正确性　　134
11.5　偏倚- 方差权衡　　136
11.6　特征提取和选择　　137
11.7　延伸学习　　138
第12章　k近邻法　　139
12.1　模型　　139
12.2　案例：最喜欢的编程语言　　141
12.3　维数灾难　　146
12.4　延伸学习　　151
第13章　朴素贝叶斯算法　　152
13.1　一个简易的垃圾邮件过滤器　　152
13.2　一个复杂的垃圾邮件过滤器　　153
13.3　算法的实现　　154
13.4　测试模型　　156
13.5　延伸学习　　158
第14章　简单线性回归　　159
14.1　模型　　159
14.2　利用梯度下降法　　162
14.3　最大似然估计　　162
14.4　延伸学习　　163
第15章　多重回归分析　　164
15.1　模型　　164
15.2　最小二乘模型的进一步假设　　165
15.3　拟合模型　　166
15.4　解释模型　　167
15.5　拟合优度　　167
15.6　题外话：Bootstrap　　168
15.7　回归系数的标准误差　　169
15.8　正则化　　170
15.9　延伸学习　　172
第16章　逻辑回归　　173
16.1　问题　　173
16.2　Logistic函数　　176
16.3　应用模型　　178
16.4　拟合优度　　179
16.5　支持向量机　　180
16.6　延伸学习　　184
第17章　决策树　　185
17.1　什么是决策树　　185
17.2　熵　　187
17.3　分割之熵　　189
17.4　创建决策树　　190
17.5　综合运用　　192
17.6　随机森林　　194
17.7　延伸学习　　195
第18章　神经网络　　196
18.1　感知器　　196
18.2　前馈神经网络　　198
18.3　反向传播　　201
18.4　实例：战胜CAPTCHA　　202
18.5　延伸学习　　206
第19章　聚类分析　　208
19.1　原理　　208
19.2　模型　　209
19.3　示例：聚会　　210
19.4　选择聚类数目k　　213
19.5　示例：对色彩进行聚类　　214
19.6　自下而上的分层聚类　　216
19.7　延伸学习　　221
第20章　自然语言处理　　222
20.1　词云　　222
20.2　n-grams模型　　　224
20.3　语法　　227
20.4　题外话：吉布斯采样　　229
20.5　主题建模　　231
20.6　延伸学习　　236
第21章　网络分析　　237
21.1　中介中心度　　237
21.2　特征向量中心度　　242
21.2.1　矩阵乘法　　242
21.2.2　中心度　　244
21.3　有向图与PageRank　　246
21.4　延伸学习　　248
第22章　推荐系统　　249
22.1　手工甄筛　　250
22.2　推荐流行事物　　250
22.3　基于用户的协同过滤方法　　251
22.4　基于物品的协同过滤算法　　254
22.5　延伸学习　　256
第23章　数据库与SQL　　257
23.1　CREATE TABLE与INSERT　　257
23.2　UPDATE　　259
23.3　DELETE　　260
23.4　SELECT　　260
23.5　GROUP BY　　262
23.6　ORDER BY　　264
23.7　JOIN　　264
23.8　子查询　　267
23.9　索引　　267
23.10　查询优化　　268
23.11　NoSQL　　268
23.12　延伸学习　　269
第24章　MapReduce　　270
24.1　案例：单词计数　　270
24.2　为什么是MapReduce　　272
24.3　更加一般化的MapReduce　　272
24.4　案例：分析状态更新　　273
24.5　案例：矩阵计算　　275
24.6　题外话：组合器　　276
24.7　延伸学习　　277
第25章　数据科学前瞻　　278
25.1　IPython　　278
25.2　数学　　279
25.3　不从零开始　　279
25.3.1　NumPy　　279
25.3.2　pandas　　280
25.3.3　scikit-learn　　280
25.3.4　可视化　　280
25.3.5　R　　281
25.4　寻找数据　　281
25.5　从事数据科学　　281
25.5.1　Hacker News　　282
25.5.2　消防车　　282
25.5.3　T 恤　　282
25.5.4　你呢？　　283
作者简介　　284
关于封面　　284
· · · · · · (收起)

读后感

评分☆☆☆☆☆

书名叫《数据科学入门》，可实际上却并不适合零基础的人读，需要有一定的基础（包括python基础和数学基础）。我觉得称之为“指南”更合适。 —————————— 当初为什么买这本书？有段时间对数据异常着迷，只要和数据有关的数都不管三七二十一加到购物车，发工资了就买。...

评分☆☆☆☆☆

数据科学是一个蓬勃发展、前途无限的行业，有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作，教授数据科学工作所必需的黑客技能，并带领读者熟悉数据科学的核心知识——数学和统计学。作者选择了功能强大、简单易学的Python语言环境，亲手搭建工具...

评分☆☆☆☆☆

说是数据科学指路到是差不多。告诉你有哪些方面的知识需要去学习的。25章每章都值得单独去借上一两本书去学习，都值得花上一两个月用上N多个案例来实践，这样之后，我觉得才是真的入门了。书中的代码又是一段一段的，估计只有作者才会知道这个功能是怎么来的，有什么用。后面...

用户评价

评分☆☆☆☆☆

我原本期待能从这本书中学到一些实用的、前沿的数据分析技巧，结果发现内容深度严重不足。很多章节的讲解都停留在非常表面的介绍，像是对维基百科概念的简单罗列，完全没有深入到实际操作的细节。例如，当我们讨论到某种复杂的统计模型时，作者只是轻描淡写地提了一下它的名字和基本假设，然后就迅速跳到了下一个不相干的话题。对于初学者来说，这种浅尝辄止的描述根本无法建立起坚实的知识体系，反而会让人产生一种“我好像懂了，但又好像什么都没懂”的困惑感。这更像是一本面向完全小白的入门手册，而不是一本能引导读者进行实际项目操作的指导书。

评分☆☆☆☆☆

这本书的案例研究部分简直是黔驴技穷，毫无新意可言。每一个例子都像是从十年前的教材里直接搬过来的，无聊透顶的泰坦尼克号生存预测，或者总是围绕着鸢尾花数据集打转，让人提不起任何学习的兴趣。我特别想知道，在这个数据爆炸的时代，作者为什么不能引入一些真正贴近当下产业热点的案例，比如社交媒体的情感分析，或者金融市场的高频数据处理？每一个案例都缺乏一个清晰的业务背景和明确的目标设定，导致读者即便跟着代码跑了一遍，也无法理解这些技术在真实世界中是如何发挥作用的。学习数据科学，最重要的是理解“为什么”和“如何应用”，而不是机械地复制粘贴代码。

评分☆☆☆☆☆

这本书的配套资源和社区支持简直是形同虚设。购买时附带的在线代码库链接大多已经失效或者指向的是一个维护了五六年的过时项目，里面的代码版本与当前主流的Python环境完全不兼容，运行起来报错连篇。更令人沮丧的是，对于书中所提出的任何疑问，在作者提供的论坛或者邮件支持渠道上，根本得不到任何及时的反馈。我尝试在网上搜索相关的讨论，发现这本书的读者群体似乎非常小众，几乎找不到可以一起探讨疑难问题的学习伙伴。对于一门实践性极强的学科来说，缺乏活跃的生态系统支持，这本书的价值可以说是大打折扣，学习过程变得异常孤立和挫败。

评分☆☆☆☆☆

这本书的排版和印刷质量简直是一场灾难，拿到手的时候就感觉很不舒服。纸张太薄了，拿到手上总感觉一不小心就会撕破，而且油墨的味道非常刺鼻，翻开书本的时候，那种化学品的味道扑面而来，让人感到非常不适。更别提那些错别字和排版错误了，简直是随处可见，有时候一个句子读下来，需要反复琢磨才能理解作者到底想表达什么意思。我花了好大的力气才把前几章读完，但阅读体验实在太差了，感觉自己不是在学习新知识，而是在进行一场文字侦探游戏。希望未来的版本能在这方面有所改进，毕竟内容才是核心，但糟糕的载体会极大地影响读者的学习热情和专注度。

评分☆☆☆☆☆

作者在讲解算法原理时的逻辑跳跃性太大，让人非常费解。有些关键的数学推导过程被完全省略了，直接给出了最终的公式，这对于那些希望深入理解底层机制的学习者来说是致命的打击。比如在讲解梯度下降法收敛性的部分，作者似乎默认读者已经完全掌握了微积分和线性代数的全部知识，然后直接跳到了一个非常复杂的定理证明上，完全没有提供任何中间步骤的解释和直观的图形辅助。读完这部分内容，我感觉自己像是在被强行塞入一堆符号，而不是在进行有逻辑的学习和构建知识框架。如果目标是“入门”，那么这种对基础概念的“自信式跳过”是非常不负责任的。

评分☆☆☆☆☆

范围介绍，示例代码还是不错的

评分☆☆☆☆☆

讲的很简单啊，不是内容简单，是描述简单，书里面讲了几百个概念，每个概念半页到一页讲完～

评分☆☆☆☆☆

浅尝则止

评分☆☆☆☆☆

范围介绍，示例代码还是不错的

评分☆☆☆☆☆

读完也没入的了门，都是范范一讲就过了，术语太多，基础太差，好多地方没读懂。