利用Python进行数据分析原书第2版 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:机械工业出版社

作者:Wes McKinney

出品人:

页数:489

译者:徐敬一

出版时间:2018-7

价格:119

装帧:平装

isbn号码:9787111603702

丛书系列:O'Reilly精品图书系列

图书标签:

数据分析
Python
数据科学
python
编程
计算机
数据挖掘
大数据
Python
数据分析
数据科学
Pandas
NumPy
Matplotlib
统计学
机器学习
数据可视化
电子工业出版社

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到本本书屋

onlinetoolsland.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

本书由Python pandas项目创始人Wes McKinney亲笔撰写，详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新，涵盖新版的pandas、NumPy、IPython和Jupyter，并增加大量实际案例，可以帮助你高效解决一系列数据分析问题。

第2版中的主要更新包括：

• 所有的代码，包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)

• 更新了Python第三方发布版Anaconda和其他所需Python包的安装指引

• 更新pandas库到2017年的新版

• 新增一章，关于更多高级pandas工具和一些使用提示

• 新增statsmodels和scikit-learn的简明使用介绍

作者简介

Wes McKinney 是流行的Python开源数据分析库pandas的创始人。他是一名活跃的演讲者，也是Python数据社区和Apache软件基金会的Python/C 开源开发者。目前他在纽约从事软件架构师工作。

目录信息

前言1
第1章准备工作7
1.1 本书内容7
1.1.1 什么类型的数据7
1.2 为何利用Python进行数据分析8
1.2.1 Python作为胶水8
1.2.2 解决“双语言”难题8
1.2.3 为何不使用Python9
1.3 重要的Python库9
1.3.1 NumPy9
1.3.2 pandas10
1.3.3matplotlib11
1.3.4 IPython与Jupyter11
1.3.5 SciPy12
1.3.6scikit-learn12
1.3.7statsmodels13
1.4 安装与设置13
1.4.1 Windows14
1.4.2 Apple（OS X和macOS）14
1.4.3 GNU/Linux14
1.4.4 安装及更新Python包15
1.4.5 Python 2和Python 316
1.4.6 集成开发环境和文本编辑器16
1.5 社区和会议17
1.6 快速浏览本书17
1.6.1 代码示例18
1.6.2 示例数据18
1.6.3导入约定18
1.6.4术语19
第2章 Python语言基础、IPython及Jupyter notebook20
2.1 Python解释器21
2.2 IPython基础22
2.2.1 运行IPython命令行22
2.2.2 运行 Jupyter notebook23
2.2.3 Tab补全25
2.2.4 内省27
2.2.5 %run命令28
2.2.6 执行剪贴板中的程序30
2.2.7 终端快捷键30
2.2.8 关于魔术命令31
2.2.9　matplotlib集成33
2.3 Python语言基础34
2.3.1 语言语义34
2.3.2 标量类型42
2.3.3 控制流49
第3章内建数据结构、函数及文件54
3.1 数据结构和序列54
3.1.1 元组54
3.1.2 列表57
3.1.3 内建序列函数61
3.1.4 字典64
3.1.5集合67
3.1.6 列表、集合和字典的推导式69
3.2 函数72
3.2.1 命名空间、作用域和本地函数72
3.2.2 返回多个值73
3.2.3 函数是对象74
3.2.4 匿名（Lambda）函数75
3.2.5 柯里化：部分参数应用76
3.2.6 生成器77
3.2.7 错误和异常处理79
3.3 文件与操作系统82
3.3.1 字节与Unicode文件85
3.4 本章小结86
第4章 NumPy基础：数组与向量化计算87
4.1 NumPy ndarray：多维数组对象89
4.1.1 生成ndarray90
4.1.2 ndarray的数据类型92
4.1.3 NumPy数组算术94
4.1.4 基础索引与切片95
4.1.5 布尔索引100
4.1.6 神奇索引103
4.1.7 数组转置和换轴104
4.2 通用函数：快速的逐元素数组函数106
4.3 使用数组进行面向数组编程109
4.3.1 将条件逻辑作为数组操作110
4.3.2 数学和统计方法111
4.3.3 布尔值数组的方法113
4.3.4 排序114
4.3.5 唯一值与其他集合逻辑115
4.4 使用数组进行文件输入和输出115
4.5 线性代数116
4.6 伪随机数生成118
4.7 示例：随机漫步120
4.7.1 一次性模拟多次随机漫步121
4.8 本章小结122
第5章 pandas入门123
5.1 pandas数据结构介绍123
5.1.1 Series123
5.1.2DataFrame128
5.1.3 索引对象134
5.2 基本功能135
5.2.1 重建索引136
5.2.2 轴向上删除条目138
5.2.3 索引、选择与过滤140
5.2.4 整数索引144
5.2.5 算术和数据对齐145
5.2.6 函数应用和映射150
5.2.7 排序和排名152
5.2.8 含有重复标签的轴索引155
5.3 描述性统计的概述与计算157
5.3.1 相关性和协方差159
5.3.2 唯一值、计数和成员属性161
5.4 本章小结164
第6章数据载入、存储及文件格式165
6.1 文本格式数据的读写165
6.1.1 分块读入文本文件171
6.1.2 将数据写入文本格式172
6.1.3 使用分隔格式174
6.1.4 JSON数据176
6.1.5 XML和HTML：网络抓取177
6.2 二进制格式180
6.2.1 使用HDF5格式181
6.2.2 读取Microsoft Excel文件183
6.3 与Web API交互184
6.4 与数据库交互186
6.5 本章小结187
第7章数据清洗与准备188
7.1 处理缺失值188
7.1.1 过滤缺失值189
7.1.2 补全缺失值191
7.2 数据转换194
7.2.1 删除重复值194
7.2.2 使用函数或映射进行数据转换195
7.2.3 替代值197
7.2.4 重命名轴索引198
7.2.5 离散化和分箱199
7.2.6 检测和过滤异常值202
7.2.7 置换和随机抽样203
7.2.8 计算指标/虚拟变量204
7.3 字符串操作207
7.3.1 字符串对象方法208
7.3.2 正则表达式210
7.3.3 pandas中的向量化字符串函数213
7.4 本章小结215
第8章数据规整：连接、联合与重塑216
8.1 分层索引216
8.1.1重排序和层级排序219
8.1.2 按层级进行汇总统计220
8.1.3 使用DataFrame的列进行索引220
8.2 联合与合并数据集221
8.2.1 数据库风格的DataFrame连接222
8.2.2 根据索引合并226
8.2.3 沿轴向连接230
8.2.4 联合重叠数据235
8.3 重塑和透视236
8.3.1 使用多层索引进行重塑236
8.3.2 将“长”透视为“宽”240
8.3.3 将“宽”透视为“长”242
8.4 本章小结244
第9章绘图与可视化245
9.1 简明matplotlib API入门245
9.1.1 图片与子图246
9.1.2 颜色、标记和线类型250
9.1.3 刻度、标签和图例252
9.1.4 注释与子图加工255
9.1.5 将图片保存到文件258
9.1.6 matplotlib设置258
9.2 使用pandas和seaborn绘图259
9.2.1 折线图259
9.2.2 柱状图262
9.2.3 直方图和密度图266
9.2.4 散点图或点图269
9.2.5 分面网格和分类数据270
9.3 其他Python可视化工具271
9.4 本章小结272
第10章数据聚合与分组操作274
10.1 GroupBy机制274
10.1.1 遍历各分组278
10.1.2 选择一列或所有列的子集279
10.1.3 使用字典和Series分组280
10.1.4 使用函数分组281
10.1.5 根据索引层级分组282
10.2 数据聚合282
10.2.1 逐列及多函数应用284
10.2.2 返回不含行索引的聚合数据287
10.3 应用：通用拆分-应用-联合288
10.3.1 压缩分组键290
10.3.2 分位数与桶分析291
10.3.3 示例：使用指定分组值填充缺失值292
10.3.4 示例：随机采样与排列294
10.3.5 示例：分组加权平均和相关性296
10.3.6 示例：逐组线性回归298
10.4 数据透视表与交叉表298
10.4.1 交叉表：crosstab301
10.5 本章小结302
第11章时间序列303
11.1 日期和时间数据的类型及工具303
11.1.1 字符串与datetime互相转换305
11.2 时间序列基础307
11.2.1 索引、选择、子集308
11.2.2 含有重复索引的时间序列311
11.3 日期范围、频率和移位312
11.3.1 生成日期范围313
11.3.2 频率和日期偏置316
11.3.3 移位（前向和后向）日期317
11.4 时区处理320
11.4.1 时区的本地化和转换320
11.4.2 时区感知时间戳对象的操作323
11.4.3 不同时区间的操作324
11.5 时间区间和区间算术324
11.5.1 区间频率转换326
11.5.2 季度区间频率327
11.5.3 将时间戳转换为区间（以及逆转换）329
11.5.4 从数组生成PeriodIndex330
11.6 重新采样与频率转换332
11.6.1 向下采样334
11.6.2 向上采样与插值336
11.6.3 使用区间进行重新采样337
11.7 移动窗口函数339
11.7.1 指数加权函数342
11.7.2 二元移动窗口函数343
11.7.3 用户自定义的移动窗口函数344
11.8 本章小结344
第12章高阶pandas346
12.1 分类数据346
12.1.1 背景和目标346
12.1.2 pandas中的Categorical类型348
12.1.3 使用Categorical对象进行计算350
12.1.4 分类方法352
12.2 高阶GroupBy应用355
12.2.1 分组转换和“展开”GroupBy355
12.2.2 分组的时间重新采样359
12.3 方法链技术361
12.3.1 pipe方法362
12.4 本章小结363
第13章 Python建模库介绍364
13.1 pandas与建模代码的结合364
13.2 使用Patsy创建模型描述367
13.2.1 Patsy公式中的数据转换369
13.2.2 分类数据与Patsy371
13.3 statsmodels介绍373
13.3.1 评估线性模型374
13.3.2 评估时间序列处理377
13.4 scikit-learn介绍377
13.5 继续你的教育381
第14章数据分析示例382
14.1 从Bitly获取1.USA.gov数据382
14.1.1 纯Python时区计数383
14.1.2 使用pandas进行时区计数385
14.2 MovieLens 1M数据集392
14.2.1 测量评价分歧396
14.3 美国1880～2010年的婴儿名字397
14.3.1分析名字趋势402
14.4 美国农业部食品数据库410
14.5 2012年联邦选举委员会数据库416
14.5.1 按职业和雇主的捐献统计419
14.5.2 捐赠金额分桶421
14.5.3 按州进行捐赠统计423
14.6 本章小结424
附录A 高阶NumPy425
附录B 更多IPython系统相关内容457
· · · · · · (收起)

读后感

评分☆☆☆☆☆

pandas主要基于numpy.ndarray构造了更高级的Series和DataFrame数据结构。这本书主要就是说明基于这两种数据结构的API用法。这些API主要是对原本numpy操作的补充。行列Index在DataFrame的加强对于各种数据逻辑操作帮助比较大。对pyplot的绘图函数也和两种数据结构绑定的很好。越...

评分☆☆☆☆☆

最近这一年来，一直在纠结于各种编程语言，从硕士的matlab到R，然后是perl, shell, awk和sed。最后碰到一个做生物实验的访问学者，和我说他都用python分析数据，好吧，看来python我是得必须学了。这本书主要讲了两个东西numpy和pandas，本质上就是R的vector和dataframe。由于...

评分☆☆☆☆☆

书的内容不错，很适合做量化建模工具书，但是这个翻译真是不敢恭维，有些地方翻译的语句不通，有些地方直接译错了，比如刚才看到第220页写的“通常，我们不会使用DataFrame中一个或多个列作为行索引”，感觉这话说反了，看了一下英文原版电子版，原文是“It‘s not unusual to ...

评分☆☆☆☆☆

对第二版的翻译已无力吐槽，错误太明显。比如下图句子的in-place意思明明是原地修改，译者非要翻译成原对象，感觉译者计算机的基本素养有待提高，如果知道排序算法中的原地排序就不会这样翻译了，阅读时最好准备好英文版，遇到不通的地方翻阅一下英文版结合代码就可以了。或者...

用户评价

评分☆☆☆☆☆

对于有一定经验的分析师来说，这本书的价值更多体现在其对“工程化”和“规范化”的强调上。我之前的工作中，代码往往是写完能跑就行，结构混乱，可维护性极差。这本书在这方面提出了很多非常专业的建议，比如如何使用Jupyter Notebook进行项目叙事，如何编写更具可读性的Pandas代码，以及如何将分析流程封装成可复用的函数。其中关于时间序列数据处理的那一章，简直是教科书级别的存在。它详细讲解了日期时间的解析、重采样、滞后分析等关键步骤，并且给出了处理跨时区数据时需要注意的“陷阱”。我立刻将书中介绍的模板应用到了我手上的一个遗留项目中，结果发现代码量减少了近三分之一，而且Bug率明显下降。这本书的厉害之处在于，它不仅教你如何得到结果，更教你如何得到一个“健壮的”、“可信赖的”结果。它教会了我一种严谨的、面向生产环境的数据分析思维模式，这是很多入门书籍所缺失的。

评分☆☆☆☆☆

与其他号称“全能”的数据分析书籍相比，这本书的魅力在于它的聚焦和深度。它没有被各种时髦的新工具和框架所诱惑，而是沉下心来，把Python数据科学栈中最核心的几样工具——Pandas、NumPy和基础的可视化库——打磨到了极致。这使得读者在学完之后，不会感到知识的碎片化，而是形成了一个牢固的核心能力圈。我尤其欣赏作者在处理缺失值和字符串数据时所展示出的那种耐心和细节。比如，如何使用正则表达式进行复杂的非结构化文本的提取和清洗，这部分内容远比其他书籍中一笔带过的介绍要详尽得多，提供了大量的实用表达式模板。这本书的价值在于，它构建了一个完整的知识体系框架，让我明确了在未来学习中应该优先强化哪些技能点。它不是一本速成手册，而是一部需要细细品味、反复研读的“内功心法”，每读一遍，都会有新的感悟和收获，真正做到了“温故而知新”。

评分☆☆☆☆☆

我必须承认，这本书的入门门槛是存在的，但绝对是值得跨越的。对于我这种非计算机科班出身的财务背景人士来说，初次接触到诸如“apply函数的高级用法”或者“使用Categorical数据类型优化内存占用”这些概念时，确实感到头晕目眩。但作者似乎预料到了读者的困惑，在每一个稍显晦涩的章节后，都会穿插一个“实践小贴士”或者“性能优化警示”，这些小插曲起到了非常好的缓冲作用。我发现，如果我能耐下性子，跟着书中的步骤一步步调试那些复杂的代码片段，而不是跳过它们，那么那些看似高深的概念就会奇迹般地清晰起来。例如，书中对GroupBy操作的细致拆解，特别是涉及到多级分组和转换操作时，那种清晰度让我茅塞顿开。它不只是告诉你`groupby()`这个函数，而是让你透彻理解它背后的Split-Apply-Combine思想。这本书更像是一个引路人，它不会替你走路，但会确保你脚下的每一步都踩在了坚实的土地上。

评分☆☆☆☆☆

说实话，我原本以为市面上关于Python数据分析的书籍都大同小异，无非就是把官方文档的知识点重新包装一遍。但拿到这本后，我才发现自己错得离谱。这本书的深度和广度都超出了我的预期。它不仅涵盖了数据处理的“硬核”技术，比如高效的内存管理和并行计算的初步探讨，更难能可贵的是，它花了大量的篇幅去讲解“为什么”要这么做，而不是仅仅停留在“怎么做”的层面。比如，在介绍NumPy的向量化操作时，作者深入对比了Python原生循环和向量操作在性能上的巨大差异，用直观的图表展示了效率的飞跃，这极大地提升了我对底层原理的理解。再者，书中对于数据可视化的介绍也相当到位，Matplotlib和Seaborn的结合使用被讲解得淋漓尽致，从基础的折线图、散点图到更复杂的统计图表，每一种图的适用场景和最佳实践都被清晰地界定。我感觉自己不是在读一本技术书，而是在和一位经验丰富的数据科学家进行一对一的交流，这种知识的传递是立体且多维的。

评分☆☆☆☆☆

哇，这本书简直是数据分析界的“瑞士军刀”！我作为一个刚接触数据分析不久的新手，手里拿着这本厚厚的书，一开始还有点担心会像看天书一样，但事实证明我的担心完全是多余的。它的内容组织结构非常清晰，从基础的Python语法和环境搭建开始，循序渐进地引导我们进入Pandas这个强大的数据处理库的世界。作者对数据清洗、转换和聚合的讲解简直是手把手教学，每一个代码块的后面都有详尽的解释，让我这个“代码小白”也能很快掌握如何将那些杂乱无章的原始数据整理得井井有条。尤其是它对缺失值处理和异常值检测的介绍，非常实用，这在实际工作中简直是救命稻草。我特别喜欢它在讲解每一个新概念时，都会紧跟着一个贴近实际业务场景的小例子，这让理论知识立刻变得生动起来，不再是枯燥的公式堆砌。这本书的排版也很舒服，代码和文字的间距恰到好处，长时间阅读也不会感到眼睛疲劳。对于想系统性构建数据分析技能树的人来说，这本书绝对是不可多得的入门宝典，它为我后续深入学习更复杂的机器学习模型打下了无比坚实的基础。

评分☆☆☆☆☆

工具书，快速略读。挺好的。有需求再仔细翻

评分☆☆☆☆☆

非常经典的一本Python数据分析书，每一章之间有递进关系，适合Python入门（）如《Python编程，从入门到实践》）之后阅读，本书专门针对数据分析领域的。我细致地读了一遍，敲了一遍代码，一开始没有头绪，进展缓慢，后来逐渐明朗了。学习编程要多实践，这对没有基础的人来说有困难，因为无从下手。我的体会是，在你基础不牢的时候，就多看，多记，多总结，搭建自己的思路框架。

评分☆☆☆☆☆

第二版比第一版改进不少诶

评分☆☆☆☆☆

中文版好多代码都过时了，最新版只有英文版。吃了没文化的亏

评分☆☆☆☆☆

草草的翻了一遍，一本有用的工具书，留待以后用到时回头再查