机器学习与R语言实战

机器学习与R语言实战 pdf epub mobi txt 电子书 下载 2026

出版者:机械工业出版社
作者:丘祐玮 (Yu-Wei Chiu)
出品人:
页数:338
译者:
出版时间:2016-5-1
价格:CNY 69.00
装帧:平装
isbn号码:9787111535959
丛书系列:数据分析与决策技术丛书
图书标签:
  • 机器学习
  • R
  • 计算机
  • 编程
  • 美国
  • 机械工业出版社
  • 原电子版
  • 2016
  • 机器学习
  • R语言
  • 数据分析
  • 统计学习
  • 数据挖掘
  • 算法
  • 实战
  • 编程
  • 数据科学
  • 模型构建
想要找书就要到 本本书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

本书共11章。第1章介绍如何创建一个可用的R环境和基本的R命令;第2章讲述如何使用R语言进行探索性数据分析;第3章重点探讨数据采样和概率分布的概念;第4章探讨因变量和解释变量集合之间的线性关系;第5章介绍基于树的分类器:K近邻分类器、逻辑回归分类器以及朴素贝叶斯分类器;第6章神经网络和支持向量机;第7章展示一些模型评估的方法;第8章探讨集成分类器;第9章讲述多种聚类算法;第10章介绍关联分析和序列挖掘;第11章介绍如何从原始变量中选择和抽取特征;第12章讨论大数据分析(R和Hadoop)。

作者简介

作者简介

Abut the Auther 作 者 简 介Yu-Wei,Chiu (David Chiu)是LargitData公司的创始人。David曾是Trend Micro公司的软件工程师,负责构建商务智能大数据平台以及客户关系管理系统。除了是一名创业者和数据科学家之外,David还专注于利用Spark和Hadoop来处理海量数据,并使用数据挖掘技术来进行数据分析。他还是一名专业的讲师,在很多会议上做过关于Python、R以及Hadoop方面的技术报告。 2013年,Yu-Wei审读了《Bioinformatics with R Cookbook》(Packt出版社)。 我要衷心感谢我的家人和朋友,是他们支持和鼓励我完成了本书。我要诚挚地向我母亲Ming-Yang Huang(Miranda Huang)、我的良师Man-Kwan Shan、本书的校对Brendan Fisher,中国台湾的R用户组,数据科学项目(Data Science Program,DSP),以及其他支持过我的朋友表示感谢。

目录信息

目录
译者序
前言
作者简介
审校者简介
第1章基于R实践机器学习
1.1简介
1.2下载和安装R
1.3下载和安装R Studio
1.4包的安装和加载
1.5数据读写
1.6使用R实现数据操作
1.7应用简单统计
1.8数据可视化
1.9获取用于机器学习的数据集
第2章挖掘RMSTitanic数据集
2.1简介
2.2从CSV文件中读取Titanic数据集
2.3根据数据类型进行转换
2.4检测缺失值
2.5插补缺失值
2.6识别和可视化数据
2.7基于决策树预测获救乘客
2.8基于混淆矩阵验证预测结果的准确性
2.9使用ROC曲线评估性能
第3章R和统计
3.1简介
3.2理解R中的数据采样
3.3在R中控制概率分布
3.4在R中进行一元描述统计
3.5在R中进行多元相关分析
3.6进行多元线性回归分析
3.7执行二项分布检验
3.8执行t检验
3.9执行Kolmogorov—Smirnov检验
3.10理解Wilcoxon秩和检验及Wilcoxon符号秩检验
3.11实施皮尔森卡方检验
3.12进行单因素方差分析
3.13进行双因素方差分析
第4章理解回归分析
4.1简介
4.2调用1m函数构建线性回归模型
4.3输出线性模型的特征信息
4.4使用线性回归模型预测未知值
4.5生成模型的诊断图
4.6利用1m函数生成多项式回归模型
4.7调用rlm函数生成稳健线性回归模型
4.8在SLID数据集上研究线性回归案例
4.9基于高斯模型的广义线性回归
4.10基于泊松模型的广义线性回归
4.11基于二项模型的广义线性回归
4.12利用广义加性模型处理数据
4.13可视化广义加性模型
4.14诊断广义加性模型
第5章分类Ⅰ——树、延迟和概率
5.1简介
5.2准备训练和测试数据集
5.3使用递归分割树建立分类模型
5.4递归分割树可视化
5.5评测递归分割树的预测能力
5.6递归分割树剪枝
5.7使用条件推理树建立分类模型
5.8条件推理树可视化
5.9评测条件推理树的预测能力
5,10使用k近邻分类算法
5.11使用逻辑回归分类算法
5.12使用朴素贝叶斯分类算法
第6章分类Ⅱ——神经网络和SVM
6.1简介
6.2使用支持向量机完成数据分类
6_3选择支持向量机的惩罚因子
6.4实现SVM模型的可视化
6.5基于支持向量机训练模型实现类预测
6.6调整支持向量机
6.7利用neuralnet包训练神经网络模型
6.8可视化由neuralnet包得到的神经网络模型
6.9基于neuralnet包得到的模型实现类标号预测
6.10利用nnet包训练神经网络模型
6.11基于nnet包得到的模型实现类标号预测
第7章模型评估
7.1简介
7.2基于k折交叉验证方法评测模型性能
7.3利用e1071包完成交叉验证
7.4利用caret包完成交叉检验
7.5利用caret包对变量重要程度排序
7.6利用rmlner包对变量重要程度排序
7.7利用caret包找到高度关联的特征
7.8利用caret包选择特征
7.9评测回归模型的性能
7.10利用混淆矩阵评测模型的预测能力
7.11利用ROCR评测模型的预测能力
7.12利用caret包比较ROC曲线
7.13利用caret包比较模型性能差异
第8章集成学习
8.1简介
8.2使用bagging方法对数据分类
8.3基于bagging方法进行交叉验证
8.4使用boosting方法对数据分类
8.5基于boosting方法进行交叉验证
8.6使用gradientboosting方法对数据分类
8.7计算分类器边缘
8.8计算集成分类算法的误差演变
8.9使用随机森林方法对数据分类
8.10估算不同分类器的预测误差
第9章聚类
9.1简介
9.2使用层次聚类处理数据
9.3将树分成簇
9.4使用k均值方法处理数据
9.5绘制二元聚类图
9.6聚类算法比较
9.7从簇中抽取轮廓信息
9.8获得优化的k均值聚类
9.9使用密度聚类方法处理数据
9.10使用基于模型的聚类方法处理数据
9.11相异度矩阵的可视化
9.12使用外部验证评估聚类效果
第10章关联分析和序列挖掘
10.1简介
10.2将数据转换成事务数据
10.3展示事务及关联
10.4使用Apriori规则完成关联挖掘
10.5去掉冗余规则
10.6关联规则的可视化
10.7使用Eclat挖掘频繁项集
10.8生成时态事务数据
10.9使用cSPADE挖掘频繁时序模式
第11章降维
11.1简介
11.2使用FSelector完成特征筛选
11.3使用PCA进行降维
11.4使用scree测试确定主成分数
11.5使用Kaiser方法确定主成分数
11.6使用主成分分析散点图可视化多元变量
11.7使用MDS进行降维
11.8使用SVD进行降维
11.9使用SVD进行图像压缩
11.10使用ISOMAP进行非线性降维
11.11使用局部线性嵌入法进行非线性降维
第12章大数据分析(R和Hadoop)
12.1简介
12.2准备RHadoop环境
12.3安装rmr2
12.4安装rhdfs
12.5在thdfs中操作HDFS
12.6在RHadoop中解决单词计数问题
12.7比较RMapReduce程序和标准R程序的性能差别
12.8测试和调试rmr2程序
12.9安装plymlr
12.10使用plyrmr处理数据
12.11在RHadoop中实施机器学习
12.12在AmazonEMR环境中配置RHadoop机群
附录AR和机器学习的资源
附录BTitanic幸存者的数据集
· · · · · · (收起)

读后感

评分

评分

评分

评分

评分

用户评价

评分

这本书的排版和插图质量令人印象深刻。很多技术书籍在图文混排上常常出现问题,要么是图表模糊不清,要么是文字和代码块的间距混乱,读起来非常吃力。然而,这本书在这方面做得非常出色。每一个算法的流程图都绘制得非常清晰,关键步骤的标注准确到位,即便是初学者也能一目了然地把握整个模型的运行机制。我尤其欣赏作者在解释一些复杂概念时所采用的类比手法,非常生动形象,比如在讲解决策树的构建过程时,作者用了一个类似“寻宝游戏”的比喻,一下子就抓住了核心思想。此外,书中提供的配套在线资源也值得称赞,里面包含了解答读者常见疑问的论坛和额外的项目数据集,这极大地丰富了我的学习体验。我感觉作者不仅仅是想教会我们如何敲代码,更是想培养我们对数据科学这个领域的整体认知和批判性思维。阅读这本书的过程,与其说是学习,不如说是一次与行业专家的深入对话。

评分

从内容的新旧程度来看,这本书的更新速度也让人感到满意。它不仅涵盖了经典的机器学习算法,比如支持向量机和随机森林,还对一些较新的技术,比如集成学习中的XGBoost和LightGBM,进行了深入的介绍和R语言实现。这一点非常关键,因为数据科学领域的技术迭代速度非常快,一本过时的教材很快就会失去参考价值。作者显然对该领域的最新进展保持着高度的关注,并且能够将这些前沿技术以一种易于理解的方式融入到整体框架中。特别是对这些高级模型的参数调优部分,讲解得非常透彻,提供了很多实用的经验法则,而不是仅仅停留在API层面的介绍。这种对时效性和深度的平衡,使得这本书不仅适合当前的学习,也具备了很强的长期参考价值,我相信在接下来的工作中,它会一直是我案头的必备工具书。

评分

老实说,这本书的难度是偏高的,它要求读者具备一定的编程基础和基础的统计学知识。如果完全没有接触过R语言或者数据分析的新手,可能会在前半部分的准备工作上感到有些吃力。但是,对于那些已经掌握了基础编程并渴望深入机器学习领域的人来说,这本书简直是宝藏。它没有回避那些晦涩难懂的数学推导,而是将它们巧妙地嵌入到算法的解释中,让读者既能了解其原理的严密性,又不至于被数学符号吓退。我最喜欢的是它对不同算法的优缺点和适用场景的对比分析。比如,在处理高维稀疏数据时,作者详细比较了Lasso回归和岭回归的差异,并给出了明确的实践建议。这种详尽且有侧重的对比分析,远胜于市面上那些把所有算法都写成“万金油”的教材。这本书真正做到了“授人以渔”,教会我们如何根据数据本身的特性,做出最合适的算法选择。

评分

我花了整整两个月的时间才把这本书啃完,期间遇到过不少挑战,但每当我感到困惑时,这本书总能给我及时的启发。让我印象最深的是关于模型评估和选择的章节。这部分内容在很多入门书籍中往往被一带而过,但这本书却花费了大量的篇幅来深入探讨各种评估指标的适用场景和局限性,比如何时使用ROC曲线,何时更侧重于精确率和召回率的平衡。作者还穿插了一些关于模型可解释性的讨论,这在当下对AI伦理和透明度要求越来越高的环境中显得尤为重要。书中通过几个真实的商业案例来演示如何根据业务目标来定制评估标准,而不是盲目地追求最高的准确率数字。这种注重实战价值的讲解方式,让我对“好”模型有了更深刻的理解。读完这一部分后,我回去重审了自己过去的一些项目,发现确实存在很多只看单一指标而忽略了全局视角的问题,这本书为我提供了修正错误的方向。

评分

这本书的封面设计得相当有吸引力,那种深邃的蓝色调配上简洁的字体,立刻让人感受到一种专业和严谨的气息。我是在一个技术论坛上偶然看到有人推荐的,当时我正处于对数据分析产生浓厚兴趣的阶段,但又苦于找不到一本既有理论深度又能兼顾实际操作的书籍。拿到手之后,我立刻被它清晰的逻辑结构所吸引。作者没有一开始就堆砌复杂的数学公式,而是从数据科学的基本概念讲起,循序渐进地引导读者进入机器学习的世界。特别是关于数据预处理的那一部分,写得非常细致,几乎涵盖了所有我能想到的实际问题,比如缺失值处理、异常值检测和特征工程的各种技巧。书中的代码示例大多是使用R语言实现的,这对我来说正好对症下药,因为我当时对R语言的掌握还停留在基础阶段。通过书中的实例,我不仅理解了算法的原理,更重要的是学会了如何在实际项目中应用这些工具。这本书的优点在于它成功地架起了一座理论与实践之间的桥梁,让学习过程不再是枯燥的公式推导,而是充满探索的乐趣。

评分

思路清晰,案例清楚,每类算法有大致的原理解释,是机器学习不错的入门类书籍。

评分

不错

评分

思路清晰,案例清楚,每类算法有大致的原理解释,是机器学习不错的入门类书籍。

评分

思路清晰,案例清楚,每类算法有大致的原理解释,是机器学习不错的入门类书籍。

评分

思路清晰,案例清楚,每类算法有大致的原理解释,是机器学习不错的入门类书籍。

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 onlinetoolsland.com All Rights Reserved. 本本书屋 版权所有