Andrew R. Webb和Keith D. Copsey目前任职于英国Malvern的Mathematics and Data Analysis Consultancy公司,是机器学习方向的著名专家。
发表于2024-12-22
统计模式识别 2024 pdf epub mobi 电子书
图书标签: 模式识别 机器学习 统计学 算法 数学 人工智能 统计学习
译 者 序
信息时代,无处不有模式识别的需求。概括地讲,模式识别是一门以应用数学为理论基础,利用计算机应用技术,解决实际分类及识别问题的学问。按照研究问题的特点及解决问题的手段特征,通常有统计模式识别和结构模式识别之分,前者以多元统计理论为数学基础,以数据特征的形式对问题进行描述,而后者则以形式语言为数学基础,以结构图元的形式对问题进行描述,它们都致力于将隐含在大量样本中的类间差异的规律归纳出来,并综合成适当的分类、识别乃至预测模型。
从发展的角度看,在传统的、较成熟的分类和识别方法的基础上,模糊数学思想方法的介入,人工神经网络对统计模型类型的丰富、进化算法等一批优秀算法的出现,支持向量机、复杂网络、极度学习和深度学习等一些新方法的提出和介入等,使统计模式识别的研究和应用充满活力。
英国著名学者Andrew R. Webb所著《统计模式识别》一书对统计模式识别的理论、概念和方法进行了全面介绍,并在以下方面具有鲜明特点。
1.编写体系。本书以“分类与识别”为主线,在“基本概念理论分析方法讲解应用实例拓展研究”的框架下,介绍统计模式识别的每一个具体方法; 再以应用研究、建议、参考文献等,对由若干方法形成的一类问题进行综述。其中,“拓展研究”能够使读者从知识点伸展到面,进一步了解相关问题的研究动态及人们普遍关注的问题; 而“应用研究”则将模式识别技术与广泛的实际问题紧密相联,颇具启迪性; “总结”及“建议”凝结了作者的体会和经验,颇具指导性; “参考文献”给出了所列文献与书中内容的联系及其特色。这样的组织格局使读者从局部到全局、从理论到方法、从方法到应用、从研究动态到问题展望,一览无余。
2.清晰的分类方法的主线设计。作者将各种分类器学习方法收纳于统计决策、超特征空间划分这两条主线中,从第2章到第9章,用了共八章的篇幅。统计决策重点解决类概率密度函数的训练,除了非参数法和参数法之外,增加了贝叶斯方法的介绍,特别是按照近邻法直方图法核函数法级数法逐步展开的概率密度估计的讲解,对学习者理解、掌握和用好相关技术大有益处; 超特征空间划分按照线性和非线性线条展开,自然引出对支持向量机和多层感知器的介绍,规则归纳法反映了模式识别与智能方法的有机联系,搭建起从分类模型的判别分析到可解释规则的桥梁。
3.将最新研究方法融入统计模式识别框架。作者在“分类与识别”主线下带出对统计模式识别概念、新方法(例如人工神经网、模糊思想用于聚类、支持向量机、新的非参数方法、谱聚类、复杂网络等)的较详尽介绍,使读者能够更深层次地理解它们的构成内涵及其识别行为属性,从而为根据具体问题特点灵活、合理地选用它们提供帮助。
4.内容前后呼应。作者在保持各章节内容相对独立的前提下,特别加强了“谈此及彼”,使读者能够对一种重要方法进行多角度的理解和消化。
5.辩证评述和比较性研究。模式识别问题本身决定了目前实用的模式识别方法和技术没有绝对的好与坏。相信读者会从本书的字里行间领略到作者科学严谨的理论分析及辩证客观的方法评述,并从中受益。另外,本书特别强调并略加笔墨的“分类器优化组合”、“比较性研究”,近年来受到模式识别学者和专家的重视,值得读者关注。
本书对上一版的大部分章节内容都进行了重新编写和组织,包括内容顺序的梳理和调整,使其内容的模块性更强,分类方法的线条更清晰,与机器学习、数据挖掘及知识发现的关联更紧密; 配置了更多的例子和图表,使内容更易读、易理解。
本书的中译本在上版译稿基础上完成。上一版翻译工作由王萍、杨培龙和罗颖昕完成。在这个版本的翻译过程中,范凯波、王娟、王迪、闫春遐和杜雪峰等,在新增内容初译和公式整理等方面提供了帮助。全书由王萍统稿和定稿。
在这里向为本书的翻译工作做出贡献的所有人表示感谢,包括已经毕业的学生杨培龙、罗颖昕和杜雪峰,以及即将毕业的博士生王娟和硕士生闫春遐,在读的博士生范凯波、王迪和石君志。谢谢你们!
由于译者水平所限,译文中难免有疏漏和不妥之处,恳请读者不吝赐教。
王 萍
2014年9月
于天津大学
本书介绍统计模式识别的基本理论和技术,其中大部分内容涉及识别和分类问题,并取材于工程学、统计学、计算机科学和社会学等领域的相关文献。在这些文献中,反映了许多当今最有用的模式处理技术,包括许多最新的非参数识别方法和贝叶斯计算方法,本书一并对它们进行介绍,并对使用这些技术方法的起因和支撑这些技术方法的理论展开讨论,以使读者在使用那些流行软件包解决问题时获益最大。本书对各项技术均附以应用研究实例说明之。至于书中涉及的模式识别的应用、对比研究法及理论进展的细节,可以在书后各类文献中找到。
本书内容源自我们对统计模式识别方法进展的研究,以及对传感器数据分析问题的实际应用,针对高年级本科生课程和研究生课程而写,其中有些材料已用于研究生的模式识别课程及模式识别暑期班。本书也是为模式识别领域的实际工作者及其研究者所设计的。作为学习本书内容的先决条件,学习者应具备概率论和线性代数的基本知识,掌握一些基本数学方法(例如,在一些推导中,用于解决具有等式约束和不等式约束问题的拉格朗日数乘法)。本书前版附录提供的一些基本材料可以在本书配套网站找到。
范围
本书展现绝大多数常用的统计模式识别方法。然而,模式识别的许多重要研究进展并非局限于统计学文献,而经常呈现于与机器学习交叉的研究领域。因此,打破传统的统计模式识别的框架将是有益的,本书正是这样做的。例如,我们把一些规则归纳方法作为一种补充方法添加进来,以通过决策树归纳掌控探索过程。本书谈到的大多数方法具有一般性,即这些方法并不要求指定数据或应用的特定类型,于是本书内容不涉及大家时常用到的信号(和图像)预处理方法,以及信号(和图像)滤波方法。
方法
本书每一章所讨论的方法,均会安排讲述与其相关的基本概念和算法,均会在章末给出引自参考文献的相关方法或分类技术的实际应用,其主要目是理解方法的基本概念。有时候需要进行一些详细的数学描述,因此有时不得不划一个界限,以掌控把哪个特定主题讨论到多深。本书涉及的大部分主题可以用整本书来论述,于是我们不得不对所拥有的材料进行取舍,因此每一章的最后一节均提供了主要的参考文献。章末所附习题与开卷式问题有所不同,开卷式问题涉及比较冗长的计算机工程项目。
第三版的新增内容
本书对前版的许多章节进行了重新编写,并添加了一些新的材料,新增内容特点如下。 第3章的内容是新增的,这一章讲述密度估计的贝叶斯法,包括对贝叶斯采样方案的内容拓展、马尔可夫链蒙特卡罗方法、序贯蒙特卡罗采样器和变分贝叶斯法。
新增一节专门讲述密度估计的非参数方法。
新增规则归纳方法。
为分类器的组合方法新增一章。
对特征选择内容进行了重新修订,增添了关于特征选择稳定性的章节。
新增谱聚类内容。
新增一章讲述复杂网络问题,这个问题与社会及计算机网络分析的高增长领域相关。
全书梗概
第1章作为统计模式识别的绪论,给出一些名词术语的定义,介绍监督型分类和无监督型分类。就监督型分类而言,有两种研究方法: 一种方法基于概率密度函数的运用; 另一种方法则基于判别函数的构建。在这一章的最后对模式识别的完整过程进行概括,细节问题则安排在后续章节中讨论。第2章至第4章讨论识别问题的密度函数法。其中,第2章讲解密度函数估计的参数法,它们在贝叶斯法上的进一步拓展安排在第3章,第4章讨论非参数分类器的实现方案,包括被广泛使用的k近邻法及与之相关的有效搜索算法。
第5章至第7章研究有监督分类问题的判别函数的构建方法。第5章集中讨论线性判别函数,其中所涉及的大多数判别法(包括优化、正则化和支持向量机)也适用于第6章展开的非线性研究。第6章探讨基于核函数的方法,特别是径向基函数网络和支持向量机,还讨论了基于投影的方法(多层感知器),这些通常称为神经网络方法。第7章讨论如何使分类函数变为可解释的规则,这种判别方法对一些应用来说非常重要。
第8章讨论分类器的集成方法,即为提高系统的鲁棒性,将多个分类器组合起来。第9章讲述如何测评分类器的性能。
第10章和第11章探讨数据分析和预处理技术(这些工作通常先于第5章至第7章介绍的有监督分类工作,尽管有时可以用来作为有监督方法的后置处理)。第10章讲述特征选择和特征提取方法,它们用以降低描述原始数据特征的维数,这项工作通常是分类器整体设计工作的一部分,只是被人为地将这一模式识别问题划分为相对独立的特征提取过程和模式分类过程。特征提取可以帮助我们深入了解数据结构及分类器需要选用的类型,因此该研究备受关注。第11章讲述无监督分类或称聚类问题,即在样本群中找到所存在的结构并借此将其分组的过程。这类技术的工程应用是对图像进行矢量量化及对语音编码。第12章讨论复杂网络问题,所述方法对待分析的数据用图形的数学概念进行表述,所述及问题与社会及计算机网络的关联很显著。
最后,即第13章,讨论一些重要的包括模型选择问题在内的研究课题。
本书网站
对如下问题提供了补充材料: 相异测度、估计方法、线性代数、数据分析和基本概率方法。
致谢
在编写本书第三版的过程中,我们得到了很多人的帮助。在此特别感谢East Anglia大学的Gavin Cawley博士所给予的帮助和建议,感谢朋友们和同事们(RSRE,DERA 和 QinetiQ的自始至终的帮助),他们对原稿的不同部分提出了许多宝贵意见。还要特别感谢Anna Skeoch为第12章提供数据; 感谢Richard Davies和John Wiley的同事们为稿件的最终出版所给予的帮助。Andrew Webb特别感谢Rosemary所给予的爱、支持和耐心。
不适合初学者 而且相对比较偏工程
评分不适合初学者 而且相对比较偏工程
评分没见过翻译这么差的书,确实是头一本看了一小会就看不下去的
评分不适合初学者 而且相对比较偏工程
评分大部头书真的好难啃 只能记一些名词在网上找博客慢慢理解
统计模式识别 2024 pdf epub mobi 电子书