2016年初,谷歌围棋Alpha Go以4:1的成绩战胜了人类围棋世界冠军李世石,引起全世界的关注,这标志着人工智能的发展进入了一个全新的阶段。近几年来,人工智能得到飞速的发展,在很多领域如图像识别、语音识别等方面取得了突破性的进步。人工智能的研究也得到全世界学术界和产 业界的高度关注,进入了一个新的高潮期。种种迹象表明,人类进入全方位智能时代已经为期不远了。所有这一切几乎均得益于神经网络的新技术——深度学习的发现和发展(非常有趣的是人工智能的几次高潮均来自神经网络的进步,可见神经网络的生命力)。深度学习的概念由Hinton等于2006年提出,在近年来已经逐渐成为机器学习的主流技术,在多数应用领域的性能明显超出已有技术。
机器学习包括监督学习和无监督学习。目前的深度学习基本上只带来监督学习的进步,但仅靠监督学习是无法实现完整的人工智能的。作为智能系统,监督学习似乎足够“能”而不足够“智”。足够“能”体现为它能够在大数据中挖掘知识,这甚至是人脑做不到的。事实上人脑并不是处理大数据的系统,人类在任何领域所掌握的知识均有限,例如,每个人仅认识数干个汉字或单词。不足够“智”体现为监督学习需要大量人工标记的训练样本。人脑的学习并不需要大量的样本训练,人类是在没有指导或少量指导的条件下获得知识的,而且人脑会不断地学习并强化自己在各个领域的知识。人类在有限知识的基础上体现出惊人的创造力。类似人脑的智能系统更需要无监督学习、小样本学习、强化学习和迁移学习等功能。因此,人工智能的发展仍然任重而道远。
本书讨论聚类技术。聚类是无监督学习的主要内容,在很多文献中人们甚至把聚类和无监督学习两个概念等价使用。聚类一直是机器学习、数据挖掘、模式识别等领域的重要组成内容,近年来更得到高度重视。2015年,中国人工智能学会理事长李德毅院士在“新一代信息技术产业发展高峰论坛”上指出:“人类的认知科学要想有所突破,首先就要在大数据聚类上取得突破,聚类是挖掘大数据资产价值的第一步。”同年,深度学习的领军人物Lecun、Bengio和Hinton在Nature上的综述指出:“人和动物的学习很大程度上是无监督的:我们通过观察发现世界的结构,而不是对每个物体命名。”
那么什么是聚类呢?《周易·系辞上》说:“方以类聚,物以群分,吉凶生矣。”自然的事物总是按一定的规律组织起来的,人们通过认识这些组织的结构特征获得知识,从而做出决策。以生物为例(我们这个世界是因为有生物而活泼生动的),人们根据生物的相似程度(包括形态结构和生理功能等),把生物划分为种和属等不同的等级,并对每一类群的形态结构和生理功能等特征进行科学的描述,以弄清不同类群之间的亲缘关系和进化关系。相信很多人小时候学习生物时都会惊讶于鲸居然是哺乳动物而不是鱼,猫和老虎是同一科等。
和分类(监督学习的主要任务)不同,聚类是在无标记样本的条件下将数据分组,从而发现数据的天然结构。聚类在数据分析中扮演重要的角色,它通常被用于以下三个方面。
(1)发现数据的潜在结构:深入洞察数据、产生假设、检测异常、确定主要特征。
(2)对数据进行自然分组:确定不同组织之间的相似程度(系统关系)。
(3)对数据进行压缩:将聚类原型作为组织和概括数据的方法。
这几个方面的功能使聚类既可以作为预处理程序,又可以作为独立的数据分析工具。
聚类是典型的交叉学科,在很多领域有广泛的应用,其研究已有60多年的历史。生物分类学者、社会学者、哲学家、生物学家、统计学家、数学家、工程师、计算机科学家、医学研究者等众多收集和处理实际数据的工作者都对聚类方法做出了贡献。在不同的领域,聚类还可能被称为Q-分析、拓扑、凝结、分类等。聚类的概念最早出现在1954年的一篇处理人类学数据的论文中。自此开始,聚类一直是相关领域重要的研究内容之一。
Biographical highlights:
Dalian University of Technology DECEMBER 2012 - PRESENT
Vice Dean, Prosessor, Department of Science and Techno logy
Dalian University of Technology JUNE 2003 - DECEMBER 2012
Director, Professor
QQ Technology Inc, Bejing APRIL 2002 - APRIL 2003
Manager, Research and Development Department
ecSolutions Software Limited Company (Shanghai) of TA Group (Hongkong)APRIL 2001 - APRIL 2002
Senior R&D Engineer
Recent papers:
[2017] Self-adapted mixture distance measure for clustering uncertain data
[2017] Novel density-based and hierarchical density-based clustering algorithms for uncertain data
[2017] Multi-task clustering through instances transfer
[2016] Sampling for Nystrom Extension-Based Spectral Clustering: Incremental Perspective and Novel Analysis
[2016] Multi-View Clustering via Graph Regularized Symmetric Nonnegative Matrix Factorization
[2016] Multi-Type Co-clustering of General Heterogeneous Information Networks via Nonnegative Matrix Tri-factorization
[2016] Multi-Task Multi-View Clustering
[2016] Constrained Clustering With Nonnegative Matrix Factorization
[2015] Multi-Task Multi-View Clustering for Non-Negative Data
[2014] Novel Density-Based Clustering Algorithms for Uncertain Data
评分
评分
评分
评分
这本书的结构布局非常巧妙,它不像传统教材那样将所有内容平铺直叙,而是采用了“主题驱动”的叙事方式。比如,在讨论模糊聚类(Fuzzy C-Means)时,作者并没有急于展示数学推导,而是先抛出一个实际场景:如何处理样本点同时隶属于多个簇的模糊边界情况。这种由问题驱动的讲解方式,极大地激发了我继续阅读的兴趣。我尤其欣赏其中关于聚类评估指标的批判性分析。书中明确指出了轮廓系数(Silhouette Coefficient)在处理非凸形状簇时的缺陷,并随后引入了Calinski-Harabasz指数作为补充。这种不迷信单一指标、强调多维度验证的科学态度,是我在其他书籍中很少见到的。此外,书中对“小样本”和“大数据”场景下的算法选择差异做了详尽的对比分析,例如,在内存受限的超大数据集上,如何权衡近似算法(如Mini-Batch K-means)的效率与精度损失,这部分内容对于我目前从事的实时数据分析项目具有极高的参考价值。
评分我感觉这本书的作者绝对是一个实战派的学者,他的语言风格夹杂着一种沉稳而又略带幽默的工程师气质。在介绍谱聚类时,他用了一个非常形象的比喻,将数据点之间的相似度想象成“电线连接的电路板”,聚类任务就变成了找到电路板上“最不连通”的切口,一下子就让抽象的拉普拉斯矩阵变得触手可及。这本书的细节把控达到了令人发指的地步,每一个算法的复杂度分析都给出了严格的上下界推导,并且清晰地标注了在不同数据分布假设下的性能预期。最让我受益匪浅的是关于“聚类结果的稳定性”这一章节。作者不再仅仅关注一次性聚类的结果好坏,而是引入了Bootstraping方法来检验不同随机种子对最终解的影响,这教会了我如何构建一个更加可靠和可信赖的数据分组系统。这本书的排版清晰,图表质量极高,即便是涉及到复杂的高维空间投影,也能通过精妙的二维截面图辅助理解,让人在阅读过程中很少产生“迷失方向”的感觉。
评分这本《数据聚类(精)》读起来,给我的感觉就像是进入了一个结构清晰、逻辑严密的迷宫,但不同的是,这里的“迷宫”不是为了让人迷失,而是为了引导我们找到隐藏在数据深处的黄金矿脉。我印象最深的是它对K-均值算法的深入剖析,不仅仅停留在公式的层面,而是通过一系列精心设计的案例,展示了参数选择对最终聚类结果的微妙影响。比如,书中对比了不同初始化策略对收敛速度和全局最优解的捕获能力,这一点对于我实际工作中处理高维、非线性数据集时,提供了非常宝贵的实战指导。书中对“簇内误差平方和”这一指标的解读,也远比我之前接触的任何教材都要细腻,它强调了如何利用肘部法则的局限性,结合业务背景进行更科学的判断。整本书的行文风格偏向于理论的严谨与实践的结合,每一个算法的推导都配有清晰的图示,使得那些原本枯燥的数学公式变得生动起来,仿佛作者正坐在我对面,一步步地耐心讲解。特别是关于层次聚类中,凝聚法和分裂法在处理小数据集时的性能权衡分析,简直是教科书级别的示范。
评分阅读《数据聚类(精)》是一场对思维模式的重塑。它远超出了简单的“如何使用scikit-learn库”的教学范畴,而是深入到了算法设计的哲学层面。我特别留意到作者在讨论高维数据聚类时的挑战时,没有简单地归咎于“维度灾难”,而是细致地剖析了距离度量函数在高维空间中失效的具体数学机制。书中对流形学习(Manifold Learning)与聚类的交叉点的探索,更是令人眼前一亮,它暗示了在某些情况下,数据点并非位于欧氏空间,而是潜藏在低维流形上,这为处理图像特征和文本嵌入等复杂数据提供了全新的视角。这本书对概念的定义极为精准,几乎没有模糊地带,例如,它对“噪声点”、“异常值”和“离群点”的界定,都基于严格的概率模型或几何属性。读完之后,我不再只是一个算法的使用者,而是一个能够质疑、评估并可能改进这些算法的思考者。这本书是数据挖掘领域一本不可多得的、能够将理论深度与工程实践完美融合的典范之作。
评分坦白说,这本书的深度让我有些“措手不及”。我原以为它会像市面上那些入门书籍一样,浅尝辄止地介绍几个主流方法,但这本书的野心显然不止于此。《数据聚类(精)》花了大量的篇幅去探讨基于密度的聚类方法,特别是DBSCAN和OPTICS的优化版本。我之前一直对DBSCAN的参数设置感到头疼,尤其是`MinPts`和`Eps`的选取,总觉得像在凭感觉。然而,书中引入了一种基于“核心距离”的自适应参数估计流程,这个方法极大地提升了我在处理噪声数据密集区域时的鲁棒性。更让我惊艳的是,它还涉猎了谱聚类(Spectral Clustering)背后的矩阵理论基础,将图论与聚类问题紧密联系起来,这部分内容对于理解非凸聚类问题的几何意义至关重要。阅读过程中,我不得不时不时地停下来,查阅一些线性代数和拓扑学的概念,这反映出本书对读者基础知识有一定的要求,但一旦跨过那道坎,眼前的世界就开阔了很多。它的论述方式非常擅长于“由表及里”,将复杂的数学结构还原为直观的几何操作。
评分聚类分析的必读中文书籍。
评分聚类分析的必读中文书籍。
评分前面的东西都知道,后面有多任务,多视图两种,还有一点点迁移学习。。图聚类比较糙。。挺好的基础书,了解个大概再去读论文。。。没找到比这本书更好更全面的了。。
评分前面的东西都知道,后面有多任务,多视图两种,还有一点点迁移学习。。图聚类比较糙。。挺好的基础书,了解个大概再去读论文。。。没找到比这本书更好更全面的了。。
评分聚类分析的必读中文书籍。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2026 onlinetoolsland.com All Rights Reserved. 本本书屋 版权所有