智能Web算法 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:电子工业出版社

作者:Haralambos Marmanis（哈若拉玛玛若曼尼斯）

出品人:博文视点

页数:400

译者:阿稳

出版时间:2015-3

价格:89.00元

装帧:平装

isbn号码:9787121254567

丛书系列:

图书标签:

机器学习
互联网
计算机
算法
数据挖掘
Web算法
智能算法
网页分析
数据挖掘
机器学习
网络爬虫
信息检索
推荐系统
人工智能
Python

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到本本书屋

onlinetoolsland.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

《智能Web算法》涵盖了五类重要的智能算法：搜索、推荐、聚类、分类和分类器组合，并结合具体的案例讨论了它们在Web 应用中的角色及要注意的问题。除了第1 章的概要性介绍以及第7 章对所有技术的整合应用外，第2～6 章以代码示例的形式分别对这五类算法进行了介绍。

《智能Web算法》面向的是广大普通读者，特别是对算法感兴趣的工程师与学生，所以对于读者的知识背景并没有过多的要求。《智能Web算法》中的例子和思想应用广泛，所以对于希望从业务角度更好地理解有关技术的技术经理、产品经理和管理层来说，本书也有一定的价值。

作者简介

Haralambos (Babis) Marmanis 博士是一个把机器学习技术应用于工业界的先行者，也是供应管理的世界级专家。Dmitry Babenko曾经为银行、保险、供应链管理与商务智能公司设计过应用与基础架构。

本书拥有者可以通过 www.manning.com/AlgorithmsoftheIntelligentWeb在线获得作者的信息、样例代码与免费的电子版本。

Dr. Haralambos (Babis) Marmanis is a pioneer in the adoption of machine learning techniques for industrial solutions, and also a world expert in supply management. He has about twenty years of experience in developing professional software. Currently, he is the director of R&D and chief architect, for expense management solutions, at Emptoris, Inc. Babis holds a Ph.D. in applied mathematics from Brown University, an M.S. degree in theoretical and applied mechanics from the University of Illinois at Urbana-Champaign, and B.S. and M.S. degrees in civil engineering from the Aristotle University of Thessaloniki in Greece. He was the recipient of the Sigma Xi award for innovative research in 2000, and he is the author of numerous publications in peer-reviewed international scientific journals, conferences, and technical periodicals.

Dmitry Babenko is the lead for the data warehouse infrastructure at Emptoris, Inc. He is a software engineer and architect with 13 years of experience in the IT industry. He has designed and built a wide variety of applications and infrastructure frameworks for banking, insurance, supply-chain management, and business intelligence companies. He received a M.S. degree in computer science from Belarussian State University of Informatics and Radioelectronics.

目录信息

前言 .............. XV
致谢 ............. XIX
关于本书 ...... XXI
1 什么是智能Web......................................... 1
1.1 智能Web 应用实例 ............................................ 3
1.2 智能应用的基本要素 ......................................... 4
1.3 什么应用会受益于智能 ..................................... 5
1.3.1 社交网络 . 6
1.3.2 Mashup .... 7
1.3.3 门户网站 . 8
1.3.4 维基 ......... 9
1.3.5 文件分享网站 ......................................... 9
1.3.6 网络游戏 ............................................... 11
1.4 如何构建智能应用 ........................................... 11
1.4.1 检查功能和数据 ................................... 12
1.4.2 获取更多的数据 ................................... 12
1.5 机器学习、数据挖掘及其他 ........................... 16
1.6 智能应用中八个常见的误区 ........................... 17
1.6.1 误区1：数据是可靠的 ........................ 18
1.6.2 误区2：计算能马上完成 .................... 19
1.6.3 误区3：不用考虑数据规模 ................ 19
1.6.4 误区4：不考虑解决方案的可扩展性 19
1.6.5 误区5：随处使用同样的方法 ............ 19
1.6.6 误区6：总是能知道计算时间 ............ 20
1.6.7 误区7：复杂的模型更好 .................... 20
1.6.8 误区8：存在无偏见的模型 ................ 20
1.7 小结 ................... 20
1.8 参考资料 ........... 21
2 搜索.......... 22
2.1 用Lucene 实现搜索 ......................................... 23
2.1.1 理解Lucene 代码 ................................. 24
2.1.2 搜索的基本步骤 ................................... 31
2.2 为什么搜索不仅仅是索引 ............................... 33
2.3 用链接分析改进搜索结果 ............................... 35
2.3.1 PageRank 简介 ...................................... 35
2.3.2 计算PageRank 向量 ............................. 37
2.3.3 alpha：网页间跳转的影响 .................. 38
2.3.4 理解幂方法 ........................................... 40
2.3.5 结合索引分值和PageRank 分值 ......... 45
2.4 根据用户点击改进搜索结果 ........................... 47
2.4.1 用户点击初探 ....................................... 48
2.4.2 朴素贝叶斯分类器的使用 ................... 50
2.4.3 整合Lucene 索引、PageRank 和用户点击 ........................................ 54
2.5 Word、PDF 等无链接文档的排序 .................. 58
2.5.1 DocRank 算法简介 ............................... 58
2.5.2 DocRank 的原理 ................................... 60
2.6 大规模实现的有关问题 ................................... 65
2.7 用户得到了想要的结果吗？精确度和查全率 ............................................... 67
2.8 总结 ................... 69
2.9 To Do ................. 70
2.10 参考资料 ......... 72
3 推荐系统 .. 73
3.1 一个在线音乐商店：基本概念 ....................... 74
3.1.1 距离与相似度的概念 ........................... 75
3.1.2 走近相似度的计算 ............................... 80
3.1.3 什么才是最好的相似度计算公式 ....... 83
3.2 推荐引擎是怎么工作的 ................................... 84
3.2.1 基于相似用户的推荐 ........................... 85
3.2.2 基于相似条目的推荐 ........................... 94
3.2.3 基于内容的推荐 ................................... 98
3.3 推荐朋友、文章与新闻报道 ......................... 104
3.3.1 MyDiggSpace.com 简介 ..................... 105
3.3.2 发现朋友 ............................................. 106
3.3.3 DiggDelphi 的内部工作机制 ............. 108
3.4 像Netflix.com 那样推荐电影 ........................ 114
3.4.1 电影数据集的介绍及推荐器 ............. 114
3.4.2 数据标准化与相关系数 ..................... 117
3.5 大规模的实现与评估 ..................................... 123
3.6 总结 ................. 124
3.7 To Do ............... 125
3.8 参考资料 ......... 127
4 聚类：事物的分组 .................................. 128
4.1 聚类的需求 ..... 129
4.1.1 网站中的用户组：案例研究 ............. 129
4.1.2 用SQL order by 子句分组 ................. 131
4.1.3 用数组排序分组 ................................. 132
4.2 聚类算法概述 . 135
4.2.1 基于分组结构的聚类算法分类 ......... 136
4.2.2 基于数据类型和结构的聚类算法分类 ............................................. 137
4.2.3 根据数据规模的聚类算法分类 ......... 137
4.3 基于链接的算法 ............................................. 138
4.3.1 树状图：基本的聚类数据结构 ......... 139
4.3.2 基于链接的算法概况 ......................... 141
4.3.3 单链接算法 ......................................... 142
4.3.4 平均链接算法 ..................................... 144
4.3.5 最小生成树算法 ................................. 147
4.4 k-means 算法 .. 149
4.4.1 初识k-means 算法 ............................. 150
4.4.2 k-means 的内部原理 .......................... 151
4.5 鲁棒的链接型聚类（ROCK） ...................... 153
4.5.1 ROCK 简介 ......................................... 154
4.5.2 为什么ROCK 这么强大 .................... 154
4.6 DBSCAN......... 159
4.6.1 基于密度的算法简介 ......................... 159
4.6.2 DBSCAN 的原理 ................................ 162
4.7 超大规模数据聚类 ......................................... 165
4.7.1 计算复杂性 ......................................... 166
4.7.2 高维度 . 167
4.8 总结 ................. 168
4.9 To Do ............... 169
4.10 参考资料 ....... 171
5 分类：把事物放到它该在的地方 ............ 172
5.1 对分类的需求 . 173
5.2 分类器的概述 . 177
5.2.1 结构分类算法 ..................................... 178
5.2.2 统计分类算法 ..................................... 180
5.2.3 分类器的生命周期 ............................. 181
5.3 邮件的自动归类与垃圾邮件过滤 ................. 182
5.3.1 朴素贝叶斯分类 ................................. 184
5.3.2 基于规则的分类 ................................. 197
5.4 用神经网络做欺诈检测 ................................. 210
5.4.1 交易数据中关于欺诈检测的一个用例 ............................................. 210
5.4.2 神经网络概览 ..................................... 212
5.4.3 一个可用的神经网络欺诈检测器 ..... 214
5.4.4 神经网络欺诈检测器剖析 ................. 218
5.4.5 创建通用神经网络的基类 ................. 226
5.5 你的结果可信吗 ............................................. 232
5.6 大数据集的分类 ............................................. 235
5.7 总结 ................. 237
5.8 To Do ............... 239
5.9 参考资料 ......... 242
6 分类器组合 ............................................. 244
6.1 信贷价值：分类器组合案例研究 ................. 246
6.1.1 数据的简要说明 ................................. 247
6.1.2 为真实问题生成人工数据 ................. 250
6.2 用单分类器做信用评估 ................................. 255
6.2.1 朴素贝叶斯的基准线 ......................... 255
6.2.2 决策树基准线 ..................................... 258
6.2.3 神经网络的基准线 ............................. 260
6.3 在同一个数据集中比较多个分类器 ............. 263
6.3.1 McNemar 检验 .................................... 264
6.3.2 差额比例检验 ..................................... 266
6.3.3 Cochran Q 检验与F 检验 .................. 268
6.4 bagging: bootstrap 聚合（bootstrap aggregating） ....................................... 270
6.4.1 bagging 实例 ....................................... 272
6.4.2 bagging 分类器底层细节 ................... 274
6.4.3 分类器集成 ......................................... 276
6.5 boosting：一种迭代提高的方法 ................... 279
6.5.1 boosting 分类器实例 .......................... 280
6.5.2 boosting 分类器底层细节 .................. 282
6.6 总结 ................. 286
6.7 To Do ............... 288
6.8 参考资料 ......... 292
7 智能技术大汇集：一个智能新闻门户 ..... 293
7.1 功能概览 ......... 295
7.2 获取并清洗内容 ............................................. 296
7.2.1 各就各位——预备——开抓！ .......... 296
7.2.2 搜索预备知识回顾 ............................. 298
7.2.3 一个抓取并处理好的新闻数据集 ..... 299
7.3 搜索新闻 ......... 301
7.4 分配新闻类别 . 304
7.4.1 顺序问题 ............................................. 304
7.4.2 使用NewsProcessor 类进行分类 ...... 309
7.4.3 分类器 . 310
7.4.4 分类策略：超越底层的分类 ............. 313
7.5 用NewsProcessor 类创建新闻分组 .............. 316
7.5.1 聚类全部文章 ..................................... 317
7.5.2 在一个新闻类别中聚类文章 ............. 321
7.6 基于用户评分的动态内容展示 ..................... 325
7.7 总结 ................. 328
7.8 To Do ............... 329
7.9 参考资料 ......... 333
附录A BeanShell 简介 .............................. 334
A.1 什么是BeanShell .................................. 334
A.2 为什么使用BeanShell .......................... 335
A.3 运行BeanShell ...................................... 335
A.4 参考资料 ............................................... 336
附录B 网络采集 ........................................ 337
B.1 爬虫组件概况 ....................................... 337
B.1.1 采集的步骤 .............................. 338
B.1.2 我们的简单爬虫 ...................... 338
B.1.3 开源Web 爬虫 ......................... 339
B.2 参考资料 ............................................... 340
附录C 数学知识回顾 ................................. 341
C.1 向量和矩阵 ........................................... 341
C.2 距离的度量 ........................................... 342
C.3 高级矩阵方法 ....................................... 344
C.4 参考资料 ............................................... 344
附录D 自然语言处理 ................................. 345
D.1 参考资料 ............................................... 347
附录E 神经网络 ........................................ 348
E.1 参考资料 ............................................... 349
索引 ............. 350
· · · · · · (收起)

读后感

评分☆☆☆☆☆

花了半个多月的时间断断续续地看完了这本书，说说感受。 1. 先说这本书的适用人群，在译者序里说是学生和需要梳理的工作者，但是在我看来，我觉得最佳的订位，应该是之前没有过相关经验，然后需要用最快的速度完成一个智能系统的人。因为本书把所有的知识简单化，当然随之的也...

评分☆☆☆☆☆

说实话，这本书也就只够看看目录，如果还有其他的价值的话，可能因为是国外的书翻译过来的，本身有些参考文献和开源工具介绍还不错，权且看看机器学习和数据挖掘等智能算法的应用方式罢了。如果真要深入研究其中的算法，我觉得还是找其他书吧，这本书对算法讲解...

评分☆☆☆☆☆

Yooreeka-20130127 bsc.sh 里的配置文件加载包名跟lib里的都不一样，而且就找不到 Yooreeka.jar 这个请过来人指点～～～～～～～～～～～

评分☆☆☆☆☆

最近在阿稳的带领下翻译一本算法方面的书，<a href="http://www.amazon.com/gp/product/1933988665/" target="_blank">Algorithms of Intelligent Web</a>。讲的主要内容是诸如分类、聚类、推荐系统、搜索等等所谓智能算法在Web应用中的使用。例如，Amazon如果根据用户的购买和...

用户评价

评分☆☆☆☆☆

读完第一部分关于基础数据结构与并行计算模型的内容，我深感作者在理论深度上的挖掘是极其扎实的。他并没有停留在教科书式的罗列定义，而是深入剖析了不同模型下，时间复杂度和空间效率的权衡艺术。特别是对于分布式哈希表的剖析，作者不仅详细阐述了CRDTs（无冲突复制数据类型）的数学基础，还巧妙地结合了几个经典的数据库一致性案例进行反向验证，这种“以终为始”的讲解方式，极大地增强了知识的可迁移性。我发现自己在理解像向量时钟这种概念时，比以往阅读其他材料时要顺畅得多，这归功于作者在类比和举例上的独到匠心。唯一略感遗憾的是，在涉及最新的量子计算对传统算法的潜在颠覆性影响这块，篇幅略显单薄，或许是考虑到当前技术的成熟度，但对于前沿探索者而言，此处若能增加更多展望性的探讨，必将更添价值。

评分☆☆☆☆☆

这本书在算法实现细节上的坦诚和详尽，简直是为实战派开发者量身定做的“武功秘籍”。作者似乎毫不保留地公开了自己的“私藏”优化技巧。我尝试着将书中关于内存池分配和垃圾回收（GC）优化的几段C++代码应用到我目前的一个高性能计算项目中，效果立竿见影。那些针对特定硬件架构的位操作技巧，以及如何规避现代CPU的流水线停顿，讲得透彻入骨。它不像某些书籍那样，只停留在伪代码层面，而是直接给出了可以编译运行、且经过性能压测的代码骨架。这种“手把手教你打造利器”的风格，让晦涩的底层优化变得触手可及。当然，对于初学者来说，这些内容可能会显得过于“硬核”和陡峭，可能需要配合一些扎实的底层知识储备才能真正消化吸收其中的精髓。但这恰恰也说明了这本书的目标用户群定位的精准——那些渴望突破性能瓶颈的资深工程师。

评分☆☆☆☆☆

这本书的装帧设计着实让人眼前一亮，封面那种深邃的蓝色调搭配简洁的几何图形，一下子就把人带入了一种冷静、理性的氛围中。内页的纸张质感也非常棒，厚实且光滑，即便是长时间阅读，眼睛也不会感到明显的疲劳。我尤其欣赏作者在排版上的用心，无论是章节的划分，还是代码示例的呈现，都做到了清晰明了。那些复杂的算法流程图，借助精心的色彩搭配和图例说明，即便是初次接触这些概念的读者，也能迅速抓住核心脉络。不过，话说回来，我更希望在章节的开头，能多一些对该部分内容在实际应用场景中的简要介绍，这样能帮助读者更快地建立起理论与实践的连接点。总的来说，作为一本技术书籍，它在视觉和阅读体验上已经做到了行业内的顶尖水平，体现了出版方对知识载体的尊重，这是很多技术书籍常常忽略的细节。对于那些注重阅读体验的工程师来说，这本书放在书架上本身就是一种享受。

评分☆☆☆☆☆

这本书的章节逻辑组织，简直是一场精心编排的交响乐，每一个乐章都承接得天衣无缝，却又各自独立成篇，散发出独特的光彩。从最基础的图论遍历到高维空间中的近似搜索，作者构建了一个严密的知识体系，犹如一座层层递进的知识金字塔。我注意到，作者在引入如蒙特卡洛树搜索（MCTS）等复杂决策算法时，并没有急于展示其复杂的递归结构，而是先从博弈论的直觉层面进行铺垫，逐步引入概率模型，使得最终的公式推导显得水到渠成，而非突兀的空中楼阁。这种循序渐进的引导方式，极大地降低了复杂概念的认知负荷。唯一的不足，或许是对于某些在学术界尚存争议的新兴优化策略，作者的立场略显保守，我期待看到更多关于不同学派观点碰撞的讨论，来激发读者的批判性思维。

评分☆☆☆☆☆

读完这本书，最大的感受是作者对“效率”二字的理解已经达到了哲学的高度。他探讨的不仅仅是算法层面的$O(n)$或$O(log n)$，更是如何在资源受限的真实世界中，实现“够用就好”的务实主义。特别是最后几章关于“在线学习”与“实时决策”的章节，作者将贝叶斯推理、强化学习的框架与实际的服务器负载均衡场景做了完美融合。他展示了一种思维模式：算法不是孤立存在的工具，而是嵌入在整个系统架构中的一个动态反馈单元。这种宏观的视角，让我对自己过去调试算法时过于局限于代码块的狭隘思维有了深刻的反思。这本书的价值，已经超越了一本技术手册的范畴，它更像是一本关于如何用最精妙的数学工具解决最棘手工程难题的思维指南。它教会我，真正的智能，在于如何在不完美的信息和有限的计算力下，做出最优的妥协。

评分☆☆☆☆☆

实践向的，可惜太旧了。要是理论向的就没那么容易过时

评分☆☆☆☆☆

实践向的，可惜太旧了。要是理论向的就没那么容易过时

评分☆☆☆☆☆

实践向的，可惜太旧了。要是理论向的就没那么容易过时

评分☆☆☆☆☆

实践向的，可惜太旧了。要是理论向的就没那么容易过时

评分☆☆☆☆☆

实践向的，可惜太旧了。要是理论向的就没那么容易过时