搜索引擎 2024 pdf epub mobi 电子书
☆☆☆☆☆
简体网页||
繁体网页
搜索引擎 2024 pdf epub mobi 电子书 著者简介
克罗夫特(W.Bruce Croft),马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心,发表了200余篇论文,多次获奖,其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。
Donald Metzler,马萨诸塞大学阿默斯特分校博士,是位于加州Santa Clara的雅虎研究中心搜索与计算机广告组的研究科学家。
Trevor Strohman,马萨诸塞大学阿默斯特分校博士。他开发了Galago搜索引擎,也是Indri搜索引擎的主要开发者。
搜索引擎 电子书 图书目录
出版者的话
译者序
前言
第1章 搜索引擎和信息检索 1
1.1 什么是信息检索 1
1.2 重要问题 2
1.3 搜索引擎 4
1.4 搜索工程师 5
参考文献和深入阅读 6
练习 6
第2章 搜索引擎的架构 8
2.1 什么是软件架构 8
2.2 基本的构件 8
2.3 组件及其功能 10
2.3.1 文本采集 10
2.3.2 文本转换 12
2.3.3 索引的创建 13
2.3.4 用户交互 14
2.3.5 排序 15
2.3.6 评价 16
2.4 搜索引擎是如何工作的 17
参考文献和深入阅读 17
练习 17
第3章 信息采集和信息源 18
3.1 确定搜索的内容 18
3.2 网络信息爬取 18
3.2.1 抓取网页 19
3.2.2 网络爬虫 20
3.2.3 时新性 22
3.2.4 面向主题的信息采集 24
3.2.5 深层网络 24
3.2.6 网站地图 25
3.2.7 分布式信息采集 26
3.3 文档和电子邮件的信息采集 27
3.4 文档信息源 28
3.5 转换问题 30
3.6 存储文档 31
3.6.1 使用数据库系统 32
3.6.2 随机存取 32
3.6.3 压缩和大规模文件 33
3.6.4 更新 34
3.6.5 BigTable 35
3.7 重复检测 36
3.8 去除噪声 39
参考文献和深入阅读 42
练习 43
第4章 文本处理 45
4.1 从词到词项 45
4.2 文本统计 46
4.2.1 词表增长 49
4.2.2 估计数据集和结果集大小 51
4.3 文档解析 53
4.3.1 概述 53
4.3.2 词素切分 53
4.3.3 停用词去除 55
4.3.4 词干提取 55
4.3.5 短语和n元串 59
4.4 文档结构和标记 62
4.5 链接分析 63
4.5.1 锚文本 64
4.5.2 PageRank 64
4.5.3 链接质量 68
4.6 信息抽取 69
4.7 国际化 72
参考文献和深入阅读 73
练习 74
第5章 基于索引的相关排序 76
5.1 概述 76
5.2 抽象的相关排序模型 76
5.3 倒排索引 78
5.3.1 文档 79
5.3.2 计数 81
5.3.3 位置 82
5.3.4 域与范围 83
5.3.5 分数 84
5.3.6 排列 85
5.4 压缩 85
5.4.1 熵与歧义 86
5.4.2 Delta编码 87
5.4.3 位对齐码 88
5.4.4 字节对齐码 90
5.4.5 实际应用中的压缩 90
5.4.6 展望 91
5.4.7 跳转和跳转指针 92
5.5 辅助结构 93
5.6 索引构建 94
5.6.1 简单构建 94
5.6.2 融合 95
5.6.3 并行与分布式 96
5.6.4 更新 99
5.7 查询处理 99
5.7.1 document-at-a-time评价 100
5.7.2 term-at-a-time评价 101
5.7.3 优化技术 102
5.7.4 结构化查询 107
5.7.5 分布式的评价 108
5.7.6 缓存 109
参考文献和深入阅读 109
练习 110
第6章 查询与界面 113
6.1 信息需求与查询 113
6.2 查询转换与提炼 114
6.2.1 停用词去除和词干提取 114
6.2.2 拼写检查和建议 117
6.2.3 查询扩展 121
6.2.4 相关反馈 126
6.2.5 上下文和个性化 128
6.3 搜索结果显示 130
6.3.1 搜索结果页面与页面摘要 130
6.3.2 广告与搜索 132
6.3.3 结果聚类 134
6.4 跨语言搜索 137
参考文献和深入阅读 139
练习 140
第7章 检索模型 142
7.1 检索模型概述 142
7.1.1 布尔检索 143
7.1.2 向量空间模型 144
7.2 概率模型 148
7.2.1 将信息检索作为分类问题 148
7.2.2 BM25排序算法 151
7.3 基于排序的语言模型 153
7.3.1 查询项似然排序 154
7.3.2 相关性模型和伪相关反馈 158
7.4 复杂查询和证据整合 162
7.4.1 推理网络模型 163
7.4.2 Galago查询语言 165
7.5 网络搜索 169
7.6 机器学习和信息检索 171
7.6.1 排序学习 172
7.6.2 主题模型和词汇不匹配 174
7.7 基于应用的模型 175
参考文献和深入阅读 176
练习 178
第8章 搜索引擎评价 179
8.1 搜索引擎评价的意义 179
8.2 评价语料 180
8.3 日志 184
8.4 效果评价 186
8.4.1 召回率和准确率 186
8.4.2 平均化和插值 189
8.4.3 关注排序靠前的文档 192
8.4.4 使用用户偏好 194
8.5 效率评价 195
8.6 训练、测试和统计 196
8.6.1 显著性检验 196
8.6.2 设置参数值 200
8.6.3 在线测试 201
8.7 基本要点 201
参考文献和深入阅读 203
练习 203
第9章 分类和聚类 205
9.1 分类 206
9.1.1 朴素贝叶斯 207
9.1.2 支持向量机 212
9.1.3 评价 216
9.1.4 分类器和特征选择 216
9.1.5 垃圾、情感及在线广告 219
9.2 聚类 224
9.2.1 层次聚类和K均值聚类 225
9.2.2 K近邻聚类 231
9.2.3 评价 232
9.2.4 如何选择K 233
9.2.5 聚类和搜索 234
参考文献和深入阅读 236
练习 236
第10章 社会化搜索 238
10.1 什么是社会化搜索 238
10.2 用户标签和人工索引 239
10.2.1 搜索标签 241
10.2.2 推测缺失的标签 242
10.2.3 浏览和标签云 243
10.3 社区内搜索 244
10.3.1 什么是社区 244
10.3.2 社区发现 245
10.3.3 基于社区的问答 248
10.3.4 协同搜索 251
10.4 过滤和推荐 253
10.4.1 文档过滤 253
10.4.2 协同过滤 258
10.5 P2P搜索和元搜索 262
10.5.1 分布式搜索 262
10.5.2 P2P网络 264
参考文献和深入阅读 267
练习 268
第11章 超越词袋 270
11.1 概述 270
11.2 基于特征的检索模型 270
11.3 词项依赖模型 271
11.4 再谈结构化 275
11.4.1 XML检索 276
11.4.2 实体搜索 277
11.5 问题越长,答案越好 278
11.6 词语、图片和音乐 281
11.7 搜索能否适用于所有情况 286
参考文献和深入阅读 287
练习 289
参考文献 290
· · · · · · (
收起)
下载链接在页面底部
点击这里下载
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
发表于2024-11-24
搜索引擎 2024 pdf epub mobi 电子书
搜索引擎 2024 pdf epub mobi 电子书
搜索引擎 2024 pdf epub mobi 电子书
喜欢 搜索引擎 电子书 的读者还喜欢
搜索引擎 电子书 读后感
评分
☆☆☆☆☆
评分
☆☆☆☆☆
首先,十分感谢华章图书举办的这次图书免费试读活动。《搜索引擎-信息检索实践》是我读的第一本关于信息检索与搜索引擎方面的书籍,而且是我第一本如此认真去看的英文专业书籍。 本书作者W.Bruce Croft是一位著名的计算机教授,现任马萨诸塞大学阿莫特斯分校计算机科...
评分
☆☆☆☆☆
要把产品推广出去首先你要让大家知道你的产品,产品的宣传信息传播的越广,订单转化率才会越高。我是做茶叶,前期主要在电商平台运营,半年前曾经听朋友的介绍,和易促宝合作,易促宝帮我们店铺把我主推的产品信息编辑成软文,发布在百度、微博、头条、论坛、贴吧等各类网站,...
评分
☆☆☆☆☆
最早的搜索引擎书籍是2005年北大天网的李晓明、阎宏飞等写的《搜索引擎》http://book.douban.com/subject/1481158/,那本书虽然有点老,但是对于搜索的技术点:爬虫、文本清洗、分词、存储、检索等都涉及到了,特别是对于中文的处理。如果想了解搜索引擎,可以先看那本书,...
评分
☆☆☆☆☆
类似图书 点击查看全场最低价
出版者:机械工业出版社
作者:W.Bruce Croft
出品人:
页数:309
译者:刘挺
出版时间:2010-6-1
价格:56.00元
装帧:平装
isbn号码:9787111288084
丛书系列:计算机科学丛书
图书标签:
搜索引擎
信息检索
计算机
计算机科学
自然语言处理
IR
技术
编程
搜索引擎 2024 pdf epub mobi 电子书 图书描述
本书介绍了信息检索(IR)中的关键问题,以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。
本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生,对于专业人士而言,本书也不失为一本理想的入门教材。
搜索引擎 2024 pdf epub mobi 电子书
搜索引擎 2024 pdf epub mobi 电子书
搜索引擎 2024 pdf epub mobi 用户评价
评分
☆☆☆☆☆
复习一下古典互联网
评分
☆☆☆☆☆
现在社会化标签搜索和分类聚类搜索已经普及化,而语义语法检索也因为Quora和SO的兴起而越来越棒,但是超越词袋的搜索(图像视频)还是任重而道远啊……
评分
☆☆☆☆☆
[先前所读]几个月前阅读的,不是很透彻,有时间再读
评分
☆☆☆☆☆
不错,有点经验之后再看觉得蛮好的
评分
☆☆☆☆☆
粗粒度概览搜索引擎的主要技术领域,每个领域介绍1-2个经典算法。比较适合新进从业者。
搜索引擎 2024 pdf epub mobi 电子书