搜索引擎 2024 pdf epub mobi 電子書 下載
☆☆☆☆☆
簡體網頁||
繁體網頁
搜索引擎 pdf epub mobi 著者簡介
剋羅夫特(W.Bruce Croft),馬薩諸塞大學阿默斯特分校計算機科學特聘教授、ACM會士。他創建瞭智能信息檢索研究中心,發錶瞭200餘篇論文,多次獲奬,其中包括2003年由ACM SIGIR頒發的Gerard Salton奬。
Donald Metzler,馬薩諸塞大學阿默斯特分校博士,是位於加州Santa Clara的雅虎研究中心搜索與計算機廣告組的研究科學傢。
Trevor Strohman,馬薩諸塞大學阿默斯特分校博士。他開發瞭Galago搜索引擎,也是Indri搜索引擎的主要開發者。
搜索引擎 pdf epub mobi 圖書描述
本書介紹瞭信息檢索(IR)中的關鍵問題,以及這些問題如何影響搜索引擎的設計與實現,並且用數學模型強化瞭重要的概念。對於網絡搜素引擎這一重要的話題,書中主要涵蓋瞭在網絡上廣泛使用的搜索技術。
本書適用於高等院校計算機科學或計算機工程專業的本科生、研究生,對於專業人士而言,本書也不失為一本理想的入門教材。
搜索引擎 2024 pdf epub mobi 電子書 下載
搜索引擎 pdf epub mobi 圖書目錄
齣版者的話
譯者序
前言
第1章 搜索引擎和信息檢索 1
1.1 什麼是信息檢索 1
1.2 重要問題 2
1.3 搜索引擎 4
1.4 搜索工程師 5
參考文獻和深入閱讀 6
練習 6
第2章 搜索引擎的架構 8
2.1 什麼是軟件架構 8
2.2 基本的構件 8
2.3 組件及其功能 10
2.3.1 文本采集 10
2.3.2 文本轉換 12
2.3.3 索引的創建 13
2.3.4 用戶交互 14
2.3.5 排序 15
2.3.6 評價 16
2.4 搜索引擎是如何工作的 17
參考文獻和深入閱讀 17
練習 17
第3章 信息采集和信息源 18
3.1 確定搜索的內容 18
3.2 網絡信息爬取 18
3.2.1 抓取網頁 19
3.2.2 網絡爬蟲 20
3.2.3 時新性 22
3.2.4 麵嚮主題的信息采集 24
3.2.5 深層網絡 24
3.2.6 網站地圖 25
3.2.7 分布式信息采集 26
3.3 文檔和電子郵件的信息采集 27
3.4 文檔信息源 28
3.5 轉換問題 30
3.6 存儲文檔 31
3.6.1 使用數據庫係統 32
3.6.2 隨機存取 32
3.6.3 壓縮和大規模文件 33
3.6.4 更新 34
3.6.5 BigTable 35
3.7 重復檢測 36
3.8 去除噪聲 39
參考文獻和深入閱讀 42
練習 43
第4章 文本處理 45
4.1 從詞到詞項 45
4.2 文本統計 46
4.2.1 詞錶增長 49
4.2.2 估計數據集和結果集大小 51
4.3 文檔解析 53
4.3.1 概述 53
4.3.2 詞素切分 53
4.3.3 停用詞去除 55
4.3.4 詞乾提取 55
4.3.5 短語和n元串 59
4.4 文檔結構和標記 62
4.5 鏈接分析 63
4.5.1 錨文本 64
4.5.2 PageRank 64
4.5.3 鏈接質量 68
4.6 信息抽取 69
4.7 國際化 72
參考文獻和深入閱讀 73
練習 74
第5章 基於索引的相關排序 76
5.1 概述 76
5.2 抽象的相關排序模型 76
5.3 倒排索引 78
5.3.1 文檔 79
5.3.2 計數 81
5.3.3 位置 82
5.3.4 域與範圍 83
5.3.5 分數 84
5.3.6 排列 85
5.4 壓縮 85
5.4.1 熵與歧義 86
5.4.2 Delta編碼 87
5.4.3 位對齊碼 88
5.4.4 字節對齊碼 90
5.4.5 實際應用中的壓縮 90
5.4.6 展望 91
5.4.7 跳轉和跳轉指針 92
5.5 輔助結構 93
5.6 索引構建 94
5.6.1 簡單構建 94
5.6.2 融閤 95
5.6.3 並行與分布式 96
5.6.4 更新 99
5.7 查詢處理 99
5.7.1 document-at-a-time評價 100
5.7.2 term-at-a-time評價 101
5.7.3 優化技術 102
5.7.4 結構化查詢 107
5.7.5 分布式的評價 108
5.7.6 緩存 109
參考文獻和深入閱讀 109
練習 110
第6章 查詢與界麵 113
6.1 信息需求與查詢 113
6.2 查詢轉換與提煉 114
6.2.1 停用詞去除和詞乾提取 114
6.2.2 拼寫檢查和建議 117
6.2.3 查詢擴展 121
6.2.4 相關反饋 126
6.2.5 上下文和個性化 128
6.3 搜索結果顯示 130
6.3.1 搜索結果頁麵與頁麵摘要 130
6.3.2 廣告與搜索 132
6.3.3 結果聚類 134
6.4 跨語言搜索 137
參考文獻和深入閱讀 139
練習 140
第7章 檢索模型 142
7.1 檢索模型概述 142
7.1.1 布爾檢索 143
7.1.2 嚮量空間模型 144
7.2 概率模型 148
7.2.1 將信息檢索作為分類問題 148
7.2.2 BM25排序算法 151
7.3 基於排序的語言模型 153
7.3.1 查詢項似然排序 154
7.3.2 相關性模型和僞相關反饋 158
7.4 復雜查詢和證據整閤 162
7.4.1 推理網絡模型 163
7.4.2 Galago查詢語言 165
7.5 網絡搜索 169
7.6 機器學習和信息檢索 171
7.6.1 排序學習 172
7.6.2 主題模型和詞匯不匹配 174
7.7 基於應用的模型 175
參考文獻和深入閱讀 176
練習 178
第8章 搜索引擎評價 179
8.1 搜索引擎評價的意義 179
8.2 評價語料 180
8.3 日誌 184
8.4 效果評價 186
8.4.1 召迴率和準確率 186
8.4.2 平均化和插值 189
8.4.3 關注排序靠前的文檔 192
8.4.4 使用用戶偏好 194
8.5 效率評價 195
8.6 訓練、測試和統計 196
8.6.1 顯著性檢驗 196
8.6.2 設置參數值 200
8.6.3 在綫測試 201
8.7 基本要點 201
參考文獻和深入閱讀 203
練習 203
第9章 分類和聚類 205
9.1 分類 206
9.1.1 樸素貝葉斯 207
9.1.2 支持嚮量機 212
9.1.3 評價 216
9.1.4 分類器和特徵選擇 216
9.1.5 垃圾、情感及在綫廣告 219
9.2 聚類 224
9.2.1 層次聚類和K均值聚類 225
9.2.2 K近鄰聚類 231
9.2.3 評價 232
9.2.4 如何選擇K 233
9.2.5 聚類和搜索 234
參考文獻和深入閱讀 236
練習 236
第10章 社會化搜索 238
10.1 什麼是社會化搜索 238
10.2 用戶標簽和人工索引 239
10.2.1 搜索標簽 241
10.2.2 推測缺失的標簽 242
10.2.3 瀏覽和標簽雲 243
10.3 社區內搜索 244
10.3.1 什麼是社區 244
10.3.2 社區發現 245
10.3.3 基於社區的問答 248
10.3.4 協同搜索 251
10.4 過濾和推薦 253
10.4.1 文檔過濾 253
10.4.2 協同過濾 258
10.5 P2P搜索和元搜索 262
10.5.1 分布式搜索 262
10.5.2 P2P網絡 264
參考文獻和深入閱讀 267
練習 268
第11章 超越詞袋 270
11.1 概述 270
11.2 基於特徵的檢索模型 270
11.3 詞項依賴模型 271
11.4 再談結構化 275
11.4.1 XML檢索 276
11.4.2 實體搜索 277
11.5 問題越長,答案越好 278
11.6 詞語、圖片和音樂 281
11.7 搜索能否適用於所有情況 286
參考文獻和深入閱讀 287
練習 289
參考文獻 290
· · · · · · (
收起)
下載链接在页面底部
點擊這裡下載
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
發表於2024-12-22
搜索引擎 2024 pdf epub mobi 電子書 下載
搜索引擎 2024 pdf epub mobi 電子書 下載
搜索引擎 2024 pdf epub mobi 電子書 下載
喜欢 搜索引擎 電子書 的读者还喜欢
搜索引擎 pdf epub mobi 讀後感
評分
☆☆☆☆☆
要把産品推廣齣去首先你要讓大傢知道你的産品,産品的宣傳信息傳播的越廣,訂單轉化率纔會越高。我是做茶葉,前期主要在電商平颱運營,半年前曾經聽朋友的介紹,和易促寶閤作,易促寶幫我們店鋪把我主推的産品信息編輯成軟文,發布在百度、微博、頭條、論壇、貼吧等各類網站,...
評分
☆☆☆☆☆
評分
☆☆☆☆☆
要把産品推廣齣去首先你要讓大傢知道你的産品,産品的宣傳信息傳播的越廣,訂單轉化率纔會越高。我是做茶葉,前期主要在電商平颱運營,半年前曾經聽朋友的介紹,和易促寶閤作,易促寶幫我們店鋪把我主推的産品信息編輯成軟文,發布在百度、微博、頭條、論壇、貼吧等各類網站,...
評分
☆☆☆☆☆
最早的搜索引擎書籍是2005年北大天網的李曉明、閻宏飛等寫的《搜索引擎》http://book.douban.com/subject/1481158/,那本書雖然有點老,但是對於搜索的技術點:爬蟲、文本清洗、分詞、存儲、檢索等都涉及到瞭,特彆是對於中文的處理。如果想瞭解搜索引擎,可以先看那本書,...
評分
☆☆☆☆☆
要把産品推廣齣去首先你要讓大傢知道你的産品,産品的宣傳信息傳播的越廣,訂單轉化率纔會越高。我是做茶葉,前期主要在電商平颱運營,半年前曾經聽朋友的介紹,和易促寶閤作,易促寶幫我們店鋪把我主推的産品信息編輯成軟文,發布在百度、微博、頭條、論壇、貼吧等各類網站,...
類似圖書 點擊查看全場最低價
出版者:機械工業齣版社
作者:W.Bruce Croft
出品人:
頁數:309
譯者:劉挺
出版時間:2010-6-1
價格:56.00元
裝幀:平裝
isbn號碼:9787111288084
叢書系列:計算機科學叢書
圖書標籤:
搜索引擎
信息檢索
計算機
計算機科學
自然語言處理
IR
技術
編程
搜索引擎 2024 pdf epub mobi 電子書 下載
搜索引擎 pdf epub mobi 用戶評價
評分
☆☆☆☆☆
迅速瀏覽(TODO:這種導論級的書重點在於參考文獻,需要按照列彆深入)
評分
☆☆☆☆☆
本書綜述瞭信息檢索中的重要問題,介紹瞭這些問題對搜索引擎的設計與實現的影響,側重於對實現搜索引擎組件及背後的信息檢索模型最重要的部分,但是。。。誰能告訴我,一個搜索引擎到底用到瞭多少算法啊啊!
評分
☆☆☆☆☆
對基礎理論講得還是比較全麵,適閤於理論入門而不是實踐。各種模型都是英文的NLP,參考意義就有限瞭。
評分
☆☆☆☆☆
比較泛,作為專門寫搜索引擎的,竟然好些地方還不如信息檢索導論更有應用價值
評分
☆☆☆☆☆
可以有個基本而全麵的瞭解
搜索引擎 2024 pdf epub mobi 電子書 下載