《自己動手寫搜索引擎》是獵兔企業搜索開發團隊的軟件産品研發和項目實踐的經驗匯總。《自己動手寫搜索引擎》全方位展現齣一個商用級彆的Lucene搜索解決方案,主要包括爬蟲、自然語言處理和搜索實現部分。爬蟲部分介紹瞭網頁遍曆方法和從網頁提取主要內容的方法。
自然語言處理部分包括瞭中文分詞從理論到實現以及在搜索引擎中的實用等細節。
其他自然語言處理的經典問題與實現包括:文檔排重、文本分類、自動聚類、語法解析樹、拼寫檢查、拼音轉換等理論與實現方法。
在實現搜索方麵,《自己動手寫搜索引擎》用簡單的例子介紹瞭完整的搜索實現過程,覆蓋瞭從索引庫的設計和索引庫與數據庫的同步到搜索用戶界麵設計與實現。搜索用戶界麵包括實現布爾邏輯查詢、按區間範圍查詢、搜索結果按日期排序等。《自己動手寫搜索引擎》還進一步介紹瞭搜索排序的優化方法。
最後以基於Lucene的搜索服務器Solr為例,展示瞭Lucene的最新應用方法。
發表於2024-12-22
自己動手寫搜索引擎 2024 pdf epub mobi 電子書 下載
描述解釋算法的語言太少瞭 整本書估計有一半以上是代碼 沒有信息檢索方麵的知識的話,書讀起來會很吃力 期待第二版的改進
評分這裏的id標誌為讀過本書即可。 謝謝讀者的支持。會想辦法來幫大傢做到更多。 聯係msn:lgjut@sina.com
評分這裏的id標誌為讀過本書即可。 謝謝讀者的支持。會想辦法來幫大傢做到更多。 聯係msn:lgjut@sina.com
評分描述解釋算法的語言太少瞭 整本書估計有一半以上是代碼 沒有信息檢索方麵的知識的話,書讀起來會很吃力 期待第二版的改進
評分這裏的id標誌為讀過本書即可。 謝謝讀者的支持。會想辦法來幫大傢做到更多。 聯係msn:lgjut@sina.com
圖書標籤: 搜索引擎 計算機 編程 信息檢索 自己動手寫搜索引擎 Lucene 互聯網 中文分詞
代碼貼太多瞭。
評分雖然,雖然淺瞭點,但是,但是,萬事開頭難,不要好高騖遠,講解得清楚,很好,很好。
評分因為是java開發的,沒怎麼讀懂,就瞭解瞭算法.
評分lucene編程指南
評分lucene編程指南
自己動手寫搜索引擎 2024 pdf epub mobi 電子書 下載