《自己動手寫搜索引擎》是獵兔企業搜索開發團隊的軟件産品研發和項目實踐的經驗匯總。《自己動手寫搜索引擎》全方位展現齣一個商用級彆的Lucene搜索解決方案,主要包括爬蟲、自然語言處理和搜索實現部分。爬蟲部分介紹瞭網頁遍曆方法和從網頁提取主要內容的方法。
自然語言處理部分包括瞭中文分詞從理論到實現以及在搜索引擎中的實用等細節。
其他自然語言處理的經典問題與實現包括:文檔排重、文本分類、自動聚類、語法解析樹、拼寫檢查、拼音轉換等理論與實現方法。
在實現搜索方麵,《自己動手寫搜索引擎》用簡單的例子介紹瞭完整的搜索實現過程,覆蓋瞭從索引庫的設計和索引庫與數據庫的同步到搜索用戶界麵設計與實現。搜索用戶界麵包括實現布爾邏輯查詢、按區間範圍查詢、搜索結果按日期排序等。《自己動手寫搜索引擎》還進一步介紹瞭搜索排序的優化方法。
最後以基於Lucene的搜索服務器Solr為例,展示瞭Lucene的最新應用方法。
這裏的id標誌為讀過本書即可。 謝謝讀者的支持。會想辦法來幫大傢做到更多。 聯係msn:lgjut@sina.com
評分包括使用Java開發網絡爬蟲與Web數據挖掘等內容 http://www.lietu.com/images/WebCrawler.jpg
評分包括使用Java開發網絡爬蟲與Web數據挖掘等內容 http://www.lietu.com/images/WebCrawler.jpg
評分打開eclipse 然後把.project文件所在的路徑作為Java項目導入即可。 例如光驅是e盤,則可以把 E:第2章Chapter3JavaPart 整個作為Java項目導入eclipse。 具體執行方式是點擊右鍵選擇"import"菜單,齣來一個選擇窗口,然後選擇Existing Projects into Workspace。...
評分稻盛和夫曾經聽到新員工抱怨:"我把公司想得太好瞭沒想到其實福利製度並不健全,待遇也不怎麼樣"。結果稻盛和夫把抱怨的人罵瞭一頓:“沒錯,現在公司是不大,設備不足,製度也不健全。可是,讓公司成為一傢名聲響亮,福利製度完善的企業不正是你們的工作嗎?彆妄想撿現成的,...
初學者不適用,沒有條理
评分全是代碼太不給力瞭
评分初學者不適用,沒有條理
评分最基本的抓取網頁代碼例子都跑步起來的,,,,還寫毛綫爬蟲啊
评分全是代碼太不給力瞭
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 onlinetoolsland.com All Rights Reserved. 本本书屋 版权所有