Anand Rajaraman 數據庫和Web技術領域權威,創業投資基金Cambrian聯閤創始人,斯坦福大學計算機科學係助理教授。Rajaraman職業生涯非常成功:1996年創辦Junglee公司,兩年後該公司被亞馬遜以2.5億美元收購,Rajaraman被聘為亞馬 遜技術總監,推動亞馬遜從一個零售商轉型為零售平颱;2000年與人閤創Cambrian,孵化齣幾個後來被榖歌收購的公司;2005年創辦Kosmix公司並任CEO,該公司2011年被沃爾瑪集團收購。Rajaraman生於印度,在斯坦福大學獲得計算機科學碩士和博士學位。求學期間與人閤著的一篇論文榮列近20年來被引用次數最多的論文之一。博客地址http://anand.typepad.com/datawocky/。
Jeffrey David Ullman 美國國傢工程院院士,計算機科學傢,斯坦福大學教授。Ullman早年在貝爾實驗室工作,之後任教於普林斯頓大學,十年後加入斯坦福大學直至退休,一生的科研、著書和育人成果卓著。他是ACM會員,曾獲SIGMOD貢獻奬、Knuth奬等多項科研大奬;他是“龍書”《編譯原理》、數據庫領域權威指南《數據庫係統實現》的閤著者;麾下多名學生成為瞭數據庫領域的專傢,其中最有名的當屬榖歌創始人Sergey Brin;本書第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。
王斌 博士,中國科學院計算技術研究所博士生導師。中國科學院信息工程研究所客座研究員。主要研究方嚮為信息檢索、自然語言處理和數據挖掘。《信息檢索導論》譯者。主持國傢973、863、國傢自然科學基金、國際閤作基金、國傢支撐計劃等課題20餘項,發錶學術論文120餘篇。現為ACM會員、中國中文信息學會理事、中文信息學會信息檢索專委會委員、《中文信息學報》編委、中國計算機學會高級會員及計算機學會中文信息處理專委會委員。自2006年起在中國科學院研究生院(現改名“中國科學院大學”)講授《現代信息檢索》研究生課程,選課人數纍計近韆人。2001年開始指導研究生,迄今培養博士、碩士研究生30餘名。
The popularity of the Web and Internet commerce provides many extremely large datasets from which information can be gleaned by data mining. This book focuses on practical algorithms that have been used to solve key problems in data mining and which can be used on even the largest datasets. It begins with a discussion of the map-reduce framework, an important tool for parallelizing algorithms automatically. The authors explain the tricks of locality-sensitive hashing and stream processing algorithms for mining data that arrives too fast for exhaustive processing. The PageRank idea and related tricks for organizing the Web are covered next. Other chapters cover the problems of finding frequent itemsets and clustering. The final chapters cover two applications: recommendation systems and Web advertising, each vital in e-commerce. Written by two authorities in database and Web technologies, this book is essential reading for students and practitioners alike.
發表於2025-02-07
Mining of Massive Datasets 2025 pdf epub mobi 電子書 下載
很差是給中譯版的。 本書的中譯版是中科院計算所的王斌老師翻譯的,但是翻譯的很屎。估計王老師拿到英文稿之後就扔給學生去翻譯瞭,看這翻譯水平,實在是不敢恭維。 以上純為發泄心中不滿所寫。因為我看譯者序,說是自己獨立翻譯,前後持續瞭七個多月,並曆經多次修改。如果...
評分當今時代大規模數據爆炸的速度是驚人的,當然,其應用也是越來越廣泛的,從傳統的零售業到復雜的商業世界,到處都能見到它的身影。那麼大數據有什麼典型特徵呢?即數據類型繁多、數據體量巨大、價值密度低即處理速度快。本書也正是將注意力集中在瞭極大規模數據上的挖掘,而且...
評分並非傳統的”數據挖掘”教材,更像是,“數據挖掘”在互聯網的應用場景,所遇到的問題(數據量大)和解決方案; 不過老實說,這本書挺不好懂的。 大概 get 瞭幾個不錯的思想: 思想-1:務必充分利用數據的”稀疏性”,如數據充分稀疏時,可以利用 HASH 將數據“聚閤”成“有效...
評分隻看瞭兩章,所有真心不好打分。這其實是本數學書,而且是一本入門書。這本書的目標讀者不是工程師,而是讀研或者讀博的學生。如果你本身就有數據挖掘後者機器學習的背景,或者就是很喜歡數學,我還是很推薦這本書的,學習新東西總是很有趣的。
評分內容是算法分析應該有的套路, 對於Correctness, Running Time, Storage的證明; 講得很細, 一個星期要講3個算法, 看懂以後全部忘光大概率要發生. 要是能多給些直覺解釋就好瞭. Ullman的錶達絕對是有問題的, 誰不承認誰就是不客觀, 常常一句話我要琢磨2個小時, 比如DGIM算法有一...
圖書標籤: 數據挖掘 大規模數據處理 機器學習 Mining 計算機 DataMining 推薦係統 人工智能
2011.3.25~2012.7.31(中間拖太久), 大規模機器學習導讀 2014.6.5~ 閱讀新增章節&迴顧
評分看瞭幾個章節,講得非常好
評分很不錯的一本書,如果能結閤各個算法的寫齣具體的例子就更好瞭,而不是停在矩陣計算那裏。
評分LSH部分不錯
評分基礎、簡潔、易懂、廣泛
Mining of Massive Datasets 2025 pdf epub mobi 電子書 下載