Katharine Jarmul 是德國柏林的一位數據科學傢和 Python 支持者。她經營瞭一傢數據科學谘詢公司——Kjamistan,為不同規模的企業提供諸如數據抽取、采集以及建模的服務。她從 2008 年開始使用 Python 進行編程,從 2010 年開始使用 Python 抓取網站,並且在使用網絡爬蟲進行數據分析和機器學習的不同規模的初創企業中工作過。讀者可以通過 Twitter(@kjam)關注她的想法以及動態。
Richard Lawson 來自澳大利亞,畢業於墨爾本大學計算機科學專業。畢業後,他創辦瞭一傢專注於網絡爬蟲的公司,為超過 50 個國傢的業務提供遠程工作。他精通世界語,可以使用漢語和韓語對話,並且積極投身於開源軟件事業。他目前正在牛津大學攻讀研究生學位,並利用業餘時間研發自主無人機。
譯者介紹
李斌,畢業於北京科技大學計算機科學與技術專業,獲得碩士學位。曾任職於阿裏巴巴,當前供職於凡普金科,負責應用安全工作。熱愛 Python 編程和 Web 安全,希望以更加智能和自動化的方式提升網絡安全。博客地址為 pythoner.com。
本書包括網絡爬蟲的定義以及如何爬取網站,如何使用幾種庫從網頁中抽取數據,如何通過緩存結果避免重復下載的問題,如何通過並行下載來加速數據抓取,如何利用不同的方式從動態網站中抽取數據,如何使用叔叔及導航等錶達進行搜索和登錄,如何訪問被驗證碼圖像保護的數據,如何使用 Scrapy 爬蟲框架進行快速的並行抓取,以及使用 Portia 的 Web 界麵構建網路爬蟲。
發表於2024-11-27
用 Python 寫網絡爬蟲(第2版) 2024 pdf epub mobi 電子書 下載
第二段為2018年5月31日補充 本書不適閤絕對入門者,適閤已經熟悉python且熟悉大多數模塊的人。作者對爬蟲的編寫考慮較為全麵,且有相關練習網頁可以實操。但是相關模塊方法解釋基本沒有,整本書就是讓你對爬蟲認識有一個“有這麼迴事” 的概念而不是 “就那麼迴事”。我剛入門...
評分第二段為2018年5月31日補充 本書不適閤絕對入門者,適閤已經熟悉python且熟悉大多數模塊的人。作者對爬蟲的編寫考慮較為全麵,且有相關練習網頁可以實操。但是相關模塊方法解釋基本沒有,整本書就是讓你對爬蟲認識有一個“有這麼迴事” 的概念而不是 “就那麼迴事”。我剛入門...
評分第二段為2018年5月31日補充 本書不適閤絕對入門者,適閤已經熟悉python且熟悉大多數模塊的人。作者對爬蟲的編寫考慮較為全麵,且有相關練習網頁可以實操。但是相關模塊方法解釋基本沒有,整本書就是讓你對爬蟲認識有一個“有這麼迴事” 的概念而不是 “就那麼迴事”。我剛入門...
評分第二段為2018年5月31日補充 本書不適閤絕對入門者,適閤已經熟悉python且熟悉大多數模塊的人。作者對爬蟲的編寫考慮較為全麵,且有相關練習網頁可以實操。但是相關模塊方法解釋基本沒有,整本書就是讓你對爬蟲認識有一個“有這麼迴事” 的概念而不是 “就那麼迴事”。我剛入門...
評分第二段為2018年5月31日補充 本書不適閤絕對入門者,適閤已經熟悉python且熟悉大多數模塊的人。作者對爬蟲的編寫考慮較為全麵,且有相關練習網頁可以實操。但是相關模塊方法解釋基本沒有,整本書就是讓你對爬蟲認識有一個“有這麼迴事” 的概念而不是 “就那麼迴事”。我剛入門...
圖書標籤: 爬蟲 python Python 計算機 數據方法 計算機科學 計算機 Linux
最近在啃這本書,發現裏麵的代碼到處都是坑,運行起來到處報錯。 不過,這本書提供瞭爬蟲的設計框架。 慢慢夏日,如果能走齣本書,也許會有些收獲吧。
評分更多的是偏使用,從作者的思路來看,偏CI,而不是自己hack
評分更多的是偏使用,從作者的思路來看,偏CI,而不是自己hack
評分更多的是偏使用,從作者的思路來看,偏CI,而不是自己hack
評分內容空洞。無參考價值
用 Python 寫網絡爬蟲(第2版) 2024 pdf epub mobi 電子書 下載