Web Scraping with Python pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

Ryan Mitchell

数据科学家、软件工程师，目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前，曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作，主要面向金融和零售业。另著有Instant Web Scraping with Java。

出版者:O'Reilly Media

作者:Ryan Mitchell

出品人:

页数:256

译者:

出版时间:2015-7-24

价格:USD 31.99

装帧:Paperback

isbn号码:9781491910290

丛书系列:

图书标签:

Python
爬虫
scraping
数据挖掘
计算机
编程
Programming
数据处理

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

承接住宅自建房室内改造装修设计免费咨询 QQ：624617358 一级注册建筑师亲自为您回答、经验丰富，价格亲民。无论项目大小，都全力服务。期待合作，欢迎咨询！QQ：624617358

想要找书就要到本本书屋

onlinetoolsland.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

读后感

评分☆☆☆☆☆

1.可以尝试使用Google API 2.对于容易被封杀的站点使用tor来匿名 3.使用Tesseract识别验证码，可以训练特殊字体提高识别率 4.爬取整个网站的外链链接是件容易的事情 5.使用selenium作为测试网站的框架 6.注意cookie和request header的使用，努力让网站不把你当做爬虫对待

评分☆☆☆☆☆

第177页的代码从逻辑上就不对啊，import的pytesseract就没用，而是通过subprocess调用，这应该是第一版的思路，不过我也搞不清这是作者还是译者的锅，把代码改成如下更合理 import time from urllib.request import urlretrieve from PIL import Image import pytesseract from...

评分☆☆☆☆☆

诚然，这本书里面提到的一些python库不一定是最好的，但是整个爬虫的思路，还是非常值得大家借鉴。其实python的语法，以及爬虫的代码段，都不难，就是写爬虫的过程中，需要注意的事项和有可能踩到的坑，是我比较看中的。书中提到了一点，就是修改浏览器的header，默认貌似...

评分☆☆☆☆☆

第三章有好几个地方出现“分号”，但又实在不明白哪里有分号，只好查了原文。原文是 colons，也就是冒号。写在这里，给其他同学提个醒。：这是冒号；这是分号公平地说，原书中也有一些低级错误，比如第七章开始不久，有个函数里把 input 写成了content，中文版照抄了...

用户评价

评分☆☆☆☆☆

无力吐槽，书中代码有不少错误，建议对照一下GitHub以及网站上的errata

评分☆☆☆☆☆

非常全面，web信息获取的很多方面都提到了：基本的网页html解析（beautifulsoup），站点链接，全网链接，利用api，基本的数据清理，自然语言的处理（NLTK），表单登录处理（requests），js解析（selenium），图片文本识别（tesseract）。这么全面，当然不算深入，对于入门了解整体方面非常不错。

评分☆☆☆☆☆

好入门，不深入

评分☆☆☆☆☆

从入门到进阶的写爬虫，其中CATCHA的识别／文本分析／反防爬虫策略／登录／JS和Cookies的处理，都是干货。书页数不多，但能解决这一领域的问题，实属干货。

评分☆☆☆☆☆

内容很全面。