网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书


网络数据采集技术:Java网络爬虫实战

简体网页||繁体网页

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书 著者简介

作者简介

钱洋

合肥工业大学管理科学与工程系博士、CSDN博客专家。作为技术人员参与过多个横向、纵向学术课题,负责数据采集系统的设计与开发工作。在CSDN(博客名称:HFUT_qianyang)上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客。

姜元春

合肥工业大学教授、博士生导师。长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作。先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作。


网络数据采集技术:Java网络爬虫实战 电子书 图书目录




点击这里下载
    


想要找书就要到 本本书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-11-24

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书



喜欢 网络数据采集技术:Java网络爬虫实战 电子书 的读者还喜欢


网络数据采集技术:Java网络爬虫实战 电子书 读后感

评分

评分

评分

评分

评分

类似图书 点击查看全场最低价
出版者:电子工业出版社
作者:钱洋
出品人:
页数:380
译者:
出版时间:2020-1
价格:79.00元
装帧:
isbn号码:9787121376078
丛书系列:

图书标签: 爬虫  技术   


网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书 图书描述

编辑推荐

《网络数据采集技术:Java网络爬虫实战》是国内上很少见的讲解Java语言(而不是Python语言)网络爬虫的书籍。与Python语言相比,使用Java语言进行网络数据采集,具有采集效率更高、框架性能更好、敏捷易用等优点,而且针对大型搜索引擎系统的数据采集工作更多使用Java语言,故本书值得读者学习。编程语言的初学者也可通过本书进一步掌握Java语言的高级编程技能。

内容提要

《网络数据采集技术:Java网络爬虫实战》以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。

《网络数据采集技术:Java网络爬虫实战》适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。

媒体评论

海量数据的出现催生了一种新的科研模式,即从数据中直接查找或挖掘所需要的信息。网络数据采集是商务、金融、公共管理等领域进行大数据分析的基础。本书系统梳理了网络数据采集的理论和基础知识,通过实际案例描述了网络数据采集技术的实现流程。基于本书的学习,读者可轻松开发一些数据采集项目,获取所需要的网络数据。

清华大学教授、博士生导师 陈国青

数据采集是数据处理的首要环节,也是发掘和利用数据价值的基石。网络数据作为数据的重要来源,其采集手段多为网络爬虫。本书依托作者团队所承担的国家自然科学基金重大项目在数据采集方面的研究成果,系统地介绍了其相关技术(均得到实践验证),能够很好地帮助数据采集技术的初学者和进阶者。

中国科学院计算技术研究所研究员、博士生导师 程学旗

数据作为一种重要资源,对创新社会治理、经济转型升级、科技创新能力提升的作用显著。采集数据是实现数据价值的基础性工程,受到社会各界的高度重视。本书提供了多个网络数据采集项目的详细代码,并附有注释,便于读者理解与进行实际项目的开发。

上海数据交易中心项目总监 卓训方

对于大学生,以及从事数据挖掘、数据商务分析等相关研究的硕士生和博士生而言,网络数据采集已是一项必备技能。本书详细介绍了Java网络爬虫技术所涉及的一系列工具,同时也介绍了一些流行的网络爬虫开发框架,非常适合莘莘学子参考使用。

合肥工业大学教授博士、生导师 刘业政

前言

近几年,网络空间大数据(Big Data)已成为各领域研究的热门话题。在企业应用方面,天猫利用海量的用户数据挖掘年轻消费者偏好,并将用户偏好反馈给手机研发部门,将其用于手机设计;汽车之家利用平台中用户生成的大数据对用户进行画像,在此基础上开展个性化营销。在学术界,很多领域的学者针对大数据衍生出的新问题开展学术研究,如大数据驱动的客户洞察、大数据驱动的个性化推荐、大数据驱动的管理决策等。

在网络大数据环境下,数据采集尤为重要。因此,很多企业都提供了(高级)数据采集工程师的职位。对于很多在校大学生而言,尤其是硕士生和博士生,网络数据采集是一项必备的技能。

在编写本书之前,笔者主要从事数据采集系统的设计与开发工作。在CSDN 社区上,笔者撰写过一系列介绍Java 网络爬虫的博客,这些博客为笔者的主页带来了不少访问量;同时,也有许多博客读者通过邮件的方式,向笔者咨询网络爬虫相关的工具使用、程序调试等问题。为此,笔者对Java 网络爬虫所涉及的知识与技术进行了系统的梳理,并打算编写一本关于Java 网络爬虫的书籍。在写作过程中,笔者与具有丰富网络爬虫教学经验的姜元春教授就写作逻辑、介绍的知识点、使用的案例等多方面的内容进行了多次讨论。本书的内容更加注重爬虫理论、开发基础与实战演练。基于对本书爬虫案例的研读,读者可以快速开发自己需要的其他网络爬虫程序。

本书的内容

本书分为9 章,具体内容如下所示。

第1 章至第3 章:这3 章重点介绍与网络爬虫开发相关的基础知识,其中包括网络爬虫的原理、Java 基础知识和HTTP 协议等内容。

第4 章至第6 章:这3 章分别从网页内容获取、网页内容解析和网络爬虫数据存储3 个方面介绍网络爬虫开发过程中所涉及的一系列技术。在这3 章中,涉及很多开源工具的使用,如Jsoup、HttpClient、HtmlCleaner、Fastjson、POI3 等。

第 7 章:本章利用具体的实战案例,讲解网络爬虫开发的流程。通过对本章的学习,读者可以轻松开发Java 网络爬虫。

第8 章:针对一些复杂的页面,如动态加载的页面(执行JavaScript 脚本),本章介绍了一款实用的工具——Selenium WebDriver。

第9 章:本章重点介绍了3 种比较流行的Java 网络爬虫开源框架,即Crawler4j、WebCollector 和WebMagic。读者可根据数据采集需求,自行开发支持多线程采集、断点采集、代理切换等功能的网络爬虫项目。

本书的特色

注重基础:俗话说,基础不牢,地动山摇。本书从可读性和实用性出发,重点介绍了网络爬虫中涉及的基础知识。

系统性:本书系统地梳理了网络爬虫的逻辑和开发网络爬虫需要掌握的技术。对网络爬虫初学者和进阶者而言,学习这些内容将有利于解决数据采集过程中遇到的各种问题。

详细的案例讲解:本书选取了较为典型的网站,讲解网络爬虫经常遇到的问题,如HTTPS 请求认证问题、大文件内容获取问题、模拟登录问题、不同格式文件(文本、图片和PDF 等)的存储问题、定时数据采集问题等。

开源框架: 本书介绍了3 种Java 网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。通过对这3 种网络爬虫开源框架的学习,读者可以轻松开发一些高性能的网络爬虫项目。

完整的代码:为便于读者学习,对于每个数据网络爬虫项目,笔者都提供了完整的代码,并且在代码中给出了清晰的注释。

适合的读者

Java 网络爬虫开发的初学者和进阶者。

科研人员,尤其是从事网络大数据驱动研究的硕士生和博士生。

开设相关课程的高等院校的师生。

企业网络爬虫开发人员。

说明

网络爬虫作为一项技术,更应该服务于社会。在使用该技术的过程中,应遵守Robots 协议(互联网行业数据抓取的道德协议)。同时,需要注意对数据所涉及的知识产权和隐私信息进行保护。另外,采集数据时,需要注意礼貌,即不频繁地请求网页,以防止给数据提供者的服务器造成不良影响。在使用所采集的数据时,需要注意是否涉及商业利益和相关法律。最后,本书中所有使用的案例皆为测试案例,仅供读者学习使用,本书中的URL 均做了处理。

基金项目

本书由国家自然科学基金重大项目课题“面向大数据的商务分析与计算方法以及支撑平台研究(71490725)”、国家自然科学基金重大研究计划子课题“面向商务领域的大数据资源池及集成示范平台(91746302)”、国家自然科学基金优秀青年基金“个性化营销理论与方法(71722010)”提供资助。

勘误

由于笔者的水平有限,书中难免出现一些错误及不准确之处,恳请读者批评指正。为及时更正书中不恰当的内容,笔者在CSDN 博客中创建了一个板块,读者可以将书中的问题以评论的方式进行反馈,笔者将针对这些问题进行勘误。另外,也欢迎读者通过发送电子邮件(qy20115549@126.com)的方式,反馈书稿的问题。

致谢

感谢电子工业出版社的林瑞和编辑、合肥工业大学电子商务研究所的刘业政教授和孙见山副教授等给本书提出的宝贵建议。

感谢华为的杜非、王佳佳和王锦坤师兄的帮助,是他们将我带入编程的世界。

感谢淮南师范学院的孙娜丽女士对整本书稿写作语言的梳理。

感谢合肥工业大学电子商务研究所的朱婷婷、杨露、田志强、宋颖欣、张雪、李哲、贺菲菲、叶畅、陶守正、梁瑞诚等博士参与本书内容的讨论。

最后,希望热爱网络爬虫开发的小伙伴们能够喜欢本书。

钱 洋

2019 年9 月

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书
想要找书就要到 本本书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 用户评价

评分

内容很赞,市场上真的很少有关于Java网络爬虫的,这是为数不多的一本。比较注重基础与实战,内容逻辑性很强,对照这学很容易上手Java和爬虫。

评分

内容很赞,市场上真的很少有关于Java网络爬虫的,这是为数不多的一本。比较注重基础与实战,内容逻辑性很强,对照这学很容易上手Java和爬虫。

评分

内容很赞,市场上真的很少有关于Java网络爬虫的,这是为数不多的一本。比较注重基础与实战,内容逻辑性很强,对照这学很容易上手Java和爬虫。

评分

内容很赞,市场上真的很少有关于Java网络爬虫的,这是为数不多的一本。比较注重基础与实战,内容逻辑性很强,对照这学很容易上手Java和爬虫。

评分

内容很赞,市场上真的很少有关于Java网络爬虫的,这是为数不多的一本。比较注重基础与实战,内容逻辑性很强,对照这学很容易上手Java和爬虫。

网络数据采集技术:Java网络爬虫实战 2024 pdf epub mobi 电子书


分享链接









相关图书




本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 onlinetoolsland.com All Rights Reserved. 本本书屋 版权所有