高彦杰 毕业于中国人民大学,就职于IBM,精通Hadoop相关技术,较早接触并使用Spark,对Spark应用开发、Spark系统的运维和测试比较熟悉,深度阅读了Spark的源代码,了解Spark的运行机制,擅长Spark的查询优化。
发表于2024-12-21
Spark大数据处理:技术、应用与性能优化 2024 pdf epub mobi 电子书
有误,比如join,spark中的join是inner join,书中对着源码讲成了outer join.. 跑题,花了大量篇幅在FIFO,HASHMap的原理上... 以上 不过很多地方还是很详细的,而且通俗易懂
评分豆瓣的得分充分说明了问题,书不好,错误挺多的,说明作者一是不认真不尊重知识,二是水平格局有限。如果想深入了解而不被误导,不要读这本书了,误人子弟。
评分有误,比如join,spark中的join是inner join,书中对着源码讲成了outer join.. 跑题,花了大量篇幅在FIFO,HASHMap的原理上... 以上 不过很多地方还是很详细的,而且通俗易懂
评分豆瓣的得分充分说明了问题,书不好,错误挺多的,说明作者一是不认真不尊重知识,二是水平格局有限。如果想深入了解而不被误导,不要读这本书了,误人子弟。
评分有误,比如join,spark中的join是inner join,书中对着源码讲成了outer join.. 跑题,花了大量篇幅在FIFO,HASHMap的原理上... 以上 不过很多地方还是很详细的,而且通俗易懂
图书标签: 大数据 spark Spark 性能优化 计算机 Scala 编程 数据处理
《Spark大数据处理:技术、应用与性能优化》根据最新技术版本,系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。
作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性和高可伸缩性。具体来讲,它有如下优势:
打造全栈多计算范式的高效数据流水线
轻量级快速处理
易于使用,支持多语言
与HDFS等存储层兼容
社区活跃度高
……
Spark已经在全球范围内广泛使用,无论是Intel、Yahoo!、Twitter、阿里巴巴、百度、腾讯等国际互联网巨头,还是一些尚处于成长期的小公司,都在使用Spark。本书作者结合自己在微软和IBM实践Spark的经历和经验,编写了这本书。站着初学者的角度,不仅系统、全面地讲解了Spark的各项功能及其使用方法,而且较深入地探讨了Spark的工作机制、运行原理以及BDAS生态系统中的其他技术,同时还有一些可供操作的案例,能让没有经验的读者迅速掌握Spark。更为重要的是,本书还对Spark的性能优化进行了探讨。
第三,四两章不错,包含rdd操作还有spark的工作机制。
评分浅入浅出……
评分读过主要部分,主要原理叙述很详尽。Spark最近在互联网公司应用越来越多,算子易用性很强。(机器学习读书会2015.10开始读的书)
评分后面的代码越贴越多,而且整本书的csdn风格太浓,整个读下来几乎没得到什么新的见解
评分朋友的书,支持一下~
Spark大数据处理:技术、应用与性能优化 2024 pdf epub mobi 电子书