Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。
Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。
Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。
发表于2024-11-22
Learning Spark, 2nd Edition 2024 pdf epub mobi 电子书
一本入门的好书,讲解了spark的基本情况,讲解了spark core已经内部常用组件,稍显不足的是书中的spark版本较低,有些内容已经在新版本中不适用了 书中对RDD做了非常详尽的讲解,对spark streaming spark sql , MLlib等内容讲解不多 总之,对于入门来说足够了,而且本...
评分本书在大的方向对于Spark有介绍,同时在spark相关概念上也有介绍。但是具体的实际操作代码还是比较少,同时也没有提供比较好的分析数据。 本书使用的spark版本是1.2,现在spark主流都在用2.0之后的版本。所以内容上来说还是比较老旧的。 我觉得如果想要入门spark,还是找些spar...
评分一本入门的好书,讲解了spark的基本情况,讲解了spark core已经内部常用组件,稍显不足的是书中的spark版本较低,有些内容已经在新版本中不适用了 书中对RDD做了非常详尽的讲解,对spark streaming spark sql , MLlib等内容讲解不多 总之,对于入门来说足够了,而且本...
评分基于Python Spark的大数据分析(第一期) 课程介绍地址:http://www.xuetuwuyou.com/course/173 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师 1、开课时间:小班化教学授课,第一期开课时间为5月20号(满30人开班,先报先学!); 2、学习方式:在线直播,...
评分花了一天看完这本书,感觉这本书适合入门级人看,内容比较基础,没有阅读难度。给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好评给个好...
图书标签: Spark 计算机科学 分布式 软件工程 数据分析 大数据 BigData
Data is getting bigger, arriving faster, and coming in varied formats—and it all needs to be processed at scale for analytics or machine learning. How can you process such varied data workloads efficiently? Enter Apache Spark.
Updated to emphasize new features in Spark 2.x., this second edition shows data engineers and scientists why structure and unification in Spark matters. Specifically, this book explains how to perform simple and complex data analytics and employ machine-learning algorithms. Through discourse, code snippets, and notebooks, you’ll be able to:
Learn Python, SQL, Scala, or Java high-level APIs: DataFrames and Datasets
Peek under the hood of the Spark SQL engine to understand Spark transformations and performance
Inspect, tune, and debug your Spark operations with Spark configurations and Spark UI
Connect to data sources: JSON, Parquet, CSV, Avro, ORC, Hive, S3, or Kafka
Perform analytics on batch and streaming data using Structured Streaming
Build reliable data pipelines with open source Delta Lake and Spark
Develop machine learning pipelines with MLlib and productionize models using MLflow
Use open source Pandas framework Koalas and Spark for data transformation and feature engineering
Learning Spark, 2nd Edition 2024 pdf epub mobi 电子书