基于Apache Flink的流处理 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:中国电力出版社

作者:[美] 比安‧霍斯克

出品人:

页数:328

译者:崔星灿

出版时间:2020-1

价格:88.00元

装帧:平装

isbn号码:9787519840112

丛书系列:

图书标签:

流计算
流式计算
大数据
flink
计算机
分布式
数据_大数据
分布式计算
Flink
流处理
大数据
实时计算
数据分析
分布式系统
Java
技术栈
工程实践
数据工程

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到本本书屋

onlinetoolsland.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

带你走近Apache Flink，一个为全世界多个最大规模级别的流处理应用提供支持的开源框架。通过本书，你将探索并行流处理的基本概念并了解该技术与传统批处理的区别。

作者简介

Fabian Hueske是Apache Flink项目的PMC成员，他从Flink项目创始之初就开始参与贡献。Fabian是data Artisans（现在的Ververica）公司的创始人之一，拥有柏林工业大学的计算机科学博士学位。

Vasiliki Kalavri是苏黎世联邦理工学院系统组的博士后研究员。她同样也是Apache Flink项目的PMC成员。作为Flink早期贡献者，Vasiliki参与了图计算库Gelly以及初期版本的Table API和流式SQL的建设工作。

译者介绍

崔星灿，加拿大约克大学博士后，分布式流处理技术和开源爱好者，Apache Flink Committer。

目录信息

前言 .1
第1 章状态化流处理概述 .7
传统数据处理架构 .8
事务型处理 8
分析型处理.9
状态化流处理 11
事件驱动型应用 .13
数据管道 14
流式分析 15
开源流处理的演变 .16
历史回顾 17
Flink 快览 18
运行首个Flink 应用 .20
小结 .23
第2 章流处理基础 . 25
Dataflow 编程概述 25
Dataflow 图 25
数据并行和任务并行 26
数据交换策略 .27
并行流处理 28
延迟和吞吐.28
数据流上的操作 .31
时间语义 .36
流处理场景下一分钟的含义 37
处理时间 38
事件时间 39
水位线 40
处理时间与事件时间 41
状态和一致性模型 .41
任务故障 43
结果保障 44
小结 .46
第3 章 Apache Flink 架构 . 47
系统架构 .47
搭建Flink 所需组件 .48
应用部署 50
任务执行 51
高可用性设置 .52
Flink 中的数据传输 .54
基于信用值的流量控制 56
任务链接 57
事件时间处理 58
时间戳 59
水位线 59
水位线传播和事件时间 61
时间戳分配和水位线生成 63
状态管理 .64
算子状态 65
键值分区状态 .66
状态后端 68
有状态算子的扩缩容 68
检查点、保存点及状态恢复 71
一致性检查点 .71
从一致性检查点中恢复 72
Flink 检查点算法 .74
检查点对性能的影响 79
保存点 79
小结 .82
第4 章设置Apache Flink 开发环境 83
所需软件 .83
在IDE 中运行和调试Flink 程序 .84
在IDE 中导入书中示例 .84
在IDE 中运行Flink 程序 .87
在IDE 中调试Flink 程序 88
创建Flink Maven 项目 89
小结 .90
第5 章 DataStream API （1.7 版本） . 91
Hello, Flink! 91
设置执行环境 .93
读取输入流.94
应用转换 94
输出结果 95
执行 96
转换操作 .96
基本转换 97
基于KeyedStream 的转换 100
多流转换 104
分发转换 108
设置并行度 111
类型 . 112
支持的数据类型 . 113
为数据类型创建类型信息 116
显式提供类型信息 . 117
定义键值和引用字段 . 118
字段位置 118
字段表达式. 119
键值选择器.120
实现函数 .121
函数类 121
Lambda 函数 122
富函数 123
导入外部和Flink 依赖 124
小结 .125
第6 章基于时间和窗口的算子 127
配置时间特性 127
分配时间戳和生成水位线 129
水位线、延迟及完整性问题 133
处理函数 .134
时间服务和计时器 .136
向副输出发送数据 .138
CoProcessFunction .140
窗口算子 .141
定义窗口算子 .142
内置窗口分配器 .143
在窗口上应用函数 .148
自定义窗口算子 .155
基于时间的双流Join .167
基于间隔的Join .167
基于窗口的Join .168
处理迟到数据 170
丢弃迟到事件 .170
重定向迟到事件 .171
基于迟到事件更新结果 172
小结 .174
第7 章有状态算子和应用 . 175
实现有状态函数 176
在RuntimeContext 中声明键值分区状态 .176
通过ListCheckpointed 接口实现算子列表状态 .180
使用CheckpointedFunction 接口 .187
接收检查点完成通知 189
为有状态的应用开启故障恢复 190
确保有状态应用的可维护性 190
指定算子唯一标识 .191
为使用键值分区状态的算子定义最大并行度 192
有状态应用的性能及鲁棒性 192
选择状态后端 .193
选择状态原语 .194
防止状态泄露 .195
更新有状态应用 198
保持现有状态更新应用 199
从应用中删除状态 .200
修改算子的状态 .200
可查询式状态 .202
可查询式状态服务的架构及启用方式203
对外暴露可查询式状态 204
从外部系统查询状态 205
小结 .207
第8 章读写外部系统 209
应用的一致性保障 .210
幂等性写 211
事务性写 211
内置连接器 213
Apache Kafka 数据源连接器 214
Apache Kafka 数据汇连接器 218
文件系统数据源连接器 222
文件系统数据汇连接器 224
Apache Cassandra 数据汇连接器 .228
实现自定义数据源函数 .232
可重置的数据源函数 233
数据源函数、时间戳及水位线 .235
实现自定义数据汇函数 .236
幂等性数据汇连接器 238
事务性数据汇连接器 239
异步访问外部系统 .248
小结 .251
第9 章搭建Flink 运行流式应用 253
部署模式 .253
独立集群 254
Docker 256
Apache Hadoop YARN .258
Kubernetes 261
高可用性设置 266
独立集群的HA 设置 267
YARN 上的HA 设置 268
Kubernetes 的HA 设置 270
集成Hadoop 组件 270
文件系统配置 272
系统配置 .274
Java 和类加载.275
CPU 275
内存和网络缓冲 .276
磁盘存储 278
检查点和状态后端 .279
安全性 280
小结 .281
第10 章 Flink 和流式应用运维 283
运行并管理流式应用 .283
保存点 284
通过命令行客户端管理应用 285
通过REST API 管理应用 .292
在容器中打包并部署应用 298
控制任务调度 302
控制任务链接 .302
定义处理槽共享组 .303
调整检查点及恢复 .305
配置检查点.306
配置状态后端 .309
配置故障恢复 . 311
监控Flink 集群和应用 313
Flink Web UI 313
指标系统 316
延迟监控 322
配置日志行为 323
小结 .324
第11 章还有什么？ 325
Flink 生态的其他组成部分 325
用于批处理的DataSet API .325
用于关系型分析的Table API 及SQL 326
用于复杂事件处理和模式匹配的FlinkCEP .326
用于图计算的Gelly .327
欢迎加入社区 327
· · · · · · (收起)

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

这本书的装帧和排版令人眼前一亮，清晰的字体和合理的行间距，让长时间阅读也不会感到疲劳。我关注的重点是它在处理业界高并发、低延迟场景下的具体实践案例。我希望看到的，不仅仅是理论模型，而是实打实的、可以落地解决问题的方案。例如，在处理数据乱序和重复数据的问题时，是如何通过巧妙的窗口函数设计和水印机制来保证最终结果的准确性，这才是衡量一本流处理书籍价值的关键所在。如果书中能加入一些真实的系统架构图，并详细剖析在不同业务场景下（比如金融风控、实时推荐）如何对框架进行深度定制和优化，那就太完美了。这种“从理论到实践，再到优化”的层层递进，才是我们这些一线工程师最渴求的知识。

评分☆☆☆☆☆

这本书的封面设计得相当有品味，简约而不失专业感，对于一个关注大数据实时处理领域的读者来说，第一印象是极佳的。我特别喜欢它选用的那种略带磨砂质感的纸张，拿在手里沉甸甸的，让人感觉内容一定经过了扎实的打磨。虽然我尚未深入阅读到具体的技术细节，但从目录的编排和章节的标题来看，作者显然对当前流处理技术的脉络有着深刻的理解，从基础概念的梳理到高级特性的探讨，逻辑衔接非常顺畅，显示出作者在实际工程经验方面的深厚积累。我期待着它能在复杂状态管理和事件时间处理方面提供一些独到的见解，而不是简单地罗列API用法。一个好的技术书籍，不仅要教会读者“怎么做”，更要解释“为什么这么做”，希望这本书能在这方面给我带来启发，让我对背后的设计哲学有更深层次的认识，而非停留在表面的工具使用层面。

评分☆☆☆☆☆

初翻这本书的章节结构，我感到一种踏实感。它似乎没有急于抛出那些晦涩难懂的数学公式，而是选择了更贴近工程师思维的渐进式讲解路线。我很看重作者在介绍核心概念时所采用的类比和图示是否生动形象。对于流处理这种抽象性很强的技术，能否用日常生活中易于理解的例子来阐述复杂概念（比如窗口的滑动、合并），直接决定了初学者和有一定基础的读者能够吸收的程度。如果这本书能提供大量的代码片段，并且这些代码片段都是经过验证的、可以直接运行的示例，那么它的实用价值将大大提升。我希望这些代码不仅是功能展示，更能体现出作者在性能调优方面所遵循的原则和最佳实践。

评分☆☆☆☆☆

这本书的语言风格显得非常严谨和专业，没有多余的废话，直击技术核心。我尤其期待书中对于容错和高可用性的探讨。在分布式流处理系统中，机器故障、网络分区是常态，如何保证数据不丢失、服务不中断，是构建健壮系统的基石。我希望看到作者能详细阐述在故障恢复过程中，状态是如何快速、一致地恢复到故障发生前的精确时间点。如果能深入剖析存储层（比如Checkpoints/Savepoints）的实现细节，以及不同持久化策略（例如异步与同步）对系统整体吞吐量的影响，那将是这本书的巨大亮点。这种对系统健壮性细节的关注，往往体现了一本书的深度和作者的经验厚度。

评分☆☆☆☆☆

拿到书后，我首先翻阅了附带的资源清单和勘误表（如果有的话），这反映了作者对知识准确性的重视程度。对于任何快速发展的技术领域，及时的更新和对社区最新动态的把握至关重要。我期望这本书不仅仅是停留在某一个特定版本的特性介绍，而是能够展望未来，对当前技术路线图中的一些挑战和可能的演进方向有所提及。比如，如何更好地与新兴的存储技术结合，或者在更广泛的云原生环境中部署和管理的最佳实践。一本优秀的参考书，应当是能够引领读者思考未来，而不是仅仅复述已知的事实。这种前瞻性的内容，对于保持技术栈的先进性是极其宝贵的。

评分☆☆☆☆☆

作为Flink入门而已非常不错的一本书，翻译也还可以

评分☆☆☆☆☆

完爆之前国内出的那几本（特别是有两本简直差的令人发指）。虽然这本只讲了DataStream部分，但讲的比其他几本好太多了…讲清楚一个点总比啥也讲不清楚好啊

评分☆☆☆☆☆

讲的datastream，没有更高层的table api和sql。看的有点绝望，没有实践经验，只是看书果然还是不太行。

评分☆☆☆☆☆

flink stream讲的非常好，方方面面的问题都讲清楚了，对于了解flink原理很有帮助，翻译也比较到位，值得一读

评分☆☆☆☆☆

flink流计算新手入门必备，翻译也还行，流计算是大数据工程师核心竞争力之一