Apache Kylin權威指南 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:Apache Kylin核心團隊著

出品人:

頁數:188

译者:

出版時間:2017-1

價格:49.00

裝幀:

isbn號碼:9787111557012

叢書系列:大數據技術叢書

圖書標籤:

大數據
kylin
OLAP
數據平颱
計算機
數據
計算機科學
架構
Apache Kylin
權威指南
大數據
數據分析
OLAP
商業智能
數據倉庫
分布式
實時計算
高性能

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到本本書屋

onlinetoolsland.com

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

Apache Kylin是Hadoop大數據平颱上的一個開源OLAP引擎，將大數據的查詢速度和並發性能提升至原來的百倍以上，為超大規模數據集上的交互式大數據分析打開瞭大門。本書由Apache Kylin核心開發團隊編寫，係統地介紹瞭Apache Kylin安裝、入門、可視化、模型調優、運維、二次開發等各個方麵，是關於Apache Kylin的權威指南。

第1章和第2章是基本概念和快速入門，為初學者打下堅實基礎。第3章和第4章介紹增量構建和進階的流式構建，應對數據的持續增長。第5章展示豐富的查詢接口和其上的可視化能力。第6章則重點講解瞭Cube模型和調優，它們是用好Apache Kylin，提升百倍性能的關鍵。第7章通過一係列有行業特點的具體案例分析，貫穿之前的所有概念，溫故知新。第8章介紹可擴展架構和二次開發接口，適閤開發者。第9章則介紹企業級功能、用戶的認證和授權相關知識。第10章著重於安裝和企業級部署、運維管理等內容。第11章和第12章分彆說明如何參與和貢獻到開源，以及Apache Kylin的未來。

作者簡介

本書由李揚為首的麒麟技術團隊撰寫。團隊是Apache Kylin的主創團隊。李揚是大數據架構師和工程師，專注大數據分析技術。他是Apache Kylin管理委員會成員，也是Kyligence Inc.（一傢專業提供大數據商務智能服務的創業公司）創始人之一。李揚是Apache Kylin主創團隊的架構師和技術負責人，在eBay期間從2014年開始開發Kylin項目。之前，李揚在IBM工作8年，在摩根士丹利工作2年。在IBM期間，他是“傑齣技術貢獻奬”的獲奬者，曾擔任InfoSphere BigInsights的技術負責人，負責Hadoop開源産品架構。在摩根士丹利期間，李揚擔任副總裁，負責全球監管報錶基礎架構。

目錄資訊

Contents?目　　錄
推薦序一
推薦序二
推薦序三
推薦序四
前　言
第1章　Apache Kylin概述 1
1.1　背景和曆史 1
1.2　Apache Kylin的使命 3
1.2.1　為什麼要使用Apache Kylin 3
1.2.2　Apache Kylin怎樣解決關鍵問題 4
1.3　Apache Kylin的工作原理 5
1.3.1　維度和度量簡介 5
1.3.2　Cube和Cuboid 5
1.3.3　工作原理 6
1.4　Apache Kylin的技術架構 7
1.5　Apache Kylin的主要特點 9
1.5.1　標準SQL接口 9
1.5.2　支持超大數據集 9
1.5.3　亞秒級響應 10
1.5.4　可伸縮性和高吞吐率 10
1.5.5　BI及可視化工具集成 11
1.6　與其他開源産品比較 11
1.7　小結 12
第2章　快速入門 13
2.1　核心概念 13
2.1.1　數據倉庫、OLAP與BI 13
2.1.2　維度和度量 14
2.1.3　事實錶和維度錶 14
2.1.4　Cube、Cuboid和Cube Segment 15
2.2　在Hive中準備數據 15
2.2.1　星形模型 15
2.2.2　維度錶的設計 16
2.2.3　Hive錶分區 16
2.2.4　瞭解維度的基數 17
2.2.5　Sample Data 17
2.3　設計Cube 17
2.3.1　導入Hive錶定義 18
2.3.2　創建數據模型 18
2.3.3　創建Cube 21
2.4　構建Cube 25
2.4.1　全量構建和增量構建 27
2.4.2　曆史數據刷新 28
2.4.3　閤並 29
2.5　查詢Cube 30
2.6　SQL參考 31
2.7　小結 32
第3章　增量構建 33
3.1　為什麼要增量構建 33
3.2　設計增量Cube 35
3.2.1　設計增量Cube的前提 35
3.2.2　增量Cube的創建 36
3.3　觸發增量構建 37
3.3.1　Web GUI觸發 37
3.3.2　構建相關的Rest API 39
3.4　管理Cube碎片 45
3.4.1　閤並Segment 46
3.4.2　自動閤並 47
3.4.3　保留Segment 48
3.4.4　數據持續更新 49
3.5　小結 50
第4章　流式構建 51
4.1　為什麼要流式構建 51
4.2　準備流式數據 52
4.2.1　數據格式 52
4.2.2　消息隊列 53
4.2.3　創建Schema 53
4.3　設計流式Cube 56
4.3.1　創建Model 56
4.3.2　創建Cube 57
4.4　流式構建原理 59
4.5　觸發流式構建 61
4.5.1　單次觸發 61
4.5.2　自動化多次觸發 61
4.5.3　齣錯處理 62
4.6　小結 63
第5章　查詢和可視化 64
5.1　Web GUI 64
5.1.1　查詢 64
5.1.2　顯示結果 65
5.2　Rest API 67
5.2.1　查詢認證 67
5.2.2　查詢請求參數 67
5.2.3　查詢返迴結果 68
5.3　ODBC 69
5.4　JDBC 71
5.4.1　獲得驅動包 71
5.4.2　認證 71
5.4.3　URL格式 71
5.4.4　獲取元數據信息 72
5.5　通過Tableau訪問Kylin 72
5.5.1　連接Kylin數據源 73
5.5.2　設計數據模型 73
5.5.3　通過Live方式連接 73
5.5.4　自定義SQL 75
5.5.5　可視化 75
5.5.6　發布到Tableau Server 76
5.6　Zeppelin集成 77
5.6.1　Zeppelin架構簡介 77
5.6.2　KylinInterpreter的工作原理 77
5.6.3　如何使用Zeppelin訪問Kylin 78
5.7　小結 80
第6章　Cube優化 81
6.1　Cuboid剪枝優化 81
6.1.1　維度的詛咒 81
6.1.2　檢查Cuboid數量 82
6.1.3　檢查Cube大小 83
6.1.4　空間與時間的平衡 84
6.2　剪枝優化的工具 85
6.2.1　使用衍生維度 85
6.2.2　使用聚閤組 87
6.3　並發粒度優化 89
6.4　Rowkeys優化 90
6.4.1　編碼 90
6.4.2　按維度分片 91
6.4.3　調整Rowkeys順序 92
6.5　其他優化 93
6.5.1　降低度量精度 93
6.5.2　及時清理無用的Segment 94
6.6　小結 94
第7章　應用案例分析 95
7.1　基本多維分析 95
7.1.1　數據集 95
7.1.2　數據導入 97
7.1.3　創建數據模型 99
7.1.4　創建Cube 102
7.1.5　構建Cube 108
7.1.6　SQL查詢 110
7.2　流式分析 112
7.2.1　Kafka數據源 112
7.2.2　創建數據錶 113
7.2.3　創建數據模型 115
7.2.4　創建Cube 117
7.2.5　構建Cube 118
7.2.6　SQL查詢 119
7.3　小結 119
第8章　擴展Apache Kylin 120
8.1　可擴展式架構 120
8.1.1　工作原理 121
8.1.2　三大主要接口 122
8.2　計算引擎擴展 124
8.2.1　EngineFactory 124
8.2.2　MRBatchCubingEngine2 125
8.2.3　BatchCubingJobBuilder2 126
8.2.4　IMRInput 128
8.2.5　IMROutput2 129
8.3　數據源擴展 130
8.4　存儲擴展 132
8.5　聚閤類型擴展 134
8.5.1　聚閤的JSON定義 134
8.5.2　聚閤類型工廠 135
8.5.3　聚閤類型的實現 136
8.6　維度編碼擴展 140
8.6.1　維度編碼的JSON定義 140
8.6.2　維度編碼工廠 141
8.6.3　維度編碼的實現 142
8.7　小結 143
第9章　Apache Kylin的企業級功能 144
9.1　身份驗證 144
9.1.1　自定義驗證 145
9.1.2　LDAP驗證 146
9.1.3　單點登錄 150
9.2　授權 151
9.3　小結 153
第10章　運維管理 154
10.1　安裝和配置 154
10.1.1　必備條件 154
10.1.2　快速啓動Apache Kylin 157
10.1.3　配置Apache Kylin 160
10.1.4　企業部署 162
10.2　監控和診斷 165
10.2.1　日誌 165
10.2.2　任務報警 167
10.2.3　診斷工具 169
10.3　日常維護 170
10.3.1　基本運維 170
10.3.2　元數據備份 170
10.3.3　元數據恢復 171
10.3.4　係統升級 172
10.3.5　垃圾清理 174
10.4　常見問題和修復 175
10.5　獲得社區幫助 176
10.5.1　郵件列錶 177
10.5.2　JIRA 177
10.6　小結 177
第11章　參與開源 178
11.1　Apache Kylin的開源曆程 178
11.2　為什麼參與開源 179
11.3　Apache開源社區簡介 179
11.3.1　簡介 179
11.3.2　組織構成與運作模式 180
11.3.3　項目角色 181
11.3.4　孵化項目及頂級項目 182
11.4　如何貢獻到開源社區 183
11.4.1　什麼是貢獻 183
11.4.2　如何貢獻 183
11.5　禮儀與文化 184
11.6　如何參與Apache Kylin 185
11.7　小結 185
第12章　Apache Kylin的未來 186
12.1　大規模流式構建 186
12.2　擁抱Spark技術棧 187
12.3　更快的存儲和查詢 187
12.4　前端展現及與BI工具的整閤 187
12.5　高級OLAP函數 188
12.6　展望 188
· · · · · · (收起)

讀後感

評分☆☆☆☆☆

Apache Kylin作為國內第一個Apache頂級大數據項目,它的齣現既是意料之外,又是意料之中。意料之處是國內IT界一直缺少有份量的開源項目，更彆說大數據方嚮。意料之中是隨著中央政府大數據行動綱要的指引，和國內互聯網企業大數據應用的標杆作用，國內IT界對大數據技術的相關研究...

評分☆☆☆☆☆

Apache Kylin從開源就備受重視，正是因為它填補瞭大數據Hadoop生態圈的一個技術空白-OLAP on Hadoop，滿足瞭海量數據集上的快速數據分析需求，SQL接口也符閤業界主流規範，因此很快被各互聯網公司、金融、電信等行業采用。第一次接觸Kylin還是2015年的meetup上，被Kylin精準的...