1 榖歌的大數據路:從擁有“三駕馬車”到喪失先發優勢 1
榖歌的“三駕馬車”開啓瞭大數據時代,然而在這個新時代裏,榖歌卻喪失瞭先發優勢。這是為什麼呢?我認為是榖歌對待開放架構的態度相對保守導緻的。
2 榖歌的大數據路:一場影響深遠的論戰 7
在大數據發展史上,以邁剋爾·斯通布雷剋為代錶的數據庫元老級人物,針對MapReduce嚮榖歌提齣瞭質疑。這場著#的論戰給整個業界帶來瞭動蕩,#後誕生瞭Spark。
3 榖歌的大數據路:榖歌的“黑科技” 14
在大數據的上半場,榖歌以“三駕馬車”引#時代,但後來因為決策失誤喪失瞭先發優勢;而在大數據的下半場,榖歌帶著“黑科技”Spanner數據庫係統閃亮登場,效果如何呢?
4 如何讀懂類似榖歌“三駕馬車”這樣的技術論文 20
讀懂一篇技術論文,首先需要明白“論文是寫給誰看的”和“論文是怎麼寫齣來的”這兩個基本問題,然後就可以有針對性地提升自己閱讀論文的功力。
5 雅虎:大數據領域的“活雷鋒” 26
雅虎,這個早已淡齣我們視綫的公司,卻是大數據領域的“活雷鋒”,可以說正是它促成瞭今#的Hadoop生態圈。這篇文章就來說說它的故事。
6 IBM的大數據路——起早貪黑趕瞭個“晚集” 31
作為曆史悠久的計算機公司,IBM早早涉足瞭大數據領域,#終卻隻能寄希望於比自己的産品起步還要晚的Spark,我們來看看其中發生瞭什麼。
7 三大社交媒體公司對Hadoop生態圈的貢獻 35
雅虎把Hadoop開源以後,當時著#的三大社交媒體公司Facebook、LinkedIn和Twitter都加入瞭這個生態圈,並做齣瞭巨大貢獻。Hadoop生態圈給我們的啓示是,抱團取暖纔是生存之道。
8 微軟的大數據發展史:微軟矽榖研究院 41
微軟矽榖研究院曾經在微軟的大數據發展曆程中扮演瞭非常特殊的角色,它推齣的Dryad和DryadLINQ可以說是兩個另類的産品,雖然未曾大受歡迎,卻對大數據的發展有著不可磨滅的貢獻。
9 微軟的大數據發展史:必應的Cosmos 47
Cosmos是微軟必應搜索引擎下麵的團隊開發的大數據基礎架構,代錶瞭微軟在大數據方麵的#高成就。
10 微軟的大數據發展史:Azure的發展 53
微軟大數據發展史上的另一個分支是微軟雲計算平颱下的大數據項目Azure。這個項目産生瞭HDInsight、Azure Data Lake、CosmosDB三大平颱,但#後隻有CosmosDB取得成功。
11 亞馬#的大數據故事:從先驅者到一味索取者 59
在大數據技術發展的早期,亞馬#發錶瞭Dynamo係統的論文,成為和榖歌“三駕馬車”的論文一樣具有深遠影響的論文。然而隨著大數據的發展和Hadoop生態圈的建立,亞馬#對大數據圈的貢獻極少,但亞馬#自己卻從中獲得瞭巨大的利益。
12 亞馬#的大數據故事:創新和“拿來”並存的雲服務 64
亞馬#不僅在Hadoop生態係統裏蓬勃發展,還推齣瞭自己的數據分析産品。這些産品有些是亞馬#自己研發的,有些則隻是對開源的産品進行瞭包裝。但是,亞馬#一如既往地沒有反哺開源項目。
13 阿#巴巴的大數據故事:數據分析平颱發展史 70
國內大數據平颱做得#好的公司當屬阿#巴巴。本文就來介紹一下阿#巴巴數據分析平颱的發展情況:數據分析平颱的疊加開發。
14 阿#巴巴的大數據故事:流計算引擎發展史 75
在阿#巴巴的發展過程中,流數據處理一直是一項十分重要的技術,阿#巴巴也在這方麵做瞭很多有意義的項目。本文就來介紹一下阿#巴巴的流計算引擎JStorm與Blink的發展史。
15 大公司的大數據戰略得失:自建“輪子”成本高 80
大公司的大數據平颱可分為兩類,一類是自己搭的基礎架構(自建“輪子”),另一類是抱團取暖所形成的Hadoop生態圈,兩者各有利弊。本文將分析第1種情況,主要以榖歌、微軟、阿#巴巴自己搭建的大數據平颱架構為代錶。
16 大公司的大數據戰略得失:抱團取暖的Hadoop生態圈 86
除瞭自建“輪子”的公司,其他各大公司走嚮瞭一條抱團取暖的道路,就是你搭一個模塊,我搭一個模塊,大傢一起開源齣來,#後組成瞭一個叫作Hadoop的生態圈。其中有為社區積極做貢獻的公司,也有以賺錢為目的的公司,還有一味索取的公司。
17 Hadoop三國之“魏國”——Cloudera 91
Hadoop領域曾經有三傢發行商互相角逐,其中不乏各種戰術與謀略,仔細琢磨,你會發現這三傢公司的關係與三國時期的魏蜀吳之間的關係非常相似。本文講述Hadoop三國之“魏國”——Cloudera的故事。
18 Hadoop三國之“吳國”——MapR 97
Hadoop三國之“吳國”MapR,實力強大卻很少參與競爭,這篇文章就來說說它特立獨行的故事。
19 Hadoop三國之“蜀國”——Hortonworks 103
Hadoop三國之“蜀國”Hortonworks始終堅持100%開源,本文講述它的故事。
20 Hadoop及其發行商的未來 111
Hadoop已誕生十多年,圍繞其生態圈誕生瞭諸多企業,例如前麵講的社交媒體公司、三大發行商,而亞馬#卻#終成為#大的受益者。
21 文檔數據庫的締造#MongoDB(上) 116
MongoDB的誕生像一場意外。它是一個文檔型數據庫,由10gen公司開發,以易用性聞名。本文就來講述MongoDB團隊的開發重心、商業運作模式和産品盈利方式。
22 文檔數據庫的締造#MongoDB(下) 127
MongoDB的開發團隊一嚮重視用戶體驗而不重視核心功能,其負麵影響終於以一次安全危機的方式暴露。加上公司曾經獲得具有CIA背景的風投公司的投資,這一並引起瞭很多人的顧慮。當然,這一切都擋不住MongoDB公司#終的成功上市。
23 以MongoDB為例,看基礎架構類産品創業 132
作為一#基礎架構類産品,MongoDB以其易用性聞名,然而MongoDB的開發#不注重係統的可靠性,隻注重可用性,導緻很多MongoDB的用戶轉嚮瞭其他産品。基礎架構類産品的創業者應該如何平衡可用性和可靠性?這是一個值得深思的問題。
24 直麵MongoDB,談微軟的N0SQL戰略 137
2013年,MongoDB在數據庫市場中的占有率很高,成為很多創業者和初創企業的首#。微軟究竟做瞭哪些事情,將Cosmos DB變成能與MongoDB競爭的産品的呢?
25 Palantir:神秘的大數據獨角獸公司 144
Palantir是一傢神秘的大數據創業公司,由矽榖著#投資人彼得·蒂爾創辦,其主要服務對象是美國#府部門、特情組織和軍隊,所以外界對其瞭解甚少。
26 Splunk:機器日誌數據分析帝國 149
Splunk是大數據圈裏少有的盈利並且蓬勃發展的企業。它主要服務於機器日誌數據分析領域,隨後又不斷拓展業務,演變開發瞭若乾不同類型的軟件。在本文中我們就來好好聊聊Splunk的進階史。
27 Confluent:Kafka項目背後的公司 155
Kafka是LinkedIn開發的開源項目,它主要通過日誌文件傳輸的方式在不同的數據源之間同步數據。而Confluent公司是Kafka開源項目的創始人離開LinkedIn以後所創立的公司,主要緻力於Kafka項目的商業化。在本文中,我們來講講這傢公司的故事。
28 Powerset:HBase的“老東傢” 160
Powerset是一傢在多年前被微軟收購的創業公司,目前在語義搜索方麵開疆拓土。它為開源社區貢獻瞭BigTable的Hadoop版實現。本文就來講講這傢公司的發展史。
29 Cassandra和DataStax公司的故事 166
Cassandra是開源社區仿照Amazo# Dynamo開發的産品,它#初由Facebook開發並開源,卻又被公司內部棄用。創業公司DataStax對Cassandra大力支持,造就瞭今#繁榮的Cassandra社區。
30 Databricks:Spark的數據“金磚”王國 172
Spark是Hadoop生態圈裏大紅大紫的項目,它甚至取代瞭Hadoop MapReduce的地位。Databricks是對這個項目進行商業化的企業。本文就來聊聊這傢企業的故事。
31 Data Artisans和浴火重生的新一代大數據計算引擎Flink 178
Data Artisans是對Flink進行商業化的公司。Apache Flink是一個年輕的新型處理引擎,是Hadoop社區裏Spark的主要競爭對手。Flink設計理念先進,但是工程實現方麵相對落後。
32 Dremio:基於Drill和Arrow的大數據公司 183
Dremio是另外一傢大數據創業公司,其創始人是從MapR公司跳槽齣來的。Dremio的主要産品就是Dremio項目,它吸收瞭MapR主導的開源項目Drill的精華,以開源項目Arrow為核心開發。本文就來講講Dremio公司和Dremio平颱的來龍去脈。
33 Imply:基於Druid的大數據分析公司 189
開源大數據項目Druid由Metamarkets開發。開始時籍籍無名,後來被一些大公司,尤其是Airbnb使用和推廣以後,受到瞭很多關注。
34 Kyligence:麒麟背後的大數據公司 194
麒麟(英文名字是Kylin)是第1個全部由中國人主導的Apache頂#開源項目,Kyligence則是對這個項目進行商業化的公司。本文就來看看麒麟和Kyligence的故事。
35 Snowflake:雲端的彈性數據倉庫 200
Snowflake是一個構建在雲端的彈性數據倉庫,它背後的公司與之同名。Snowflake公司的創始人和管理層都有強大的背景,本文就來講一下Snowflake及其公司的故事。
36 TiDB:一個國産新數據庫的創業故事 205
TiDB是位於北京的一傢創業公司PingCAP的産品,它的目標是實現一個開源的類似榖歌Spanner的係統,這個産品非常有特色,本文就來聊聊TiDB和它背後的公司。
37 大數據創業公司的前景:紅海vs.藍海 211
關於創業的市場,通常有紅海和藍海的說法,藍海容易成功,紅海相對艱難。對大數據創業公司來說,藍海多半指的是應用軟件類的市場,而紅海指的則是基礎架構軟件類的市場。本文將對比分析一下這兩類市場。
38 如何通過分析企業的技術積纍來判斷其發展前景 216
通過分析企業的技術積纍,能夠有效地判斷企業的發展前景如何。我們需要關注三個方麵:技術適用的場景是否有巨大的盈利空間,技術本身是否有領先和獨到之處,以及技術的積纍是否足夠深和廣。
· · · · · · (
收起)