Hadoop,涼了?
2019-07-09 10:30

Hadoop,涼了?

本文來自微信公眾號:InfoQ(ID:infoqchina),作者:田曉旭,頭圖來自視覺中國


近日,Hadoop 領域發生幾件不太美好的事情,先是 MapR 宣布如果無法獲得新的投資,就必須要裁員百余人,并關閉硅谷總部,再是 Cloudera 股價暴跌 43%,估值縮水。眼看 Hadoop 三大商業公司起高樓,為何忽然之間樓斜了呢?為了搞清楚其中原因,我們采訪了多位行業內的技術專家。


十年前,出世兩年的 Hadoop 順利通過孵化器成為了 Apache 頂級項目,同年,第一個 Hadoop 商業化公司 Cloudera 成立;五六年前,簡直就是 Hadoop 的主場,社區不斷建立的新組件來擴展 Hadoop 的應用場景和可用性,其中有很多組件都成功脫離 Hadoop 成為了 Apache 頂級項目,例如 HBase、Hive、ZooKeeper 等。


但是最近劇情反轉得有點讓人猝不及防,上上周,美股開盤之后,Cloudera 股價暴跌 43%,曾經 41 億美元的估值縮水為 14 億美元;上上上周,外媒爆料曾經估值 10 億美元的 MapR 向加州就業發展局提交文件,稱如果找不到新的投資人,公司將裁員 122 人。


抱團取暖,裁員閉店,Hadoop 三大發行商遭“團滅”


在 Hadoop 的發展史上,有三家公司不得不提,分別是 Cloudera、Hortonworks 和 MapR。


Cloudera 是第一家 Hadoop 商業化公司,成立于 2008 年 8 月,創始人來自 Google、FaceBook 和 Yahoo!,其首席架構師 Doug Cutting 也是 Hadoop 的第一位作者;Hortonworks 成立于 2011 年,是由 Yahoo! 的 Hadoop 團隊拆分而成;MapR 成立于 2009 年,創始人 M.C.Srivas 來自于 Google。


這三家公司同屬于 Hadoop 發行版提供商。所謂的“發行版”,其實是開源文化特有的,雖然在很多外行眼中,發行版只是將開源代碼打包,然后在添加一些自己獨創的邊角料。但其實發行版真正比拼的是對海量生態系統組件的價值篩選、兼容和集成保證以及支撐服務。


同樣是提供發行版,這三家公司的商業模式可以說是完全不同。Cloudera 主要是發布 Hadoop 商業版和商用工具,其核心組件 CDH 開源免費,與 Apache 社區同步;而數據治理和系統管理組件閉源,用戶需要獲得商業許可,除此之外,商業組件也會提供企業生產環境中必需的運維功能。


Hortonworks 的商業模式是 100% 完全開源的策略,所有產品開源,用戶可免費使用。真正用來盈利的是技術服務支持。


MapR 的商業模式遵循了傳統軟件廠商的模式,采用私有化實現,用戶通過購買軟件許可來使用。


雖然三家公司的商業模式不盡相同,但是都曾從 Hadoop 中獲得了紅利,Cloudera 的估值在頂峰時高達 41 億美元,而 Hortonworks 和 MapR 的估值也曾超過 10 億美元。


不過,最近劇情急轉直下,2018 年 10 月,Cloudera 和 Hortonworks 宣布合并,Cloudera 的股東將擁有新公司 60% 的股權,Hortonworks 的股東持有 40% 的股權。合并時,雙方對于未來的盈利能力信心十足,“到 2020 年預計每年收入有望超過 10 億美元。”但是,事情發展并不如預期,合并半年多后,2019 年 6 月 6 日美股開盤,Cloudera 股價暴跌 43%,曾經 41 億美元的估值縮水為 14 億美元。


相比于抱團取暖的 Cloudera 和 Hortonworks,MapR 的處境更為艱難了,甚至走到了“閉店裁員”的窘境,“如果再未能獲得新的資金注入,MapR 可能會裁員 122 人,并關閉位于 Santa Clara 的總部。”據外媒報道,MapR 裁員將于 6 月 14 日生效,但是就在前幾日,有消息稱 MapR 將尋找新資金的最后期限延長到了 7 月 9 日。



眼看 Hadoop 三大商業公司起高樓,為何忽然之間樓斜了呢?眾說紛紜,有人說是因為數據庫的發展,有人說是因為云計算的崛起,還有人說是自身模式有問題?…...清楚原因,我們采訪了多位各領域的技術專家。


MongoDB 和 Elasticsearch 會是 Hadoop 的競爭對手嗎?


在一篇外媒的分析文章中,提出了這樣一個觀點:在受歡迎指數、收益等方面,大數據其他開源供應商(如 Elastic 和 MongoDB 公司)和 Hadoop 三大商業公司呈現出了此消彼長的態勢,之前沒有人認為 MongoDB 和 Elasticsearch 這樣的技術以及它們背后的公司能夠挑戰 Hadoop 及相關產品,但是現在它們做到了。


事實真如這篇文章分析的那樣嗎?MongoDB、Elasticsearch 和 Hadoop 真的已經成為了競爭關系嗎?


針對此,我們采訪多位 MongoDB 和 Elasticsearch 的技術專家,大家的觀點出奇地一致,那就是從目前來看,MongoDB 和 Elasticsearch 與 Hadoop 并不構成競爭關系,甚至連重合點都很少。


“MongoDB 和 Elasticsearch 與 Hadoop 在本質上是離線處理和在線處理兩個完全不同的方向。”MongoDB 中文社區主席唐建法這樣認為:“Hadoop 的底層存儲是基于無索引的 HDFS ,核心應用場景是對海量結構化、非結構化數據的永久存儲和離線分析,例如客戶肖像、流失度分析、日志分析、商業智能等。而 MongoDB 和 Elasticsearch 的核心場景是實時交互,通常用于人機交互場景,例如電商移動應用,其特征是響應時間一般是毫秒級到秒級。”


當然,它們之間也不是完全沒有競爭的地方,但 MongoDB 、Elasticsearch 真正競爭的是 Hadoop 內的生態組件,例如 HBase、Hive、Impala 等。以 Elasticsearch 為例,它滿足了比較基礎的即席查詢需求、在線業務檢索需求,甚至是輕量的 BI 需求,這些在功能上與 Hadoop 會有所重合。


除了競爭關系,這篇外媒評論文中還提到了一個重要觀點,那就是 Hadoop 使用繁瑣,用戶體驗糟糕,MongoDB 和 Elasticsearch 使用方便,而這也導致了 Hadoop 的“衰敗”。


“Hadoop 使用繁瑣”的觀點得到了眾多技術專家的贊同。Hadoop 的本質其實就是 HDFS 存儲 +MapReduce 計算框架,但是 Hadoop 發行商為了提高自己的商業競爭力,在 Hadoop 技術上增加了各種組件。Elastic 社區首席架構師吳斌稱,“假設你發現了一個符合需求的組件,那么在部署使用它之前,可能還需要部署它的存儲和配置管理組件,這時就不得不把精力放在諸如 HDFS、Zookeeper 等組件之上。在真正使用服務之前,用戶就在 HDFS 和 Zookeeper 上付出了不少代價,這個過程往往會讓入門級選手心灰意冷,進而追求門檻更低的服務,例如 Elasticsearch 或者 MongoDB。”


即使成功邁過了入門的門檻,很多企業也會因為復雜性難以充分利用 Hadoop 。MongoDB 中文社區主席唐建法曾在兩間銀行看到過這樣的情況,他們一家使用 MapR,一家使用 Cloudera,在系統上線 2 年后的今天,只完成了一個最簡單的業務場景,行內一部分業務數據的歸檔功能。他們提到了一個共同的問題就是,如果說寫進數據湖(Hadoop) 還算可以做得到, 把數據從里面讀出來使用是更加困難的!


公有云會給 Hadoop 致命一擊嗎?


在很多分析文章中,都把 Hadoop 近日來的“頹勢”歸因為公有云的發展,Hadoop 的出現代表了當時革命性的技術,而云計算代表了數據處理的新方法,解決了與 Hadoop 相同的問題。Hadoop 主要是應用了比之前廉價的存儲,但是云計算的出現,讓存儲變得更加廉價,且用戶體驗也獲得了成倍提升。


云計算廠商打造了完全集成的一站式云原生服務,并且在云上提供了很多組件來替代原有的 Hadoop 組件,例如 AWS 的 S3 替代了 HDFS,K8S 替代了 Yarn。而 Hadoop 因其龐然的架構,本身并不適合以彈性靈活快速擴展的公用云環境。


公有云的出現給了 Hadoop 一定的壓力,但會成為 Hadoop 的致命一擊嗎?


綜合多位技術專家的意見,答案是否定的。


本地化部署的 Hadoop 頹勢確實和公有云產品有關。吳斌認為:“云計算廠商提供的托管服務在部署和運維上給予了用戶太多便利,且從計算資源角度來看,云廠商大大降低了用戶的成本,尤其是競價實例,在給終端用戶節省成本的同時,也做到了資源的合理利用和自身利益的最大化。”


在采訪中,唐建法還提到了另外一種情況:“支撐大部分實體經濟的企業,例如制造業、金融業、政府等強監管行業,還遠遠沒有達到把企業全量數據存放到公有云的階段,甚至會出于數據安全的考慮,永遠不放在公有云上。”也就是說,公有云也不是銀彈,即使發展得更好,也不可能完全侵占 Hadoop 的應用場景。


在很多分析文章都把云公司和 Hadoop 發行版公司放在了對立的兩端,事實上它們并不是天然的對手,Hadoop 發行版公司也在積極的向云端轉型,甚至 Cloudera 原本的初衷就是提供云服務。Cloudera 創始人在某次訪談中提到:“Cloudera 在創建時原本打算做的服務是類似于現在 AWS 的 Elastic MapReduce 那樣的云上服務。但很快發現這個模式太超前,所以轉向了做 Hadoop 發行商的角色。”


云會威脅 Cloudera 嗎?Cloudera 創始人 Mike Olson 在 2018 年接受采訪時,是這樣回答的:“如果五年后我們只是一個本地部署供應商,我們將成為一個注腳。我們的大好機會是幫助客戶遷移到云,并提供云和本地部署之間的可移植性。由于我們在早期所做的賭注,我們可以讓用戶在不編碼到專有 API 的情況下進行遷移。我們與所有的超大規模云提供商都有良好的合作關系。當然,他們在某種程度上與我們競爭,但我的機會不是擊敗 Redshift 。Redshift 的目的是幫助那些希望訓練機器學習模型的客戶在所有云提供商中提供這種能力。而我們的目標是將客戶想要的所有可移植性與他們需要的法規和遵從性功能集成并提供給他們。”


Hadoop 三大發行商的衰落是否代表了 Hadoop 的衰敗?


“Hadoop 三大發行商的衰落是否代表了 Hadoop 的衰敗?”這是很多人關心的問題,也是技術人在熱情討論的問題。首先,需要明確的是 Hadoop 三大發行商無法全權代表 Hadoop,其次,與前幾年相比,Hadoop 的熱度確實在下降。


與其說 Hadoop 衰敗,倒不如說是 Hadoop 走下了神壇。早些年前,Hadoop 是與大數據劃等號的存在,但是現在,大家對于大數據產品的需求更豐富了,眼光也更挑剔了。最早大家只要求能夠處理海量數據,后來追求高效實時,而現在大家還要求經濟便宜,功能豐富。


唐建法認為 Hadoop 生態的衰敗并非是指技術,而是市場炒作的一種理性回歸。因為低成本、海量擴展能力,以及對半結構化、非結構化數據的支持,Hadoop 在大數據分析、歷史數據歸檔方面是有獨特地位的。如果 Hadoop 能夠專注于擅長的離線場景,并提升用戶使用體驗,那么基于 Hadoop 的技術方案在未來還是很有前景的。


Hadoop 真正面臨的競爭態勢是什么?


既然 Hadoop 真正的競爭對手不是 MongoDB、Elasticsearch 等其它開源產品,也不是公有云,那么真正的對手是誰?


首先,我們不能簡單的把 Hadoop 理解成一款產品,它是一種生態。所以,Hadoop 真正面臨的其實是生態之爭,而不是某款產品之爭。


Elasticsearch 技術專家表示:“與 Elasticsearch 生態相比, Hadoop 的產品功能相對比較分散。Elastic Stack 的整合程度則非常高, 且 Elasticsearch 的分析速度更快更實時,從數據接入到前端分析展現都有完整的產品,打通了整條數據分析的鏈路,開箱即用,用戶體驗要好得多。”


而云計算廠商通常會選擇更多的生態伙伴來一起合作,例如 Google 宣布將 MongoDB 納入 Market Place 產品目錄,AWS 與 MongoDB 簽署全球金牌合作伙伴,騰訊云和 Elastic 達成合作。


與單個產品或環節的競爭不同,生態之間的競爭更加復雜多樣,既包括了產業鏈上的生態,也包括了跨行業的生態,所以競爭結果不只是簡單的爭長競短、你死我活,也有可能是互相融合、共同繁榮。Hadoop 生態與其它大數據生態各自有自己的使用場景和成熟的生態鏈,它們之間不只有競爭,更有互補的地方,從這個角度來看,Hadoop 未來的機會不是打敗對手,而是做好自己。


雖然大數據依然如日中天,但該領域曾經的領頭羊 Cloudera、Hortonworks 和 MapR 三家公司最近卻步履蹣跚,多少掩蓋了其幾分風光。Cloudera 和 Hortonworks 合并,而 MapR 開始裁員。與此同時,大數據領域的其他開源供應商(如 Elastic 和 MongoDB 公司)卻勢頭正猛。這到底是發生了什么事?雖然這背后可能有種種原因,但其中一個事實是:老牌 Hadoop 供應商把大賭注押在了錯誤的目標用戶上,瞄準的是所謂數據中心的專職架構師。然而,市場已經轉向了在云計算環境中尋求自由的個體開發人員。Hadoop 氣數已盡?


本文來自微信公眾號:InfoQ(ID:infoqchina),作者:田曉旭

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系[email protected]

正在改變與想要改變世界的人,都在虎嗅APP

贊賞
關閉贊賞 開啟贊賞

支持一下 ??修改

確定

讀了這篇文章的人還讀了...

回頂部
收藏
評論2
點贊8
北京赛车pk10 浙江体彩6+1网上购买 湖北新快3 开乐彩玩法 南平特产 极速快乐十分是官方 六肖中特免费王王中 188即时足球比分 重庆时时彩:官方网站 腾讯分分彩四星挂机稳赚方案 诈金花作弊牌 广东十一选五历史开 广西好运快3中奖金额 黑龙江十一选五中奖技巧 7m篮球指数 3d白包法师文集乐彩网