在技術快速跟新換代的互聯網行業,已有 3年 歷史 “大數據” 聽起來似乎已經過氣了。雖然 Hadoop 在 2006年 已經出來,但 “大數據” 這個概念大概是在 2011 到 2014年 左右才真正火起來的。也就是在這段時間里,至少是在媒體或者專家眼里,“大數據” 成為了新的 “金子” 或者 “石油”。然而,至少在我跟業界人士交談中,大家越來越感覺到這項技術已經在某種程度上陷入了停滯。
拋開不可避免的炒作周期曲線態勢不管,我們的 “大數據版圖” 已經進入第 4 個年頭了,趁這個時候退一步來反思一下去年發生了什么,思考一下這個行業的未來會怎樣是很有意義的。
到了2016年,大數據到底還是否依然能站在互聯網的前端呢,中培偉業《大數據Hadoop與Spark架構應用實戰》專家蔣老師給出了自己的觀點。
蔣老師指出,大數據有趣的一點在于,它不再像當初經歷過那樣有可能成為炒作的題材了。經過炒作周期后仍能引起廣泛興趣的產品和服務往往那些大家能夠接觸、可以感知,或者與大眾相關聯的:比如移動應用、社交網絡、可穿戴、虛擬現實等。
但大數據基本上就是管道設施的一種。當然,大數據為許多消費者或商業用戶體驗提供了動力,但它的核心是企業技術:數據庫、分析等,這些東西都是在后端運行的,沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣,用一個晚上的時間就想適應企業端的新技術是不可能的。
大數據現象在早期主要是受到了與一批骨干互聯網公司(尤其是 Google、Facebook、Twitter 等)的共生關系的推動,這些公司既是核心大數據技術的重度用戶,同時也是這些技術的創造者。這些公司突然間面對著規模前所未有的龐大數據時,由于本身缺乏傳統的(昂貴的)基礎設施,也沒有辦法招募到一些最好的工程師,所以只好自己動手來開發所需的技術。后來隨著開源運動的迅速發展,一大批此類新技術開始共享到更廣的范圍。然后,一些互聯網大公司的工程師離職去創辦自己的大數據初創企業。其他的一些 “數字原生” 公司,包括嶄露頭角的獨角獸公司,也開始面臨著互聯網大公司的類似需求,由于它們自身也沒有傳統的基礎設施,所以自然就成為了那些大數據技術的早期采用者。而早期的成功又導致了更多的創業活動發生,并獲得了更多的 VC 資助,從而帶動了大數據的起勢。
快速發展了幾年之后,現在我們面臨的是更加廣闊、但也更加棘手的機遇:讓中等規模到跨國公司級別的更大一批企業采用大數據技術。這些公司跟 “數字原生” 公司不一樣的是,他們沒有從零開始的有利條件。而且他們失去的會更多:這些公司絕大部分的現有技術基礎設施都是成功的。那些基礎設施當然未必是功能完備的,組織內部許多人也意識到對自己的遺留基礎設施進行現代化應該是早點好過晚點,但他們不會一夜間就把自己的關鍵業務取代掉。任何革命都需要過程、預算、項目管理、試點、局部部署以及完備的安全審計等。大企業對由年輕的初創企業來處理自己基礎設施的關鍵部分的謹慎是可以理解的。還有,令創業者感到絕望的是,許多(還是大多數?)企業仍頑固地拒絕把數據遷移到云端(至少不愿遷移到公有云)。
還需要理解的另一個關鍵是:大數據的成功不在于實現技術的某一方面(像 Hadoop 什么的),而是需要把一連串的技術、人和流程糅合到一起。你得捕捉數據、存儲數據、清洗數據、查詢數據、分析數據并對數據進行可視化。這些工作一部分可以由產品來完成,而有的則需要人來做。一切都需要無縫集成起來。最后,要想讓所有這一切發揮作用,整個公司從上到下都需要樹立以數據驅動的文化,這樣大數據才能依然風流。