數據湖(data lake):風險還是誤解?


 作為全球最具權威的IT研究與顧問咨詢公司,Gartner不久之前發布的一些關于數據湖(data lake)的言論引發廣泛關注,Gartner方面提示我們數據湖概念正在被誤解,廠商們把握大數據機遇,積極生成數據湖的行為正面臨風險。然而,馬上就有業內專業人士批評Garner誤導了數據湖概念,數據湖是一項有風險的新技術,然而為了進步而冒一些風險也是值得的。下面就是Gartner對于“數據湖”的觀點,以及(Andrew C. Oliver)的博客文章。
 
【Gartner:“數據湖”的誤區與風險】
      Gartner認為,最近圍繞著“數據湖”(Data Lake)這個概念的炒作不斷升溫,正在導致信息管理領域的重大混亂。很多廠商都生成數據湖是抓住大數據機遇的一個重要組成部分,但是廠商們卻對是什么構成了數據湖、或者如何從中獲得價值沒有達成一致。
 
用“數據湖”到底要做什么?
      Gartner研究總監Nick Heudecker表示:“從廣義上講,數據湖被市場營銷為一個用于分析各種來源、原始格式的數據的企業數據管理平臺。其想法很簡單:你將數據以原始格式遷移到數據湖中,而不是放置在專用的數據存儲中。這就避免了接收數據的前端成本。一旦數據被放進數據湖中,企業中的所有人都可以使用這些數據進行分析。”
但是,盡管市場炒作表明,整個企業中每個人都將充分利用數據湖,但是這個定位的前提假設是所有這些人都是在數據處理和分析方面具有高超的能力,因為數據湖缺乏語義一致性和對元數據的治理。
      Gartner副總裁及著名分析師Andrew White表示:“對于提高數據分析靈活性和可訪問性的需求,是數據湖的主要推動力。數據湖可以為企業機構的不同組織提供價值,這一點是千真萬確的,但是企業數據管理的定位還沒有最終實現。”
 
數據湖能否真正連接信息?
      數據湖的重點是保存不同的數據,卻忽略了如何使用數據以及為什么要使用數據、監管數據、定義數據和確保數據安全。數據湖概念希望解決一老一新兩個問題。老問題是,信息孤島。你可以將不同來源都集中到一個未經管理的數據湖中,而不是保持數十種獨立管理的數據集合。從理論上講,整合的結果是加強信息利用和共享,同時降低服務器和許可成本。而新問題,則是涉及到大數據舉措。大數據項目要求大量各種信息。這些信息如此不同,以至于我們不知道這些信息究竟是什么,以及什么時候收到的,就把它歸類到某種類似數據倉庫的結構化數據,或者關系型數據庫管理系統以便未來使用。
      “用數據湖來解決這兩個問題無疑在短期內是有利于IT的,因為IT不再需要花費時間去了解如何使用信息——數據只是被傾倒如湖中。不過,從這些數據中獲得價值,仍然是企業最終用戶的責任。當然,可以運用或者添加相關技術來做到這一點,但是如果沒有至少某種信息治理的集合,那么這個數據湖最終將成為多個缺乏相互連接的數據池或者集中在一個地方的多個信息孤島的集合體。”
 
“數據湖”存在重大風險!
      最重要的一點是無法決定數據質量或者利用其他已經發現價值的分析師或者用戶在使用湖中相同數據中的經驗發現。從定義上看,數據湖可以接收任何數據,不受監督或管理。沒有描述性的元數據,和維護它的機制,數據湖會轉變成數據沼澤。如果沒有元數據,所有對數據的后續使用都意味著從零開始對數據進行分析。
      另外一個風險是安全性和訪問控制。數據可以在不受內容監管的情況下被放到數據湖中。很多數據湖中數據的使用意味著其隱私和法規要求很可能使其暴露于風險之下。數據湖核心技術的安全能力仍然處于早期萌芽階段。如果交給非IT人員的話,這些問題將不會得到解決。
      最后,性能方面的因素也不容忽視。數據湖相關的工具和數據接口的性能無法與專用存儲系統相匹敵,可以針對優化的專用的基礎設施。因此,Gartner建議企業機構專注于上游應用和數據存儲庫的語義一致性和性能,而不是數據湖中的信息整合。
 
       從數據中總是會發現價值的,但你的企業不得不解決的問題是——我們允許甚至是鼓勵對各種孤島或者數據湖中的信息進行一次性、獨立的分析嗎,或者我們會正式承認這方面的努力,試圖維持我們開發的創造價值的技巧嗎?如果你的選擇是前者,那么很可能數據湖就是具有吸引力的。如果你的決定趨向于后者,那么超越數據湖理念,制定一種更強大的邏輯數據倉庫戰略就是更有意義的。
 
 
 
【Gartner正在誤導“數據湖”概念】
      數據湖策略是數據自由化運動的一部分。這一運動源自印刷機的出現,它的出現逐步讓書籍擺脫了修道院的控制。是的,這其中存在著混亂和分裂,但是我們真的希望等著讓僧侶決定誰擁有這些手抄書籍嗎?
      目前數據自由化運動正在互聯網中繼續著。的確,很遺憾這一運動讓書店的日子倍受煎熬,但是我真的很討厭在購書時排隊等待。誠然,維基百科自身存在著一些問題,但是相比之下,大英百科全書(目前已是光盤版)的素材出錯率僅比前者稍微少一點,但是其涵蓋領域僅是前者的十分之一。
      如今Gartner已經與那些坐擁大量數據并用昂貴的專利技術囤積它們的數據僧侶沆瀣一氣。這或許具有更高的安全性(不要把寶都押在這上面),如果僅有那些受到過良好培訓(或是有足夠權力)的人能夠訪問它們,那么解讀可能會更為準確( 微信關注網絡世界),但也可能會被刻意的歪曲。
      同理,專利軟件是更為安全的,因為僅有“專家”有權訪問其來源,不是嗎?Gartner對數據湖的廠商營銷理念以及數據湖這一名稱的字面意思進行了批評,這些評論根本就沒有基于對數據湖實踐案例所進行的分析。當然,你可能會被淹沒在數據湖中!但是這正是你創建類似安全程序(如僅允許通過Knox訪問)、文檔和管控等安全網的原因。
有了數據湖,每次用戶希望以之前未被考慮到的方式提取數據或是在不同系統的數據之間建立新關聯時,不再需要搞一個大型集成項目。是的,人們可能會犯一些錯誤并得出一些錯誤的結論,但是讓更多的人能夠獲取數據顯然比寄希望于幾個坐擁數據倉庫的數據“沙皇”(這些人通常具有技術頭腦而非商業頭腦)將你從中脫困要強。
      數據湖基于一種新的技術。這是一種新的方法學。當然其中也隱藏著風險,但是沒有任何進步是不冒風險的。用戶需要理解數據自由化對自己的公司意味著什么,如何更好地利用數據自由化和新工具做更精明的決策;理解新技術和它們的能力。同時不要被分析公司的負面報告所嚇住,因為分析公司往往會為5頁紙的負面報告配上令人瞠目標題并藉此賣上200美元的好價錢。
 
相關閱讀:
高德納(Gartner)公司是全球最具權威的IT研究與顧問咨詢公司,成立于1979年,總部設在美國康涅狄克州斯坦福。公司希望使自己的業務覆蓋到IT行業的所有領域,從而讓自己成為每一位用戶的一站式信息技術服務公司。
Gartner公司是上世紀90年代微軟最為中意的分析公司。Gartner近日發布了2013年對眾多公司和組織機構具有戰略意義的十大技術與趨勢。它將戰略技術定義為將在未來三年對企業產生重大影響的技術。這些具有重大影響的因素包括使IT或業務中斷的高潛在風險、主要投資需求,或是延遲采用的風險。這十項技術和趨勢,其中包括戰略大數據
 
安德魯 C.奧利弗是一名兼職的軟件顧問。他8歲開始編程,不斷積累在GW Basic, BASICA, 和 dBase III+使用方面的經驗。他為人們所熟知是創立了由Apache所主持的POI項目。早在JBoss與Red Hat合并之前,他是早期開發商之一。安德魯 C.奧利弗之前還是Open Source Initiative的委員會成員。他也是Open Software Integrators的主席和創立者,Open Software Integrators是一家提供專業服務的公司,在在北卡羅來納州達勒姆和芝加哥,伊利諾伊州均設有辦事處。


国产精品一区二区久久不卡