大數據:驅動一個新時代的到來
Michael Hay 發(fā)表于:13年05月06日 11:00 [來稿] DOIT.com.cn
--HDS產品規(guī)劃副總裁,磁盤陣列系統部總工程師Michael Hay
近年來,隨著越來越多的年輕人(1980-2001年出生)步入社會,我們正在經歷信息技術快速革新的時代。在美國這一代人約有9200萬,而在中國這一數字達2.4億,這一代年輕人有著不同行為方式。數據顯示,美國的千禧一代中75%的人熱衷使用社交網絡,并且也更喜歡用移動設備來訪問社交媒體,而在中國,這些年輕人有著同樣的特征。據IDC預測,2015年市場上的移動設備將到達17億,智能手機銷量將達9.82億,而平板電腦將達3.26億。移動社交已越來越廣泛地滲入到人們的日常生活,由此,也產生了各種各樣的數據:地理位置、文本消息、瀏覽歷史、視頻等。
在“大數據”趨勢的驅動下,企業(yè)具有更大規(guī)模的收集和處理數據的能力,越來越廣泛的信息加速了各行各業(yè)決策的速率和準確率。而大數據的“大”,已成為存儲業(yè)界目前所面臨的嚴峻挑戰(zhàn)。據IDC預測,到2015年,大數據技術和服務市場將從2010年的32億美元增長到169億美元,年復合增長率(CAGR)達到39.4%,幾乎是整個信息和通信技術市場年復合增長率的七倍?焖俚臄祿鬓D,動態(tài)的數據體系,以及越來越多樣化的數據類型,面對如此海量的數據規(guī)模,盡管業(yè)界的專業(yè)人士不斷的推崇“大數據”,但其所帶來的復雜程度和處理難度,使得企業(yè)不得不去重新考慮存儲基礎架構的問題。
隨著企業(yè)不斷尋求通過各種方法創(chuàng)新并為客戶構建更好的解決方案,他們面臨的一個最大挑戰(zhàn)是,如何使真正對社會具有深遠意義以及可持續(xù)影響力的創(chuàng)新解決方案實現商業(yè)化。據 IDC 調查,到2014年,絕大部分數據將是非結構化數據。因此,在數據大爆炸或大數據的背景下,我們需要具備發(fā)揮非結構化數據巨大潛力的能力,以便生成新的可持續(xù)業(yè)務、從現有資產獲取經濟價值并提高用戶生產效率。
大數據的基礎架構需求
大數據數量龐大,格式多樣化。大量數據和信息由家庭和辦公場所的各種設備生成。它的爆炸式增長已超出了傳統IT基礎架構的處理能力,給企業(yè)帶來嚴峻的數據管理問題。
IDC認為傳統的基礎架構不能滿足大數據需求和挑戰(zhàn)。支持大數據部署的架構必須可以動態(tài)調整,并具備以下主要特性:
-按需提供的容量和可擴展性,使基礎架構能夠在必要時根據容量和性能擴展或縮減規(guī)模。
-維持“始終在線”的環(huán)境以及防止計劃外停機的故障恢復能力。
-內置數據管理,并且能夠在每個處理階段以及每個后處理常規(guī)運行階段管理數據保護、監(jiān)管達標、處置和同化。
三步走,輕松駕馭大數據
基于對云計算和大數據的深入研究,HDS提出了三步云戰(zhàn)略,即基礎架構云、內容云和信息云。三步云戰(zhàn)略基于企業(yè)現有的IT設施,為企業(yè)的所有數據提供單一的虛擬化平臺。其中基礎架構云目的為提供動態(tài)基礎架構,以實現支持所有數據的單一平臺。而內容云則基于這一單一平臺,借助智能工具,實現對所有類型數據的索引、搜索和發(fā)掘。讓數據可以更容易地被發(fā)現、共享并且重新利用,因而也會變得更有價值。在信息云中,和大數據會更加關聯,讓各種信息分析工具和流程與底層基礎架構完美集成。連接不同的數據集,揭示其中的規(guī)律,以為企業(yè)用戶提供有價值的信息和商業(yè)洞察,幫助客戶應對在醫(yī)療、生命科學、能源研究、社會基礎設施等領域的挑戰(zhàn)。
大數據洞察,基礎架構先行
針對大數據的容量需求,存儲虛擬化是目前為止提高容量效率最重要最有效的解決方案,它為缺乏這些能力的現有存儲系統拓展了自動分層和精簡配置等存儲效率的工具。擁有了虛擬化存儲,便可以將來自內部、外部和多廠商存儲的結構化和非結構化數據的文件、內容和塊存儲等所有的數據類型,整合到一個單一的存儲平臺上。當所有存儲資產成為一個單一的存儲資源池時,自動分層和精簡配置功能就可以擴大到整個存儲基礎設施,從而可以輕松實現容量回收和利用最大化,甚至達到重用現有資產以延長使用,顯著提高IT靈活性和容量效率,以滿足非結構化數據增長的需求。目前,借助HUS中型企業(yè)可以在不影響性能的情況下能夠擴展系統容量達到近3PB,自動更正性能問題,通過動態(tài)虛擬控制器實現快速預配置。此外,通過VSP的虛擬化,大型企業(yè)可以創(chuàng)建接近四分之一EB容量的存儲池。
針對非結構化數據,傳統文件系統中有限的索引節(jié)點總數導致文件系統可以容納的文件、目錄或其它對象的最大數量受到限制。而HNAS和HCP使用基于對象的文件系統,這使它們能夠擴展到PB級,以及數十億的文件或對象。位于VSP或HUS頂部的HNAS和HCP網關可以充分利用模塊存儲的可擴展性,同時享受到通用管理平臺Hitachi Command Suite帶來的好處。HNAS和HCP為大數據文件和內容構建起了相應的架構。
除了可擴展性,大數據必須能夠不受干擾地持續(xù)擴展并具有跨越不同時代技術的遷移能力。數據遷移必須保持在最小范圍,且在后臺完成。大數據應該只需要復制一次便可以恢復可用性;通過版本控制來跟蹤變更,而不是為大數據發(fā)生的每一個變更備份整個大數據。大數據太大而無法整體備份。整個HDS的產品系列均可以實現數據的后臺移動和分層,也可以增加VSP或HUS塊數據池、HNAS文件系統或HCP租戶的容量,并自動在新的容量中調整數據。舊的文件系統與塊數據存儲設備不支持動態(tài)擴展。為了使用新的存儲容量,這些舊系統中的數據不得不從舊的塊數據存儲或文件系統中重新加載到新的存儲容量中。
不論企業(yè)規(guī)模大小,信息過載都是長期以來難以解決的問題。企業(yè)需要高度集成的基礎架構堆棧,以便統一地對所有來源的大數據進行匯聚、訪問管理、分析和交付。這需要基礎架構能夠管理和理解信息。根據及時、相關、全面、準確的信息而非猜測來采取行動,企業(yè)也會因此贏得競爭優(yōu)勢。反之,則會在浩瀚的信息中受制于繁雜的數據、拘泥不前。