Hadoop會成存儲第3級嗎?
Hadoop,數(shù)據存儲和導入
無論是單獨構建集群系統(tǒng),規(guī)模視情況而定?還是選用市場現(xiàn)有的大數(shù)據一體機,用戶都需要一個單獨平臺進行大數(shù)據分析處理,系統(tǒng)構建完成之后,首先要把數(shù)據導入。
企業(yè)數(shù)據如何導入Hadoop系統(tǒng)?系統(tǒng)又如何組織數(shù)據的呢?為此,我請教百分點大數(shù)據的專家獲知,可以借助不同的工具,對于數(shù)據進行導入。
不同數(shù)據類型,需要采用的不用工具。以數(shù)據庫數(shù)據為例,要采用的工具是Sqoop,可以將一個關系型數(shù)據庫(例如 : MySQL、Oracle、PostgreSQL等)中的數(shù)據導進到Hadoop(Hive)的HDFS中,也可以反過來將HDFS數(shù)據導進到關系型數(shù)據庫中。針對非結構化數(shù)據,例如文本數(shù)據、IoT(物聯(lián)網)機器數(shù)據等,需要使用Flume,它是Cloudera提供的一個海量日志采集、聚合和傳輸?shù)南到y(tǒng),同時Flume也提供對數(shù)據進行簡單處理,并寫到各種數(shù)據接受方(可定制)。需要稍加說明的是,圖片大小不同,接入介質(這里指MongoDB、Hbase或HDFS)不同,其中,有些介質適合小文件數(shù)據處理,有些適合處理大文件,因此,要根據非結構化數(shù)據的特點,分別加以存儲。
“標簽”體系是基礎
當數(shù)據就緒之后,接下來就要由具有行業(yè)經驗、業(yè)務經驗的專家,結合業(yè)務系統(tǒng)和業(yè)務形態(tài)構建數(shù)據的標簽體系。根據介紹,系統(tǒng)為一個用戶打的各種標簽高達近萬種,其顆粒度之細致超乎想象??梢院敛豢鋸埖恼f,機器甚至比你更加了解你自己。對于人來說,做過事情經過一段時間會被遺忘,但機器不會,主要數(shù)據不刪除,機器永遠不會忘記。
標簽體系是用戶業(yè)務畫像的基礎,通過各種靈活業(yè)務查詢,就可以演變出千變萬化的業(yè)務創(chuàng)新應用,可以是解決現(xiàn)有業(yè)務系統(tǒng)的問題,如性能問題、系統(tǒng)預警問題;也可以針對業(yè)務提供創(chuàng)新的業(yè)務服務,例如零售行業(yè)的個性化推薦、金融防欺詐和反洗錢等,這些業(yè)務應用有些屬于離線業(yè)務分析,有些則涉及在線的數(shù)據處理能力。不同系統(tǒng),需要采用不同的技術手段,可以列式數(shù)據庫,也可以是Spark等。
以某省交管部門為例,隨著數(shù)據量的不斷增加,他們所采用的關系數(shù)據庫就出現(xiàn)了性能不足的問題。對此,他們引入了大數(shù)據的技術,通過分布式數(shù)據處理,成功解決系統(tǒng)存在的問題。
從本質上說,大數(shù)據技術和關系型數(shù)據庫所提供服務,從方向上是一致的。關系型數(shù)據庫也提供了數(shù)據存儲、數(shù)據查詢,數(shù)據倉庫ETL等一系列技術,提供在線數(shù)據分析等服務。與之相比,大數(shù)據應用所提供數(shù)據顆粒度更細,分布式系統(tǒng)能夠處理的數(shù)據量更大,數(shù)據分析技術和手段更加多樣性。
如今,隨著人工智能,機器學習等技術的成熟,經過大量數(shù)據的訓練和矯正,數(shù)據建模分析的效果愈發(fā)顯現(xiàn)了出來。以零售行業(yè)個性化推薦應用為例,已經成為了行業(yè)應用的標配,效果顯著。
小結
大數(shù)據應用為人類工作生活展示了美麗畫卷,所謂理想豐滿,現(xiàn)實骨干,如今大數(shù)據應用現(xiàn)狀并不令人滿意,問題并不在Hadoop等技術方向上,方向沒有錯,但與此同時,Hadoop技術復雜性成為了應用的限制門檻。
必須簡化技術的復雜度,為此百分點等廠商推出了像BD-OS這樣的大數(shù)據平臺,幫助用戶簡化和使用各種分析手段和工具。目前,行業(yè)的龍頭企業(yè)正在積極引入這些技術,因此,大數(shù)據技術和行業(yè)應用還在結合之中,行業(yè)應用的爆發(fā)還需要一段時間的積累,所謂不鳴則已,一鳴驚人!
大數(shù)據普遍爆發(fā)也許真的用不了太長的時間!
“大數(shù)據,Hadoop,存儲應用第三極”將作為沙龍主題,在今年12月“中國存儲峰會”推出,敬請關注!