李建中以學(xué)院式的手法介紹了大數(shù)據(jù)的研究方向。講三個問題:第一,大數(shù)據(jù)的基本概念。第二,大數(shù)據(jù)計算機(jī)其挑戰(zhàn)。第三,研究問題與部分解。
   
第一,大數(shù)據(jù)的基本概念。什么是大數(shù)據(jù),實際上我的報告講了很多了,為什么叫做描述?因為大數(shù)據(jù)實際上是結(jié)合了不可定義的概念,大是相對的,是相對目前的及拴系統(tǒng)計算能力來說的,今天的大數(shù)據(jù)明天就不是大數(shù)據(jù),大數(shù)據(jù)有的人說三個V,有的人說四個V,V我也不詳細(xì)說了。所以說,大數(shù)據(jù)存在已久。有一個會議叫SSDB是1983年創(chuàng)建的一個會議,這里面的論文就是在研究大數(shù)據(jù),這個會議到現(xiàn)在已經(jīng)有29年的歷史了,現(xiàn)在為什么談起來大數(shù)據(jù)呢?因為個時候大數(shù)據(jù)還沒有那么普遍,涉及的領(lǐng)域很少,參加這方面研究的人也很有限,所以跟現(xiàn)在不同。現(xiàn)在的大數(shù)據(jù)和當(dāng)時研究的不同主要有兩點。
   
第一,大數(shù)據(jù)達(dá)到了無處不在的程度。因特網(wǎng)有很多的大數(shù)據(jù),在科學(xué)研究領(lǐng)域、醫(yī)療領(lǐng)域、商業(yè)領(lǐng)域、制造業(yè)、智慧城市都有大量的數(shù)據(jù)。全世界的感知數(shù)據(jù)增長率是每年58%,全世界擁有的存儲能力或者是存儲總量的增長率是每年只有40%。到2007年是一個里程碑,到2007年全世界的感知數(shù)據(jù)已經(jīng)超過了全世界所擁有的存儲器的容量。到2010年的時候,全世界的感知數(shù)據(jù)是1.25千萬PB,2011年產(chǎn)生的感知數(shù)據(jù)已經(jīng)二倍于我們?nèi)祟愃鶕碛械拇鎯ζ鞯娜萘?。所以,我們可以得到這樣的結(jié)論,大數(shù)據(jù)幾乎無處不在,數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超出了現(xiàn)有的存儲能力。
   
第二,大數(shù)據(jù)計算及其挑戰(zhàn)。
   
大數(shù)據(jù)的輸入是大數(shù)據(jù)D,問題的解是f(D)。我們通常講的時候總是講查詢、挖掘、分析,實際上已經(jīng)遠(yuǎn)遠(yuǎn)地超出了這個范圍。大數(shù)據(jù)是一個多學(xué)科大范圍的研究領(lǐng)域,涉及到很多的學(xué)科。

比如說在生物學(xué)、宇航學(xué)等各種領(lǐng)域里面都有它非常復(fù)雜的大數(shù)據(jù)的計算問題,但我們沒有考慮到。大數(shù)據(jù)計算問題的空間有多大?可以把在大數(shù)據(jù)方面的活動區(qū)分成這樣五個方面,一個是大數(shù)據(jù)的獲取、一個是大數(shù)據(jù)的傳輸、一個是大數(shù)據(jù)的存儲、一個是大數(shù)據(jù)的質(zhì)量管理。最終,要支持大數(shù)據(jù)的問題求解。所有的五個階段里面的問題集中起來,稱之為大數(shù)據(jù)計算問題的空間。我們把求解這個空間里面的每一個問題的過程叫做大數(shù)據(jù)計算。對每個問題要研究什么呢?要研究它的可計算性、計算復(fù)雜性和求解算法?,F(xiàn)在我們面臨的挑戰(zhàn)是四個方面。
   
第一,如何把現(xiàn)有的計算理論、現(xiàn)有的算法、設(shè)計方法和現(xiàn)有的計算系統(tǒng)scale  to  up。第二,usability的問題。如果大數(shù)據(jù)里面充滿了錯誤,我們計算在好也不會得出正確的結(jié)論。第三,privacy的問題,如何在最大化確保privacy。第四,交叉學(xué)科的問題,如何實現(xiàn)多學(xué)科交叉,面臨和解決大數(shù)據(jù)的領(lǐng)域問題,各個學(xué)科里面的大數(shù)據(jù)由于專業(yè)不同又沒有能力處理這樣大的數(shù)據(jù),如何把多個學(xué)科交叉起來,然后來解決問題。所以我們面臨的挑戰(zhàn)是四個挑戰(zhàn)。實際上大對計算的影響力是非常大的。我們在中型計算機(jī)上和64個節(jié)點的集群上做了兩組實驗,就在數(shù)據(jù)庫里面的算法和數(shù)據(jù)苦里面的算法進(jìn)行了計算。我們是用了1T到10T的數(shù)據(jù),這樣的執(zhí)行時間是從68個小時到89個小時。所以,大數(shù)據(jù)項我們提出了很多的挑戰(zhàn),同時現(xiàn)有的方法和技術(shù)已經(jīng)不能有效的支持大數(shù)據(jù)計算了。
   
第三,研究問題與部分解。
   
現(xiàn)在考慮兩個基礎(chǔ)方面的、共性的研究問題。第一個問題是大數(shù)據(jù)的計算復(fù)雜性問題。大數(shù)據(jù)的計算復(fù)雜性測度,除了時間復(fù)雜性以外還要考慮能量復(fù)雜性。云計算出來之后或者是集群技術(shù)出來之后,能量測度復(fù)雜性非常高,我們學(xué)校集群的電費就是1000多萬,所以能量的問題我們不得不考慮。這樣,就要在這兩個測度下來考慮。時間復(fù)雜性的問題上要充分考慮問題的復(fù)雜性分類。傳統(tǒng)的復(fù)雜性理論是把問題分成P類和NP類?,F(xiàn)在在P類問題里,數(shù)據(jù)量輸入非常大的時候,N方算法就已經(jīng)不合適了。甚至N算法都不合適了。在傳統(tǒng)的理論里,我們認(rèn)為多項式算法是可以接受的。的數(shù)據(jù)的前提下不一定合適,大數(shù)據(jù)問題的難解性的標(biāo)準(zhǔn)是什么可以重新考慮。第二是數(shù)據(jù)難解問題的判斷性問題,這通常是用了一個歸結(jié)的方法。假定線性和亞線性是我們能容忍的算法,現(xiàn)在考慮用歸的辦法來判定一個問題是不是難解的,我們用歸就需要來解決多項線性和亞線性歸的問題,這個做起來很困難,如果這條路走不通就需要探索新的路。
   
很多難解的問題怎么辦?我們就想做算法,每個問題的復(fù)雜性我們要知道是不是難解的,這是需要解決的問題,同時難解之后我們要判定是不是有線性或者是亞線性的算法,是不是可近似性的。
   
對能量復(fù)雜性來說,我們首先要研究能量復(fù)雜性的模型,看看能量是怎么樣來消耗能量,然后我們來研究和時間復(fù)雜性相似的問題,這是最基本的基礎(chǔ)理論問題,現(xiàn)在我們正在做這方面的工作。另外一個問題是大數(shù)據(jù)的計算的算法設(shè)計的新方法,我們需要有新的思維,不然的話是很難取得突破性的進(jìn)展的?,F(xiàn)在各個企業(yè)和廠家都在宣布說我有什么什么工具,你有什么什么工具。但試想一下如果一個大數(shù)據(jù)問題到你那算的話都是N的平方算法的話是很難解決的。算法都沒有解決工具何以生成?所以算法是我們面臨的很大的問題。
   
現(xiàn)在多項式算法如果指數(shù)太多的話,是平方級以上對P數(shù)量級或者是E數(shù)量級的數(shù)據(jù)就不可能計算了,所以現(xiàn)在要有新的理念,要追求線性和亞線性計算的算法,這里面是n,logn、loglogn的算法了。排序問題有沒有這樣的算法?對基于比較的排序來說,nlogn也是沒有算法的,但像基數(shù)排序的不依賴于比較的是有線性算法的,讓它具有更一般性適合大數(shù)據(jù)的處理有很多的問題,很多的問題如果不具有線性和亞線性算法的時候,我們要考慮設(shè)計的新方法了。我們首先叫做doing  more  with  less,我能不能用一部分的數(shù)據(jù)來解決整個數(shù)據(jù)的問題。在這么多年的工作中,試著想了幾個方法,一個是基于壓縮的大數(shù)據(jù)計算方法。壓縮大家都知道,可是有一個很大的問題是,傳統(tǒng)的壓縮方法在計算之前需要把數(shù)據(jù)反壓縮過來,可是我們追求的是無解壓的計算,壓縮小了就在小的上面計算,這樣才能達(dá)到提高性能的目的。因此有兩個問題需要考慮,一個是數(shù)據(jù)壓縮方法,一個是無解壓的計算問題。
   
第二個問題是無解壓計算的問題,有了壓縮的方法在這上面怎么計算呢?有很多的方法,有興趣的老師和同學(xué)可以去看一下相關(guān)的文章。第二個方法是適用的是基于抽樣的大數(shù)據(jù)的e、dβ的近似計算方法。因此就要解決三個問題,一個是抽樣方法的選擇問題,不同的數(shù)據(jù)不同數(shù)據(jù)的特點可能需要的抽樣方法是不一樣的,對不同的應(yīng)用抽樣的方法也是不一樣的,甚至我們已經(jīng)遇到了所有的抽樣方法都不合適的數(shù)據(jù)怎么辦?我們還要和數(shù)學(xué)家共同商量,搞出新的方法。第二個方法是估計器的問題,我們要做一個估計器,能夠證明它(e,β)的估計器,那么我們怎么能給定了以后卻確定樣本的大小,希望用最小的樣本來計算問題。這些問題如何解決在下面的文章里都有介紹。
   
第三個問題是增量式大數(shù)據(jù)計算方法。很多的數(shù)據(jù)庫是動態(tài)變化的,還有一些數(shù)據(jù)像傳感器網(wǎng)絡(luò)的數(shù)據(jù)、流數(shù)據(jù)都是在不斷地增加和變化的?,F(xiàn)在就考慮有兩種增量方法,一個是有大數(shù)據(jù)D,先把數(shù)據(jù)D小部分算完了,之后再加上( e,β),我的計算和原始的沒有關(guān)系,只和(e,β)有關(guān)。這個大數(shù)據(jù)的計算問題就變成了小數(shù)據(jù)的計算問題。還有一些流數(shù)據(jù)的增量式的算法就有意義了,總是要保證后面增量的計算和前面沒有關(guān)系,我就把大數(shù)據(jù)的計算問題變成了小數(shù)據(jù)的計算問題,這里面有一些方法,這些文章都很好找的。
   
最后一個現(xiàn)在正在試的方法是主數(shù)據(jù)分析的方法。大數(shù)據(jù)的一個特點是價值很大可是價值密度很低?,F(xiàn)在把有價值的數(shù)據(jù)叫做主數(shù)據(jù),現(xiàn)在我們有兩種主數(shù)據(jù),一般是絕對主數(shù)據(jù),這個數(shù)據(jù)相對這個領(lǐng)域的有價值數(shù)據(jù)是什么?我們要把它找到。另外一個是相對主數(shù)據(jù),這對計算來說是有用的,我們怎么把它找到,現(xiàn)在正在做工作,明年年初會出來結(jié)果。
   
這是在一類方法學(xué)上。下面是云計算環(huán)境下的并行算法的設(shè)計方法。并行算法有很多,可是云計算環(huán)境和傳統(tǒng)的并行計算環(huán)境是不一樣的,所以要有新的設(shè)計方法。第一個問題是,云環(huán)境下大數(shù)據(jù)怎么分布存儲,數(shù)據(jù)怎么在各個節(jié)點上分布才能有效地支持大數(shù)據(jù)計算,這是需要解決的問題,我們提過一些方法。第二個是云計算環(huán)境下的低通訊量的并行算法。因為云計算的通信是瓶頸的問題,如果通信量非常大云計算是不靈的?,F(xiàn)在我們追求的是低通信量的并行算法的設(shè)計。還有是能量受限的大數(shù)據(jù)計算方法,給定一個能力β,這個計算問題要判定一下在β的能量下能不能算出來,能算出來怎么算?我我我這是算法方面要考慮的問題。
   
李建中簡單介紹六個方面的關(guān)鍵技術(shù)研究。
   
第一是大數(shù)據(jù)獲取,有兩個方面,首先是基于互聯(lián)網(wǎng)的大數(shù)據(jù)獲取的理論和方法,在數(shù)據(jù)庫研究里面有了很多的相應(yīng)的技術(shù)。但這些技術(shù)不適合大數(shù)據(jù),數(shù)據(jù)量非常大的時候就有問題,怎么把這些問題scale  to大數(shù)據(jù)上。第二個是基于傳感網(wǎng)的大數(shù)據(jù)的獲取的方法。因為大數(shù)據(jù)的數(shù)據(jù)已經(jīng)達(dá)到了非常大的地步,所以我們涉及到新的數(shù)據(jù)獲取的問題,傳統(tǒng)的傳感器的節(jié)點已經(jīng)不靈了,我們還要研究信號處理的算法,還要研究物理世界信息準(zhǔn)確的獲取的方法。現(xiàn)在的獲取方法有很大的問題,一個這樣的物理世界的信息是這樣的,可是我們可能會變成這個樣子。物理世界不可能再現(xiàn),我們作出的結(jié)論也不可能對。今年我們做了兩個這樣的結(jié)果要發(fā)表出來。
   
在大數(shù)據(jù)的傳輸上,一個是大數(shù)據(jù)實時傳輸?shù)睦碚摵退惴?,有一些結(jié)果。第一是大數(shù)據(jù)的安全可靠傳輸?shù)睦碚摵退惴?。第二,大?shù)據(jù)傳輸?shù)恼{(diào)度和控制的問題。第三,在傳輸?shù)倪^程中繼續(xù)進(jìn)行計算。這樣通信量很少。第三是大數(shù)據(jù)的存儲問題。過去的數(shù)據(jù)中心有很多,數(shù)據(jù)有一個數(shù)據(jù)中心,當(dāng)我用的時候在服務(wù)器上讓數(shù)據(jù)流到我這里來。在網(wǎng)上傳輸TP級數(shù)據(jù)的話,網(wǎng)絡(luò)是根本不可能的?,F(xiàn)在我們希望數(shù)據(jù)中心既能存儲數(shù)據(jù)又能支持大數(shù)據(jù)計算,算法也在那里。用戶提交的是計算請求,計算完之后把結(jié)果傳輸給我,有一系列的研究需要說。
   
第三個問題是大數(shù)據(jù)可用性的研究理論和技術(shù)。目前的大數(shù)據(jù)的基礎(chǔ)設(shè)施基本上都是考慮關(guān)注量的管理忽略了質(zhì)的管理。所以造成了很大的問題,數(shù)據(jù)質(zhì)量問題已經(jīng)嚴(yán)重地危害到了國際信息社會,有很多這樣的例子。在中國雖然沒有報道但也有很多流露。所以說這個問題是很嚴(yán)重的。所以,今年正在做的973項目就是在解決這個問題,把數(shù)據(jù)的可用性定義為數(shù)據(jù)一致性等五個指標(biāo)在信息系統(tǒng)中被滿足的程度。要研究的三個關(guān)鍵科學(xué)問題是量質(zhì)融合管理、劣質(zhì)容忍原理、深度演化機(jī)理。研究的是如何既管量又管質(zhì)。之后要考慮知識,在弱可用信息上如何解決知識的獲取、知識的推理問題,這個項目大概有這么五個課題還有一個應(yīng)用課題。這樣來解決一系列的問題,這樣項目目前在進(jìn)行中已經(jīng)取得了一些結(jié)果再一個是大數(shù)據(jù)問題求解。第一是共性的大數(shù)據(jù)問題的求解的理論和算法,一個是面向應(yīng)用的。
   
共性方面的問題是計算機(jī)界能獨立完成的,應(yīng)用方面需要和應(yīng)用領(lǐng)域結(jié)合起來才能完成。共性方面的問題實際上并不是很多,是結(jié)構(gòu)化和半結(jié)構(gòu)化大型數(shù)據(jù)的理論和算法,現(xiàn)在都有一些不是大數(shù)據(jù)算法。這些算法怎么樣能夠把它提升到解決大數(shù)據(jù)問題上,涉及到需要新的算法,TB級以上的數(shù)據(jù)如何做。再有,圖數(shù)據(jù)安裝,圖數(shù)據(jù)是復(fù)雜的數(shù)據(jù),現(xiàn)在Facebook也好歸根到底都是圖的問題。我們需要研究的是大型圖數(shù)據(jù)的計算的理論和算法,包括確定圖和不確定圖。
   
還有一個是非結(jié)構(gòu)化的大數(shù)據(jù)的計算的理論和算法。同樣的問題有很多,那么算法怎么做,歸根到底還是算法的問題。再一個是面向應(yīng)用的大數(shù)據(jù)求解了,是生物信息領(lǐng)域、天文學(xué)領(lǐng)域等計算,這些計算計算機(jī)科學(xué)家必須和那個領(lǐng)域的專家結(jié)合起來,才能把它解決出來,所以這對我們來說是一個很大的挑戰(zhàn)。
   
第二個是Privacy的問題了,它有可能成為大數(shù)據(jù)計算的很大的障礙。我們遇到的問題是他有數(shù)據(jù)不給你因為保密,可是我們想算又沒有數(shù)據(jù),這里的問題矛盾非常大。所以這個問題是在這一段時間內(nèi)很難解決的問題,所以Pricacy并不是本身的問題。
   
最后李建中提出了兩個問號,第一是大數(shù)據(jù)的硬件平臺,我的問題是云計算是大數(shù)據(jù)計算的最好平臺嗎?它有兩個極限,一個是通訊瓶頸問題,一個是能量消耗問題,這兩個問題是非常嚴(yán)重的。現(xiàn)在云計算炒得很厲害,這不是科學(xué)技術(shù)模式而是一個商業(yè)模式,本質(zhì)上就是一個集群,它的兩個局限性使我們真的做一些復(fù)雜問題處理的時候會發(fā)現(xiàn)做那樣的并行算法幾乎是不可能的,通訊量一到這個問題就很難了。所以我們就想是不是需要考慮突破云計算束縛的、適合大數(shù)據(jù)計算的新型的計算系統(tǒng)。
   
第二個,我們是不是需要新的程序設(shè)備模型。很多的問題并不是能用迭代來做的,很多的問題需要更加適合的模型。怎么樣考慮這個問題,是不是它就到頭了?第二個問題,是不是要新的軟件開發(fā)工具?比如說在集群上設(shè)計一個并行算法的時候,一個調(diào)試工具都沒有,其他的工具呢?就更少了,我們是不是需要?
  
第三,我們是不是需要新的軟件設(shè)計方法學(xué),在云計算環(huán)境下,軟件設(shè)計和遷移的方法一樣嗎?還會不會有其他的問題?引起大家的深思。

分享到

renxinbo

相關(guān)推薦