同方物聯網應用產業(yè)本部大數據產業(yè)研發(fā)與工程中心數據資源應用事業(yè)部總經理孫哲

封閉系統(tǒng) 保證數據質量

數據質量是企業(yè)和政府普遍關心的問題,數據數量的高低決定數據的可信度。目前我國出現一種現象就是,我們總是被平均,被就業(yè),被住房。這導致很多人對國際統(tǒng)計出來的數據進行懷疑,這種現象就是數據質量造成的。數據為什么會存在偏差,當然大量的數據里面肯定會有水分存在,但更多的是統(tǒng)計口徑和統(tǒng)計平臺的不同造成的。怎么解決數據質量的問題?有多年政府信息化工作專長的同方提出了解決路徑,即元數據的收集和分析,用元數據這種技術架構把數據從源頭質量上進行控制。具體做法是,盡可能的用技術手段去保證數據質量。比如在數據填報的時候有一些審核工具,就用一些技術手段確保數據的填報過程,同時在描述數據的時候,盡可能的把一組數據脫離系統(tǒng)。由于數據本身很難作假,作假都是人為因素造成的,同方的數據統(tǒng)計平臺可以讓數據一進到系統(tǒng)之后就不被人為干擾,這是統(tǒng)計平臺的一個優(yōu)勢和亮點。

重視知識產權 保護數據安全

數據安全的背后關系到國家的安全。“棱鏡門”事件引起各國對信息安全的重視。信息來源于數據,數據安全怎么保證?根源上還是要用國家自主知識產權的產品。尤其是在涉及到數據中心等數據資源上,各行各業(yè)的數據都是如此,掌握在自己手里的數據才是最安全的。

技術上怎樣保證數據的安全?

對此,孫哲指出兩點措施:

第一是建立具有自主知識產權的數據錄入交換體系。這就需要我國相關部門來設定體系標準,建立自主知識產權的數據庫。數據庫其實是造成數據孤島的罪魁禍首,所以同方在進行《北京市宏觀經濟與社會發(fā)展基礎數據庫》的設計時采用了數據資源體系的方法,即“數據資源化,資源體系化”,體系更多的是應用,即被使用、被調用、被共用,資源更多的是盤活、描述和相關性,就是讓數據本身在收集的時候就能自己解釋自己,帶有生命力的匯聚、整合過程,及自描述、自定義過程,讓數據能脫離倉庫、報表自己存在,讓數據真實反應業(yè)務的相關性,那么我們認為這樣的數據就能成為一種資源。另外,數據在采集時還要有特定的主題,使主題更容易去支撐數據間的相關性。當然,有些相關性并不能單純的依靠主題來支撐,但它一定比孤立的把數據匯集起來,堆在數據倉庫中會顯得更好一些,更靈活一些,更可擴展一些。

第二是指標體系的建立。指標體系里很重要的一個數據描述就是時間,同方將其稱為指標時間序列?;谥笜藭r間序列所對應的數據,按照這種分類方式采集到的數據即便被拿走也不能被利用,因為它有一套獨特的元數據規(guī)則,不明白這個規(guī)則的人是沒辦法讀取數據的。比如說我們數據的編排方式和存放方式是按照國外廠商例如微軟數據庫的架構進行的,我們將數據提取出來,然后按照甲骨文的數據倉庫存儲方式存放進去,任何一個熟悉甲骨文廠商的技術人員隨隨便便就可以使用和調取,但如果我們用自己獨有的指標時間序列方式進行存放,不懂我們指標體系的人就無法使用。所以,要把整套系統(tǒng)全部用指標時間序列的方式存放的話,在數據安全和可控性上就能夠得到保證,永遠只服務于它的組織機構,而指標時間序列只是指標體系中的一種,不同的指標序列可以將數據的安全性提升到更高水平。

去IOE 自主品牌崛起之愿景

無論是政府部門還是企業(yè),國內在搭建數據中心的時候,軟件方面基本采用IBM、甲骨文的產品,自主品牌最多起輔助作用,根源上無法保證我國的數據安全。在諸多信息安全事件發(fā)生后,從政府至行業(yè)企業(yè),都越來越重視信息安全問題。對于數據中心的選用尤為謹慎。對于主做政府信息化的同方來說,數據安全是一大挑戰(zhàn),也是尤為重視的問題。在問到同方在數據安全這一塊的發(fā)展上時,孫哲舉例表示,從2009年開始,同方在《北京市宏觀經濟與社會發(fā)展基礎數據庫》項目進行中就很注意安全問題,為保證國產數據安全,到2011年項目截止,只有個別采用甲骨文的軟件,剩下的全部都是用同方自己的數據資源體系,沒有外采數據庫,此外也包括后續(xù)很多項目,都是用自己的數據資源體系,很少去用國外廠商的產品。同方在自主知識產權這一塊的愿景是去IOE——去IBM、Oracle和EMC。雖然目前還沒有這樣的實例,但孫哲堅信,這是我國企業(yè)的共同愿景。在問及選用的標準時,孫哲笑談,不用國外產品的初衷很簡單,我們?yōu)楸WC國產數據安全,能不用就不用。

分享到

wangxueyang

相關推薦