SGI UV 2000

盡管之前的幾個(gè)項(xiàng)目通過(guò)編輯手動(dòng)分配的位置元數(shù)據(jù)來(lái)映射維基百科條目,這些嘗試只占維基百科位置單元信息很小的一部分。該項(xiàng)目解鎖了文章本身的內(nèi)容,確定了所有四百萬(wàn)頁(yè)面中的每個(gè)位置和日期,以及它們之間的聯(lián)系,以此創(chuàng)建出了一個(gè)龐大的網(wǎng)絡(luò)。

以全新的方式“看”維基百科

SGI首席營(yíng)銷(xiāo)官兼戰(zhàn)略負(fù)責(zé)人Franz Aman(弗朗茨•阿曼)表示:“該分析讓世界能夠從繁雜的單個(gè)文章文本中退出來(lái),從而看到維基百科中海量知識(shí)的全景,而不僅僅是每一頁(yè)的樹(shù)形視圖。我們可以看到整個(gè)人類(lèi)最大的知識(shí)寶庫(kù)是如何演進(jìn)的,并看到我們之前所不能看到的東西,如一定時(shí)空內(nèi)的全球情緒,或者知識(shí)覆蓋不到的盲區(qū)。我們之所以喜歡使用谷歌地圖是因?yàn)槲覀兡軌蚩s放視圖,并得到大圖片視圖。憑借SGI UV 2,我們能夠?qū)⑼瑯拥母拍钸\(yùn)用到大數(shù)據(jù)中,從整體上了解我們的大數(shù)據(jù)。”

從這項(xiàng)分析中我們可以看出,維基百科將其歷史覆蓋分為四個(gè)發(fā)展階段:1001-1500(中世紀(jì)),1501-1729(近現(xiàn)代時(shí)期),1730-2003(啟蒙時(shí)代),2004-2011(維基時(shí)代),其不斷發(fā)展似乎把更多地焦點(diǎn)放在了歷史事件的介紹上,而非增加當(dāng)代記錄的文件。維基百科里關(guān)于每個(gè)年代的論調(diào)與當(dāng)時(shí)的全球重大事件相吻合,比如過(guò)去1000年中,最具負(fù)面色彩的時(shí)期就是美國(guó)內(nèi)戰(zhàn),緊隨其后的是第二次世界大戰(zhàn)。分析還顯示,數(shù)字印刷收藏中20世紀(jì)的內(nèi)容出現(xiàn)很大空白的“版權(quán)差距”,可對(duì)于維基百科這不是問(wèn)題,因?yàn)榫S基百科上從1924年到現(xiàn)在的內(nèi)容一直都在穩(wěn)定地以指數(shù)方式增長(zhǎng)。

讓研究人員能夠以大數(shù)據(jù)的速度挖掘大數(shù)據(jù)

Leetaru(李塔魯)先生表示:“維基百科中的單向連接、連接缺乏,以及分布不均的信息框——所有這些因素都導(dǎo)致基于元數(shù)據(jù)的數(shù)據(jù)挖掘在維基百科這樣的館藏中有著極大的局限性。憑借SGI UV 2,可用的大型共享內(nèi)存讓我能夠接近實(shí)時(shí)地提出整個(gè)數(shù)據(jù)集的問(wèn)題。輕輕點(diǎn)擊便可調(diào)出大量緩存相關(guān)的共享內(nèi)存,我只需簡(jiǎn)單地寫(xiě)下幾行代碼,并在整個(gè)數(shù)據(jù)集上運(yùn)行,提出任何想到的問(wèn)題。而這通過(guò)向外擴(kuò)展計(jì)算方式是無(wú)法實(shí)現(xiàn)的。它非常類(lèi)似于使用文字處理器而不是打字機(jī)——我能夠以完全不同的方式來(lái)進(jìn)行研究,專(zhuān)注于成果而不是算法。”

分析方式

加載到SGI® UV™ 2000超級(jí)大腦 計(jì)算機(jī)中,這個(gè)龐大的數(shù)據(jù)集利用可識(shí)別維基百科上每個(gè)詞條中的每個(gè)位置和日期的算法,從而進(jìn)行全文的地理編碼和完整的日期編碼。公元1000年到2012年間超過(guò)8000萬(wàn)個(gè)位置和4200萬(wàn)個(gè)日期都被提取出來(lái),每篇文章平均有19個(gè)位置和11個(gè)日期(分別為每44個(gè)單詞出現(xiàn)一次位置,每75個(gè)單詞出現(xiàn)一次日期)。每個(gè)日期與每個(gè)位置間的連接被捕捉到一個(gè)代表維基歷史觀的龐大網(wǎng)絡(luò)中。通過(guò)這個(gè)設(shè)備,Leetaru(李塔魯)先生能夠?qū)GI UV 2上的整個(gè)數(shù)據(jù)集進(jìn)行接近實(shí)時(shí)的分析,以便在整個(gè)時(shí)空創(chuàng)建視覺(jué)地圖,不僅看到歷史如何展現(xiàn),也看到過(guò)去一千年世界的整體景象,并交互測(cè)試各種理論和研究問(wèn)題,所有這一切都能在一天之內(nèi)完成。

新的SGI UV:超級(jí)大腦計(jì)算機(jī)

SGI UV 2產(chǎn)品系列讓用戶(hù)能夠在一個(gè)系統(tǒng)上找到世界上最難解問(wèn)題的答案,對(duì)于管理員來(lái)說(shuō),這個(gè)系統(tǒng)就像工作站一樣簡(jiǎn)單。通過(guò)英特爾至強(qiáng)處理器E5系列而開(kāi)發(fā)、運(yùn)行標(biāo)準(zhǔn)Linux,并支持各種存儲(chǔ)選項(xiàng),SGI UV 2為無(wú)限制計(jì)算提供完整、行業(yè)標(biāo)準(zhǔn)的解決方案。

SGI UV 2 能夠從僅配備 16 個(gè)內(nèi)核和 32 GB 內(nèi)存的最小配置起步,無(wú)縫進(jìn)行擴(kuò)展。相比前代產(chǎn)品,這一全新平臺(tái)的內(nèi)核數(shù)量增加了一倍(多達(dá) 4,096 個(gè)內(nèi)核),連貫主內(nèi)存容量翻了兩番(高達(dá) 64 TB),且能夠在單一映像系統(tǒng)中為內(nèi)存計(jì)算提供更有力的支持。SGI UV 2 可擴(kuò)展至 8 PB 共享內(nèi)存,最高 I/O 速率可達(dá) 4 TB/秒(14 PB/小時(shí)),能夠在不到 3 秒的時(shí)間內(nèi)導(dǎo)入美國(guó)國(guó)會(huì)圖書(shū)館紙質(zhì)藏書(shū)的全部?jī)?nèi)容。

SGI UV 2000即日起上市。SGI UV 20今天即可訂貨,并將于2012年8月開(kāi)始發(fā)貨。起價(jià)為30,000美元。

查看圖片和視頻,請(qǐng)?jiān)L問(wèn):http://www.sgi.com/go/wikipedia。

關(guān)于SGI

作為技術(shù)計(jì)算領(lǐng)域值得信賴(lài)的領(lǐng)導(dǎo)者,SGI致力于幫助客戶(hù)應(yīng)對(duì)他們大部分業(yè)務(wù)需求與技術(shù)上的嚴(yán)峻挑戰(zhàn)。垂詢(xún)?cè)斍椋凑?qǐng)?jiān)L問(wèn):http://www.sgi.com.cn/。

分享到

tangrong

相關(guān)推薦