公開(kāi)信中表示:工業(yè)革命后的200多年里,人類對(duì)物理資源的利用登峰造極,對(duì)數(shù)據(jù)資源的利用卻仍處于起步階段。Google、Facebook、阿里巴巴等互聯(lián)網(wǎng)公司先行一步,觸碰到了大數(shù)據(jù)的魅力。然而,人類擁有的絕大部分?jǐn)?shù)據(jù)還無(wú)法產(chǎn)生價(jià)值。

采用傳統(tǒng)方案處理大規(guī)模數(shù)據(jù),一般得耗資數(shù)千萬(wàn)自建數(shù)據(jù)中心,請(qǐng)專業(yè)技術(shù)人員維護(hù)運(yùn)作。一旦數(shù)據(jù)總量超過(guò)100TB,技術(shù)挑戰(zhàn)會(huì)非常大。Hadoop開(kāi)源運(yùn)動(dòng)降低了這一成本,不過(guò)自建一個(gè)像樣的Hadoop集群,仍然需要上百萬(wàn)的起步資金。專業(yè)的Hadoop人才則更加稀缺。

相比而言,使用ODPS的成本和門(mén)檻則低得多。ODPS采取按量收費(fèi)的模式,目前定價(jià)0.3元/GB,即開(kāi)即用,一個(gè)月內(nèi)免費(fèi)。根據(jù)大部分公司的數(shù)據(jù)量來(lái)測(cè)算,一般每月只需花費(fèi)數(shù)百元。

在對(duì)外商用之前,ODPS一直是阿里巴巴內(nèi)部的秘密武器。阿里小貸最先將ODPS應(yīng)用到商業(yè)領(lǐng)域。如今,超過(guò)36萬(wàn)人從阿里小貸借款,最小貸款額為1元,并實(shí)現(xiàn)3分鐘申請(qǐng)、1秒放款、0人工干預(yù)。要做到這一點(diǎn),阿里小貸每天得處理30PB數(shù)據(jù),包括店鋪等級(jí)、收藏、評(píng)價(jià)等800億個(gè)信息項(xiàng),運(yùn)算100多個(gè)數(shù)據(jù)模型,甚至得測(cè)評(píng)小企業(yè)主對(duì)假設(shè)情景的掩飾和撒謊程度。阿里小貸每筆貸款成本3毛錢(qián),不到普通銀行的1/1000。

據(jù)悉,淘寶、支付寶等阿里巴巴最核心的數(shù)據(jù)業(yè)務(wù),都運(yùn)行在ODPS平臺(tái)。比如阿里媽媽廣告的核心算法,點(diǎn)擊預(yù)測(cè)模型的訓(xùn)練等。ODPS商用,意味著阿里云將這種大數(shù)據(jù)處理能力對(duì)外開(kāi)放,此舉將大幅降低社會(huì)創(chuàng)新成本。

在公共領(lǐng)域,ODPS也具備廣泛應(yīng)用的潛力:華大基因利用ODPS進(jìn)行基因測(cè)序,耗時(shí)不到傳統(tǒng)方式的十分之一,未來(lái)一旦爆發(fā)生物危機(jī),可以為人類贏得寶貴的破譯時(shí)間;藥監(jiān)部門(mén)利用ODPS,全程監(jiān)管藥品流向,解決假藥問(wèn)題。“我們期待未來(lái)每一桶油、每一道菜的數(shù)據(jù)都跑在ODPS上,食品安全問(wèn)題需要通過(guò)創(chuàng)新的方式來(lái)解決。”

目前,全球提供類似服務(wù)的僅有Google和亞馬遜,國(guó)內(nèi)尚無(wú)同類產(chǎn)品可供比較。阿里云方面表示,ODPS將比Google BigQuery更強(qiáng)大,不僅支持更豐富的SQL語(yǔ)法,還將提供MapReduce編程模型和機(jī)器學(xué)習(xí)建模能力,可以服務(wù)更多應(yīng)用場(chǎng)景。

阿里云計(jì)算最重要的一款產(chǎn)品——ODPS,正式開(kāi)放商用。從今天起,花個(gè)幾百塊錢(qián),人人都能來(lái)玩大數(shù)據(jù)。

簡(jiǎn)單來(lái)說(shuō),ODPS(Open Data Processing Service)是一項(xiàng)Web服務(wù),大家不用花大錢(qián)建數(shù)據(jù)中心,就能分析海量數(shù)據(jù)。我們測(cè)過(guò),100PB的數(shù)據(jù)任務(wù)可在6小時(shí)內(nèi)跑完。這個(gè)數(shù)據(jù)量相當(dāng)于1億部高清電影。

工業(yè)革命后的200多年里,人類對(duì)物理資源的利用登峰造極。第一次信息革命過(guò)去70年了,我們對(duì)數(shù)據(jù)資源的利用卻只是剛開(kāi)了頭。Google、Facebook、阿里巴巴等先行一步,摸到了大數(shù)據(jù)的冰山一角。然而,人類擁有的大部分?jǐn)?shù)據(jù),還無(wú)法產(chǎn)生價(jià)值。

如何讓數(shù)據(jù)產(chǎn)生價(jià)值?先得擁有大規(guī)模處理能力,然后才是挖掘、算法和分析。傳統(tǒng)的做法是這樣的:租個(gè)機(jī)房,買(mǎi)一堆昂貴的設(shè)備搭建數(shù)據(jù)倉(cāng)庫(kù),再請(qǐng)一幫技術(shù)人員來(lái)維護(hù)運(yùn)轉(zhuǎn)。一旦觸發(fā)bug,或者當(dāng)數(shù)據(jù)總量超過(guò)100TB時(shí),你的工程師們可能會(huì)被這些麻煩搞崩潰。

Hadoop開(kāi)源系統(tǒng)很偉大,大大降低了成本。阿里是中國(guó)玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業(yè)務(wù)的快速發(fā)展。不過(guò),自建一個(gè)像樣的Hadoop集群,得百萬(wàn)起步資金,專業(yè)的Hadoop人才更是稀缺。門(mén)檻還是太高。

有沒(méi)有更好的方案?從2009年初,寫(xiě)下“飛天”第一行代碼時(shí),我們就堅(jiān)信這一方案存在。我們用了五年時(shí)間,寫(xiě)下250萬(wàn)行代碼,終于在自主研發(fā)的“飛天”平臺(tái)上成功搭建ODPS。我們把數(shù)據(jù)海洋里的“水”灌進(jìn)ODPS,設(shè)定好一套參數(shù),擰開(kāi)水龍頭,出來(lái)的就是“鮮榨果汁”!

100年前,福特推出了全球第一條流水生產(chǎn)線。一個(gè)個(gè)零部件扔進(jìn)流水線,90分鐘后,一輛嶄新的汽車(chē)擺在面前。不知道福特工程師們當(dāng)時(shí)是怎樣的心情。當(dāng)我們擰開(kāi)ODPS的水龍頭時(shí),感受大抵如此。這個(gè)比喻還不完全恰當(dāng),福特生產(chǎn)線只為福特服務(wù),一條生產(chǎn)線也只能生產(chǎn)一種車(chē)型。而ODPS任何人都可以來(lái)用,水龍頭里流出來(lái)的“果汁”,隨著原始數(shù)據(jù)和算法的改變可以千變?nèi)f化。

我們來(lái)看看ODPS都可以榨哪些“果汁”吧。

ODPS之前一直在阿里內(nèi)部試用。第一個(gè)“小白鼠”是阿里小貸。你見(jiàn)過(guò)敢貸1塊錢(qián)給你的銀行嗎?如今,超過(guò)36萬(wàn)人從阿里小貸借款,最小貸款額1塊錢(qián),并實(shí)現(xiàn)3分鐘申請(qǐng)、1秒放款、0人工干預(yù)。要做到這一點(diǎn),阿里小貸每天得處理30PB數(shù)據(jù),包括店鋪等級(jí)、收藏、評(píng)價(jià)等800億個(gè)信息項(xiàng),運(yùn)算100多個(gè)數(shù)據(jù)模型,甚至得測(cè)評(píng)小企業(yè)主對(duì)假設(shè)情景的掩飾和撒謊程度。另外,阿里小貸每筆貸款成本3毛錢(qián)。什么?你問(wèn)普通銀行的貸款成本?先乘個(gè)1000再說(shuō)。

華大基因,2003年國(guó)內(nèi)抗SARS研究的主力軍。去年,我們邀請(qǐng)華大在ODPS上試了下基因測(cè)序,耗時(shí)不到傳統(tǒng)方式的十分之一。2010年,歐洲E.coli污染危機(jī),測(cè)序和組裝耗時(shí)兩天以上。如果用ODPS,只要幾個(gè)小時(shí)甚至幾十分鐘。一旦未來(lái)真有生物危機(jī)爆發(fā),人類可以贏得寶貴的破譯時(shí)間。

這么高精尖的領(lǐng)域你可能覺(jué)得太遙遠(yuǎn)。說(shuō)說(shuō)當(dāng)前最火的世界杯吧。Google拿英國(guó)體育數(shù)據(jù)提供商O(píng)pta Sports的數(shù)據(jù),在BigQuery上跑了跑,成功預(yù)測(cè)了本屆世界杯8強(qiáng)名單。ODPS是一款跟Google BigQuery類似的產(chǎn)品,如果哪位有數(shù)據(jù),也可以來(lái)算一算接下來(lái)的比賽。

公共領(lǐng)域的數(shù)據(jù)挖掘,可以用ODPS嗎?當(dāng)然!結(jié)合中國(guó)氣象局的精準(zhǔn)預(yù)報(bào)數(shù)據(jù),高德地圖不久后就能告訴你:“前方道路已嚴(yán)重積水,您的車(chē)輛駛?cè)肟赡軙?huì)遭水淹,建議繞道行駛。”如今,每盒藥品上都有一張電子身份證,從生產(chǎn)、流通、儲(chǔ)存、配送、銷(xiāo)售到使用,全過(guò)程的數(shù)據(jù)都跑在ODPS上,一旦發(fā)現(xiàn)問(wèn)題藥品,監(jiān)管部門(mén)可以立即采取措施。我們期待未來(lái)每一桶油、每一道菜的數(shù)據(jù)都跑在ODPS上,食品安全問(wèn)題需要通過(guò)創(chuàng)新的方式來(lái)解決。

生產(chǎn)電飯煲的工廠,應(yīng)該跟ODPS沒(méi)什么關(guān)系吧?別說(shuō),未來(lái)還真可能有關(guān)系。手機(jī)、電視、手表、汽車(chē)、空調(diào)……這些工業(yè)時(shí)代的經(jīng)典產(chǎn)品,現(xiàn)在都變成了互聯(lián)網(wǎng)終端。誰(shuí)說(shuō)電飯煲、鞋子、衣服不會(huì)呢?如果未來(lái)的制造工廠都變成互聯(lián)網(wǎng)公司,數(shù)據(jù)將成為最基本的生產(chǎn)要素。你不懂算法、不會(huì)建模、不會(huì)分析,沒(méi)關(guān)系,那些有數(shù)據(jù)分析能力的公司會(huì)幫你做。

眼下,阿里巴巴各項(xiàng)數(shù)據(jù)業(yè)務(wù)都在用ODPS“榨果汁”,比如淘寶在算你最中意哪個(gè)淘女郎,天貓?jiān)谒隳闶裁磿r(shí)候想吃車(chē)?yán)遄樱锁B(niǎo)在算卡車(chē)走哪條路可能會(huì)被雷劈,支付寶在算你何時(shí)會(huì)從屌絲變成高富帥。如果大家也想“榨果汁”,歡迎來(lái)試。ODPS的水龍頭就裝在阿里云官網(wǎng)aliyun.com上,一個(gè)月內(nèi)免費(fèi)。

The World Is Flat. 從某種意義上而言,人人都可以成為BAT,哪怕你的公司只有幾號(hào)人。我們希望,在技術(shù)這件事情上,大家變得更加平等!

阿里云ODPS團(tuán)隊(duì)

2014年7月8日

分享到

zhoujianding

相關(guān)推薦