究其原因主要在于這款APP知道我喜歡聽什么,能根據(jù)喜好向我推薦風格類似的歌曲,偶爾還會推薦幾首很久之前聽過但是忘了名字的歌曲,驚喜又意外,而且,這款APP的評論區(qū)里的聚集了一批活躍的、同好網(wǎng)友,讓我認識到我的偏好并不孤獨。
作為IT行業(yè)的觀察者,筆者自然知道這背后的技術叫做大數(shù)據(jù),偏好推薦是大數(shù)據(jù)最擅長的,但不知道背后提供大數(shù)據(jù)服務的不是網(wǎng)易APP的直接開發(fā)者,而是整個網(wǎng)易的數(shù)據(jù)科學中心,2018年4月下旬,在2018首席信息官峰會上海站,筆者有幸見到了網(wǎng)易數(shù)據(jù)科學中心負責人余利華,這些大數(shù)據(jù)推薦服務都出自余利華和他的技術團隊。
資料顯示,余利華于2008年正式加入網(wǎng)易研究院,十年來,一直以來專注于數(shù)據(jù)基礎設施(Data Infrastructure),包括數(shù)據(jù)存儲、數(shù)據(jù)檢索、數(shù)據(jù)庫以及大數(shù)據(jù)領域的研究工作,在網(wǎng)易的工作期間,參與了分布式文件系統(tǒng)、分布式塊設備系統(tǒng)、分布式檢索系統(tǒng)、MySQL存儲引擎、網(wǎng)易云和猛犸大數(shù)據(jù)平臺等項目。
網(wǎng)易數(shù)據(jù)科學中心是網(wǎng)易的公共部門,負責網(wǎng)易的數(shù)據(jù)基礎設施相關工作,包括網(wǎng)易云音樂、網(wǎng)易游戲、網(wǎng)易郵箱、網(wǎng)易嚴選、網(wǎng)易門戶(網(wǎng)易新聞APP)、網(wǎng)易考拉等常見的產(chǎn)品中都用到了該部門的大數(shù)據(jù)技術,其中以網(wǎng)易云音樂作為著名。
余利華提到了一個組非常有趣的數(shù)字,普通音樂的APP大概只有20%-30%的音樂被聽過,而網(wǎng)易云音樂被聽過的音樂大約占到音樂庫的80%。這是怎么做到的呢?筆者從余利華演講中了解到,這一秘訣來自用戶創(chuàng)建的歌單(與之相關的,還有一系列想讓人記在小本本上的神之評論,等UGC相關內(nèi)容),就是說網(wǎng)易云音樂靠的不只是大數(shù)據(jù)推薦算法。
網(wǎng)易云音樂的推薦系統(tǒng)認為,品鑒力比較強的人會創(chuàng)建歌單,從分析來看,這些人在大數(shù)據(jù)系統(tǒng)中呈現(xiàn)的特征也更明顯,從筆者經(jīng)驗來看,同一類型的歌曲才會放到一個歌單里。另外一部分人是分享歌單的人,這部分人認可歌單中的內(nèi)容,最后一部分是根據(jù)普通用戶的播放行為做推薦,挑選出最熱的1%當熱門歌曲推薦出去。
除了網(wǎng)易云音樂的推薦以外,網(wǎng)易大數(shù)據(jù)的實踐場景還包括大數(shù)據(jù)精準營銷、大數(shù)據(jù)優(yōu)化工業(yè)工藝方案、大數(shù)據(jù)優(yōu)化運營效率等等。
網(wǎng)易非常擅長挖掘數(shù)據(jù)的價值,提取一些共性的東西服務于網(wǎng)易的各種產(chǎn)品,在技術成熟之后,網(wǎng)易通過云服務將這些能力對外輸出,對外提供大數(shù)據(jù)服務,這就是網(wǎng)易的大數(shù)據(jù)服務。
網(wǎng)易的大數(shù)據(jù)產(chǎn)品包括兩大產(chǎn)品線,一個是開發(fā)計算平臺,叫做網(wǎng)易猛犸,用來管理數(shù)據(jù)資產(chǎn),提供開發(fā)環(huán)境和大規(guī)模查詢的能力,一個是商業(yè)智能的系統(tǒng),數(shù)據(jù)可視化分析平臺,叫做網(wǎng)易有數(shù),幫助企業(yè)做決策。
在技術架構上,余利華的團隊研究和挑選各種大數(shù)據(jù)相關技術,整個架構的絕大部分的軟件都是自己開發(fā)的,從各種分布式系統(tǒng)的實現(xiàn)到上層的各種應用,都是自己開發(fā)的,非??简灱夹g積累,當然會有一些開源的方案,比如Hadoop之類的方案。
網(wǎng)易的產(chǎn)品以自用為主,先內(nèi)部使用,定期向外部發(fā)布一個版本,部署上,由于很多時候涉及到企業(yè)信息安全,大多數(shù)時候都以私有化部署為主。久病成良醫(yī),豐富的實踐經(jīng)驗是網(wǎng)易大數(shù)據(jù)與一些別的大數(shù)據(jù)服務商的重要區(qū)別,這也是一種優(yōu)勢。
余利華表示,互聯(lián)網(wǎng)在大數(shù)據(jù)領域有天然優(yōu)勢,網(wǎng)易大數(shù)據(jù)選擇將內(nèi)部成熟的東西分享出去,為企業(yè)提供大數(shù)據(jù)服務,將互聯(lián)網(wǎng)的技術服務應用到別的行業(yè),從而產(chǎn)出更多價值。
網(wǎng)易大數(shù)據(jù)部分應用已經(jīng)具有很大規(guī)模。余利華介紹說,網(wǎng)易的大數(shù)據(jù)平臺每天要處理PB級的數(shù)據(jù),集群規(guī)模有幾千臺服務器。在服務客戶方面,網(wǎng)易的大數(shù)據(jù)服務對包括吉利汽車這樣的制造業(yè)、平安科技、汽車之家、中興金融等等外部企業(yè)用戶。(文/朱朋博)