??(圖:CCKS?2020大會官網(wǎng))
針對性數(shù)據(jù)與模型設(shè)計?奪得NER任務(wù)冠軍
第十四屆全國知識圖譜與語義計算大會由中國中文信息學(xué)會語言與知識計算專業(yè)委員會主辦,已經(jīng)成為國內(nèi)知識圖譜、語義技術(shù)、鏈接數(shù)據(jù)等領(lǐng)域的核心學(xué)術(shù)會議,聚集了自然語言理解、知識獲取、智能問答、圖數(shù)據(jù)庫等相關(guān)技術(shù)領(lǐng)域的研究人員和學(xué)者。CCKS技術(shù)評測則旨在為研究人員提供測試知識圖譜與語義計算技術(shù)、算法、及系統(tǒng)的平臺和資源,促進國內(nèi)知識圖譜領(lǐng)域的技術(shù)發(fā)展。針對此次大會,CCKS?2020技術(shù)評測共設(shè)立8個相關(guān)主題評測任務(wù),包含新冠知識圖譜構(gòu)建與問答、面向中文電子病歷的醫(yī)療實體及事件抽取,面向試驗鑒定的命名實體識別等,吸引了眾多知名企業(yè)和高校的踴躍參與。在面向試驗鑒定的命名實體識別的主題評測任務(wù)中,騰訊天衍實驗室奪得冠軍。
??(圖:面向試驗鑒定的命名實體識別評測獲獎名次)
何為命名實體識別?簡言之,如何從海量的文本或網(wǎng)頁的原始數(shù)據(jù)中提取有價值的信息是行業(yè)知識圖譜構(gòu)建的關(guān)鍵因素,信息抽取(Information?Extraction,IE)作為自然語言處理技術(shù)的任務(wù),重點在于從機器可讀取的非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本中抽取信息,而命名實體識別(NER)則是IE任務(wù)的核心和基礎(chǔ)技術(shù),旨在從文本中查找每個提及的命名實體并標記其類型。相比于通用領(lǐng)域NER任務(wù),此次競賽任務(wù)由于試驗?zāi)康牟煌?、被試對象有著自身較為特殊的語言形式,對NER任務(wù)帶來了全新的挑戰(zhàn):一方面,試驗鑒定領(lǐng)域的可用標注語料稀少,訓(xùn)練集只有400條;另一方面,實體類別間語義復(fù)雜度較高,需要依賴專業(yè)領(lǐng)域知識和準確的上下文理解。
針對此次實體識別任務(wù),騰訊天衍實驗室全面識別任務(wù)特點,從數(shù)據(jù)和模型層面進行針對性的設(shè)計。首先,針對訓(xùn)練數(shù)據(jù)樣本較少且樣本序列長度較長的問題設(shè)計了一種基于動態(tài)規(guī)劃的文本分割方法,將較長樣本分割為多個樣本,同時在切割時使得保留最多原始文本信息的前提下冗余數(shù)據(jù)最少。其次,在模型層面上,基于樣本上下文依賴較強且位置關(guān)系明顯的特點,在輸入層把領(lǐng)域分詞信息融合到模型中,并且針對性的選取TENER、RTransfomer作為編碼器;編碼器的輸出結(jié)合CRF做實體的序列標注,針對模型輸出的結(jié)果進行融合和詞典矯正,最終結(jié)果為F值0.72128,奪得該賽道冠軍。
持續(xù)創(chuàng)新輸出技術(shù)實力?加速醫(yī)療科研領(lǐng)域落地應(yīng)用
獲此成績非一朝一夕,在此之前,騰訊天衍實驗室就在日常的業(yè)務(wù)中把實驗室長期積累的相關(guān)技術(shù)落地到醫(yī)療領(lǐng)域的多個場景中,并且在實踐應(yīng)用中進一步夯實技術(shù)實力。
比如疫情期間,騰訊天衍實驗室基于騰訊健康小程序推出的患者同小區(qū)查詢助手極大的方便了用戶查詢同小區(qū)患者信息,疫情智能問答助手則可以7*24小時解答用戶關(guān)于疫情的相關(guān)問題助力公眾科學(xué)防疫抗疫,累積服務(wù)用戶2000萬查詢?nèi)舜?。兩個智能助手應(yīng)用到的核心技術(shù)之一就是NER技術(shù),通過NER技術(shù)從無結(jié)構(gòu)化文本中抽取相關(guān)實體并結(jié)合關(guān)系分類快速構(gòu)建精準圖譜,從而支撐上層各項智能化應(yīng)用。
具體來說,患者同小區(qū)查詢助手,主要利用NER技術(shù)從官方公布的患者信息文件中抽取出關(guān)鍵實體并構(gòu)建患者畫像圖譜,從而實現(xiàn)患者同小區(qū)智能查詢的各項功能。對于疫情問答工具,則主要基于衛(wèi)健委、醫(yī)院等公布的文檔,利用NER技術(shù)從中抽取治療、診斷、藥物、地區(qū)等相關(guān)實體,基于這些實體快速構(gòu)建新冠肺炎相關(guān)的知識圖譜,利用知識圖譜支撐用戶問答服務(wù),從而提高問答的準確性和智能性。
??NER為核心技術(shù)的疫情工具圖譜構(gòu)建流程
騰訊天衍實驗室致力于長期在自然語言基礎(chǔ)能力、語言理解、信息抽取、知識圖譜構(gòu)建等進行研究創(chuàng)新,并將成果運用到落地的醫(yī)療自然語言等場景,目前已構(gòu)建醫(yī)療行業(yè)大規(guī)模知識圖譜,支持了數(shù)百家醫(yī)院的輔診、導(dǎo)診、疾病輔助診斷、智能用藥等產(chǎn)品,助力醫(yī)保、醫(yī)院、疾控中心和其他醫(yī)療機構(gòu)的智能化知識挖掘和管理難題,實現(xiàn)知識化轉(zhuǎn)型。
在醫(yī)療健康領(lǐng)域,騰訊天衍實驗室專注于AI算法研究及落地,旨在依托NLP、知識圖譜、大數(shù)據(jù)、醫(yī)療影像等技術(shù)系統(tǒng),將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應(yīng)用。與此同時,騰訊天衍實驗室還與鐘南山院士以及復(fù)旦腫瘤醫(yī)院等頭部醫(yī)院建立聯(lián)合實驗室,與牛津大學(xué)、蒙特利爾大學(xué)、天津大學(xué)、微眾銀行AI部門等單位建立長期科研合作關(guān)系,目前已發(fā)表包括NIPS、KDD等多篇頂級學(xué)術(shù)論文,通過聯(lián)合社會各界進行技術(shù)深入研究,騰訊天衍實驗室將進一步加速科研應(yīng)用落地,以服務(wù)于臨床應(yīng)用。