亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        醫(yī)學(xué)百科知識(shí)圖譜構(gòu)建

        2018-03-22 02:40:02,,
        關(guān)鍵詞:百科圖譜實(shí)體

        ,, ,

        隨著互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的發(fā)展,各領(lǐng)域的數(shù)據(jù)和知識(shí)都呈爆炸式的增長,對知識(shí)進(jìn)行高效組織和管理的需求不斷增加。知識(shí)圖譜是在大數(shù)據(jù)背景下產(chǎn)生的一種高效的知識(shí)表示和管理方式[1],能夠支持綜合性的知識(shí)檢索、問答、決策支持、可視化分析等智能應(yīng)用[2-4]。目前,知識(shí)圖譜已經(jīng)被應(yīng)用到各行各業(yè)中,如醫(yī)學(xué)、金融、農(nóng)業(yè)等領(lǐng)域的信息檢索、知識(shí)問答、知識(shí)推理等。但現(xiàn)有的知名知識(shí)圖譜大多適用于通用領(lǐng)域,如谷歌知識(shí)圖譜、Facebook興趣圖譜、搜狗“知立方”等,專業(yè)學(xué)術(shù)領(lǐng)域相關(guān)的研究和應(yīng)用還相對較少,無法滿足科研人員的需求。因此,面向特定領(lǐng)域的知識(shí)圖譜研究與實(shí)踐變得尤為重要。

        近年來,研究者圍繞醫(yī)學(xué)知識(shí)圖譜的構(gòu)建與應(yīng)用開展了大量研究,如Maya等人提出了一種從電子醫(yī)學(xué)病歷中自動(dòng)提取疾病和癥狀概念并自動(dòng)構(gòu)建知識(shí)圖譜的方法[5],Meng Wang等人通過構(gòu)建層次化知識(shí)圖譜來獲取電子醫(yī)學(xué)病歷中患者、疾病和藥物之間的關(guān)系[6],Longxiang Shi等人探索了一種可以實(shí)現(xiàn)知識(shí)圖譜中異構(gòu)醫(yī)學(xué)健康知識(shí)和服務(wù)自動(dòng)檢索的新模型[7],以及面向知識(shí)圖譜的可視化分析[8-10]和應(yīng)用研究[11-12]等?,F(xiàn)有的醫(yī)學(xué)知識(shí)圖譜研究多集中于臨床數(shù)據(jù)和文獻(xiàn)資源,而面向醫(yī)學(xué)百科數(shù)據(jù)的知識(shí)圖譜研究還較為匱乏。因此,本文將借鑒谷歌知識(shí)圖譜構(gòu)建的技術(shù)和經(jīng)驗(yàn),選取較為規(guī)范的醫(yī)學(xué)百科數(shù)據(jù)作為知識(shí)圖譜的應(yīng)用案例,構(gòu)建面向重大疾病的醫(yī)學(xué)百科知識(shí)圖譜,以期為相關(guān)人員提供知識(shí)的高效搜索,為知識(shí)間關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)奠定基礎(chǔ),并最終應(yīng)用于醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)平臺(tái),輔助開展知識(shí)的語義關(guān)聯(lián)和搜索,以及知識(shí)問答、智能診斷等更為深入的應(yīng)用。

        本文利用醫(yī)學(xué)百科數(shù)據(jù)進(jìn)行醫(yī)學(xué)百科數(shù)據(jù)的知識(shí)圖譜構(gòu)建,從數(shù)據(jù)獲取、實(shí)體識(shí)別、關(guān)系抽取、可視化展示等方面闡述醫(yī)學(xué)知識(shí)圖譜的構(gòu)建流程,最后應(yīng)用于“中國工程科技知識(shí)中心醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)平臺(tái)”,實(shí)現(xiàn)醫(yī)學(xué)知識(shí)圖譜的應(yīng)用。

        1 基于醫(yī)學(xué)百科數(shù)據(jù)的知識(shí)圖譜構(gòu)建

        1.1 醫(yī)學(xué)百科知識(shí)圖譜的構(gòu)建方法與流程

        知識(shí)圖譜的構(gòu)建方法可歸納為自頂向下和自底向上兩種[13]。自頂向下的方法是先構(gòu)建知識(shí)圖譜的本體,自底向上的方法則是從實(shí)體層開始構(gòu)建[14],然而實(shí)際構(gòu)建過程中一般是2種方法結(jié)合著使用。知識(shí)圖譜的構(gòu)建涉及實(shí)體抽取和實(shí)體之間關(guān)系的建立[15],首先需要從數(shù)據(jù)中提取出實(shí)體、關(guān)系和屬性,然后利用圖譜繪制軟件或工具生成相應(yīng)的圖譜,可視化展示實(shí)體及實(shí)體間的關(guān)系。

        醫(yī)學(xué)百科知識(shí)圖譜的構(gòu)建流程與之相似,分為知識(shí)獲取、知識(shí)處理和知識(shí)應(yīng)用3部分。針對半結(jié)構(gòu)化的醫(yī)學(xué)百科數(shù)據(jù),需通過命名實(shí)體識(shí)別、實(shí)體關(guān)系抽取等技術(shù)進(jìn)行結(jié)構(gòu)化處理,形成對應(yīng)的知識(shí)三元組,然后利用相關(guān)軟件和工具將其轉(zhuǎn)換為另一種可視化、直觀的表示形式,即知識(shí)圖譜。具體流程如圖1所示。

        1.2 醫(yī)學(xué)百科數(shù)據(jù)獲取

        知識(shí)獲取即調(diào)研、收集擬處理的數(shù)據(jù)對象,以數(shù)據(jù)的可靠性、完整性、權(quán)威性為目標(biāo),以確保數(shù)據(jù)在后續(xù)處理、分析、評估及共享過程中的合理性和價(jià)值。隨著健康問題的關(guān)注度持續(xù)上升,積極開展健康知識(shí)的研究也是實(shí)現(xiàn)“健康中國2030”的重要保障。醫(yī)學(xué)百科是公眾獲取健康知識(shí)的一種重要途徑,好的展示方式將有助于用戶更有效地了解相關(guān)知識(shí),從而促進(jìn)重大疾病的預(yù)防和篩查??紤]到醫(yī)學(xué)百科數(shù)據(jù)量較大,本文擬選取目前疾病負(fù)擔(dān)較重的腫瘤、心腦血管疾病、呼吸系統(tǒng)疾病等探索醫(yī)學(xué)百科知識(shí)圖譜的構(gòu)建方法,并以發(fā)病率較高的哮喘為例進(jìn)行詳細(xì)說明。

        圖1 醫(yī)學(xué)百科知識(shí)圖譜構(gòu)建流程

        “百科名醫(yī)網(wǎng)”(http://www.baikemy.com/)是國家衛(wèi)健委(原“衛(wèi)生計(jì)生委”)權(quán)威醫(yī)學(xué)科普項(xiàng)目唯一的指定網(wǎng)站,涵蓋了大量醫(yī)學(xué)和養(yǎng)生知識(shí),擁有嚴(yán)格的質(zhì)量控制和審核機(jī)制,內(nèi)容嚴(yán)謹(jǐn)、科學(xué)。鑒于其數(shù)據(jù)內(nèi)容全面、質(zhì)量可靠、權(quán)威性高,本文使用Java語言通過網(wǎng)絡(luò)爬蟲方法抓取“百科名醫(yī)網(wǎng)”中與腫瘤、心腦血管疾病、呼吸系統(tǒng)疾病等主題相關(guān)的詞條信息,為后續(xù)知識(shí)處理產(chǎn)生原始數(shù)據(jù)基礎(chǔ)。

        本文基于該爬蟲程序構(gòu)建了醫(yī)學(xué)百科數(shù)據(jù)集,并采用人工剔除的方式輔助篩選出了82條詞條信息,包括疾病名稱、臨床表現(xiàn)癥狀、原因、診斷、治療、預(yù)防等內(nèi)容。同時(shí)對采集的詞條信息進(jìn)行數(shù)據(jù)清洗、編輯、分組、排序、重復(fù)值刪除、規(guī)約等一系列預(yù)處理操作,以保證數(shù)據(jù)的完整和準(zhǔn)確。

        1.3 醫(yī)學(xué)百科數(shù)據(jù)處理

        知識(shí)處理是指通過命名實(shí)體識(shí)別、實(shí)體關(guān)系提取等技術(shù)和方法對所收集的數(shù)據(jù)進(jìn)行的規(guī)范化處理。其中,命名實(shí)體識(shí)別技術(shù)是信息抽取、機(jī)器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分,也是構(gòu)建知識(shí)圖譜的重要手段之一[16-18];實(shí)體關(guān)系抽取的目的則是確定文本中實(shí)體對之間的關(guān)系,具體而言就是利用關(guān)系抽取技術(shù),從無結(jié)構(gòu)的海量文本中提取出格式統(tǒng)一的數(shù)據(jù),然后借助計(jì)算機(jī)快速處理文本,抽取實(shí)體之間的語義關(guān)系,從而構(gòu)建出眾多實(shí)體之間的關(guān)聯(lián)信息[19-20]。盡管目前面向命名實(shí)體識(shí)別、實(shí)體關(guān)系抽取任務(wù)的工具有很多,如針對疾病的工具DNorm-0.06、針對藥物的工具tmChemM1-0.02等,但大多只適用于某些特定的應(yīng)用場景。因此,根據(jù)實(shí)際需要選取相應(yīng)的工具提取實(shí)體及實(shí)體間的關(guān)系信息至關(guān)重要。

        1.3.1 命名實(shí)體識(shí)別

        本文通過中文命名實(shí)體識(shí)別工具Stanford NLP識(shí)別出有效的疾病、癥狀等實(shí)體,為后續(xù)實(shí)體關(guān)系的抽取奠定基礎(chǔ)。此外,為了確保數(shù)據(jù)質(zhì)量,聘請專業(yè)人員對識(shí)別結(jié)果進(jìn)行審核、校對,修改未能正確識(shí)別的命名實(shí)體。

        通過對上述百科數(shù)據(jù)集進(jìn)行癥狀、診斷、病因等命名實(shí)體的識(shí)別與校對,共得到1 876個(gè)實(shí)體。本文以哮喘的部分文本為例進(jìn)行分析說明。圖2為哮喘百科文本中識(shí)別出的實(shí)體情況,包括病因、癥狀、診斷等相關(guān)概念實(shí)體,每個(gè)實(shí)體又包含了實(shí)體的名稱、實(shí)體的類型等。

        圖2 “哮喘”百科文本中相關(guān)命名實(shí)體

        通過對上述“哮喘”百科文本數(shù)據(jù)進(jìn)行命名實(shí)體的識(shí)別,共識(shí)別出41個(gè)相關(guān)實(shí)體。其中病因?qū)嶓w15個(gè)、癥狀實(shí)體9個(gè)、治療實(shí)體9個(gè)、診斷實(shí)體2個(gè)、檢查實(shí)體6個(gè)。

        1.3.2 實(shí)體關(guān)系抽取

        實(shí)體關(guān)系抽取是構(gòu)建知識(shí)圖譜的重要環(huán)節(jié)之一,主要是根據(jù)實(shí)體的屬性、類別、消歧信息、關(guān)鍵詞等特征確定實(shí)體的所屬關(guān)系類別。

        醫(yī)學(xué)領(lǐng)域數(shù)據(jù)具有內(nèi)容豐富、信息量大、潛在價(jià)值高等特點(diǎn),因此對該領(lǐng)域的數(shù)據(jù)進(jìn)行關(guān)系抽取具有非常重要的意義。如醫(yī)學(xué)百科的關(guān)系抽取可以幫助公眾快速了解疾病的病因和癥狀,電子病歷的關(guān)系抽取可以用于臨床決策支持等。

        醫(yī)學(xué)領(lǐng)域?qū)嶓w關(guān)系抽取的任務(wù)主要是抽取疾病和藥物、疾病和癥狀、疾病和基因、疾病和疾病、藥物和癥狀、藥物和藥物等實(shí)體間的關(guān)聯(lián)關(guān)系,從而為患者和領(lǐng)域?qū)<姨峁┲С帧?/p>

        首先,抽取每個(gè)實(shí)體所對應(yīng)的特征和關(guān)鍵詞等信息。百科中的實(shí)體都對應(yīng)著一些結(jié)構(gòu)化和半結(jié)構(gòu)化的特征,本文將采用這些特征來表示實(shí)體的類型(圖3),如“哮喘”百科文本中描述的語義特征包括類別特征、上下文特征、關(guān)系特征、別名等。另外,文本中的關(guān)鍵詞也能對實(shí)體之間的關(guān)系起到一定的提示作用,如兩個(gè)實(shí)體之間的關(guān)系為“治療”,那么句子中就可能包含消除、減緩、恢復(fù)、控制等關(guān)鍵詞[21]。

        然后根據(jù)抽取出的實(shí)體及其特征和關(guān)鍵詞信息進(jìn)行實(shí)體關(guān)系的標(biāo)注,并用RDF三元組表示,如“哮喘”的癥狀表現(xiàn)為“胸悶”、檢查方式有“肺活量”等;同時(shí)能夠展示層次化的關(guān)系,如“哮喘”的病因有“敏感原”,“敏感原”又包括“花粉”等(圖4)。

        本文將識(shí)別的疾病、癥狀、診斷、治療等相關(guān)的實(shí)體和概念使用xml技術(shù)存儲(chǔ)于數(shù)據(jù)庫中(圖5),然后基于dom4j、XPath等技術(shù)對xml文件進(jìn)行解析,構(gòu)造相應(yīng)參數(shù),為后續(xù)的可視化分析和展示奠定基礎(chǔ)。

        圖3 百科中“哮喘”的實(shí)體特征

        圖4 RDF三元組表示

        圖5 知識(shí)存儲(chǔ)情況

        2 知識(shí)圖譜可視化應(yīng)用

        知識(shí)應(yīng)用是基于上述知識(shí)提供的知識(shí)圖譜、輔助語義搜索、可視化分析、智能問答、專家系統(tǒng)等功能和應(yīng)用。其中醫(yī)學(xué)知識(shí)圖譜是一種新型、直觀的實(shí)體關(guān)系展示方式,可基于實(shí)體的概念、屬性、關(guān)系等生成多元的可視化知識(shí)圖譜;可視化技術(shù)可以利用計(jì)算機(jī)技術(shù)將醫(yī)學(xué)數(shù)據(jù)轉(zhuǎn)換為圖形或圖像,提高交互能力。通過對疾病、藥物、癥狀等醫(yī)學(xué)數(shù)據(jù)的可視化處理,能夠?qū)崿F(xiàn)更好的視覺效果,同時(shí)也更容易地被用戶所關(guān)注,幫助用戶快速發(fā)現(xiàn)感興趣的內(nèi)容、挖掘知識(shí)間的關(guān)聯(lián)關(guān)系。常用的可視化工具有CiteSpace[22]、Tableau[23]、R語言[24]等,各類工具的功能和視覺效果都各有側(cè)重,應(yīng)具體情況具體分析。

        圖形化展示是知識(shí)圖譜構(gòu)建的重要部分。本文選取開源免費(fèi)的ECharts可視化圖表工具對上述百科實(shí)體及其關(guān)系進(jìn)行可視化展示,直觀、生動(dòng)、可交互、可個(gè)性化定制,還賦予用戶進(jìn)行數(shù)據(jù)挖掘和整合的權(quán)限。

        2.1 人機(jī)交互的可視化服務(wù)

        為實(shí)現(xiàn)上述百科實(shí)體關(guān)系的可視化應(yīng)用與服務(wù),本文設(shè)計(jì)了可用于人機(jī)交互展示的系統(tǒng)功能架構(gòu),并對各百科知識(shí)圖譜進(jìn)行平臺(tái)系統(tǒng)實(shí)現(xiàn),在“醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)(http://med.ckcest.cn)”中新增“知識(shí)圖譜”應(yīng)用(圖6)。

        圖6 知識(shí)圖譜應(yīng)用系統(tǒng)頁面

        該知識(shí)圖譜的應(yīng)用實(shí)現(xiàn)了面向心腦血管疾病、腫瘤、呼吸系統(tǒng)疾病、慢性病等4個(gè)主題的醫(yī)學(xué)領(lǐng)域重大疾病的百科知識(shí)圖譜展示,以“哮喘”為例,提供“力導(dǎo)向布局圖”和“和弦圖”兩種可視化功能,用戶可根據(jù)需要隨意切換,如圖7、圖8所示。其中不同顏色、不同尺寸的圓圈表示不同級別的實(shí)體,“邊”表示實(shí)體間的關(guān)聯(lián)關(guān)系。如果想了解某兩個(gè)實(shí)體間的關(guān)系,只需將鼠標(biāo)懸浮于此即可查看。其中,“力導(dǎo)向布局圖”還支持節(jié)點(diǎn)的拖拽功能,用戶可按需調(diào)整各實(shí)體的位置以達(dá)到最好的展示效果。另外,兩種圖提供圖片保存功能,方便后續(xù)開展對比分析和深入研究。

        2.2 “知識(shí)圖譜”應(yīng)用效果

        通過對“醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)”后臺(tái)日志的分析,發(fā)現(xiàn)“知識(shí)圖譜”應(yīng)用的嵌入使該系統(tǒng)中“百科數(shù)據(jù)”的訪問量有了突破性增加,有超過20%的用戶關(guān)注并瀏覽過知識(shí)圖譜應(yīng)用,且用戶較為關(guān)注的內(nèi)容主要包括哮喘、乳腺癌、肺癌、腦卒中等疾病。

        由此可見,可視化的知識(shí)圖譜應(yīng)用符合領(lǐng)域人員的關(guān)注點(diǎn),能為用戶更好地發(fā)現(xiàn)知識(shí)間的關(guān)聯(lián)關(guān)系提供幫助,并可大大提升平臺(tái)的訪問率和用戶體驗(yàn)。結(jié)合各領(lǐng)域技術(shù)開展百科數(shù)據(jù)知識(shí)間的關(guān)聯(lián)與挖掘,可為相關(guān)人員了解疾病的發(fā)病與關(guān)聯(lián)因素,開展創(chuàng)新研究等提供新的視角,幫助公眾直觀獲取相關(guān)疾病的知識(shí),提高對疾病的認(rèn)知,為減少或預(yù)防高發(fā)疾病的發(fā)生提供依據(jù),為國家工程科技智庫在醫(yī)藥衛(wèi)生、公眾健康、科技創(chuàng)新等方面開展宏觀發(fā)展策略研究提供多元、智能的知識(shí)和服務(wù),為我國醫(yī)藥衛(wèi)生事業(yè)發(fā)展做好服務(wù)支撐工作。

        圖7 “力導(dǎo)向布局圖”可視化展示

        圖8 “和弦圖”可視化展示

        3 結(jié)論

        本文通過構(gòu)建面向重大疾病的醫(yī)學(xué)百科知識(shí)圖譜,實(shí)現(xiàn)了相關(guān)疾病、癥狀、藥物、病因、診斷、治療等知識(shí)的關(guān)聯(lián),提供了力導(dǎo)向布局圖和弦圖兩種可視化展示方式,且支持人機(jī)交互以及圖片下載保存的功能。在知識(shí)圖譜可視化的基礎(chǔ)上,用戶可以直觀獲取上述知識(shí)間的關(guān)系,并能通過人機(jī)交互的方式、根據(jù)個(gè)性化需求生成滿意的圖譜,從而為深入開展相關(guān)科學(xué)研究和知識(shí)潛在關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)奠定基礎(chǔ)。

        目前,知識(shí)圖譜技術(shù)僅應(yīng)用于“醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)”中“百科數(shù)據(jù)”的展示,尚未實(shí)現(xiàn)真正意義上的語義搜索。下一步,我們將繼續(xù)拓展醫(yī)學(xué)專家、研究機(jī)構(gòu)、專利、報(bào)告、文獻(xiàn)等類型資源,抽取各類資源所包含的概念、實(shí)體、屬性及其關(guān)系,圍繞共同概念和實(shí)體整合不同類型、不同來源的知識(shí),形成豐富、多元的知識(shí)庫,從而構(gòu)建全面、巨大的知識(shí)圖譜,為“中國工程科技知識(shí)中心醫(yī)藥衛(wèi)生專業(yè)知識(shí)服務(wù)系統(tǒng)”提供全面的知識(shí)檢索和實(shí)體鏈接方法,提高知識(shí)檢索和獲取的效率。

        猜你喜歡
        百科圖譜實(shí)體
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        樂樂“畫”百科
        百科小知識(shí)
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對接你思維的知識(shí)圖譜
        探索百科
        免费大学生国产在线观看p| 欧美放荡的少妇| 免费人成再在线观看网站| 久久精品国产72国产精福利| 久久精品国产亚洲av网在| 97人妻人人揉人人躁九色| 55夜色66夜色国产精品视频| 欧美国产亚洲精品成人a v| 亚洲大片一区二区三区四区| 国产av一区二区三区性入口| 4hu四虎永久在线观看| 国产爆乳无码一区二区在线| 久久本道久久综合一人| 少妇人妻综合久久中文字幕| 国产亚洲精品aaaa片小说| 女女同性黄网在线观看| 少妇人妻一区二区三飞| 国产在线无码精品无码| 国产va免费精品高清在线| AV无码免费不卡在线观看| 毛片在线视频成人亚洲| 狠狠的干性视频| 99久久精品免费看国产情侣| 青青草原亚洲在线视频| 亚洲天堂成人av影院| 日韩少妇内射免费播放| 狠狠干视频网站| 日本啪啪视频一区二区| 国产放荡对白视频在线观看| 中国精品久久精品三级| 少妇久久高潮不断免费视频| а天堂中文地址在线| 久久人人玩人妻潮喷内射人人| 亚洲无AV码一区二区三区| 亚洲国产精品悠悠久久琪琪| 色777狠狠狠综合| 亚洲成人观看| 久久91精品国产91久久跳舞| 午夜天堂精品久久久久| 少妇厨房愉情理伦片bd在线观看| 国产美女久久久亚洲综合|