任薇 彭寧 范會麗
摘要:近年來,智能問答系統(tǒng)的研究熱度急劇飆升。區(qū)別于傳統(tǒng)搜索引擎,智能問答系統(tǒng)提供的信息服務(wù)速度更快、準(zhǔn)確率更高。對基于中醫(yī)的智能問答系統(tǒng)進(jìn)行研究,可以為受限領(lǐng)域的問答研究提供經(jīng)驗。將中醫(yī)知識智能問答系統(tǒng)劃分為三部分,分別是問句的分析理解,信息檢索和答案返回,并使用基于傳統(tǒng)規(guī)則的方式完成智能問答過程。實驗結(jié)果表明,系統(tǒng)可以對13類問題進(jìn)行針對性的回答。
關(guān)鍵詞:中醫(yī);智能問答;知識庫;傳統(tǒng)規(guī)則;受限領(lǐng)域
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)32-0200-02
1概述
人類日常生產(chǎn)生活過程中充斥著各種各樣的信息,如何從眾多信息中獲取到有效的信息是值得關(guān)注的問題。隨著信息化時代的到來,人們獲取信息的方式由傳統(tǒng)的書籍、信件等發(fā)展成了現(xiàn)如今的網(wǎng)絡(luò)化信息獲取。網(wǎng)絡(luò)化信息獲取主要媒介就是傳統(tǒng)的搜索引擎。用戶通過輸入一些關(guān)鍵詞,搜索引擎會返回許多與之相干的頁面,而這些網(wǎng)頁內(nèi)容的質(zhì)量參差不齊,因此用戶必須根據(jù)實際需要對信息進(jìn)行篩選,無形中消耗了更多的時間,這無疑與現(xiàn)如今快節(jié)奏的生活背道而馳。
順應(yīng)社會發(fā)展要求,問答系統(tǒng)應(yīng)運而生。用戶輸入自然語言問題后,問答系統(tǒng)接收并對問題進(jìn)行分析理解,直接返回問題的正確答案,這個過程很好彌補(bǔ)了傳統(tǒng)搜索引擎的缺陷。華盛頓大學(xué)圖靈中心主任Etzioni教授曾指出,問答系統(tǒng)具有的高效、準(zhǔn)確的特點,必將引領(lǐng)下一代搜索引擎的發(fā)展形態(tài)。而且近些年來,知識庫技術(shù)的發(fā)展為問答系統(tǒng)提供了新的突破性進(jìn)展。
中醫(yī)作為傳統(tǒng)文化的瑰寶,在中華民族發(fā)展過程中積累了大量的臨床經(jīng)驗。將基于知識庫的問答系統(tǒng)應(yīng)用于中醫(yī)學(xué)領(lǐng)域,對于提高人們獲取醫(yī)學(xué)知識的效率、淋漓盡致地發(fā)揮中醫(yī)應(yīng)用價值有著重要意義。
2中醫(yī)知識庫的構(gòu)建
知識庫,又稱知識圖譜。利用節(jié)點和有向邊兩種基本元素對知識進(jìn)行組織。其中,節(jié)點代表現(xiàn)實世界中客觀存在的實體,而邊則表示實體間存在的關(guān)系。對中醫(yī)知識智能問答系統(tǒng)進(jìn)行研究,首當(dāng)其沖的,要構(gòu)建一個基于中醫(yī)知識的知識庫。
首先,知識獲取階段主要是從半結(jié)構(gòu)化的中醫(yī)網(wǎng)站中利用爬蟲技術(shù)爬取相關(guān)的中醫(yī)知識數(shù)據(jù),作為構(gòu)成知識庫的數(shù)據(jù)來源。并且由于這些初步數(shù)據(jù)不可避免地存在數(shù)據(jù)不干凈、表達(dá)不規(guī)范等問題,需要人工進(jìn)一步進(jìn)行分析處理,剔除掉不可用的無效信息。其次,知識表示與存儲階段采用圖結(jié)構(gòu)對中醫(yī)知識進(jìn)行組織,并采用Neo4i圖數(shù)據(jù)庫作為數(shù)據(jù)存儲工具存儲中醫(yī)知識數(shù)據(jù)。
3智能問答過程
一般來說,智能問答系統(tǒng)主要由問題分析與理解、信息檢索和答案返回三部分組成。其中:
問句分析理解是第一步驟,也是先決環(huán)節(jié),其分析理解的精度將直接影響后續(xù)步驟的執(zhí)行。
信息檢索旨在知識庫中確定問句實體位置,縮小問題答案范圍。
答案返回則是將查詢結(jié)果套上各種類型問題的回答模板返回給用戶,以免直接返回答案太過于晦澀。如果用戶的問題表達(dá)缺乏必要的信息,會根據(jù)缺失內(nèi)容進(jìn)一步引導(dǎo)用戶輸人正確的問句。
以問句“患失眠后可能有哪些表現(xiàn)?”為例,分析問答過程:
首先,問句分析理解階段主要進(jìn)行實體識別、問句分類等操作。利用實體識別技術(shù)抽取出用戶輸入問句中所包含的實體關(guān)鍵詞,并獲取實體關(guān)鍵詞所對應(yīng)的實體類型。通過窮舉各種可能提問問題的方式,建立不同類型關(guān)系類型的疑問特征詞集合。通過實體類型輔以問句的疑問特征詞匹配,共同確定問句所詢問的關(guān)系類型,對問句的操作類型進(jìn)行分類。以“癥狀”特征詞集合[“癥狀”,“表現(xiàn)”,“癥候”,“表征”]為例。通過對問句進(jìn)行分析理解,獲取的實體為“失眠”這類中醫(yī)疾病實體,輔以“癥狀”特征詞集合中的元素“癥狀”,因此可以確定問句的操作類型是要詢問“疾病的癥狀”。
信息檢索將問句分析理解的結(jié)果,即不同的問句操作類型,轉(zhuǎn)化為Neo4j數(shù)據(jù)庫支持的cypher查詢請求,作為問題和中醫(yī)知識庫連接的媒介,從而支持問答服務(wù)。利用Neo4j的cv-Dher語句直接match到知識庫中相應(yīng)的節(jié)點和關(guān)系邊。所舉例子中,在知識庫中由“失眠”的節(jié)點出發(fā),經(jīng)由“癥狀”關(guān)系邊,所到達(dá)的節(jié)點即為失眠的癥狀節(jié)點,也就是問題的答案。當(dāng)與知識庫數(shù)據(jù)進(jìn)行交互時,如果表達(dá)數(shù)據(jù)不精確,則使用模糊匹配,提高問題處理的靈活度。
答案返回則是獲得cypher語句的操作結(jié)果并輔以各種類型問題的回答模板返回給用戶,至此完成全部的問答服務(wù)。所舉例子的操作類型為詢問“疾病的癥狀”,封裝上該類型回答模板后,返回結(jié)果為“失眠的癥狀有:不寐,心煩,頭重目眩等”。
實驗結(jié)果表明,系統(tǒng)可針對13種不同類型的問題給出針對性的回答。
4結(jié)論
中醫(yī)作為中國的傳統(tǒng)醫(yī)學(xué)文化,蘊(yùn)含了豐富的病理知識。近些年來,國家頒布諸多法令促進(jìn)中醫(yī)學(xué)的發(fā)展。響應(yīng)國家號召,對中醫(yī)知識的智能問答系統(tǒng)進(jìn)行研究,對于促進(jìn)中醫(yī)學(xué)“現(xiàn)代化”具有重要意義嘲。使用基于傳統(tǒng)規(guī)則的方式對中醫(yī)領(lǐng)域的智能問答系統(tǒng)進(jìn)行研究,回答結(jié)果依賴于規(guī)則制定的覆蓋范圍。相信利用數(shù)據(jù)挖掘技術(shù),采集更多的問句樣本,可以提高規(guī)則的覆蓋范圍,擴(kuò)大問題回答的廣度。