亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向患者的智能醫(yī)生框架研究

        2018-09-12 02:22:20吳高巍任俊宏張似衡牛景昊張文生
        計(jì)算機(jī)與生活 2018年9期
        關(guān)鍵詞:詞庫(kù)三元組意圖

        謝 剛,吳高巍,任俊宏,張似衡,牛景昊,張文生+

        1.中國(guó)科學(xué)院 自動(dòng)化研究所,北京 100080

        2.貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴陽(yáng) 550001

        1 引言

        由于醫(yī)療資源緊缺和分級(jí)診療實(shí)施困難,“就醫(yī)難”、“就醫(yī)貴”成為當(dāng)今中國(guó)醫(yī)患矛盾的焦點(diǎn),如何借助互聯(lián)網(wǎng)和人工智能來(lái)有效解決遠(yuǎn)程健康咨詢與智能問(wèn)診成為國(guó)際人工智能應(yīng)用的熱點(diǎn)。

        智能醫(yī)生屬于醫(yī)療領(lǐng)域自動(dòng)問(wèn)答的范疇。目前,一部分研究者研究基于傳統(tǒng)檢索技術(shù)的問(wèn)答系統(tǒng),如 MdeQA[1]、AskHERMES[2]、MiPACQ[3]、Enquire-Me[4]、HealthQA[5],這類系統(tǒng)利用關(guān)鍵詞匹配技術(shù)對(duì)問(wèn)題答案對(duì)進(jìn)行檢索;一部分研究者研究基于語(yǔ)義技術(shù)的問(wèn)答系統(tǒng),如MEANS[6]、AskCuebee[7]、QASSD[8]、Watson[9]這類系統(tǒng)從語(yǔ)義層面理解用戶提出的問(wèn)題,同時(shí)將數(shù)據(jù)以資源框架(resource description framework,RDF,https://baike.baidu.com/item/RDFS/9869002)三元組形式進(jìn)行存儲(chǔ),從而實(shí)現(xiàn)醫(yī)學(xué)知識(shí)的共享和利用。但在已有文獻(xiàn)里,對(duì)中文醫(yī)學(xué)領(lǐng)域的問(wèn)答系統(tǒng)研究不多,尤其是針對(duì)患者的醫(yī)學(xué)領(lǐng)域問(wèn)答系統(tǒng)則更少,因此迫切需要針對(duì)患者的中文醫(yī)學(xué)領(lǐng)域的問(wèn)答系統(tǒng)。

        由于患者缺乏相應(yīng)的醫(yī)學(xué)知識(shí),對(duì)問(wèn)題和意圖的表述往往不清楚,同時(shí)在表述問(wèn)題時(shí)口語(yǔ)化現(xiàn)象比較嚴(yán)重,因此怎樣正確識(shí)別患者的意圖和將口語(yǔ)化的臨床表型數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的醫(yī)學(xué)術(shù)語(yǔ)將是醫(yī)療問(wèn)答系統(tǒng)的一大挑戰(zhàn)。本文在這樣的需求下提出一種“一問(wèn)一答”智能醫(yī)生框架,該框架以自建的中文醫(yī)學(xué)知識(shí)圖譜和抓取的健康網(wǎng)站的問(wèn)題答案對(duì)為基礎(chǔ),對(duì)用戶的提問(wèn)進(jìn)行分析,根據(jù)問(wèn)題分析出結(jié)果,對(duì)產(chǎn)生出來(lái)的候選答案采用多種問(wèn)題評(píng)分策略和答案生成策略。實(shí)驗(yàn)表明該框架是有效的。該項(xiàng)成果已成功應(yīng)用于某公司的健康咨詢APP中。

        本文組織結(jié)構(gòu)如下:第2章介紹了智能醫(yī)生架構(gòu);第3章對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了描述;第4章總結(jié)全文。

        2 智能醫(yī)生架構(gòu)

        本文的智能醫(yī)生架構(gòu)如圖1所示。該系統(tǒng)主要包括問(wèn)題分析、候選答案生成和答案生成等三大模塊。系統(tǒng)主要流程為:首先,系統(tǒng)對(duì)用戶輸入的問(wèn)題進(jìn)行分析;其次,根據(jù)問(wèn)題分析的結(jié)果,生成候選答案;最后,將生成的答案返回給用戶。下面對(duì)各模塊進(jìn)行相應(yīng)的介紹。

        2.1 知識(shí)庫(kù)

        知識(shí)庫(kù)的構(gòu)建是實(shí)現(xiàn)智能醫(yī)生的第一步。本文構(gòu)建的知識(shí)庫(kù)包括詞庫(kù)、知識(shí)圖譜、問(wèn)題答案庫(kù)和答案模板庫(kù)等4類。其中,詞庫(kù)用于分詞和詞性標(biāo)注,知識(shí)圖譜用于生成語(yǔ)義三元組和答案生成,問(wèn)題答案庫(kù)和答案模板庫(kù)也用于答案生成。

        2.1.1 詞庫(kù)

        本文用到的詞庫(kù)如下:

        (1)通用詞庫(kù):系統(tǒng)使用了上海林原信息科技有限公司的開(kāi)源漢語(yǔ)言處理包(han language processing,HanLP,http://hanlp.linrunsoft.com/)中的通用詞庫(kù)。

        (2)醫(yī)學(xué)詞庫(kù):包括疾病詞庫(kù)、檢查詞庫(kù)、癥狀詞庫(kù)、手術(shù)詞庫(kù)、藥品詞庫(kù)、醫(yī)院詞庫(kù)、醫(yī)學(xué)單位詞庫(kù)。

        (3)自定義詞庫(kù):疑問(wèn)詞詞庫(kù)、否定詞詞庫(kù)、同義詞庫(kù)。

        2.1.2 醫(yī)學(xué)知識(shí)圖譜

        本文構(gòu)建的醫(yī)學(xué)知識(shí)圖譜部分如圖2所示。

        可見(jiàn),醫(yī)學(xué)知識(shí)圖譜是一張圖G,由模式圖、數(shù)據(jù)圖和邊構(gòu)成,其形式化定義如下:

        定義1(模式圖)[10]模式圖Gs=<Vs,Fs,Es>,其中:

        Fig.1 Intelligent doctor architecture圖1 智能醫(yī)生框架

        Fig.2 Example of knowledge graph圖2 知識(shí)圖譜示例

        Vs表示模式圖的頂點(diǎn)集,每個(gè)頂點(diǎn)表示一個(gè)醫(yī)學(xué)概念,如藥品、疾病等。

        Fs表示模式圖的邊標(biāo)記集,每個(gè)標(biāo)記表示一種概念之間語(yǔ)義關(guān)系,其元素為像rdfs:subClassOf、rdfs:equivalentClass這類來(lái)自語(yǔ)義網(wǎng)絡(luò)現(xiàn)有標(biāo)準(zhǔn)RDFS的屬性和像“主治”這類用戶自定義的屬性。

        Es表示模式圖的邊集,即Es={<vi,vj,Fk>|vi,vj∈Vs,Fk∈Fs(i=1,2,…,n,j=1,2,…,m,k=1,2,…,h)},<vi,vj,Fk>表示結(jié)點(diǎn)vi與vj具有關(guān)系Fk。如<醫(yī)生,專家,rdf:subClassof>表示專家和醫(yī)生是子類關(guān)系。

        定義2(數(shù)據(jù)圖)[10]數(shù)據(jù)圖Gd=<Vd,Fd,Ed>,其中:

        Vd表示數(shù)據(jù)圖的頂點(diǎn)集,每個(gè)頂點(diǎn)要么表示一個(gè)概念的實(shí)例,如“感冒”為疾病的一個(gè)實(shí)例,要么表示屬性的值,如“10袋”為藥品規(guī)格這一屬性的值。

        Fd表示數(shù)據(jù)圖的邊標(biāo)記集,定義與Fs相同。

        Ed表示數(shù)據(jù)圖的邊集,即Ed={<vi,vj,Fk>|vi,vj∈Vd,Fk∈Fd(i=1,2,…,n,j=1,2,…,m,k=1,2,…,h)},<vi,vj,Fk>表示一個(gè)結(jié)點(diǎn)vi的屬性Fk的值vj。例如<感冒,發(fā)燒,@相關(guān)癥狀”>表示“感冒”的相關(guān)癥狀為“發(fā)燒”。

        定義3(知識(shí)圖譜)[10]知識(shí)圖譜G=<V,E>,其中:

        V表示知識(shí)圖譜的頂點(diǎn)集,包括模式圖和數(shù)據(jù)圖的頂點(diǎn),即V=Vs∪Vd。

        E表示知識(shí)圖譜的邊集,包括模式圖和數(shù)據(jù)圖的邊及標(biāo)記為rdf:type的邊,即E=Ed∪Es∪{<vi,vj,rdf:type > |vi∈Vs,vj∈Vdi(i=1,2,…,n,j=1,2,…,m)}。

        在定義1~定義3和現(xiàn)有本體[11-12]的基礎(chǔ)上,本文首先利用protégé(https://protege.stanford.edu/)構(gòu)建醫(yī)療領(lǐng)域知識(shí)圖譜的模式圖;其次,利用D2R(relational database to resource description framework,http://d2rq.org/d2r-server)將關(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)換成RDF三元組。目前已有1 126 214個(gè)三元組,構(gòu)成知識(shí)圖譜的數(shù)據(jù)圖,并以RDF三元組存儲(chǔ)在fuseki(http://jena.apache.org/documentation/fuseki2/index.html)服務(wù)器中。

        2.1.3 問(wèn)答庫(kù)

        本文的問(wèn)題答案庫(kù)來(lái)源于智能問(wèn)醫(yī)生、99健康網(wǎng)和名醫(yī)在線的問(wèn)答數(shù)據(jù),通過(guò)人工整理了60萬(wàn)條,并以(編號(hào),問(wèn)題,答案)的形式存儲(chǔ)在數(shù)據(jù)庫(kù)管理系統(tǒng)中,其表結(jié)構(gòu)如表1所示。

        Table 1 Question answer table表1 問(wèn)題答案表

        2.1.4 模板庫(kù)

        為了更自然地把答案展示給用戶,根據(jù)意圖類別和是非問(wèn)題的類別利用可擴(kuò)展標(biāo)記語(yǔ)言(extensible markup language,XML)共制定了112個(gè)答案模板(answermodel,AM)。例如詢問(wèn)概念定義的模板如下:

        其中,<AM>和</AM>表示一個(gè)答案模板的開(kāi)始和結(jié)束;<AMID>和</AMID>表示答案模板的編號(hào);<parameters>和</parameters>表示答案模板需要的參數(shù);<Answer_Model>和</Answer_Model>表示答案模板的內(nèi)容;<EXAMPLE>和</EXAMPLE>表示該模板對(duì)應(yīng)的問(wèn)題實(shí)例。

        2.2 問(wèn)題分析

        問(wèn)題分析是整個(gè)智能醫(yī)生的第一步,其結(jié)果對(duì)后續(xù)處理過(guò)程有很大影響。問(wèn)題分析的結(jié)果表示為八元組 <It,Qc,Nel,N,Ss,I,TL,P>。其中:It表示問(wèn)題類型,類型與表2中的類型一致;Qc表示問(wèn)題主題類別,具體類別見(jiàn)表3;Nel表示命名實(shí)體集;N表示否定詞集,N={(key,value)};Ss表示問(wèn)題的依存關(guān)系集合;I表示疑問(wèn)詞;TL表示語(yǔ)義三元組集合;P表示意圖。

        問(wèn)題分析的過(guò)程:用戶輸入問(wèn)題后,(1)利用HanLP根據(jù)詞庫(kù)進(jìn)行分詞和詞性標(biāo)注;(2)利用詞的標(biāo)注信息得到命名實(shí)體集Nel、疑問(wèn)詞集I和依存關(guān)系集合Ss;(3)識(shí)別問(wèn)題類型It、否定詞集合N和問(wèn)題主題類別Qc;(4)識(shí)別問(wèn)題意圖P;(5)生成語(yǔ)義三元組集合TL;(6)輸出分析結(jié)果。其流程圖如圖3所示。下面對(duì)問(wèn)題分析的各個(gè)模塊進(jìn)行介紹。

        2.2.1 分詞和詞性標(biāo)注

        本文使用了HanLP對(duì)問(wèn)題進(jìn)行分詞,同時(shí)利用新增的領(lǐng)域?qū)I(yè)詞庫(kù)和自定義詞庫(kù),對(duì)相應(yīng)的詞語(yǔ)重新進(jìn)行詞性標(biāo)注,然后通過(guò)同義詞替換操作,得到如下的問(wèn)題向量表示:

        Fig.3 Question analysis flow chart圖3 問(wèn)句分析流程圖

        Q=(q1,q2,…,qn)

        其中,qi為(word,nature),word表示單詞本身,nature表示單詞的詞性。

        例1“感冒了不發(fā)燒也不咳嗽應(yīng)該吃什么藥”對(duì)應(yīng)的向量表示為((感冒,JB),(不,NW),(發(fā)燒,ZZ),(也,d),(不,NW),(咳嗽,ZZ),(應(yīng)該,v),(吃,v),(什么藥,WHT))。

        2.2.2 命名實(shí)體識(shí)別

        本文需要單獨(dú)識(shí)別的實(shí)體包括疾病、癥狀、檢查、藥品、手術(shù)和醫(yī)院。因?yàn)橐呀?jīng)收集了大量的專業(yè)詞匯,所以直接使用詞性標(biāo)注來(lái)進(jìn)行命名實(shí)體識(shí)別,識(shí)別算法如下。

        算法1命名實(shí)體識(shí)別算法

        輸入:?jiǎn)栴}向量Q。

        輸出:命名實(shí)體集Nel。

        2.2.3 依存關(guān)系分析

        本文使用了HanLP的條件隨機(jī)場(chǎng)(conditional random field,CRF)依存句法分析器進(jìn)行問(wèn)題的依存關(guān)系分析。例1對(duì)應(yīng)的依存關(guān)系如圖4所示。

        Fig.4 Dependency relation graph圖4 依存關(guān)系圖

        從分析結(jié)果中可以看出,句子的核心詞是“感冒”,主語(yǔ)是“感冒了不發(fā)燒也不咳嗽”,謂語(yǔ)是“應(yīng)該吃”,賓語(yǔ)是“什么藥”;感冒、發(fā)燒、咳嗽是并列關(guān)系;“不”是修飾“發(fā)燒”和“咳嗽”的否定詞。

        2.2.4 疑問(wèn)詞識(shí)別和問(wèn)題類型分析

        中文將疑問(wèn)句分為特殊疑問(wèn)句、是非疑問(wèn)句和選擇疑問(wèn)句。根據(jù)統(tǒng)計(jì),在醫(yī)療咨詢方面是非問(wèn)句占30%,選擇問(wèn)句占1%,特殊疑問(wèn)句約69%。因此本文只討論是非問(wèn)句和特殊問(wèn)句。首先提取是非問(wèn)句和特殊疑問(wèn)句的疑問(wèn)詞,然后按照表2所示的分類體系對(duì)疑問(wèn)詞進(jìn)行分類。

        算法2疑問(wèn)詞分析算法

        輸入:?jiǎn)栴}向量Q。

        輸出:疑問(wèn)詞集I和問(wèn)題類型It。

        Table 2 Classification system of interrogative表2 疑問(wèn)詞分類體系

        利用上述算法可以得到例1的疑問(wèn)詞集I={(什么藥,WHT)}和問(wèn)題類型It=WHT。

        2.2.5 否定詞分析

        在醫(yī)學(xué)領(lǐng)域的信息咨詢中,用戶往往用否定詞來(lái)排除某種情況,因此,需要對(duì)否定詞進(jìn)行正確分析。本文的否定詞分析包括否定詞的識(shí)別和否定詞修飾的范圍,其算法如下:

        算法3否定詞分析算法

        輸入:?jiǎn)栴}向量Q,命名實(shí)體集Nel和依存關(guān)系集Ss。

        輸出:否定詞集N。

        利用上述算法可以得到例1中的否定詞集N={(不,發(fā)燒),(不,咳嗽)}。

        2.2.6 問(wèn)題主題分析

        問(wèn)題主題分析主要是分析句子的主題。本文按照表3的分類體系進(jìn)行分類,利用支持向量機(jī)(support vector machine,SVM)[13]模型進(jìn)行分類,首先對(duì)每個(gè)類別標(biāo)注200個(gè)問(wèn)題進(jìn)行訓(xùn)練,然后隨機(jī)挑選了100個(gè)問(wèn)題進(jìn)行測(cè)試,均取得了較好的效果。

        Table 3 Classification system of subject表3 問(wèn)題主題分類體系

        按照上述的分類體系,例1的問(wèn)題主題是“JB”。

        2.2.7 意圖識(shí)別

        本文首先利用詞、問(wèn)題主題和問(wèn)題類型之間的搭配關(guān)系和次序構(gòu)造了如表4所示的254條規(guī)則;其次,利用規(guī)則構(gòu)造如表5~表7所示的條件概率統(tǒng)計(jì)表;再次,根據(jù)如下公式得到相應(yīng)的意圖:

        其中,ai表示第i類意圖;qj表示Q中的第j個(gè)詞。

        如果根據(jù)上述公式計(jì)算出來(lái)的值為0,則利用SVM分類器進(jìn)行分類。意圖識(shí)別算法如下:

        Table 4 Rule example表4 規(guī)則示例

        Table 5 Probability table of intention example表5 意圖概率表示例

        Table 6 Conditional probability tablep(focus|intention)表6 條件概率表p(焦點(diǎn)詞|意圖)

        Table 7 Conditional probability tablep(entity type|intention)表7 條件概率表p(實(shí)體類型|意圖)

        算法4意圖識(shí)別算法

        輸入:Q,Nel,It,Qc;PT,意圖的概率表(表5);CPT,條件概率表(表6、表7)。

        輸出:?jiǎn)栴}意圖P。

        1.for each focus wordqofQdo

        2.利用相似度求q.word在規(guī)則集中的同義詞f;

        3.將f替換Q中的q.word

        4.end for

        5.利用表5~表7所示的概率表和式(1)計(jì)算P

        6.ifPnot exist then采用SVM分類器對(duì)Q進(jìn)行分類得到P;

        7.end if

        8.returnP;

        利用上述算法識(shí)別出例1的意圖為“藥品”。

        這種混合意圖識(shí)別方法,既不需要分類模型對(duì)特征明顯的問(wèn)題進(jìn)行訓(xùn)練,同時(shí)也不需要使用多個(gè)分類器達(dá)到多分類的效果,因而能夠保證分類準(zhǔn)確率的前提下,取得較好的時(shí)間效率。

        2.2.8 語(yǔ)義三元組

        本部分根據(jù)意圖、問(wèn)題主題類別生成語(yǔ)義三元組。本文根據(jù)語(yǔ)義三元組的作用,將語(yǔ)義三元組分為主三元組(main)、條件三元組(condition)和否定三元組(negative),其中主三元組對(duì)應(yīng)于句子主干的語(yǔ)義,條件三元組是對(duì)主三元組的限制,對(duì)應(yīng)于句子的肯定修飾成分,否定三元組也是對(duì)主三元組的限制,對(duì)應(yīng)于句子的否定修飾成分。語(yǔ)義三元組的生成思想:首先,從命名實(shí)體集合和否定詞中確定三元組的主語(yǔ)和類型;其次,將意圖作為所有三元組的謂語(yǔ)。其具體生成算法如下:

        算法5語(yǔ)義三元組生成算法

        輸入:P,Nel,Qc,N。

        輸出:TL。

        利用上述算法得到的語(yǔ)義三元組列表TL={<(感冒,藥品,?),main>,<(咳嗽,藥品,?),negative>,<(咳嗽,藥品,?),negative>}。

        2.3 候選答案生成

        候選答案生成模塊的功能是生成候選答案。本文利用搜索、查詢和推理3個(gè)技術(shù)來(lái)生成候選答案,因此本模塊包括搜索、查詢和推理3個(gè)子模塊,其流程圖如圖5所示。

        Fig.5 Candidate generation flow chart圖5 候選答案生成流程圖

        2.3.1 搜索

        本模塊首先根據(jù)問(wèn)題分析得出的命名實(shí)體集、主三元組、同義詞,問(wèn)題通過(guò)搜索引擎solr(http://lucene.apache.org/solr/)在問(wèn)題答案庫(kù)中搜索出排名前60的問(wèn)題答案對(duì)。本模塊的核心任務(wù)就是搜索語(yǔ)句的構(gòu)造。本文構(gòu)造的搜索語(yǔ)句形式如下:

        其中,pi∈Nel,sij為pi的同義詞。

        例1對(duì)應(yīng)的查詢語(yǔ)句為(感冒or(發(fā)燒or發(fā)熱)or咳嗽or什么藥or(感冒and不and發(fā)燒and也and不and咳嗽and應(yīng)該and吃and什么藥))。

        2.3.2 查詢

        本模塊根據(jù)文獻(xiàn)[14]的思想首先將語(yǔ)義三元組轉(zhuǎn)換成SPARQL查詢語(yǔ)句,然后利用查詢語(yǔ)句查詢知識(shí)圖譜。三元組轉(zhuǎn)換成SPARQL是本模塊的主要任務(wù),其轉(zhuǎn)換思想為:語(yǔ)義三元組的word對(duì)應(yīng)于SPARQL語(yǔ)句的Subject,P對(duì)應(yīng)于SPARQL語(yǔ)句的Predicate,?號(hào)對(duì)應(yīng)于SPARQL語(yǔ)句的?object。轉(zhuǎn)換后的SPARQL示例語(yǔ)句如下:

        2.3.3 推理

        所謂推理就是利用知識(shí)圖譜中已有的知識(shí)推出新的知識(shí)。例如用戶想問(wèn)“腹痛和發(fā)燒有關(guān)系嗎?”,假設(shè)知識(shí)圖譜中只有癥狀和疾病的關(guān)系,此時(shí)就需要推理出癥狀和癥狀的關(guān)系。

        在醫(yī)療領(lǐng)域大量用到這樣的推理,尤其在疾病診斷當(dāng)中。本文利用Jena(http://jena.apache.org/)推理機(jī)實(shí)現(xiàn)知識(shí)的推理。Jena推理機(jī)使用規(guī)則進(jìn)行推理。Jena中的規(guī)則包括通用規(guī)則和自定義規(guī)則兩類,其中通用規(guī)則為Jena自帶的規(guī)則,這類規(guī)則主要是對(duì)知識(shí)的有效性進(jìn)行檢驗(yàn),如模式圖與數(shù)據(jù)圖的一致性,不能對(duì)實(shí)際應(yīng)用的領(lǐng)域知識(shí)進(jìn)行推理;自定義規(guī)則是用戶自己定義的領(lǐng)域知識(shí),能對(duì)領(lǐng)域知識(shí)進(jìn)行推理,因此,本文共定義20條規(guī)則,例如:

        [rule1:(?A rdf:type癥狀),(?A疾病?B),(?B癥狀?C)->(?A相關(guān)?C)]

        該規(guī)則說(shuō)明如果癥狀A(yù)是疾病B的癥狀,而疾病B有癥狀C,則癥狀A(yù)與癥狀C相關(guān)。

        2.4 答案生成

        答案生成模塊的功能是讓智能醫(yī)生將評(píng)分排名第一的答案展示給用戶。答案生成的思想是:首先判斷答案是否為問(wèn)題答案對(duì),如果是,則進(jìn)入問(wèn)題答案評(píng)分和排序;否則直接生成答案。該模塊流程圖如圖6所示。

        Fig.6 Answer generation flow chart圖6 答案生成流程圖

        由圖6可知,問(wèn)題評(píng)分是答案生成的主要組成部分,其作用是計(jì)算候選答案的問(wèn)題與用戶的問(wèn)題之間的相似度?,F(xiàn)有的評(píng)分算法都是直接計(jì)算這兩個(gè)問(wèn)題的相似度。但這種方法只能說(shuō)明問(wèn)題之間的句子含有詞語(yǔ)的相似度,而不能說(shuō)明它們的語(yǔ)義相似度。本文利用多種評(píng)分算法從不同的側(cè)面計(jì)算它們的相似度,從而使評(píng)分更準(zhǔn)確。下面將介紹相關(guān)的評(píng)分算法。

        2.4.1 問(wèn)題詞條匹配算法

        該評(píng)分算法主要是計(jì)算候選答案的問(wèn)題詞條與用戶的問(wèn)題詞條的匹配程度,該評(píng)分越高,說(shuō)明與用戶的問(wèn)題越相似。假設(shè)t為問(wèn)題Q中除疑問(wèn)詞以外的詞條,即t={t1,t2,…,tn},則該算法的評(píng)分公式如下:

        其中:

        例2Q:“流產(chǎn)有什么危害?”

        P1:“流產(chǎn)可能會(huì)導(dǎo)致什么?”

        P2:“流產(chǎn)危害是什么”

        根據(jù)式(2)可知,P2>P1,顯然符合實(shí)際。

        2.4.2 依存句法匹配算法

        該算法主要是計(jì)算候選答案的問(wèn)題與用戶的問(wèn)題句子結(jié)構(gòu)的相似度,值越高,說(shuō)明句子結(jié)構(gòu)越類似。算法思想是:首先得到問(wèn)題及所有候選答案的依存關(guān)系,然后根據(jù)公式得出評(píng)分。該算法的評(píng)分公式如下:

        其中,Ps表示從候選答案問(wèn)題中抽取出來(lái)的依存關(guān)系二元組集合;Qs表示從問(wèn)題中抽取出來(lái)的依存關(guān)系二元組集合。

        根據(jù)式(3)~式(5)可得,P1>P2,顯然與實(shí)際相符。

        2.4.3 文本余弦相似度算法

        本文算法首先基于改進(jìn)的TF-IDF(term frequencyinverse document frequency)詞頻技術(shù)[15]計(jì)算問(wèn)題Q和候選答案問(wèn)題的TF-IDF值向量,然后利用向量余弦相似度計(jì)算用戶的問(wèn)題和候選答案問(wèn)題的相似度。假設(shè)QTF-IDF={x1,x2,…,xn},qTF-IDF={q1,q2,…,qn},其中xi、qi為相應(yīng)詞的TF-IDF值,則文本余弦相似度公式如下:

        2.4.4 問(wèn)題評(píng)分算法

        本文將問(wèn)題詞條匹配算法、依存句法匹配算法和文本余弦相似度算法的結(jié)果按照式(7)計(jì)算出問(wèn)題的最后得分:

        其中,si為每個(gè)評(píng)分算法的評(píng)分;wi為評(píng)分算法的權(quán)重,本文通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)wi為1/3時(shí),效果最好。

        3 實(shí)驗(yàn)與結(jié)果

        本文利用Eclipse開(kāi)發(fā)環(huán)境、Java開(kāi)發(fā)語(yǔ)言和Jena框架,初步實(shí)現(xiàn)了“一問(wèn)一答”的婦產(chǎn)科智能醫(yī)生,并利用真實(shí)的婦產(chǎn)科問(wèn)答語(yǔ)料測(cè)試了本文的系統(tǒng)。

        3.1 度量標(biāo)準(zhǔn)

        采用正確率(precision)來(lái)度量本系統(tǒng)的性能,計(jì)算公式如下:

        3.2 數(shù)據(jù)集

        本文使用真實(shí)的有關(guān)懷孕這一主題的問(wèn)答語(yǔ)料447個(gè)問(wèn)題作為實(shí)驗(yàn)數(shù)據(jù)集,并進(jìn)行人工評(píng)測(cè)。這些問(wèn)題基本涵蓋了懷孕這一主題的全部類型和關(guān)系。實(shí)驗(yàn)數(shù)據(jù)集中的部分問(wèn)題樣例如表8所示。

        Table 8 Question example表8 問(wèn)句示例

        3.3 實(shí)驗(yàn)和結(jié)果

        本節(jié)首先將真實(shí)的語(yǔ)料共計(jì)447個(gè)問(wèn)題分別輸入計(jì)算機(jī),得到相應(yīng)的答案,其次將答案提交給醫(yī)生進(jìn)行審核,具體實(shí)驗(yàn)結(jié)果如表9所示。

        Table 9 Experiment result表9 實(shí)驗(yàn)結(jié)果

        通過(guò)分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本系統(tǒng)的正確率為88.81%,在不正確的問(wèn)題中有64%的錯(cuò)誤是由于未能對(duì)是非疑問(wèn)句進(jìn)行準(zhǔn)確分析造成的,如對(duì)“做輸卵管通液能懷孕嗎?”這樣的問(wèn)題分析不對(duì);16%的錯(cuò)誤是由于句子成分復(fù)雜和未對(duì)口語(yǔ)化的詞語(yǔ)進(jìn)行理解造成的,如句子“為什么那么多人說(shuō)懷孕3個(gè)月以后就穩(wěn)定了,沒(méi)事了?”這樣的問(wèn)題分析不對(duì);8%的錯(cuò)誤是由于在否定詞識(shí)別時(shí)未能對(duì)動(dòng)詞的否定進(jìn)行識(shí)別造成的,如未能識(shí)別句子“懷孕不能吃西瓜嗎?”中的否定詞“不能”是修飾“吃”這個(gè)動(dòng)詞的;6%的錯(cuò)誤是由于在答案中未對(duì)實(shí)體限制進(jìn)行處理造成的,如“孕婦便秘怎么辦?”的答案與“便秘怎么辦”相同;4%的錯(cuò)誤是由于知識(shí)庫(kù)不完備造成的,例如未能識(shí)別句子“懷孕初期能吃桃子嗎?”中的“桃子”;2%的錯(cuò)誤是由于未能識(shí)別不連續(xù)的實(shí)體造成的,如未能將句子“輸卵管為什么梗阻”中的實(shí)體識(shí)別為“輸卵管堵塞”。

        3.4 智能醫(yī)生用戶界面

        本文提出的智能醫(yī)生框架已經(jīng)成功用于某公司的APP中,其用戶界面如圖7所示。

        Fig.7 Users'interface圖7 用戶界面

        4 總結(jié)

        本文提出了一種“一問(wèn)一答”的智能醫(yī)生架構(gòu),該架構(gòu)包括問(wèn)題分析、候選答案生成和答案生成等三部分,并用真正語(yǔ)料對(duì)該架構(gòu)進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文提出的架構(gòu)的準(zhǔn)確率達(dá)到80%以上,因此,該架構(gòu)是有效的。但該智能醫(yī)生的認(rèn)知水平還有待提高,下一步將在以下幾方面進(jìn)行改進(jìn):(1)利用自動(dòng)化技術(shù)對(duì)知識(shí)庫(kù)進(jìn)行擴(kuò)充,增強(qiáng)知識(shí)庫(kù)的自動(dòng)更新能力;(2)利用關(guān)系抽取技術(shù),對(duì)問(wèn)題分析進(jìn)行更精確的理解;(3)利用表示學(xué)習(xí)對(duì)意圖和問(wèn)題類型及主體進(jìn)行識(shí)別;(4)增加推理規(guī)則對(duì)時(shí)間進(jìn)行推理。

        猜你喜歡
        詞庫(kù)三元組意圖
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        原始意圖、對(duì)抗主義和非解釋主義
        法律方法(2022年2期)2022-10-20 06:42:20
        陸游詩(shī)寫(xiě)意圖(國(guó)畫(huà))
        制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
        法律方法(2021年3期)2021-03-16 05:56:58
        關(guān)于余撓三元組的periodic-模
        詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
        環(huán)境變了,詞庫(kù)別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        燕山秋意圖
        三元組輻射場(chǎng)的建模與仿真
        精品人妻一区二区三区蜜臀在线 | 天堂8中文在线最新版在线| 99国产小视频| 日本在线一区二区三区观看| 97中文字幕精品一区二区三区| 尤物在线精品视频| 久久精品夜夜夜夜夜久久| 亚洲色欲色欲www成人网| 国产一级内射一片视频免费| 蜜臀亚洲av无码精品国产午夜.| 亚洲欧美日韩综合久久| 动漫av纯肉无码av在线播放| 日本国产一区二区在线| 欧美老肥妇做爰bbww| 国产午夜视频在线观看| 99久久精品国产片| 69精品国产乱码久久久| 国内女人喷潮完整视频| 亚洲欧美日韩在线观看一区二区三区| 黄片在线观看大全免费视频| 国产精品国产自产自拍高清av| 日本特黄特色特爽大片| 99视频一区| 国产一级黄色性生活片| 一区二区三区中文字幕p站| 永久免费看啪啪网址入口| 精品国产亚欧无码久久久| 国产精品一区二区蜜臀av| 午夜精品久久久久久久99老熟妇| 又色又污又爽又黄的网站| 区无码字幕中文色| 国产丝袜长腿美臀在线观看| 性裸交a片一区二区三区| 亚洲区在线播放| av在线资源一区二区| 无码色av一二区在线播放| 国产激情з∠视频一区二区| 亚洲国产色图在线视频| 美腿丝袜诱惑一区二区| 国产美女露脸口爆吞精| 大胸美女吃奶爽死视频|