亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于淺層句法分析和最大熵的問句語義分析*

        2017-08-16 11:10:19李冬梅
        計算機與生活 2017年8期
        關鍵詞:查準率概率分布淺層

        李冬梅,張 琪,王 璇,檀 穩(wěn)

        1.北京林業(yè)大學 信息學院,北京 100083

        2.中國人民大學 信息學院,北京 100872

        基于淺層句法分析和最大熵的問句語義分析*

        李冬梅1+,張 琪1,王 璇2,檀 穩(wěn)1

        1.北京林業(yè)大學 信息學院,北京 100083

        2.中國人民大學 信息學院,北京 100872

        為了使中文問答系統(tǒng)能夠準確高效地識別問句的語義,在構建生物醫(yī)學領域本體的基礎上,提出了一種基于淺層句法分析和最大熵模型的語義分析算法。該算法首先對自然語言問句進行語義塊識別,如果識別成功,則形成問句向量,然后利用本體進行SPARQL查詢;如果識別失敗,則調用最大熵模型,判斷問句的語義角色。最大熵模型利用標注好語義的熟語料進行訓練,提取語義組塊特征,從而判斷出最可能的句型,形成問句向量,然后再利用本體進行查詢,獲取答案。通過實驗與其他方法相比,新算法具有更高的查準率和召回率。

        中文問答系統(tǒng);本體;淺層句法分析;最大熵;SPARQL查詢

        1 引言

        隨著互聯(lián)網的迅速發(fā)展,網絡上的信息越來越豐富,而傳統(tǒng)的搜索引擎只能返回與關鍵字信息相關或符合分類主題的網頁。近年來,隨著人工智能的崛起,問答系統(tǒng)的應用越來越廣泛,它允許用戶利用自然語言進行提問,然后通過相應的算法從數(shù)據庫中提取出較為全面、準確的答案反饋給用戶[1]。根據系統(tǒng)所能接受的問題領域,問答系統(tǒng)可以分為開放領域的問答系統(tǒng)和限定領域的問答系統(tǒng)[2]。例如,PowerAqua是一個較為典型的開放領域的問答系統(tǒng)[3],但因其知識庫來自于不同的領域知識,數(shù)據總體噪音較大,使得其答案質量較低。AskHERMES則是一個基于醫(yī)學領域的問答系統(tǒng)[4],通過對病人給出的較為復雜的問題進行語義分析,系統(tǒng)能夠自動給出較為滿意的答案,提高了診斷效率。因此,在實際應用中,構建一個特定領域的問答系統(tǒng)更具有使用價值。文獻[5]通過構建醫(yī)院信息本體,利用SPARQL(simple protocol and RDF query language)[6]查詢技術在本體中進行查詢,從而得到答案。在基于SPARQL查詢技術的問答系統(tǒng)中,其難點在于將用戶所使用的自然語言問句轉化為基于邏輯的語義表示[7],即如何讓計算機理解用戶的查詢目的,這就涉及到問句語義理解的問題。在計算機語言學中,對語言語義的分析一直以來都追求的是“全面”和“深層”,如文獻[8]設計了一個依賴深度語言分析的問句系統(tǒng),該系統(tǒng)首先手動為給定的本體構造描述其語義的詞典,然后利用該詞典來處理語義上比較復雜的問題。由于深層語義分析需要得到句子完整的句法樹[9],分析效率較低。而與之相對,淺層句法分析追求的是“片面”和“淺層”,該方法只需要標注句子中的部分成分,不必詳細地對整個句子進行語義分析,摒棄了深層成分和繁復的關系,從而在現(xiàn)實的語料環(huán)境下能夠迅速分析,獲得比深層分析更高的正確率[10-11]。文獻[5]在問句的語義分析中采用了淺層句法分析,但其問句句型匹配不夠豐富,匹配的正確率較低,而最大熵模型可以在一定程度上改進這種問題。

        最大熵模型最先由DellaPietra等人引入到自然語言處理中,其包容性與靈活性以及處理結果的優(yōu)異性吸引了許多研究人員的關注。近年來,最大熵模型被廣泛地應用于多種語言的文本分類、糾錯和詞義標注等[12-15]。最大熵模型的基本思想是建立與已知事實一致的模型,對未知因素不作任何假設,從而可使未知因素盡可能地保持均勻分布。將最大熵模型的思想應用于問句分析中,可以使問句的匹配率有所提高,使問答系統(tǒng)能夠匹配更豐富的問句類型。文獻[16]將最大熵模型用于語義角色標注中,但在標注時因為沒有結合句法分析,所以需要預測每一個隨機事件的概率分布。為了提高預測的準確率,通常需要保留盡可能多的不確定性事件,因此算法的執(zhí)行效率較低。

        基于文獻[5,16],本文提出了一種基于淺層句法分析和最大熵的中文問句語義分析算法SAM_SPME(semantic analysis method based on shallow parsing and maximum entropy)。該算法首先對問句進行淺層句法分析,識別失敗后再調用最大熵模型進行分析,由于部分問句在淺層句法分析階段就可提前正確識別,從而無需利用最大熵進行處理,這樣便在一定程度上解決了最大熵執(zhí)行效率較低的問題。將SAM_SPME算法用于自行構建的基于醫(yī)學本體的中文問答系統(tǒng)中進行驗證,實驗結果表明,將淺層句法分析和最大熵相結合進行問句語義分析,有更高的查準率和召回率。

        2 SAM_SPME算法

        本文提出的SAM_SPME算法以自然語言為接口,利用醫(yī)學本體,先采用淺層語義分析技術,將生物醫(yī)學問句根據語義塊定義規(guī)則和語義塊判定規(guī)則進行語義塊識別,若識別成功則生成問句向量,然后利用本體進行SPARQL查詢;若識別失敗,則調用最大熵模型,首先利用標注好語義的熟語料對最大熵模型進行訓練,提取問句的語義組塊特征,然后計算出特征的概率分布,通過建立的模型判斷問句最可能的句型,將形成的問句向量送入到SPARQL查詢模塊中。如果依然沒有成功識別句型,則將查詢語句傳至網頁信息檢索模塊,網頁信息檢索模塊調用Google Custom SearchAPI檢索谷歌數(shù)據庫。

        2.1 淺層句法分析

        句法分析的含義是:在識別問句句法結構以及辨析句中詞義的基礎上,推導出能反映該句語義的形式化表示。同面向開放領域的中文問答系統(tǒng)相比,針對特定領域的問答系統(tǒng)要進行查詢的信息通常會限定在特定的范疇內,并且所輸入的問句在特定領域內的特性將被強化,這些特性主要包括用詞、語序等。下面給出定義生物醫(yī)學信息領域的問句特征語義塊以及語義塊的識別規(guī)則。

        2.1.1 語義塊定義及識別

        首先給出以下定義。

        定義1(語義角色標注)根據生物醫(yī)學領域的詞義分類的標注集對句子中的各種成分做出相應的語義標記。

        定義2(問句類型)根據問句疑問塊的語義類型,將其分為不同的類型,記為QT。

        定義3(語義塊)問句中具有固定的語義,并且位置相對固定的部分語塊,記為三元組[Block,Type,Value],其中:

        (1)Block為所屬語義塊的名稱,用相應英文簡稱標識;

        (2)Type為所屬的語義塊類型(子塊);

        (3)Value在問句標記中,表示問句中該塊的具體值。

        語義塊定義片段如表1所示。

        在表1所列語義塊定義原則的基礎上,本文為語義塊識別先建立領域詞表,這樣在識別問句信息時,可以采取詞表匹配方法。如例句:“消化系統(tǒng)消化道呈現(xiàn)出惡心癥狀是得了什么???”經過分詞后,得到的結果如下:消化系統(tǒng)|消化道|惡心|得了什么病,然后進行語義塊識別,得到4個語義塊如下:

        (1)[Block=AB,Type=AB_xt,Value=“消化系統(tǒng)”]

        (2)[Block=AB,Type=AB_qg,Value=“消化道”]

        (3)[Block=AVB,Type=AVB_bx,Value=“惡心”]

        (4)[Block=QT,Type=cause,Value=“得了什么病”]

        上例中[Block=AB,Type=AB_xt,Value=“消化系統(tǒng)”]塊中,語義塊為屬性塊AB,語義塊類型(子塊)為屬性-發(fā)病系統(tǒng)AB_xt,其值為“消化系統(tǒng)”。[Block=AB,Type=AB_qg,Value=“消化道”]塊中,語義塊為屬性塊AB,語義塊類型(子塊)為屬性-發(fā)病部位AB_qg,其值為“消化道”。[Block=AVB,Type=AVB_bx,Value=“惡心”]塊中,語義塊為屬性塊AVB,語義塊類型(子塊)為屬性值-發(fā)病癥狀AVB_bx,其值為“惡心”。[Block=QT,Type=cause,Value=“得了什么病”]塊中,語義塊為問句類型塊QT,語義塊類型(子塊)為問句類型cause,其值為“得了什么病”。

        2.1.2 問句向量的生成

        問句向量是利用基于特定規(guī)則的形式化語言來表示問句,不同的領域對問句向量的生成有著不同的要求。如上例在經過前期的相關處理后,可以得到語義塊信息,再對信息進行分析,問句中的已知信息為“發(fā)病部位是消化系統(tǒng)中的消化道,具體癥狀為惡心”,未知信息為“cause(疾病名稱)”。最后可生成問句向量QV,表示如下:

        QV=(AB_xt=消化系統(tǒng),AB_qg=消化道,AVB_bx=惡心,cause=?)

        Table1 Semantic block definition fragments表1 語義塊定義片斷

        在語義塊能夠正確識別并形成問句向量的情況下,可以利用其中的已知信息和未知信息執(zhí)行第2.3節(jié)的SPARQL查詢,如果不能正確識別則調用第2.2節(jié)的最大熵模型算法。

        2.2 最大熵模型算法

        最大熵模型在處理自然語言分類問題上的優(yōu)勢在于它可以聯(lián)系上下文信息,其特征集不需要深層的語言學知識卻仍然可以有效地近似表示語言關系的復雜性[17]。因此,本文利用最大熵模型來判斷問句的語義角色,而進行語義角色標注最關鍵的工作是要構建出合適的問句特征庫。本文根據生物醫(yī)學領域的一般問句構造語料庫,語料庫中的每一行都是一條規(guī)則,每條規(guī)則包括多列數(shù)據,規(guī)則Rule形式化描述如下:

        Rule::=〈Label〉〈FieldList〉

        〈Label〉::=cause|symptom|drug|prevent_cure

        〈FieldList〉::=interrogative|interro_noun|verb_interro_noun

        上述規(guī)則中各個符號的含義如下:

        Label位于規(guī)則的第一列,代表問句類型;

        cause代表問句為病因類型,即詢問疾病名稱或者詢問病因,已知信息可能有疾病的具體癥狀等;

        symptom代表問句為癥狀類型,即詢問某種疾病發(fā)病的具體癥狀或者其發(fā)病規(guī)律等;

        drug代表問句為用藥類型,即詢問針對特定疾病應該使用的藥物;

        prevent_cure代表問句為防治類型,即詢問針對特定疾病應該采取的預防或者治療方法;

        FieldList位于規(guī)則的第2至最后一列,為導致此結果產生的各個特征條件;

        interrogative表示僅包括“疑問詞;

        interro_noun表示包括疑問詞和名詞;

        verb_interro_noun表示包括動詞、疑問詞和名詞。

        在問句特征庫中,每一條規(guī)則就等同于一個特征分布,可以通過總結訓練語料庫中的各種規(guī)則,抽取出問句特征的概率分布。給定一個訓練語料庫,定義變量Y={y1,y2,…,ym}為語義角色類型,即前文所提到的Label,變量X={x1,x2,…,xn}為一些特征條件因素所構成的向量,即FieldList,設num(xi,yj)為訓練語料庫中二元組(xi,yj)出現(xiàn)的次數(shù),可以用式(1)進行概率估計:

        假設p(y|x)表示在系統(tǒng)中把某一句子成分判斷為某一語義角色的概率值。最大熵模型的原理是找到一個p(y|x)在滿足一定約束條件(由所給語料庫中的信息計算出的特征概率分布)的情況下,熵必須取得最大值的模型,用式(2)描述:

        求解滿足最大熵原則的概率分布分公式用式(3)描述:

        其中,p*為求解滿足最大熵原則的概率分布;T表示所有可能滿足約束條件的概率分布模型的集合;n為特征集中所有特征的總數(shù);fi為特征函數(shù)。

        在計算過程中,約束指的是最終預測出的結果句型的分布都必須滿足之前對各個特征統(tǒng)計出的概率分布,具體約束條件如下:

        其中,Ep(f)為特征函數(shù)fi相對于經驗概率p(x,y)分布的期望值;Ep(f)為特征函數(shù)fi相對于模型p(y|x)的期望值。這樣最終的結果才能導致系統(tǒng)的熵最大,而最大熵只是保證了最終的預測結果符合之前計算出的所有概率約束。根據最大熵原理,通過拉格朗日乘數(shù)法,即可求出最優(yōu)概率分布。概率值p(y|x)的取值符合式(4)描述的指數(shù)模型:

        其中,Z(x)為歸一化因子,如式(5)所示:

        fi(x,y)為特征函數(shù),用來表示向量(特征集)x語義角色(結果句型)y之間的關聯(lián),用式(6)描述:

        wi(拉格朗日乘子)為權重,表示二值特征函數(shù)對于模型的重要程度,用式(7)描述。本文利用Darroch和Ratcliff迭代算法[18]求解參數(shù)值。

        n為特征集中所有特征的總數(shù)。參數(shù)C等于語料庫中某一規(guī)則所包含的最多特征數(shù)。Ep(f)表示特征函數(shù)fi(x,y)相對于經驗概率分布p(x,y)的期望值,其計算方法如式(8)。Ep(f)表示特征函數(shù)fi(x,y)相對于模型分布p(y|x)的期望值,其計算方法如式(9)和式(10)。

        在給定語料庫的特征集后,首要任務是基于語料庫訓練并計算每個特征的期望值,包括經驗期望值和模型期望值,在所有滿足限制條件的概率分布模型中,選取滿足能夠使熵值最大化的概率分布。

        2.3 答案的抽取

        在本文系統(tǒng)中,主要使用的答案抽取技術是借助Jena工具的Java API來實現(xiàn)的,通過Jena[19]調用SPARQL對生物醫(yī)學領域本體進行基于RDF三元組的查詢。

        2.4SAM_SPME算法步驟

        步驟1輸入問句,由分詞模塊進行分詞處理,并將處理結果傳到語義分析模塊。

        步驟2語義分析模塊首先根據分詞的結果進行淺層句法分析,如果語義塊正確識別,則執(zhí)行步驟4,否則,執(zhí)行步驟3。

        步驟3調用最大熵模型算法,利用語義標注好的熟語料對最大熵模型進行訓練,從而提取出問句的語義組塊特征,然后計算出特征的概率分布建立模型,判斷出最可能的句型。

        步驟4判斷句型是否匹配,匹配成功則執(zhí)行步驟5,否則,執(zhí)行步驟6。

        步驟5形成問句向量,執(zhí)行SPARQL查詢,通過結果反饋模塊將查詢結果傳遞給用戶。

        步驟6將查詢語句傳至網頁信息檢索模塊,網頁信息檢索模塊調用Google Custom Search API檢索Google數(shù)據庫,通過結果反饋模塊將答案傳遞給用戶。

        具體的SAM_SPME算法流程如圖1所示。

        3 實驗結果及分析

        3.1 實驗指標的選取

        一般中文問答系統(tǒng)的評估主要選用查準率(Precision)和召回率(Recall)兩個實驗指標,它們是語義查詢過程中兩個十分重要的度量值。除此之外,本文還選擇了另一個度量指標——F測度值(F-Measure,又稱為F-Score)來評估SAM_SPME算法的有效性,F(xiàn)測度值是Precision和Recall加權調和的平均值,其綜合了Precision和Recall的結果,當F測度值較高時則說明實驗方法比較有效。3個實驗指標的計算公式如下:

        (1)查準率

        在式(13)中,一般令參數(shù)α=1,即F0是最常見的情況,如式(14)所示:

        3.2 實驗結果分析

        本文從百度知道抽取cause、symptom、drug、prevent_cure 4類共476個生物醫(yī)學問句作為標準測試集來進行實驗,其中prevent_cure型93個,drug型124個,cause型134個,symptom型125個。對淺層句法分析與最大熵模型算法結合的查詢效果進行展示,以說明本文算法的有效性。在實驗過程中,為式(4)設置閾值0.75,即計算出的概率需大于0.75才能判定為最終句型,實驗結果如表2所示。

        Fig.1 Flow chart of SAM_SPME algorithm圖1 SAM_SPME算法步驟流程圖

        Table2 Experimental results表2 實驗結果

        表2中,“QuestType”表示問句類型;“Num”表示該種類型問句的數(shù)量;“Zhang”表示文獻[5]淺層語義分析算法的實驗結果;“P”表示實驗結果的查準率;“R”表示實驗結果的召回率;“F”表示測度值。為了便于更加直觀地觀察SAM_SPME算法的有效性,將文獻[5]的淺層句法分析算法與本文的SAM_SPME算法的F測度值進行對比,其對比結果的柱狀圖如圖2所示。從表2的計算結果中可以看出,本文將淺層句法分析與最大熵模型結合的算法十分有效,與文獻[5]的淺層句法分析算法相比,SAM_SPME算法針對4類問句類型的查準率和召回率都在80%以上,兩者都高于文獻[5]的實驗結果。綜合考慮查準率和召回率再計算出F測度值,SAM_SPME算法針對4類問句類型的F測度值都在80%以上,也高于文獻[5]。由此可見,SAM_SPME算法通過調用最大熵模型彌補了文獻[5]問句句型匹配不夠豐富,匹配的正確率較低的不足,而通過提前利用淺層句法分析進行識別,又可改進最大熵模型執(zhí)行效率較低的缺點。淺層句法分析和最大熵模型相結合提高了語義查詢過程中的查準率和召回率,且可以為用戶所接受。

        Fig.2 Comparison of F-Measure圖2 F測度值對比

        由表2可以看出,prevent_cure型問句和symptom型問句的查準率、召回率要低于cause型問句和drug型問句,出現(xiàn)這種現(xiàn)象的原因分析如下:

        (1)訓練集不夠大,提取特征不夠全面,導致調用最大熵模型時判斷句型出現(xiàn)錯誤。

        (2)cause型問句和drug型問句本身的特征要比prevent_cure型問句和symptom型問句更鮮明,更容易獲取。

        4 結束語

        本文以生物醫(yī)學領域數(shù)據為研究對象,在文獻[5,16]的基礎上提出了一種基于淺層句法分析和最大熵模型的語義分析算法,并將該算法用于基于醫(yī)學本體的中文問答系統(tǒng)中進行驗證。實驗表明該算法可行,對自動問答系統(tǒng)的設計具有借鑒意義和深入研究的價值。今后的研究重點將放在如何集成各種知識,包括詞性、語義、搭配和共現(xiàn)等,以提高短語識別的查全率和精確率。因為最大熵方法善于將各種不同的知識結合起來,所以希望能通過知識的集成,在最大熵方法的框架下,達到更好的識別效果。

        [1]Hirschman L,GaizauskasR.Natural language question answering:the view from here[J].Natural Language Engineering,2001,7(4):275-300.

        [2]Mao Xianling,Li Xiaoming.Asurvey on question and answering systems[J].Journal of Frontiers of Computer Science and Technology,2012,6(3):193-207.

        [3]López V,Fernández M,Motta E,et al.PowerAqua:supporting users in querying and exploring the semantic Web[J].Semantic Web,2012,3(3):249-256.

        [4]Cao Yonggang,Liu Feifan,Simpson P,et al.AskHERMES:an online question answering system for complex clinical questions[J].Journal of Biomedical Informatics,2011,44(2):277-288.

        [5]Zhang Wei,Chen Junjie.Application of shallow semantic analysis and SPARQL in question answering system[J].Computer Engineering andApplications,2011,47(2):118-120.

        [6]W3C.SPARQL query language for RDF[EB/OL].(2006)[2017-03-10].http://www.w3.org/TR/rdf-sparql-query.

        [7]MoussaA M,Abdel-KaderR F.QASYO:a question answering system for YAGO ontology[J].International Journal of Database Theory andApplication,2011,4(2):99-112.

        [8]Unger C,Cimiano P.Pythia:compositional meaning construction for ontology-based question answering on the semantic Web[C]//LNCS 6716:Proceedings of the 16th International Conference on Applications of Natural Language to Information Systems,Alicante,Spain,Jun 28-30,2011.Berlin,Heidelberg:Springer,2011:153-160.

        [9]Ballesteros M,BohnetB,Mille S,et al.Deep-syntactic parsing[C]//Proceedings of the 25th International Conference on Computational Linguistics,Dublin,Ireland,Aug 23-29,2014.Stroudsburg,USA:ACL,2014:1402-1413.

        [10]Sun Zhijun,Zheng Quan,Yuan Jing,et al.Semantic retrieval based on shallow semantic analysis technology[J].Computer Science,2012,39(6):107-110.

        [11]Devadath V V,Sharma D M.Significance of an accurate sandhi-splitter in shallow parsing of dravidian languages[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics-Student Research Workshop,Berlin,Germany,Aug 7-12,2016.Stroudsburg,USA:ACL,2016:37-42.

        [12]El-HaleesA M.Arabic text classification using maximum entropy[J].The Islamic University Journal:Series of Natural Studies and Engineering,2015,15(1):157-167.

        [13]Murata M,Uchimoto K,Utiyama M,et al.Using the maximum entropy method for natural language processing:category estimation,feature extraction,and error correction[J].Cognitive Computation,2010,2(4):272-279.

        [14]Straková J,Straka M,Hajic J.Open-source tools for morphology,lemmatization,POS tagging and named entity recognition[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics:System Demonstrations,Baltimore,USA,Jun 22-27,2014.Stroudsburg,USA:ACL,2014:13-18.

        [15]Lv Yuanyuan,Deng Yongli,Liu Mingliang,et al.Automatic error checking and correction of electronic medical records[C]//Proceedings of the 2015 International Conference on Fuzzy System and Data Mining,Shanghai,Dec 12-15,2015:32-40.

        [16]Liu Ting,Che Wanxiang,Li Sheng.Semantic role labeling with maximum entropy classifier[J].Journal of Software,2007,18(3):565-573.

        [17]Xu Yanyong,Zhou Xianzhong,Jing Xianghe,et al.Chinese sentence parsing based on maximum entropy model[J].Acta Electronica Sinica,2003,31(11):1608-1612.

        [18]Darroch J N,Ratcliff D.Generalized iterative scaling for log-linear models[J].The Annals of Mathematical Statistics,1972,43(5):1470-1480.

        [19]BRESTOL.Jena2:a semantic Web framework[EB/OL].(2008)[2017-03-10].http://Jena.Sourceforge.net.

        附中文參考文獻:

        [2]毛先領,李曉明.問答系統(tǒng)研究綜述[J].計算機科學與探索,2012,6(3):193-207.

        [5]張巍,陳俊杰.淺層語義分析及SPARQL在問答系統(tǒng)中的應用[J].計算機工程與應用,2011,47(2):118-120.

        [10]孫志軍,鄭烇,袁婧,等.基于淺層語義分析技術的語義檢索[J].計算機科學,2012,39(6):107-110.

        [16]劉挺,車萬翔,李生.基于最大熵分類器的語義角色標注[J].軟件學報,2007,18(3):565-573.

        [17]徐延勇,周獻中,井祥鶴,等.基于最大熵模型的漢語句子分析[J].電子學報,2003,31(11):1608-1612.

        Semantic Analysis of Question Based on Shallow Parsing and Maximum Entropy*

        LI Dongmei1+,ZHANG Qi1,WANG Xuan2,TAN Wen1
        1.School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China
        2.School of Information,Renmin University of China,Beijing 100872,China
        +Corresponding author:E-mail:lidongmei@bjfu.edu.cn

        LI Dongmei,ZHANG Qi,WANG Xuan,et al.Semantic analysis of question based on shallow parsing and maximum entropy.Journal of Frontiers of Computer Science and Technology,2017,11(8):1288-1295.

        In order to improve the accuracy and effectiveness of question semantic recognition in question answering system,this paper presents a semantic analyzing algorithm combining shallow parsing and the maximum entropy on the basis of constructing biomedical domain ontology.Firstly,natural language questions are identified by semantic blocks.If the recognition is successful,the question vectors are formed,and then the SPARQL query is performed on the ontology.Otherwise,the maximum entropy model is invoked to judge the semantic role of the question.The maximum entropy model is used to train annotated corpus,which extracts the semantic block features to determine the most probable sentence pattern and form question vector,and then query through ontology to get the answers.Finally,compared with other methods,the novel algorithm has higher precision and recall rate.

        Chinese question answering system;ontology;shallow parsing,maximum entropy;SPARQL query

        2017-04,Accepted 2017-06.

        ZHANG Qi was born in 1991.She is an M.S.candidate at School of Information Science and Technology,Beijing Forestry University.Her research interests include intelligent information retrieval and natural language processing.張琪(1991—),女,山東濱州人,北京林業(yè)大學信息學院碩士研究生,主要研究領域智能信息檢索,自然語言處理。

        WANG Xuan was born in 1992.She is an M.S.candidate at School of Information,Renmin University of China.Her research interest is data mining.王璇(1992—),女,江蘇淮安人,中國人民大學信息學院碩士研究生,主要研究領域為數(shù)據挖掘。

        TAN Wen was born in 1994.Now he is an M.S.candidate at School of Information Science and Technology,Beijing Forestry University,and the member of CCF.His research interests include machine learning and knowledge graph.檀穩(wěn)(1994—),男,安徽安慶人,北京林業(yè)大學信息學院碩士研究生,CCF會員,主要研究領域機器學習,知識圖譜。

        A

        :TP274

        *The Fundamental Research Funds for the Central Universities of China under Grant No.TD2014-02(中央高?;究蒲袠I(yè)務費專項資金);the National Natural Science Foundation of China under Grant No.61602042(國家自然科學基金).

        CNKI網絡優(yōu)先出版:2017-08-02,http://kns.cnki.net/kcms/detail/11.5602.TP.20170802.1631.002.html

        ISSN 1673-9418 CODEN JKYTA8

        Journal of Frontiers of Computer Science and Technology 1673-9418/2017/11(08)-1288-08

        10.3778/j.issn.1673-9418.1706033

        E-mail:fcst@vip.163.com

        http://www.ceaj.org

        Tel:+86-10-89056056

        猜你喜歡
        查準率概率分布淺層
        淺層換填技術在深厚軟土路基中的應用
        離散型概率分布的ORB圖像特征點誤匹配剔除算法
        基于淺層曝氣原理的好氧顆粒污泥的快速培養(yǎng)
        基于數(shù)據挖掘技術的網絡信息過濾系統(tǒng)設計
        大數(shù)據環(huán)境下的文本信息挖掘方法
        關于概率分布函數(shù)定義的辨析
        科技視界(2016年19期)2017-05-18 10:18:46
        基于深度特征分析的雙線性圖像相似度匹配算法
        基于概率分布的PPP項目風險承擔支出測算
        淺層地下水超采區(qū)劃分探究
        包氣帶淺層地熱容量計算方法商榷
        華北地質(2015年3期)2015-12-04 06:13:29
        国产精品久久毛片av大全日韩 | 精品国产麻豆免费人成网站| 性高朝久久久久久久| 中文AV怡红院| 国产在亚洲线视频观看| 国产亚洲精品一区二区在线播放| 亚洲av日韩精品一区二区| 黄片视频大全在线免费播放| 亚洲乱码国产乱码精品精| 亚洲精品国产精品国自产观看| 日韩中文字幕中文有码| 色综合久久五月天久久久| 福利视频在线一区二区三区| av网页免费在线观看| 日本熟日本熟妇中文在线观看| 美女扒开内裤让男生桶| 国产九色AV刺激露脸对白 | 精品乱码卡1卡2卡3免费开放| 国产精品久久久久尤物| 亚洲乱色视频在线观看| 亚洲一区二区三区资源| 五月婷婷六月丁香久久综合| 成 人色 网 站 欧美大片在线观看 | 麻豆成人久久精品二区三区免费| 伊人青青草综合在线视频免费播放 | 一本色道av久久精品+网站 | 45岁妇女草逼视频播放| 成人在线免费电影| 亚洲第一av导航av尤物| 无套内谢孕妇毛片免费看看| 久久99久久99精品观看| 日本97色视频日本熟妇视频| 国产精品国产三级国产aⅴ下载| 狠狠噜天天噜日日噜无码| 国产一区曰韩二区欧美三区| 亚洲一区二区情侣| 人妖一区二区三区在线| 色五月丁香五月综合五月| 精品国产成人亚洲午夜福利| 91蜜桃国产成人精品区在线| 国内自拍情侣露脸高清在线|