亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于啟發(fā)式規(guī)則的SPARQL本體查詢

        2017-01-18 01:59:53譚立威邵志清張歡歡蔣宇一胡芳槐
        關鍵詞:單詞規(guī)則

        譚立威, 邵志清, 張歡歡, 蔣宇一, 胡芳槐

        (華東理工大學信息科學與工程學院,上海 200237)

        基于啟發(fā)式規(guī)則的SPARQL本體查詢

        譚立威, 邵志清, 張歡歡, 蔣宇一, 胡芳槐

        (華東理工大學信息科學與工程學院,上海 200237)

        提出了基于啟發(fā)式規(guī)則的SPARQL查詢。用語言技術平臺(LTP)解析出問句的依存分析樹(DPT),然后對問句集的依存分析樹進行統(tǒng)計和分析,總結(jié)出用于查詢?nèi)M抽取的啟發(fā)式規(guī)則,利用這些規(guī)則去掉無意義的查詢?nèi)M,合并和重組意義不完整的查詢?nèi)M。查詢?nèi)M經(jīng)過類映射、實例映射和屬性映射得到本體三元組,形成SPARQL查詢。用戶在B/S結(jié)構(gòu)的查詢界面中提交中文自然語言問句,得到中間結(jié)果和問句結(jié)果。實驗結(jié)果表明了該方法的有效性。

        自然語言問句; 依存分析樹; 三元組映射; SPARQL查詢

        本體能清楚地表示某一領域的分類(類和屬性)和存儲大量的知識(實例和實例關系),通過共享和交換知識在語義網(wǎng)中起著關鍵作用[1]。然而,為了查詢本體內(nèi)的知識,人們需要了解本體和本體查詢語言,對普通用戶顯然不友好。由于問答系統(tǒng)的輸入是更為自然的日常語言的問句,并且有能力直接返回針對用戶提問的答案[2],因此結(jié)合本體和問答系統(tǒng)功能的基于本體的問答系統(tǒng)、問答模型或查詢接口得到了越來越多的關注。

        基于本體的自然語言查詢關鍵在于自然語言問句到本體查詢語言的轉(zhuǎn)換。文獻[3] 簡單地使用語言技術平臺(LTP)解析中文問句得到依存分析樹,再根據(jù)本體元數(shù)據(jù)和經(jīng)驗找出詞語間的映射關系得到本體三元組,效率較低。文獻[4-5]中先生成查詢?nèi)M然后生成本體三元組。AquaLog在擴展性和方便程度上優(yōu)于PANTO,但只支持23類問題。PANTO比AquaLog支持更多問題,但缺少AquaLog的其他特性[6]。選擇不同的自然語言處理平臺使得上述3種方法所處理的數(shù)據(jù)結(jié)構(gòu)有所不同,PANTO利用Stanford Parser[7]解析問句得到的句法樹作為算法的輸入,AquaLog利用GATE[8]標注過后的問句作為算法輸入,標注內(nèi)容包括:動詞的時態(tài)和名詞的類別等。

        本文提出了基于啟發(fā)式規(guī)則的SPARQL本體查詢,利用LTP解析問句生成依存分析樹,提出了6條啟發(fā)式規(guī)則用于從依存分析樹中抽取查詢?nèi)M,提高了查詢?nèi)M的抽取效率。用戶只需在B/S結(jié)構(gòu)的查詢界面提交中文自然語言問句,便能從本體庫中檢索出答案。為了便于驗證和改進本文方法,中間結(jié)果即問句的查詢?nèi)M和本體三元組也作為查詢結(jié)果的一部分返回給用戶。

        1 自然語言映射為SPARQL查詢的一般步驟及分析

        自然語言映射為SPARQL查詢的一般步驟如圖1所示,可概括如下:

        圖1 自然語言問句映射為SPARQL查詢的一般步驟Fig.1 General steps of mapping natural language question to SPARQL query

        (1)利用自然語言處理平臺對問句進行分詞、詞性標注、命名實體識別和句法分析等工作后得到問句的組件(命名實體、疑問焦點等)。

        (2)構(gòu)建本體庫和詞典。

        (3)使用映射方法或抽取算法結(jié)合知識庫和問句組件中得到SPARQL查詢。

        分析發(fā)現(xiàn),在第3步抽取算法中,從問句中抽取查詢?nèi)M時,可用啟發(fā)式規(guī)則來提高查詢?nèi)M的抽取效率,從而有利于提高整個映射過程的效率。

        本文在一般步驟的基礎上使用LTP的依存句法分析功能分析問句,得到問句的依存分析樹,然后對問句集的依存分析樹的標注關系進行統(tǒng)計和分析得到用于抽取查詢?nèi)M的啟發(fā)式規(guī)則,通過這些規(guī)則和查詢?nèi)M抽取算法去掉了無意義的查詢?nèi)M,合并和重組了意義不完整的查詢?nèi)M。再利用本體庫和字典,把查詢?nèi)M映射為本體三元組,最終形成SPARQL查詢,整個流程如圖2所示。本文在一般步驟的基礎上作了如下改進:

        圖2 本文的自然語言問句映射為SPARQL查詢的步驟Fig.2 This paper’s steps of mapping natural language question to SPARQL query

        (1)對問句集的依存分析樹的標注關系進行統(tǒng)計和分析,由此提出用于抽取查詢?nèi)M的啟發(fā)式規(guī)則。

        (2)設計查詢?nèi)M抽取算法并結(jié)合抽取規(guī)則從依存分析樹中抽取查詢?nèi)M,然后經(jīng)過類、實例和屬性的映射得到本體三元組,組合后得到SPARQL查詢。

        (3)開發(fā)B/S結(jié)構(gòu)系統(tǒng)提供用戶查詢界面,用戶提交自然語言問句后,系統(tǒng)自動把問句映射為SPARQL查詢,然后在本體庫上執(zhí)行,最終得到答案。

        2 依存分析樹及統(tǒng)計和分析

        2.1 依存分析樹

        依存分析樹由LTP解析問句后得到,它是查詢?nèi)M抽取算法的輸入。LTP是一個處理中文的集成平臺,擁有一系列自然語言處理模塊,包括詞法分析(分詞、詞性標注和命名實體識別)、句法分析和可視化工具等模塊[9]。

        本文的依存分析樹(又稱為依存結(jié)構(gòu)樹)不同于句法樹,是利用LTP提供的WEB API對語句進行依存句法分析后生成,且以標注關系為邊、詞語為節(jié)點的有序樹。句法樹是依據(jù)上下文無關文法表示句子句法結(jié)構(gòu)的有根節(jié)點的有序樹[10],依存分析樹識別了句子中的“主謂賓”、“定狀補”這些語法成分,并分析了各成分之間的關系[11]。有序樹是一棵有根節(jié)點的樹,且樹中每個節(jié)點的孩子節(jié)點的順序是固定的。LTP依存句法標注關系有14種,如表1[11]所示。

        表1 LTP依存句法標注關系Table 1 LTP dependency relationships

        例如:“阿里巴巴網(wǎng)絡技術有限公司”經(jīng)LTP分析后得到該句子的依存分析樹,如圖3(a)所示;圖3(b)是該依存分析樹對應的直觀樹形圖。圖3(a)中,節(jié)點“Root ”經(jīng)弧“HED”指向單詞“有限公司”,表示“有限公司”是核心單詞,是這棵樹實際上的根節(jié)點,簡稱為根單詞,“Root”起頭節(jié)點的作用?!坝邢薰尽苯?jīng)弧“ATT”指向單詞“阿里巴巴”,表示“阿里巴巴”和“有限公司”是定中關系。圖3中其他關系可類推。

        圖3 依存分析樹和對應的樹形圖示例Fig.3 ADPT and its tree structure

        2.2 問句標注關系的統(tǒng)計和分析

        以往的基于LTP的SPARQL本體查詢方法缺乏對問句的標注關系的統(tǒng)計和分析,如文獻[3,12]。問句的依存分析樹中的標注關系體現(xiàn)了各詞語間的依賴關系,是各個詞語如何組成查詢?nèi)M的依據(jù)。除HED關系外,每一個標注關系都是一個候選查詢?nèi)M?;跇俗㈥P系的統(tǒng)計和分析有助于生成啟發(fā)式規(guī)則,從而去掉無意義的查詢?nèi)M,合并和重組意義不完整的查詢?nèi)M,提高抽取查詢?nèi)M的效率。本文提出當查詢?nèi)M能獨立地映射為本體三元組時,則認為該查詢?nèi)M是意義完整的。

        查詢?nèi)M的形式為:<主語部分,謂語部分,賓語部分>,簡寫為<主語,謂語,賓語>。查詢?nèi)?個部分的內(nèi)容都是依存分析樹中的單詞,它的謂語可以為空,謂語為空時填入null,或者填入主語和賓語之間的標注關系。

        哈工大信息檢索研究中心語言技術平臺中的問答系統(tǒng)問題集[13]包含機構(gòu)、概念、人物等類別的問句,這些類別的問句能夠與百度百科中的詞條對應起來,而百度百科是本文實驗系統(tǒng)的數(shù)據(jù)源之一,因此本文采用該問題集,對該問題集的標注關系進行統(tǒng)計和分析。調(diào)用LTP的WEB API的依存句法分析功能解析問題集中的629個問句,得到它們的依存分析樹,然后統(tǒng)計各標注關系,并按照各標注關系出現(xiàn)的頻率降序排列,排前10位的標注關系柱的狀圖如圖4所示。

        圖4 特定問句標注關系的頻率統(tǒng)計Fig.4 Frequency of certain dependency relationships

        從圖4可以看出,中文問句標注關系中出現(xiàn)頻率最高的依次是定中關系(ATT)、動賓關系(VOB)、核心關系(HED)、主謂關系(SBV)、狀中結(jié)構(gòu)(ADV)和右附加關系(RAD),這6個標注關系是中文問句的主要標注關系,需要重點處理。6個標注關系轉(zhuǎn)換成查詢?nèi)M的具體分析如下:

        (1)ATT標注關系,簡稱為ATT關系,其他標注關系采用同樣的方式進行簡稱。ATT關系修飾名詞,起限定名詞的作用,因此可直接抽取為查詢?nèi)M。當命名實體或行業(yè)名詞被LTP解析成多個ATT關系時需要合并這些ATT關系成一個單詞以表示一個整體。

        (2)同一個動詞對應的一對SBV關系和VOB關系分別轉(zhuǎn)換成查詢?nèi)M時,缺少主語或賓語,意義不完整,這樣的一對關系需要合并從而得到包含主謂賓意義完整的查詢?nèi)M。

        (3)HED關系標識出查詢?nèi)M抽取的起始單詞是哪個單詞,對查詢?nèi)M的抽取無其他意義。

        (4)RAD關系出現(xiàn)的頻次高是因為助詞“的”和各個名詞構(gòu)成的RAD關系在問句中頻繁出現(xiàn),這類關系所表達的含義隱含在各名詞的ATT關系中,可直接去掉。比如在問句“公司的創(chuàng)始人是誰”經(jīng)LTP解析后得到標注關系:<的,RAD,公司>和<公司,ATT,創(chuàng)始人>等標注關系。右附加關系<的,RAD,公司>的含義已隱含在定中關系<公司,ATT,創(chuàng)始人>中,因此可以直接去掉。

        (5)ADV關系修飾形容詞或動詞,在本文的問題集中,ADV關系主要修飾形容詞,表示程度、范圍等,視情況決定是否要映射為查詢?nèi)M,這是因為ADV關系所描述的程度或范圍等信息,本體庫中常常沒有與之直接對應的屬性,也難以量化。

        3 查詢?nèi)M的抽取規(guī)則與抽取算法

        3.1 抽取規(guī)則與抽取算法

        基于2.2節(jié)的分析,提出6條從依存分析樹中抽取查詢?nèi)M的抽取規(guī)則如下:

        (1)命名實體名詞和行業(yè)名詞在問句中表示一個整體概念,因此提出抽取規(guī)則:合并依存分析樹中被拆分為多個單詞的命名實體名詞和行業(yè)名詞。

        (2)根據(jù)2.2節(jié)的分析(4)提出用于去掉無意義組合的抽取規(guī)則:去掉首單詞為助詞“的”的RAD關系。

        (3)根據(jù)2.2節(jié)的分析(1)和本節(jié)抽取規(guī)則(1),提出抽取規(guī)則:當滿足本節(jié)規(guī)則(1)且ATT關系對應的首尾單詞都是名詞時,一個ATT關系對應一個查詢?nèi)M。

        (4)根據(jù)2.2節(jié)分析(2)提出合并意義不完整的查詢?nèi)M的抽取規(guī)則:一對SBV關系和VOB關系合并為一個查詢?nèi)M,簡稱為SBV-VOB查詢?nèi)M。

        (5)當本節(jié)規(guī)則(4)中的SBV-VOB查詢?nèi)M修飾名詞時,需要拆分SBV-VOB查詢?nèi)M再和被修飾的名詞組成新查詢?nèi)M,因此提出用于重組查詢?nèi)M的抽取規(guī)則:當SBV-VOB查詢?nèi)M的謂語(動詞)和某一名詞存在ATT關系時,拆分SBV-VOB查詢?nèi)M,然后和ATT關系組成新查詢?nèi)M。

        (6)依據(jù)就近原則,和疑問單詞(比如:誰,哪里)在同一查詢?nèi)M內(nèi)的主語或賓語為疑問焦點,得到以下抽取規(guī)則:查詢?nèi)M的主語或賓語為疑問單詞時,對應的賓語或主語為疑問焦點。

        抽取規(guī)則中,首單詞為標注關系到達的單詞,對應查詢?nèi)M的主語。尾單詞為標注關系出發(fā)的單詞,對應查詢?nèi)M的賓語,如圖3中的標注關系<網(wǎng)絡,ATT,技術>,“網(wǎng)絡”是首單詞,“技術”是尾單詞,起連接作用的弧是ATT關系。

        抽取算法描述如下:

        輸入:問句依存分析樹

        輸出:問句查詢?nèi)M

        (1)執(zhí)行抽取規(guī)則(1)和規(guī)則(2)。

        (2)根據(jù)HED關系找到依存分析樹的根單詞并把它作為參數(shù)傳入第(3)步。

        (3)傳入的單詞作為父單詞,檢索其孩子單詞,若孩子單詞為空則此趟遍歷結(jié)束;否則,根據(jù)所有孩子單詞和父單詞的詞性與標注關系抽取查詢?nèi)M。

        (4)將第(3)步中的孩子單詞作為參數(shù)傳入第(3)步,遞歸處理孩子單詞。

        3.2 抽取規(guī)則與抽取算法的應用

        以問句“阿里巴巴網(wǎng)絡技術有限公司的創(chuàng)始人是誰”為例說明抽取規(guī)則的作用和抽取算法的執(zhí)行過程。該問句的依存分析樹如圖5所示,其中陰影部分為LTP命名實體識別功能模塊識別出來的機構(gòu)實體。

        第1步,合并機構(gòu)實體名詞“阿里巴巴網(wǎng)絡技術有限公司”,去掉首單詞為助詞“的”的RAD關系<的,RAD,阿里巴巴網(wǎng)絡技術有限公司>。

        第2步,確定根單詞為單詞“是”,把該單詞作為參數(shù)傳入算法的第3步。

        第3步,“是”的孩子單詞非空,根據(jù)抽取規(guī)則(4),抽取出SBV-VOB查詢?nèi)M:

        <創(chuàng)始人,是,誰>

        第4步,“創(chuàng)始人”和“誰”分別作為參數(shù)傳入第3步。

        執(zhí)行算法的第3步,“創(chuàng)始人”是傳入?yún)?shù),根據(jù)抽取規(guī)則(3),抽取出查詢?nèi)M:

        <阿里巴巴網(wǎng)絡技術有限公司,ATT,創(chuàng)始人>

        執(zhí)行算法的第4步,“阿里巴巴網(wǎng)絡技術有限公司”傳入第3步,該單詞已無孩子單詞,此趟遍歷結(jié)束。

        執(zhí)行算法的第3步,“誰”是傳入?yún)?shù),它的孩子單詞為空,此趟遍歷結(jié)束,整個遍歷隨之結(jié)束。

        例句的依存分析樹中的7個標注關系(HED關系除外)對應7個候選查詢?nèi)M,抽取過程不是簡單的依賴經(jīng)驗而是利用抽取算法和抽取規(guī)則去除了1個RAD關系、合并了3個ATT關系和1對SBV-VOB關系,提高了抽取效率,最后生成2個查詢?nèi)M。

        圖5 “阿里巴巴網(wǎng)絡技術有限公司的創(chuàng)始人是誰”的依存分析樹Fig.5 DPT of question “a li ba ba wang luo ji shu you xian gong si de chuang shi ren shi shui”

        4 映射本體三元組

        4.1 SPARQL和詞典

        SPARQL[14]是一種RDF(Resource Description Framework)[15]查詢語言,可以檢索和操作RDF格式的數(shù)據(jù)。RDF是有向的、含標簽的圖數(shù)據(jù)格式,也是以三元組的形式表示和存儲數(shù)據(jù):<主語,謂語,賓語>。例如,通過三元組<誰,創(chuàng)作,紅高粱>來表示問句“誰創(chuàng)作了《紅高粱》”。RDF三元組可構(gòu)成本體庫,然后通過SPARQL語句查詢本體庫內(nèi)的RDF數(shù)據(jù)。SPARQL的語法類似SQL,使用“SELECT”語句包含查詢變量,“FROM”語句指出具體查詢哪一個本體庫,設置默認本體庫后可省略“FROM”語句。“WHERE”語句塊表示與查詢變量相關的約束條件,約束條件也是通過三元組的形式表示。查詢變量可以出現(xiàn)在三元組中任何一個位置上。上述問句可簡單地映射為SPARQL查詢語句:

        PREFIX:

        SELECT ?author

        WHERE { ?author :created “紅高粱”.}

        為了實現(xiàn)查詢?nèi)M到SPARQL查詢的映射需要借助詞典。詞典主要包括3部分:本體實體、通用詞典、用戶詞典[16]。本體實體包含類(概念)、屬性(關系)和實例(個體)。通用詞典可以使用中文WordNet[17]和維基百科。用戶詞典是對通用詞典的補充,補充新名詞、術語等。例如:本體實體中包含詞語“公司”,它對應的本體類“:Company”,即存在一條映射規(guī)則:<公司, :Company>。在通用詞典中“公司”和“企業(yè)”是近義詞,因此,結(jié)合本體實體和通用詞典便可以推出新的映射規(guī)則:<企業(yè),:Company>。問句“餓了么的網(wǎng)址”,經(jīng)LTP解析后,機構(gòu)名詞“餓了么”會被解析為兩個標注關系<了,RAD,餓>和<么,RAD,餓>,當“餓了么”作為機構(gòu)名詞加入用戶詞典后,便可以在抽取查詢?nèi)M和映射本體三元組時正確地識別為一個整體。

        4.2 映射本體三元組

        本體三元組也是通過三元組的形式表示:<主語,謂語,賓語>,但三元組內(nèi)的主謂賓是本體元素:本體實體、查詢變量和本體格式數(shù)據(jù)。每個查詢?nèi)M映射為本體三元組都需要3個步驟:映射主語、映射賓語、映射謂語。先映射主語和賓語再映射謂語。映射謂語時,謂語非空時根據(jù)主語、謂語和賓語映射謂語,謂語為空時則根據(jù)主語和賓語及它們之間的標注關系映射謂語。查詢?nèi)M映射為本體三元組有3類映射:類映射、實例映射和屬性映射。

        例如:3.2節(jié)中第1個生成的查詢?nèi)M<創(chuàng)始人,是,誰>在映射為本體三元組時,第1步映射主語 “創(chuàng)始人”,它對應本體類“:Person”,進行類映射,通過以下本體三元組描述該類映射:

        ?person rdf:type :Person

        第2步映射賓語“誰”,它是疑問詞,根據(jù)抽取規(guī)則(6)確定與它對應的主語“創(chuàng)始人”是疑問焦點,疑問詞本身不需要做映射,從而也不需要進行第3步謂語映射,第1個查詢?nèi)M的映射結(jié)束。

        類似的,3.2節(jié)中第2個查詢?nèi)M<阿里巴巴網(wǎng)絡技術有限公司,ATT,創(chuàng)始人>映射為本體三元組時,第1步映射主語“阿里巴巴網(wǎng)絡技術有限公司”,它對應本體實例,進行實例映射。該實例對應本體類“:Company”。實例名稱為“阿里巴巴網(wǎng)絡技術有限公司”,名稱對應的本體屬性為“:name”,“:name”的值即為實例名稱。因此,通過以下兩個本體三元組描述該實例映射:

        ?company rdf:type :Company

        ?company :name "阿里巴巴網(wǎng)絡技術有限公司"

        第2步映射賓語“創(chuàng)始人”,由圖5可知,它和第1個查詢?nèi)M的主語是同一個詞語且在之前的步驟中已經(jīng)映射過,這里無須再映射。第3步映射謂語,ATT是主語和賓語之間的標注關系,說明謂語為空,主語是對應類“:Company”,賓語對應類“:Person”,根據(jù)類“:Company”和類“:Person”之間可能存在的屬性和“創(chuàng)始人”的語義,把謂語映射為屬性“:founder”,因此,通過以下本體三元組描述該屬性映射:

        ?company :founder ?person.

        本體三元組映射過程中需要的類(名)和屬性(名)包含在本體庫中。3.2節(jié)中的2個查詢?nèi)M按步驟,經(jīng)過3類映射之后得到本體三元組,同時確定疑問焦點是“創(chuàng)始人”,因此SELECT語句中的查詢變量設為“?person”,與生成的本體三元組組合后得到的SPARQL查詢語句(查詢結(jié)果為“馬云”):

        PREFIX rdf:http://www.w3.org/1999/02/22-rdf-syntax-ns#

        PREFIX:http://cise.ecust.edu.cn/ontology#

        SELECT ?person WHERE {

        ?person rdf:type :Person

        ?company rdf:type :Company.

        ?company :name "阿里巴巴網(wǎng)絡技術有限公司".

        ?company :founder ?person.

        }

        5 實 驗

        實驗使用本體編輯器Protégé5.0.0[18]設計本體庫,采用Jena2.10.0[19]和Java程序向本體庫中批量導入本體實例,使用SPARQL作為本體查詢語言,利用LTP解析問句得到依存分析樹。實驗使用JSP和Tomcat6.0.39開發(fā)B/S結(jié)構(gòu)系統(tǒng)方便用戶提問,如圖6。本體實例的數(shù)據(jù)源之一是百度百科詞條,同時支持互動百科和中文維基百科,詞條到本體實例的映射和本體庫的構(gòu)建,限于篇幅不再贅述。

        文獻[3]中的方法簡單地利用了元數(shù)據(jù)和經(jīng)驗實現(xiàn)自然語言問句到SPARQL查詢的轉(zhuǎn)換,本文利用抽取算法和抽取規(guī)則去掉了無意義的查詢?nèi)M,合并和重組意義不完整的查詢?nèi)M,提高了抽取效率。以問句“北京經(jīng)營電子商務的公司有哪些”為例,利用抽取算法和抽取規(guī)則去掉了一個RAD關系,合并了一個ATT關系和兩對SBV-VOB關系,重組了一對SBV-VOB關系,問句的中間結(jié)果和答案如圖6所示。該例句的處理過程類似3.2節(jié)的例句的處理過程。

        圖6 B/S結(jié)構(gòu)查詢界面Fig.6 Query interface based on B/S structure

        實驗主要針對經(jīng)濟本體、人物本體和城市本體這3個本體進行查詢。實驗數(shù)據(jù)如表2所示。

        采用準確率評價本文方法,定義如下:

        準確率=

        表2 實驗數(shù)據(jù)Table 2 Experimental data

        實驗中,對ATT關系、SBV關系和VOB關系的映射效果較好,對ADV關系的映射效果映射較差。因為ADV關系所描述范圍和程度難以映射,例如問句:“哪些公司和華東理工大學比較近”,經(jīng)LTP解析后得到ADV關系<比較,ADV,近>,如何定義“比較近”以及如何映射到本體庫中都有待通過將來進一步的研究來解決。另一方面,由于本方法依賴LTP,當LTP解析依存分析樹出現(xiàn)偏差時,后續(xù)的映射也出現(xiàn)錯誤。例如:“阿里巴巴網(wǎng)絡技術有限公司的簡稱為什么”,目前為止,LTP都把“為什么”解析為疑問詞,然而正確的解析是把“什么”解析為疑問詞。

        6 結(jié)束語

        本文映射中文自然語言問句為SPARQL查詢的方法,在一般步驟基礎上,進一步對問句集的依存分析樹進行統(tǒng)計和分析,提出了查詢?nèi)M抽取規(guī)則,設計并利用查詢?nèi)M抽取算法結(jié)合抽取規(guī)則從問句的依存分析樹中抽取出查詢?nèi)M,提高了查詢?nèi)M的抽取效率。實驗表明該方法的有效性。不過,該方法依賴于LTP,而LTP所生成的依存分析樹存在偏差,針對這一情況我們將會研究人工修正和問句等價替換兩種方法來處理這種情況。此外,本文主要分析處理了6種高頻率的標注關系,其他標注關系也會在將來的工作中得到研究。

        [1] CHANDRASEKARAN B,JOSEPHSON J R,BENJAMINS V R.What are ontologies,and why do we need them?[J].IEEE Intelligent Systems,1999,14(1):20-26.

        [2] 孫昂,江銘虎,賀一帆,等.基于句法分析和答案分類的中文問答系統(tǒng)[J].電子學報,2008,36(5):833-839.

        [3] CHANG Qingling,ZHOU Yuanchun,XU Shiting,etal.Research on ontology-based Chinese semantic retrieval model[C]// 2014 International Conference on Computational Science and Computational Intelligence (CSCI).USA:IEEE,2014:302-307.

        [4] LOPEZ V,PASIN M,MOTTA E.AquaLog:An ontology-portable question answering system for the semantic Web[J].Lecture Notes in Computer Science,2005,3532:546-562.

        [5] WANG Chong,XIONG Miao,ZHOU Qi,etal.PANTO:A portable natural language interface to ontologies[J].Lecture Notes in Computer Science,2007,4519:473-487.

        [6] KARIM N,LATIF K,AHMED N,etal.Mapping natural language questions to SPARQL queries for job search[C]// 2013 IEEE Seventh International Conference on Semantic Computing.Irvine:IEEE,2013:150-153.

        [7] KLEIN D,MANNING C D.Accurate unlexicalized parsing[C]// Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.USA:ACM,2003:423-430.

        [8] CUNNINGHAM H,MAYNARD D,BONTCHEVA K,etal.GATE:A framework and graphical development environment for robust NLP tools and applications[C]// Proceedings 40th Anniversary Meeting of the Association for Computational Linguistics (ACL).Philadelphia,USA:DBLP,2002:10-15.

        [9] CHE Wanxiang,LI Zhenghua,LIU Ting.LTP:A Chinese language technology platform[C]// 23rd International Conference on Computational Linguistics.Beijing:DBLP,2010:13-16.

        [10] Parsetree[EB/OL].[2015-07-20].https://en.wikipedia.org/wiki/Parse_tree.

        [11] 語言技術平臺[EB/OL].[2015-11-10].http://www.ltp-cloud.com/intro/.

        [12] YIN Wenke,GE Weiyi,WANG Heng.CDQA:An ontology-based question answering system for Chinese delicacy[C]//2014 IEEE 3rd International Conference on Cloud Computing and Intelligence Systems (CCIS).Shenzhen:IEEE,2014:1-7.

        [13] 劉挺.哈工大信息檢索研究室對外共享語料庫資源[EB/OL].[2015-09-22].http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.

        [14] PRUD’HOMMEAUX E,SEABORNE A.SPARQL query language for RDF[EB/OL].[1015-08-20].http://www.w3.org/TR/2008/REC-rdf-sparql-query-20080115/

        [15] KLYNE G,CARROLL J J.Resource description framework (RDF):Concepts and abstract syntax[EB/OL].[2015-10-15].http://w3c.org/TR/rdf-concepts,2004.

        [16] 張宗仁,楊天奇.基于自然語言理解的SPARQL本體查詢[J].計算機應用,2010(12):3397-3400.

        [17] 張俐,李晶皎,胡明涵,等.中文WordNet的研究及實現(xiàn)[J].東北大學學報(自然科學版),2004,24(4):327-329.

        [18] Protégé[EB/OL].[2015-09-25].http://protege.stan-ford.edu/.

        [19] Jena[EB/OL].[2015-10-20].http://jena.apache.org/documentation/ontology/.

        SPARQL Ontology Query Based on Heuristic Rules

        TAN Li-wei, SHAO Zhi-qing, ZHANG Huan-huan, JIANG Yu-yi, HU Fang-huai

        (School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

        This paper proposes an SPARQL ontology query based on heuristic rules.In the proposed method,LTP (Language Technology Platform) is utilized to parse a question to dependency parsing tree (DPT).Heuristic query triple extraction rules are formed according to the statistic and analysis of DPTs of question set.Query triple(s) are extracted accurately by deleting meaningless query triple(s) and recombining incomplete query triple(s) based on these rules.Query triple(s) are mapped to ontology triple(s) by means of three kinds of mapping:class mapping,instance mapping and property mapping.And then,SPARQL query is obtained.Intermediate results and answer will be presented to users when they submit a Chinese natural language question in the query interface.The experiment shows that the presented method is effective.

        natural language question; dependency parsing tree; triple mapping; SPARQL query

        1006-3080(2016)06-0851-07

        10.14135/j.cnki.1006-3080.2016.06.016

        2016-01-13

        國家高技術研究發(fā)展“863”計劃(2015AA020107)

        譚立威(1988-),男,湖南郴州人,碩士生,主要研究方向為自然語言處理。E-mail:tanliweii@qq.com

        邵志清,E-mail:zshao@ecust.edu.cn

        TP39

        A

        猜你喜歡
        單詞規(guī)則
        What’s This?
        Exercise 1
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        單詞連一連
        規(guī)則的正確打開方式
        幸福(2018年33期)2018-12-05 05:22:42
        看圖填單詞
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        看完這些單詞的翻譯,整個人都不好了
        TPP反腐敗規(guī)則對我國的啟示
        亚洲综合精品一区二区| 国产三级在线视频播放| 国产三级黄色在线观看| 日本一区二三区在线中文| 最新中文字幕一区二区| 国产白嫩护士被弄高潮| 亚洲无码精品免费片| 一区二区三区四区亚洲综合| 国产片在线一区二区三区| 又爽又黄又无遮挡网站| 婷婷丁香社区| 少妇高潮无码自拍| 国产精品成人av一区二区三区| 人妻少妇出轨中文字幕| 无码人妻一区二区三区免费| 无码流畅无码福利午夜| 天堂网日韩av在线播放一区| 美丽人妻在夫前被黑人| 狠狠色狠狠色综合| 人妻一区二区三区免费看| 亚洲毛片一区二区在线| 免费人妻无码不卡中文字幕18禁| 麻豆AV免费网站| 国产精品久久熟女吞精| 亚洲成a∨人片在线观看无码| 中文人妻无码一区二区三区在线| 中文乱码字幕高清在线观看| 亚洲美女一区二区三区三州| 久爱www人成免费网站| 老少交欧美另类| 蜜桃成人永久免费av大| 日本最新一区二区三区在线| 米奇7777狠狠狠狠视频影院| 国产精品精品| 亚洲图文一区二区三区四区| 亚洲国产精品久久精品 | 国产性猛交╳xxx乱大交| 亚洲日产国无码| h视频在线播放观看视频| 又长又大又粗又硬3p免费视频| 亚洲中文字幕在线爆乳|