亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        RDF問答系統(tǒng)中一種基于N-gram的消歧方法

        2022-05-10 08:45:36江偉豪屠要峰周祥生李忠良
        關(guān)鍵詞:語義資源用戶

        江偉豪,嚴(yán) 麗,屠要峰,周祥生,李忠良,

        1(南京航空航天大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院/人工智能學(xué)院,南京 211106)

        2(中興通訊股份有限公司,南京 210000)

        1 引 言

        RDF(1)https://www.w3.org/TR/rdf-primer/(Resource Description Framework)資源描述框架,被廣泛應(yīng)用于表達(dá)互聯(lián)網(wǎng)中的資源以及資源之間的語義關(guān)系[1].RDF的基本結(jié)構(gòu)為主語、謂語、賓語所構(gòu)成的三元組,可以記作,描述了以主語和賓語所代表資源之間具有謂語所代表的關(guān)系.各應(yīng)用在存儲RDF數(shù)據(jù)時遵守了同一協(xié)議,所以在交換RDF數(shù)據(jù)的過程中不會發(fā)生語義丟失的問題.因此,RDF被廣泛應(yīng)用于數(shù)據(jù)可視化、查詢、交換、融合以及知識網(wǎng)絡(luò)的構(gòu)建中.

        對于RDF數(shù)據(jù)的查詢,具有語義知識背景的專業(yè)人員可以通過構(gòu)建結(jié)構(gòu)化查詢語言SPARQL[2]來對RDF數(shù)據(jù)進(jìn)行查詢.雖然結(jié)構(gòu)化語言具有很強(qiáng)的表達(dá)能力,但由于該語言復(fù)雜的語法以及RDF數(shù)據(jù)概要的約束,使用SPARQL對RDF數(shù)據(jù)進(jìn)行查詢對于普通用戶而言需要很高的學(xué)習(xí)成本.而通過關(guān)鍵詞搜索[3]的形式對相關(guān)RDF資源進(jìn)行查詢的方式雖然操作簡單,但關(guān)鍵詞的表達(dá)能力有限,僅通過幾個關(guān)鍵詞難以明確表達(dá)用戶的查詢意圖.同樣,使用受限的自然語言[4]來表達(dá)用戶的查詢意圖,所提供的輸入模板無法滿足用戶查詢需求的多樣性.對于基于自然語言處理的RDF問答系統(tǒng),其中需要彌補(bǔ)自然語言與結(jié)構(gòu)化查詢語言之間的差異,而在具體轉(zhuǎn)化過程中往往要解決由自然語言的語義多樣性所造成的歧義,有研究人員依賴于提供用戶交互操作[5]來解決其中的歧義問題,然而交互的次數(shù)不穩(wěn)定會影響用戶的查詢效率.所以,解決轉(zhuǎn)化過程中所產(chǎn)生的歧義問題成為了設(shè)計RDF問答系統(tǒng)的關(guān)鍵.

        基于自然語言處理的RDF問答系統(tǒng)主要包含以下兩個處理階段:用戶意圖理解和查詢驗(yàn)證.用戶意圖理解的主要工作是彌補(bǔ)非結(jié)構(gòu)化的自然語言與結(jié)構(gòu)化的查詢語言之間的差異,在本文中的體現(xiàn)則是識別用戶自然語言輸入的查詢意圖,以及將查詢意圖轉(zhuǎn)化成相應(yīng)的SPARQL查詢語句的過程.而查詢驗(yàn)證階段則是根據(jù)構(gòu)造好的查詢語句匹配出與問句相關(guān)的答案并進(jìn)行驗(yàn)證的過程.其中,本文的工作更注重于用戶意圖理解的階段.由于用戶表達(dá)的歧義性以及自然語言的多樣性,在該過程中往往會存在歧義問題,從而導(dǎo)致所構(gòu)造的查詢語言有多種組合.在用戶意圖理解階段識別出與用戶查詢意圖最匹配以及最有可能執(zhí)行成功的top-k組合,相比窮舉驗(yàn)證的效率要高.

        以下,將結(jié)合例子介紹本文的研究動機(jī).由于所提方法是針對英文語言的輸入,所以本章后續(xù)的所有例子當(dāng)中都以英文自然語言問句作為用戶輸入進(jìn)行討論.以自然語言問句:“What is the name of the film that directed by Steven Spiel-berg?”為例,該問句所對應(yīng)的SPARQL查詢語句組合如圖1所示.表1中展示了示例的RDF片段,其中RDF數(shù)據(jù)由三元組表示,以主語、謂語、賓語的形式組成,主語為實(shí)體資源,謂語代表關(guān)系資源,而賓語可以表示為資源也可以表示為字面量.從自然語言問句轉(zhuǎn)化為SPARQL查詢語句的過程中分為三個處理階段:意圖提取,資源映射,語句轉(zhuǎn)化.

        圖1 SPARQL語句方案

        表1 RDF片段示例

        以例句當(dāng)中的關(guān)鍵詞所組成的用戶查詢意圖可表示為:.如表2資源映射表所示,關(guān)鍵詞“Steven Spielberg”可映射為兩個不同的資源,分別為,前者為導(dǎo)演,后者則為同名演員.由于用戶輸入歧義以及資源映射的多樣性所引起的問題,稱為映射歧義問題.而圖1則展示了以上關(guān)鍵詞所能構(gòu)成的查詢語句有4種可能組合,由于自然語言表達(dá)的多樣性所引起的歧義問題,稱為結(jié)構(gòu)歧義問題.

        表2 資源映射表示例

        對于映射歧義問題,關(guān)鍵詞“Steven Spielberg”所映射的資源,前者的類型為,而后者的類型為.然而,當(dāng)已知所查詢數(shù)據(jù)集的資源搭配的可能性要比與搭配的要更高的前提下,我們可以得出相匹配所能得出正確答案的概率要高.而對于結(jié)構(gòu)歧義問題,比如是映射為<,>還是<,>.對于機(jī)器是難以分清以上兩種組合,但如果知道前者所出現(xiàn)的可能性要比后者出現(xiàn)的要高時,此時應(yīng)該選擇組合<,,>來構(gòu)造我們的查詢語句.以上所說的可能性則是文章后續(xù)所述的聯(lián)合概率的計算與比較問題.

        文章基于N-gram模型的原理,利用所查詢數(shù)據(jù)當(dāng)中三元組所映射的關(guān)鍵詞組合來充當(dāng)語料庫建立語義概率模型.在用戶查詢意圖理解的過程中,通過語義概率模型計算用戶查詢意圖中關(guān)鍵詞組合的聯(lián)合概率,再通過比較相應(yīng)組合的聯(lián)合概率,消除其中的映射歧義.然后篩選出概率最高的top-k查詢語句,執(zhí)行查詢語句查找相應(yīng)的結(jié)果.通過基準(zhǔn)數(shù)據(jù)集與現(xiàn)存的方法進(jìn)行比較,本文所提出的方法在精確度和召回率方面表現(xiàn)優(yōu)異,特別是在處理隱式關(guān)系問題方面要優(yōu)于其他方法,而且本方法執(zhí)行的是最能表達(dá)用戶查詢意圖的top-k查詢語言,節(jié)省了無效查詢語句的運(yùn)行時間.

        2 背景知識

        2.1 RDF

        RDF是用來描述互聯(lián)網(wǎng)上資源以及資源之間相關(guān)關(guān)系的數(shù)據(jù)模型.這個資源可以是互聯(lián)網(wǎng)中物理上的物體或者是概念的表述,比如一個人物、一個網(wǎng)站或者一個地址.而且資源一般使用IRI(國際資源標(biāo)識符,International Resource Identifier)作為唯一的標(biāo)識,例如表示物理學(xué)家阿爾伯特·愛因斯坦.RDF數(shù)據(jù)模型是以三元組為基本單位表示資源之間存在的相關(guān)關(guān)系,多個三元組所組成的數(shù)據(jù)集構(gòu)造出表達(dá)資源相關(guān)關(guān)系的RDF圖.在三元組當(dāng)中,subject也稱為主語是以上使用IRI作為唯一標(biāo)識的資源或者空白節(jié)點(diǎn)(Blank Node,具有隨機(jī)序列號作為唯一標(biāo)識,所表述的是復(fù)合的資源),賓語object則可以為資源、空白節(jié)點(diǎn)或字面量(可以是數(shù)字、字符串或者日期等不同的數(shù)據(jù)類型的值,數(shù)據(jù)類型可以用描述單位的IRI進(jìn)行標(biāo)識),而謂語predicate則是表述主語與賓語之間相關(guān)關(guān)系的IRI.例如,三元組表示“Albert Einstein′s doctoral advisor is Alfred Kleiner.”所表達(dá)的意思,其中db為“http://dbpedia.org/ontology/”的前綴縮寫.對于RDF模型,我們給出以下簡單定義:

        定義1.設(shè)G為表示RDF數(shù)據(jù)所代表的RDF圖,則該RDF圖是由三元組所構(gòu)成的,三元組表示為∈G,s,p,o分別表示主語、謂語和賓語.其中s∈(I∪B),I表示所有以IRI為標(biāo)識的資源的集合,而B則是所有空白節(jié)點(diǎn)的集合,且I∩B=?.而p∈I,只有能夠描述資源之間關(guān)系的IRI才能充當(dāng)謂語.最后o∈(I∪B∪L),L則是所有字面量的集合.根據(jù)以上描述,可以得出RDF圖G=(I∪B)×I×(I∪B∪L).

        2.2 用戶查詢意圖

        由于非結(jié)構(gòu)化的自然語言與結(jié)構(gòu)化SPARQL查詢語言之間存在差異,如何從自然語言問句當(dāng)中識別出用戶的查詢意圖并將其翻譯為SPARQL查詢語言是構(gòu)建RDF問答系統(tǒng)的關(guān)鍵.通過借助斯坦福自然語言分析工具(Stanford Parser(2)https://nlp.stanford.edu/software/lex-parser.shtml)對自然語言進(jìn)行解析,解析后可獲得包含自然語言問句語法特征的類型依賴關(guān)系樹(Typed Dependencies Tree)[1].如圖2所示,為例句“What is the name of the film that directed by Steven Spielberg?”所對應(yīng)的類型依賴關(guān)系樹.每一個單詞代表一個節(jié)點(diǎn),節(jié)點(diǎn)中使用詞性標(biāo)注(Part of Speech tagging,POS)[7]對該單詞的詞性就行標(biāo)識,節(jié)點(diǎn)之間存在的關(guān)系(邊)則為類型依賴關(guān)系(Typed Dependencies),標(biāo)識兩個單詞在句子中的語法依賴關(guān)系.本方法將從以上類型依賴關(guān)系樹當(dāng)中根據(jù)語法規(guī)則抽取描述用戶查詢意圖的關(guān)鍵詞組合,我們把每個查詢意圖組合定義為語義關(guān)系來表示,以下定義2中為語義關(guān)系的描述.通過識別所有可能描述同一實(shí)體的詞性標(biāo)注進(jìn)行實(shí)體關(guān)鍵詞的抽取作為參數(shù)保存到語義關(guān)系中,通過描述關(guān)系的詞性標(biāo)注進(jìn)行關(guān)系關(guān)鍵詞的抽取作為關(guān)系保存到語義關(guān)系中.并且利用類型依賴關(guān)系對描述實(shí)體以及關(guān)系之間的關(guān)鍵詞集合進(jìn)行連接,解決句法倒裝和指代消解(Coreference Resolution)等問題,最終組成相應(yīng)的語義關(guān)系集合.由于用戶意圖抽取的研究不是本文所提出的貢獻(xiàn),而且對該項(xiàng)工作的研究和定義的規(guī)則也有很多,詳情可以參考[8].從例句中抽取的表達(dá)用戶查詢意圖的語義關(guān)系為,.

        圖2 類型依賴關(guān)系樹示例

        定義2.語義關(guān)系由描述兩個實(shí)體的關(guān)鍵詞集合arg1與arg2構(gòu)成,這兩個實(shí)體之間由描述關(guān)系的關(guān)鍵詞集合rel進(jìn)行聯(lián)系.

        2.3 N-gram模型

        N-gram模型是一種語言模型(Language Model,LM),該語言模型是一個基于概率的判別模型[9].該模型描述的是,在一個自然語言句子當(dāng)中,第i個單詞出現(xiàn)的概率只與前i-1個單詞相關(guān),而與其他的單詞無關(guān),其中組成整個句子的概率則等于每個詞出現(xiàn)的概率的乘積,即:

        P(w1,w2,…,wm)=P(w1)*P(w2|w1)…P(wm|w1,w2,…,wm-1)

        基于馬爾科夫鏈的假設(shè),當(dāng)前第i個單詞僅與其前n個詞相關(guān),則以上概率計算可以簡化為:

        其中每一項(xiàng)的條件概率將使用詞語組合出現(xiàn)的頻數(shù)C根據(jù)極大似然估計法(Maximum Likelihood Estimation,MLE)來計算:

        在現(xiàn)實(shí)應(yīng)用中N的值一般取2和3,其對應(yīng)的是BiGram和TriGram模型.N-gram一般應(yīng)用于詞性標(biāo)注、詞匯分類、機(jī)器翻譯以及語音識別等工作當(dāng)中.

        3 處理流程

        本文所提出的基于自然語言處理的RDF問答系統(tǒng)的處理流程如圖3所示,主要包括以下流程:1)利用斯坦福自然語言分析工具解析自然語言獲取相應(yīng)的類型依賴關(guān)系樹;2)從類型依賴關(guān)系樹當(dāng)中提取與用戶查詢意圖相關(guān)的語義關(guān)系;3)利用所建立的語義概率模型對語義關(guān)系進(jìn)行消歧與組合,得到聯(lián)合概率top-k的語義關(guān)系組合;4)基于top-k的語義關(guān)系組合構(gòu)建相應(yīng)的SPARQL查詢語句,在SPARQL端口上進(jìn)行查詢.由于本文的貢獻(xiàn)在于語義概率模型的建立以及如何利用語義概率模型進(jìn)行消歧,其他流程均使用較為成熟的方法來實(shí)現(xiàn),因此以下將按照語義概率模型的建立以及查詢語言的消歧過程進(jìn)行討論.

        圖3 處理流程圖

        3.1 語義概率模型的建立

        由于所建立的語義概率模型需要反映所查詢數(shù)據(jù)的特征,而本文所查詢的數(shù)據(jù)集來源于DBpedia(2015),所以我們使用該數(shù)據(jù)集所映射的關(guān)鍵詞集合來建立語義概率模型.對于數(shù)據(jù)源當(dāng)中的每一個實(shí)體資源,首先需要知道實(shí)體與描述該實(shí)體的關(guān)鍵字之間的對應(yīng)關(guān)系,形如表3中的關(guān)鍵詞與實(shí)體資源的映射詞典DE.DBpedia的實(shí)體資源映射表一般建立的方法是以Wikipedia中的鏈接為錨點(diǎn)鏈接(Anchor Link)[10],從該鏈接中的文章抽取關(guān)鍵詞建立相應(yīng)的映射關(guān)系,如CrossWikis[11]所實(shí)現(xiàn)的實(shí)體映射詞典.而本方法則是直接從DBpedia-lookup(3)http://lookup.dbpedia.org/中的關(guān)鍵詞與實(shí)體資源的映射索引中抽取映射關(guān)系實(shí)現(xiàn)我們的映射詞典.

        表3 關(guān)鍵詞實(shí)體資源映射詞典

        除了關(guān)鍵詞實(shí)體映射詞典外,仍需要關(guān)鍵詞與關(guān)系之間的映射詞典DR,如表4所示,而關(guān)系則相當(dāng)于連接兩個實(shí)體的關(guān)系路徑,如之前表達(dá)“directed by”的關(guān)系.而關(guān)系與關(guān)鍵詞的映射存在關(guān)系連接的問題,如關(guān)系則需要表示為的連接.而關(guān)系映射仍然不是本文研究的重點(diǎn),我們將使用Patty[12]中依靠依存關(guān)系基于規(guī)則去構(gòu)建關(guān)鍵詞與關(guān)系之間的映射詞典.

        表4 關(guān)鍵詞關(guān)系映射詞典

        具備上述的關(guān)鍵詞實(shí)體資源映射詞典DE和關(guān)鍵詞關(guān)系映射詞典DR,對于數(shù)據(jù)集當(dāng)中的三元組,從DE中可以獲取描述subject與object所代表實(shí)體的關(guān)鍵詞集合DE(subject)→K(s)=(a1,a2,…,ai)和DE(object)→K(o)=(b1,b2,…,bj),ai、bj分別對應(yīng)描述實(shí)體subject與object的關(guān)鍵詞.其中,當(dāng)object為字面量的情況下,以該字面量的類型來充當(dāng)關(guān)鍵詞(如int整型,則以val_int充當(dāng)相應(yīng)的關(guān)鍵詞).而從DR中可以獲取描述predicate所代表關(guān)系的關(guān)鍵詞集合DR(predicate)→K(p)=(c1,c2,…,ck),ck為描述關(guān)系predicate的關(guān)鍵詞.據(jù)此得到描述整個三元組的關(guān)鍵詞組合(K(s),K(p),K(o)),根據(jù)該組合建立語義概率模型有如下定義:

        定義3.描述三元組的關(guān)鍵詞組合為(K(s),K(p),K(o))=((a1,a2,…,ai),(c1,c2,…,ck),(b1,b2,…,bj)),而為了區(qū)分該關(guān)鍵詞所代表的資源是充當(dāng)主語還是賓語,將以上關(guān)鍵詞組合擴(kuò)展為(,(a1,a2,…,ai),(c1,c2,…,ck),(b1,b2,…,bj),).根據(jù)N-gram模型中當(dāng)N=2時的BiGram定義,組合(,ai,ck,bj,)所出現(xiàn)的概率為:

        P(ai,ck,bj)=P(ai|)P(ck|ai)P(bj|ck)P(|bj)

        根據(jù)貝葉斯公式,需要記錄(×K(s)),(K(s)×K(p)),(K(p)×K(o)),(K(o)×)的詞語排列(也稱為片段)出現(xiàn)次數(shù),假設(shè)各關(guān)鍵詞集合中不存在重復(fù)的關(guān)鍵詞,則每個三元組構(gòu)建出的模型空間復(fù)雜度為O((ijk)2).

        定義 4.對于三元組,當(dāng)主語subject和賓語object都有其對應(yīng)的類型T(s)與T(o),則從DE中獲取到描述兩個類型的關(guān)鍵詞集合分別為DE(T(s))→(d1,d2,…,dp)與DE(T(o))→(e1,e2,…,eq),同樣將以上關(guān)鍵詞組合進(jìn)行擴(kuò)展為(,(d1,d2,…,dp),(c1,c2,…,ck),(e1,e2,…,eq),),根據(jù)BiGram的定義,組合(,dp,ck,eq,)所出現(xiàn)的概率為:

        P(dp,ck,eq)=P(dp|)P(ck|dp)P(eq|ck)P(|eq)

        根據(jù)貝葉斯公式,需要記錄(×K(T(s))),(K(T(s))×K(T(p))),(K(T(p))×K(T(o))),(K(T(o))×)的片段出現(xiàn)次數(shù),假設(shè)各關(guān)鍵詞集合中不存在重復(fù)的關(guān)鍵詞,則每個類型三元組構(gòu)建出的空間復(fù)雜度為O((pqk)2).

        根據(jù)以上定義建立語義概率模型,總的空間復(fù)雜度為O((ijk)2+(pqk)2).該語義概率模型不僅可以在用戶意圖理解階段進(jìn)行消歧以優(yōu)化處理過程.基于該語義概率模型還可以實(shí)現(xiàn)輸入提示機(jī)制,在用戶輸入自然語言問句的時候顯示與前一個詞最相關(guān)的top-k關(guān)鍵詞以協(xié)助用戶進(jìn)行輸入描述問題.

        3.2 基于語義概率模型進(jìn)行消歧

        問答系統(tǒng)需要將自然語言問句中用戶的查詢意圖翻譯成相應(yīng)的SPARQL查詢語句進(jìn)行查詢,其中存在由語義多樣性所造成的資源映射歧義以及結(jié)構(gòu)歧義的問題.本小節(jié)將介紹利用上述所建立的語義概率模型在用戶查詢意圖翻譯為SPARQL語句的階段解決以上歧義問題.

        對于表示用戶查詢意圖的語義關(guān)系,各元素代表描述相應(yīng)實(shí)體以及關(guān)系的關(guān)鍵詞集合,其目的是匹配數(shù)據(jù)源當(dāng)中符合(,)所映射資源的三元組.但由于用戶的語言習(xí)慣或者語法倒裝的存在,語義關(guān)系所描述的三元組在數(shù)據(jù)源當(dāng)中可能以(,,)的形式存在,即存在結(jié)構(gòu)歧義.在傳統(tǒng)的處理方法當(dāng)中,可以通過枚舉所有的可能組合形式進(jìn)行查詢驗(yàn)證,但是當(dāng)所查詢語義關(guān)系的數(shù)量增多時,組合的數(shù)量也會呈指數(shù)增長,此時使用窮舉的方式進(jìn)行驗(yàn)證將消耗大量的查詢時間,特別是數(shù)據(jù)量較大的情況下,用戶查詢的效率將受到嚴(yán)重影響.而我們的解決方法則是利用語義概率模型計算并比較不同組合的聯(lián)合概率.設(shè)δ(R)為代表語義關(guān)系R=的所有組合的集合,計算δ(R)中每個組合的聯(lián)合概率,δ1=(arg2,rel,arg1),δ1∈δ(R)的聯(lián)合概率為P(arg2,rel,arg1)(相關(guān)計算請參照上述聯(lián)合概率的介紹),描述順序(,arg2,rel,arg1,)所代表的三元組存在于數(shù)據(jù)源當(dāng)中的概率,其中為三元組首尾標(biāo)志.多個語義關(guān)系相連接則分別計算各語義關(guān)系,最后將對應(yīng)語義關(guān)系概率相乘則得到聯(lián)合概率,然后根據(jù)概率排序并選取最優(yōu)的top-k組合轉(zhuǎn)化為相應(yīng)的查詢語句進(jìn)行查詢驗(yàn)證,通過這種方式可以解決結(jié)構(gòu)歧義問題,從而排除較低可能性的查詢組合.

        對于包含疑問詞的語義關(guān)系,如(“What”,“is the name of”,“film”),只需以變量代替疑問詞的位置,則得到的語義關(guān)系為.而對于帶變量的語義關(guān)系的聯(lián)合概率的計算,其中P(rel|?x)的計算需要在語義概率模型中查找以rel為后綴片段的數(shù)量,然后加入到條件概率的計算當(dāng)中,而對于語義關(guān)系,則計算P(?x|rel)時需要在語義概率模型中查找以rel為前綴片段的數(shù)量,其他部分的條件概率計算與上述過程中的一致,在此不再贅述.

        由于用戶的語義使用習(xí)慣不同以及關(guān)鍵詞與資源的一對多關(guān)系會存在資源映射歧義的問題.當(dāng)語義關(guān)系滿足以下假設(shè)時,將擴(kuò)展候選關(guān)鍵詞的成員:

        假設(shè):prefix和suffix屬于語義關(guān)系中的兩個相鄰成員,當(dāng)滿足:

        1)當(dāng)C(prefix)≠0且C(prefix_suffix)=0時,查找滿足C(prefix_*)≠0的關(guān)鍵詞集合σ1(wi),計算σ1(wi)中關(guān)鍵詞與suffix的語義相似度θ(wi,suffix),當(dāng)相似度大于所設(shè)定閾值γ,即θ(wi,suffix)>γ時,加入wi到suffix的候選集合當(dāng)中參與聯(lián)合概率的計算.

        2)當(dāng)C(suffix)≠0且C(prefix_suffix)=0時,查找滿足C(*_suffix)≠0的關(guān)鍵詞集合σ2(wj),計算σ2(wj)中關(guān)鍵詞與suffix的語義相似度θ(wj,suffix),當(dāng)相似度大于所設(shè)定閾值γ,即θ(wj,suffix)>γ時,加入wj到suffix的候選集合當(dāng)中參與聯(lián)合概率的計算.

        例如在該語義關(guān)系所計算的語義關(guān)系中,rel在語義概率模型中是可以查找到的,即C(rel)≠0,由于用戶的使用習(xí)慣或者語義的多樣性導(dǎo)致用戶所輸入的詞語arg1和arg2無法在語義概率模型中找到,表現(xiàn)為C(prefix_rel)=0,C(rel_suffix)=0.此時我們從語義概率模型中找出滿足C(*_rel)≠0的關(guān)鍵詞集合σ1(wi),計算其中關(guān)鍵詞與rel的語義相似度θ(wi,rel),當(dāng)該值大于我們所設(shè)定的閾值γ時,表示該關(guān)鍵詞wi與原關(guān)鍵詞arg1是有語義相似性的,所以將wi加入到arg1的候選集合c(arg1)當(dāng)中,參與聯(lián)合概率的計算.同樣,滿足C(rel_*)≠0的關(guān)鍵詞σ2(wj),當(dāng)其中的關(guān)鍵詞滿足θ(wj,rel)>γ時,也將wj加入到arg2的候選集合中,所以最初的語義關(guān)系的聯(lián)合概率可使用候選集合中的關(guān)鍵詞來近似計算:

        P(arg1,rel,arg2)≈P(wi,rel,wj)wi∈c(arg1)&wj∈c(arg2)

        在應(yīng)用中,計算語義相關(guān)性的工具有很多,比如WordNet(4)https://wordnet.princeton.edu/.而在實(shí)現(xiàn)中我們使用了Word2Vec來計算關(guān)鍵詞的語義相關(guān)性,Word2Vec可以指定訓(xùn)練語料庫去訓(xùn)練隱藏層的模型,在應(yīng)用過程中可以使用反映所查詢數(shù)據(jù)集數(shù)據(jù)特征的語料庫用作訓(xùn)練數(shù)據(jù)集.而閾值γ的選取反映了所加入候選詞與原關(guān)鍵詞的語義相似程度,在實(shí)現(xiàn)中將γ設(shè)置為0.5,也可通過訓(xùn)練的形式尋找最佳的γ值.

        對于語義關(guān)系中arg1和arg2可以映射為實(shí)體或者標(biāo)簽.當(dāng)映射為標(biāo)簽的情況下,如arg2映射為標(biāo)簽,則原語義關(guān)系需擴(kuò)展為,.而當(dāng)arg2代表非資源型屬性時,即arg2代表一個字面量,則以該字面量的對應(yīng)類型val_type來替代arg2的位置去計算該語義關(guān)系的聯(lián)合概率.

        算法1.篩選top-k聯(lián)合概率最高的語義關(guān)系

        輸入:語義關(guān)系組合R

        輸出:top-k 語義關(guān)系組合

        1.M ← ?

        2.δ(R)←find_All_Combinations(R)

        3.for r in δ(R):

        4. p=1.0

        5. for in r:

        6. c(arg1)← w from C(arg1_rel)=0 &

        C(w_rel)≠ 0 & θ(w,arg1)> γ

        7. c(rel)← w from C(arg1_rel)=0

        & C(arg1_w)≠ 0 & θ(w,rel)> γ

        8. c(arg2)← w from C(rel_arg2)=0 &

        C(rel_w)≠ 0 & θ(w,arg2)> γ

        9. c(rel)← w from C(rel_arg2)=0 &

        C(w_arg2)≠ 0 & θ(w,rel)> γ

        10. for wiin c(arg1):

        11. for wjin c(rel):

        12. for wkin c(arg2):

        13. p=p * P(wi,wj,wk)

        14. M ←((wi,wj,wk),p)

        15.sortwithP(M)

        16.return top-k semantic relation in M

        由于自然語言表示的多樣性,在自然語言表述當(dāng)中存在顯示關(guān)系和隱式關(guān)系的表達(dá),例如,“Which electronics companies were founded in Beijing?”為隱式關(guān)系表達(dá),而其對應(yīng)的顯示關(guān)系表達(dá)為“Which company′s industry is electronics were founded in Beijing?”.顯式關(guān)系所抽取的用戶查詢意圖為,< companies,founded in,Beijing>,而隱式關(guān)系所抽取的用戶查詢意圖則為.對于實(shí)體中帶有修飾詞的語義關(guān)系,需要考慮其中是否包含隱式的語義關(guān)系,所以將其擴(kuò)展為,,并計算其聯(lián)合概率,加入到top-k可能組合的排序中.需要說明的是,如果語義關(guān)系當(dāng)中包含描述類型的關(guān)鍵詞,如當(dāng)中”companies”屬于類型,則需要在計算聯(lián)合概率時將其擴(kuò)展為.

        4 實(shí) 驗(yàn)

        本文在DBpedia上的基準(zhǔn)數(shù)據(jù)集中驗(yàn)證所提出的方法.所使用的自然語言問題來自QALD-6.QALD(5)http://qald.aksw.org/是針對關(guān)聯(lián)數(shù)據(jù)問題回答的一系列評估活動.與QALD-6當(dāng)中的CANaLI[13],UTQA[14],KWGAnswer[15],NbFramework[16],SEMGraphQA.進(jìn)行對比.文章所提方法是使用Java語言實(shí)現(xiàn)的,所進(jìn)行的實(shí)驗(yàn)運(yùn)行于搭載Intel Core CPU 3.80GB Hz,32 GB RAM 的Windows 10平臺當(dāng)中.

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        DBpedia是一個從維基百科(WikiPedia)中提取結(jié)構(gòu)化信息,并且將數(shù)據(jù)存儲為RDF形式發(fā)布到互聯(lián)網(wǎng)上的組織.本次實(shí)驗(yàn)中所使用的數(shù)據(jù)集為2015年發(fā)布的DBpedia數(shù)據(jù)集(6)http://downloads.dbpedia.org/2015-10/core-i18n/en/,其中包含了約5百萬個實(shí)體,約11億個三元組,所包含RDF數(shù)據(jù)集的容量約為8.9GB.

        文章中所使用的計算詞語之間的語義相關(guān)性的工具為Word2Vec_Java(7)https://github.com/NLPchina/Word2VEC_java,是基于文獻(xiàn)[18]中所介紹的Word2Vec模型建立的Java應(yīng)用工具.Word2Vec是一個用于生產(chǎn)詞向量的相關(guān)模型,該模型為淺而雙層的神經(jīng)網(wǎng)絡(luò).我們所用的訓(xùn)練語料集為Wikipedia+Gigaword 5(6B)(8)https://github.com/3Top/word2vec-api,維度為300,詞典大小為400000.

        4.2 實(shí)驗(yàn)驗(yàn)證

        本次實(shí)驗(yàn)將驗(yàn)證QALD-6中的多語言回答問題(Multilingual question answering over DBpedia)的100個測試問題.由于我們的方法是處理英語語言方面的自然語言問題,所以在對比的時候也是使用英語語言的自然語言問句.對于中文的自然語言處理方法,可根據(jù)目標(biāo)領(lǐng)域(如文獻(xiàn)[19]中面向電商領(lǐng)域的問答)選取語料訓(xùn)練集建立語義概率模型,使用中文自然語言解析器(如Stanford Parser的中文解析模塊)對語句進(jìn)行解析,再根據(jù)中文語法對解析結(jié)果進(jìn)行查詢意圖的提取,利用所建立的語義概率模型或者自定義消歧方法(如文獻(xiàn)[20]中的滑動語義消歧方法)進(jìn)行消歧后轉(zhuǎn)化為相應(yīng)的查詢語句即可查詢相關(guān)內(nèi)容.在實(shí)驗(yàn)當(dāng)中,我們將與上述所提方法在以下指標(biāo)中作對比,分別為準(zhǔn)確率(Accuracy,A),所解決的問題占問題總量的比例;精確度(Precision,P),所查出的正確資源占結(jié)果總量的比例;召回率(Recall,R),所查出的正確資源占正確問題總量的比例;F-1(F1-Measure)=2×P×R/(P+R),為精確度與召回率的調(diào)和平均值.表5中展示了我們所提方法(簡稱為NGQA)與各方法在執(zhí)行測試數(shù)據(jù)后測量的以上指標(biāo)的數(shù)值.

        表5 驗(yàn)證QALD-6的測試問題

        從實(shí)驗(yàn)結(jié)果中得知,本文所提出的方法在F-1評價中排名與NbFramewrk并列第二.我們的方法在一百個問題當(dāng)中能夠解決其中的58個問題,精確度為0.85,召回率為0.88,其中召回率只比CaNaLI要低,但是比其他的方法要高.其中需要注意的是,CaNaLI需要用戶輸入受限的自然語言問句,即用戶需要以準(zhǔn)確的資源名稱(IRI表示)去表達(dá)問句當(dāng)中的資源以及關(guān)系.換言之,CaNaLI解決受限自然語言V在用戶層面,以用戶自身的認(rèn)知去進(jìn)行消歧的,而我們的問答,方法卻沒有這種限制.

        在實(shí)驗(yàn)過程當(dāng)中,本文的方法在解決單三元組問題(如問題:“Who was the doctoral supervisor of Albert Einstein?”查詢時只包含單個三元組:)的時候正確率、精準(zhǔn)度和召回率都很高.我們將無法解決的問題進(jìn)行了分類分析,總結(jié)出了以下原因,如表6中所示.在無法解決的問題中,其中占比最高的是錯誤的資源映射問題,用戶所輸入的自然語言問句當(dāng)中所包含的關(guān)鍵詞映射無法映射到正確的資源當(dāng)中,從而導(dǎo)致問題的查詢失敗,如問題“What is the full name of Prince Charles?”當(dāng)中關(guān)鍵詞“Prince Charles”無法映射到正確的資源.其次則是語義概率模型當(dāng)中缺少必要的片段,如問題“Who wrote Harry Potter?”由于建模數(shù)據(jù)集的原因,與“Harry Potter”相關(guān)的資源沒有出現(xiàn)在數(shù)據(jù)集當(dāng)中,所以所建立的語義概率模型中不存在與“Harry Potter”相關(guān)的片段,最終導(dǎo)致查詢失敗.而本方法在復(fù)雜長查詢語句方面的表現(xiàn)欠佳,如問題“In which city was the president of Montenegro born?”,問題所映射出的SPARQL查詢語句為復(fù)雜長查詢語句,由于在提取語義關(guān)系的過程中已經(jīng)出現(xiàn)錯誤,所以導(dǎo)致了查詢失敗,其他同類問題中有使用聯(lián)合查詢的例子,由于我們所使用的語義關(guān)系抽取方法中在處理聯(lián)合查詢的問題中欠佳,所以聯(lián)合查詢問題的準(zhǔn)確率較低.最后有少量問題是出現(xiàn)語義相關(guān)性計算錯誤的,問題“Who played Gus Fring in Breaking Bad?”當(dāng)中詞語play與portrayer顯示不相關(guān),所以無法獲取對應(yīng)的資源,從而導(dǎo)致查詢錯誤,此類問題由Word2Vec的訓(xùn)練數(shù)據(jù)導(dǎo)致.剩下的問題則是數(shù)據(jù)集當(dāng)中缺少正確答案,所以無法進(jìn)行比對.

        表6 錯誤問題分析

        如表7所示各方法在處理數(shù)據(jù)集中15道隱式關(guān)系問題(如:“What is the name of the school where Obama′s wife studied?”)的正確率.由于本文所提出的方法主動驗(yàn)證修飾詞與實(shí)體詞之間是否包含隱式關(guān)系,而且結(jié)合類型的聯(lián)合概率計算擴(kuò)展后隱式關(guān)系語句的概率,從而導(dǎo)致本文的方法在處理隱式關(guān)系問題方面要優(yōu)于其他方法.

        表7 針對隱式關(guān)系問題的準(zhǔn)確率比較

        如圖4所示,從正確通過的58個問題當(dāng)中隨機(jī)選取10個問題進(jìn)行驗(yàn)證時間進(jìn)行測試,并與數(shù)據(jù)集當(dāng)中基準(zhǔn)的驗(yàn)證時間做比較,驗(yàn)證時間包含從查詢意圖轉(zhuǎn)化為查詢語句和查詢語句查詢出答案的過程.其中所選問題的驗(yàn)證時間均低于基準(zhǔn)值,則是由于我們所提出的方法是通過計算查詢意圖可能組合的聯(lián)合概率得出top-k個最優(yōu)的查詢組合進(jìn)行查詢,其中排除了幾乎不可能正確的查詢語句,從而縮短了驗(yàn)證時間.

        圖4 驗(yàn)證時間比較

        5 結(jié) 論

        本文介紹了應(yīng)用在RDF問答系統(tǒng)中的一種基于N-gram的消歧方法.在用戶意圖理解階段,利用建立好的語義概率模型計算用戶意圖可能組合的聯(lián)合概率,通過前綴/后綴片段對組合進(jìn)行擴(kuò)充,解決了映射歧義的問題,通過比較得出top-k最優(yōu)組合,排除可能性較小的組合,不僅解決了結(jié)構(gòu)歧義的問題,而且還提高了查詢驗(yàn)證的效率.實(shí)驗(yàn)表明,本文方法在性能評估方面要優(yōu)于大部分所比較的方法,特別在解決隱式關(guān)系問題中要優(yōu)于其他的方法.下一步將建立更高階的語義概率模型,優(yōu)化解決聯(lián)合查詢以及聚合查詢的問題.

        猜你喜歡
        語義資源用戶
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        語言與語義
        資源回收
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        認(rèn)知范疇模糊與語義模糊
        色爱区综合激情五月综合小说| 日本视频二区在线观看| 欧美精品videosse精子| 最新亚洲精品国偷自产在线| 国产亚洲精品综合一区| 国产不卡av一区二区三区| 国产情侣一区二区| 米奇影音777第四色| 久久精品中文字幕极品| 一区二区三区国产大片| av在线观看一区二区三区| 亚洲av蜜桃永久无码精品| 欧美成人中文字幕| 久久亚洲精精品中文字幕早川悠里| 在线播放av不卡国产日韩| 肥臀熟女一区二区三区| 国产成人无码A区在线观| av天堂一区二区三区| 天堂网站一区二区三区| 无码少妇一区二区浪潮av| 一本无码av一区二区三区| 中文字幕乱码在线婷婷| 色天使久久综合网天天| 人妻少妇看a偷人无码精品| 啊v在线视频| 国产视频一区二区三区观看| 国产精品中文久久久久久久| 国产一区免费观看| 亚洲国产欲色有一二欲色| 国产亚洲自拍日本亚洲| 久久精品免视看国产成人| 久久中文字幕日韩精品| 国产自拍av在线观看| 国产人妻大战黑人20p| 亚洲肥老熟妇四十五十路在线| 中文字幕精品人妻av在线| 国产91清纯白嫩初高中在线观看| 国产精品igao视频网 | 午夜无码伦费影视在线观看| 久久久久久亚洲AV成人无码国产| 高潮av一区二区三区|