亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Ontology擴(kuò)展查詢的數(shù)學(xué)表達(dá)式檢索模型

2018-05-30 01:26:31李新福田學(xué)東

計(jì)算機(jī)工程 2018年5期

李新福,徐筱,田學(xué)東

(河北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河北保定 071000)

0 概述

數(shù)學(xué)表達(dá)式檢索技術(shù)的發(fā)展加強(qiáng)了相關(guān)人員對數(shù)學(xué)信息的交流,滿足了不同用戶的檢索需求。為提高數(shù)學(xué)檢索的適用性,擴(kuò)大使用人群,開發(fā)面向語義的數(shù)學(xué)公式搜索引擎意義深遠(yuǎn)。

國內(nèi)外已逐步針對數(shù)學(xué)表達(dá)式檢索進(jìn)行相關(guān)研究,并構(gòu)建DLMF Search[1]、MathDex[2]、MathWeb Search[3]、LeActiveMath[4]、EgoMath[5]、 WikiMirs[6]、MIaS[7]、SFE[8]等原型系統(tǒng)。其中,文獻(xiàn)[8]對LaTeX格式的表達(dá)式提出了序列化特征提取方法,該方法具有不破壞表達(dá)式原有結(jié)構(gòu)的特性,相較于其他檢索系統(tǒng),能高速且準(zhǔn)確地檢索出表達(dá)式的不同層次,滿足不同用戶的檢索需求。

以上檢索系統(tǒng)能夠?qū)崿F(xiàn)不同程度的數(shù)學(xué)表達(dá)式檢索匹配,檢索性能表現(xiàn)良好,但均需借助排版工具將二維的公式轉(zhuǎn)換成更適宜處理的一維表現(xiàn)形式,普通用戶并不熟悉排版工具的排版格式,大大降低了系統(tǒng)的使用范圍;同時(shí),被檢索數(shù)學(xué)公式脫離了原本的語境范圍,不同的語境下不同語義但形式相同的表達(dá)式均會被檢索出,換言之,未從語義層面對表達(dá)式進(jìn)行區(qū)分。

文獻(xiàn)[9]在NTCIR[10]-11Math2 Task中,提出將數(shù)據(jù)集分成公式和公式所在的上下文兩組,分別進(jìn)行特征提取,結(jié)合公式的語義和公式結(jié)構(gòu)檢索到相關(guān)文檔。自然語言千變?nèi)f化,涉及范圍較廣,該實(shí)驗(yàn)中選取的數(shù)據(jù)集龐大,且在特征選取時(shí)只依賴公式前后的3句話,所獲取的文本特征不足以表達(dá)公式本身的語義。受此啟發(fā),建立表達(dá)式對應(yīng)的文本概念及概念之間的聯(lián)系,可以針對表達(dá)式進(jìn)行不同程度的語義檢索。鑒于此,本文將有推理功能且用于多種領(lǐng)域信息檢索[11-17]的本體論知識,運(yùn)用在基于SFE的數(shù)學(xué)公式檢索中作為語義表達(dá)的基礎(chǔ)。

本體[18]作為一個(gè)很好的概念建模工具,曾被Tom Gruber[19]定義為“概念模型(conceptualization)的明確的規(guī)范說明”,不僅能從知識和語義上對信息進(jìn)行描述和組織,還支持滿足一定規(guī)則的邏輯推理操作,具有代表性的應(yīng)用有Ontoseek[20]、Swoogle[21]等。文獻(xiàn)[22]提出了基于網(wǎng)絡(luò)本體處理數(shù)學(xué)公式間的關(guān)系,文獻(xiàn)[23]以表達(dá)式中數(shù)學(xué)公式部分作為基點(diǎn)歸納出4類數(shù)學(xué)表達(dá)式多元信息的關(guān)聯(lián)關(guān)系,使用改進(jìn)后的通配符表示方法來構(gòu)建數(shù)學(xué)表達(dá)式本體庫,從而實(shí)現(xiàn)數(shù)學(xué)表達(dá)式的語義檢索。本文在上述研究的基礎(chǔ)上,提出一種基于Ontology擴(kuò)展查詢的數(shù)學(xué)表達(dá)式檢索方法。

1 基于Ontology的數(shù)學(xué)表達(dá)式檢索

基于SFE的數(shù)學(xué)表達(dá)式檢索過程加入本體概念可實(shí)現(xiàn)語義檢索的目的,其實(shí)現(xiàn)過程可分為以下4個(gè)層次:

1)在領(lǐng)域?qū)＜业膮f(xié)助下,運(yùn)用結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的方式抽取數(shù)據(jù)并建立數(shù)學(xué)名詞與表達(dá)式之間關(guān)系,整合數(shù)據(jù)后構(gòu)建相關(guān)的領(lǐng)域本體。

2)利用本體中的概念標(biāo)注數(shù)學(xué)名詞和表達(dá)式資源并以特定的格式存儲,結(jié)果以RDF文檔的方式存儲,也可在本體工具中直接查詢,并可根據(jù)一定的推理規(guī)則基于本體進(jìn)行語義推理。

3)采集的html、xml等格式的數(shù)據(jù)集要對文本進(jìn)行樣式、格式、分詞等預(yù)處理,有些網(wǎng)頁會提供多種格式的數(shù)學(xué)表達(dá)式,如LaTeX、MathML等,因SFE檢索結(jié)構(gòu)針對LaTeX表達(dá)式,故提取LaTeX格式數(shù)據(jù)并預(yù)處理,避免因?yàn)闀鴮懥?xí)慣等因素產(chǎn)生噪音對檢索結(jié)果造成影響。

4)數(shù)學(xué)表達(dá)式經(jīng)過SFE檢索后初步確定的目標(biāo)文檔,結(jié)合用戶查詢詞在Ontology中查詢擴(kuò)展后的關(guān)聯(lián)本體,從語義上2次判斷該文檔與用戶查詢詞的關(guān)聯(lián)性,并將高于一定相關(guān)性的文檔輸出到檢索界面。

分析上述基于Ontology的數(shù)學(xué)表達(dá)式檢索思想,構(gòu)建語義檢索模型如圖1所示,該檢索系統(tǒng)的核心在于本體構(gòu)建、設(shè)計(jì)匹配規(guī)則,下文將詳細(xì)闡述。

圖1 語義檢索模型結(jié)構(gòu)框架

2 Ontology構(gòu)建

表達(dá)式或符號是全世界通用的一門數(shù)學(xué)語言,正因?yàn)樗芨叨瘸橄蟮乇磉_(dá)一類概念,即過于抽象,往往會在不同的學(xué)科領(lǐng)域,或相同學(xué)科不同的應(yīng)用背景下被賦予不同的含義,如表1所示。

表1 不同語境下相同表達(dá)式表示的不同語義

此外,數(shù)學(xué)表達(dá)式的變形、推導(dǎo)以及不同的證明方法往往也會導(dǎo)致不同表現(xiàn)形式的表達(dá)式具有相同的內(nèi)在語義,如表2所示。

表2 不同表達(dá)式表示的相同語義

無論是表2的哪種情況,在現(xiàn)有的數(shù)學(xué)表達(dá)式檢索系統(tǒng)中,如果不加以語義的約束,則往往達(dá)不到想要的檢索效果,本文引入本體的概念來改善這些問題。

Cuarino[24]從領(lǐng)域依賴程度將本體劃分為頂級本體、領(lǐng)域本體、任務(wù)本體、應(yīng)用本體。領(lǐng)域本體指依賴于具有特定含義的概念以及概念之間關(guān)系的領(lǐng)域。本文著力于建立數(shù)學(xué)領(lǐng)域中表達(dá)式以及其專有名詞概念之間的聯(lián)系,屬于領(lǐng)域本體的范疇,通常領(lǐng)域本體的構(gòu)建需要依賴領(lǐng)域?qū)＜业膮⑴c,建立合適且正確的通用聯(lián)系。本文以權(quán)威著作《數(shù)學(xué)辭海》[25]為參考資料。

本體構(gòu)建是整個(gè)語義檢索系統(tǒng)的核心所在,建立合適且全面的領(lǐng)域本體能夠提高檢索的查全率查準(zhǔn)率。下面按照從局部到整體的思路,首先分別從表達(dá)式和術(shù)語概念2個(gè)方面出發(fā)建模,然后從整體上建立兩者之間的聯(lián)系,最終建成數(shù)學(xué)表達(dá)式及其概念本體庫。

2.1 概念

文獻(xiàn)[26]總結(jié)認(rèn)為Ontology一般有如下5種常規(guī)建模元語(modeling primitives):類/概念(classes/concepts),公理(axioms),關(guān)系(relations),函數(shù)(functions)和實(shí)例(instances)。類是相似術(shù)語所表達(dá)的概念集合;公理是確實(shí)存在不必證明的邏輯永真式;關(guān)系是領(lǐng)域內(nèi)兩概念間相互關(guān)系;函數(shù)是本體中一種特殊的關(guān)系;實(shí)例在本體工具中一般也稱為個(gè)體(individual),是對類或概念的具體化,具有不可再分性。

《數(shù)學(xué)辭?！饭?卷,以第1卷為例,卷中目錄分為一級標(biāo)題(如“平面幾何”)、二級標(biāo)題(如“面積”)和具體條目(如“勾股定理”)。初步規(guī)定,一級標(biāo)題為類,二級標(biāo)題為一級標(biāo)題的子類,具體條目作為兩者的實(shí)例,無論是類還是實(shí)例在本體工具中都稱為本體On。卷中每個(gè)詞條都有相應(yīng)的文本注解和公式,將每個(gè)本體On的注解以一個(gè)文檔的形式存儲,形成文檔集:

docS=(D1,D2,…,Dn)

(1)

摘錄卷中目錄為數(shù)學(xué)專有名詞上下位關(guān)系表,記為mfn.dct?；诖?表對ICTCLAS分詞系統(tǒng)作出改進(jìn),并對卷中文本進(jìn)行分詞處理,原子切分之前采用逆向最大匹配算法首先在上下文關(guān)系表中匹配。使得程序有效區(qū)分?jǐn)?shù)學(xué)專業(yè)名詞術(shù)語,又增加了切分?jǐn)?shù)據(jù)的準(zhǔn)確性。然后依據(jù)固定出現(xiàn)的語法句式,如“……即……”“……亦稱為……”等編寫程序得到數(shù)學(xué)專有名詞同義詞表,記為slmt.dct,以及去停用詞等操作后提取原子詞匯作為本體On的文本特征,記為:

F=(fn1,fn2,…,fnk)

(2)

提取公式集合,記為:

latS=(L1,L2,…,Ln)

(3)

當(dāng)本體On在文檔Dn中有相對應(yīng)注解的公式Ln時(shí),F也同樣作為公式Ln的文本特征項(xiàng)。

采用向量空間模型(SVM)將公式Ln的文本特征表示為Ank,并存入數(shù)據(jù)庫mysql中。

Ank=(fn1,wn1,fn2,wn2,…,fnk,wnk)

(4)

其中,fnk是公式Ln的特征項(xiàng),wnk是特征項(xiàng)fnk所占權(quán)重,這里將fnk的tf(term frequency)值作為其權(quán)重wnk的值。以O(shè)n為關(guān)鍵詞在百度搜索引擎反饋頁面取TopN條為計(jì)算tf值的依據(jù),公式如下:

(5)

其中,Mi代表文檔i中總的詞匯量,Nik代表在文檔i中特征詞fnk出現(xiàn)的次數(shù)。

2.2 概念間關(guān)系

通過以上步驟提取了概念在水平與垂直層級的關(guān)系和相應(yīng)公式以及公式對應(yīng)的文本特征。但在實(shí)際操作中存在以下情況:

1)詞條無特定公式注解,如詞條“立體幾何學(xué)”;

2)詞條無特定公式注解但有常用的表達(dá)式或符號,如“代數(shù)余子式”對應(yīng)Aij,“圓周率”對應(yīng)π;

3)多個(gè)詞條對應(yīng)一個(gè)公式,如“勾股定理”“勾股弦定理”“畢達(dá)哥拉斯定理”都對應(yīng)著公式a2+b2=c2;

4)一個(gè)詞條對應(yīng)多個(gè)公式,如公式a2+b2=c2是公式2ab+(b-a)2=c2進(jìn)行推演后形成的,也即“勾股定理”對應(yīng)這2個(gè)公式。

因此,在構(gòu)建本體時(shí)不光要考慮到數(shù)學(xué)名詞語義性,還要考慮數(shù)學(xué)表達(dá)式的同義性以及特殊的具有標(biāo)識作用的符號或子式,在查詢詞擴(kuò)展時(shí)按照一定策略都可作為關(guān)聯(lián)本體以便有效地?cái)U(kuò)大檢索范圍。

本文根據(jù)實(shí)際需求建立如表3所示的關(guān)系。

表3 本體關(guān)系

在原有數(shù)據(jù)的基礎(chǔ)上加入以上關(guān)系構(gòu)建本體,其中數(shù)學(xué)表達(dá)式部分采用LaTeX格式進(jìn)行處理,因其能實(shí)現(xiàn)數(shù)學(xué)表達(dá)式從二維結(jié)構(gòu)到一維結(jié)構(gòu)的轉(zhuǎn)化操作,且在這個(gè)轉(zhuǎn)化過程中LaTeX完整地保留了數(shù)學(xué)公式包含的所有信息,每一個(gè)確定的數(shù)學(xué)公式都有唯一的LaTeX公式與其對應(yīng),沒有語義誤差。一段簡單的本體片段如圖2所示。

圖2 本體關(guān)系片段

使用本體將關(guān)鍵字級別的零散的詞匯提升為概念級別的關(guān)聯(lián),不同以往,綜合地從關(guān)鍵詞以及數(shù)學(xué)表達(dá)式2個(gè)方面建模,便于對用戶輸入查詢詞進(jìn)行語義擴(kuò)展。其中,同義公式以及具有標(biāo)識作用的符號的加入提高了查全率,再用文本概念及文本特征Ank限定查準(zhǔn)率,以期達(dá)到更深層次的數(shù)學(xué)表達(dá)式語義檢索。

3 改進(jìn)的SFE檢索匹配

3.1 SFE特征提取原理

序列化特征提取(SFE)表達(dá)式特征提取方法認(rèn)為一個(gè)表達(dá)式的結(jié)構(gòu)特征(s)可分為以下3種:運(yùn)算結(jié)構(gòu)特征(o),常量結(jié)構(gòu)特征(c),變量結(jié)構(gòu)特征(v)。其中,運(yùn)算結(jié)構(gòu)特征由公式中的運(yùn)算符及所有符號在公式二維結(jié)構(gòu)內(nèi)的位置信息構(gòu)成,常量結(jié)構(gòu)特征由表達(dá)式中的數(shù)字構(gòu)成,變量結(jié)構(gòu)特征由表達(dá)式中的字符性符號構(gòu)成。3種特征分量的不同組合可以實(shí)現(xiàn)不同層次的表達(dá)式特征匹配,特征提取的流程如圖3所示。該程序還對LaTeX符號指令自定義了編碼字典,避免因解析過程中指令內(nèi)字符的干擾而匹配到有誤的檢索結(jié)果。

與傳統(tǒng)提取方式相比,基于SFE特征提取的檢索系統(tǒng)使得檢索范圍更準(zhǔn)確,檢索結(jié)果層次性更好,獲得的匹配公式與查詢公式相似度高,但該方法不涉及公式所在文檔與查詢公式的語義關(guān)聯(lián)性。故在此特征提取的基礎(chǔ)上進(jìn)行擴(kuò)充,加入本體知識判斷語料庫中公式與其所在文檔的關(guān)聯(lián)程度,進(jìn)一步限定檢索范圍,使得查詢結(jié)果偏于語義化。

圖3 特征提取原理流程

3.2 查詢詞擴(kuò)展及數(shù)據(jù)預(yù)處理

本文運(yùn)用斯坦福大學(xué)的Protégé5.2構(gòu)建本體,并用Jena實(shí)現(xiàn)推理機(jī)制。對用戶的查詢請求通過查詢轉(zhuǎn)換器按照ontology將其轉(zhuǎn)換為規(guī)定格式,并進(jìn)行查詢詞擴(kuò)展。也可用Protégé自帶的可視化工具OntoGraf進(jìn)行可視化查詢擴(kuò)展,當(dāng)檢索一個(gè)關(guān)鍵詞時(shí)有多種查詢模式可供選擇以滿足不同查詢需求,生成的圖存為DOT文件,由于涉及諸多中文,選擇utf8進(jìn)行轉(zhuǎn)碼即可查看。

用戶輸入的查詢詞qW在本體庫中按照關(guān)系查詢擴(kuò)展后的關(guān)聯(lián)本體為:

relO=(o1,o2,…,on)

(6)

找出與查詢詞qW最相關(guān)的表達(dá)式Lr以及“has_part”部分的子式Lj和“has_equivalence”的同義公式Lk,再從數(shù)據(jù)庫中找出向量Ark表示的表達(dá)式Li的文本特征:

Ark=(fr1,wr1,fr2,wr2,…,frk,wrk)

(7)

數(shù)據(jù)集以單個(gè)文檔方式存儲到數(shù)據(jù)庫中,記為:

Docmn=(d1,d2,…,dn)

(8)

對每篇文檔dn的每一段落pn進(jìn)行改進(jìn)后的分詞處理、去停用詞,并對出現(xiàn)的原子及其在該段落的詞頻使用向量Bnj進(jìn)行語義標(biāo)注,記為:

Bnj=(pn1,wn1,pn2,wn2,…,pnj,wnj)

(9)

3.3 改進(jìn)SFE的檢索匹配

考慮到以往的數(shù)學(xué)表達(dá)式檢索系統(tǒng)中,用戶被要求輸入相應(yīng)排版格式的數(shù)學(xué)公式,不熟悉該排版格式的用戶無法正確輸入要查詢的表達(dá)式導(dǎo)致用戶體驗(yàn)差,用戶群體局限等問題。本文系統(tǒng)在查詢?nèi)肟谧隽烁m宜用戶操作的改變,實(shí)現(xiàn)步驟如下:

輸入自然語言或LaTeX格式表達(dá)式

輸出含LaTeX格式表達(dá)式的文獻(xiàn)

步驟1用戶輸入查詢詞qW,若匹配Ontology執(zhí)行步驟2;否則執(zhí)行步驟5。

步驟2qW在Ontology中進(jìn)行查詢擴(kuò)展出關(guān)聯(lián)本體集合relO,關(guān)聯(lián)公式Lr和同義公式Lk以及Lr的特征集Ark,執(zhí)行步驟3。

步驟3對Lr和同義公式Lk進(jìn)行SFE三層特征提取并初次篩選語料庫dn,得到目標(biāo)文檔dq。找到目標(biāo)文檔dq中公式所在段落pq,提取pq的標(biāo)注Bqj并與關(guān)聯(lián)本體集relO匹配,若滿足{x|?x=pnj∩on}則認(rèn)定相關(guān)并執(zhí)行步驟8;否則執(zhí)行步驟4。

步驟4將Bqj按照Lr的文本特征Ark進(jìn)行修改:將Bqj中滿足{x|x=(pnj∩frk)}的特征項(xiàng)保留,其余剔除;在Bqj中添加滿足{x|x=frk-(pqj∩frk)}的特征項(xiàng)并令其權(quán)重為0。修改后的向量記為:

(10)

(11)

從而算出段落pq對關(guān)聯(lián)公式Lr的語義關(guān)聯(lián)度:

support(pq,Lr)=cosθ+φ

(12)

其中,φ代表文檔中其他影響因子,視所有文檔中影響因子都為相等值φ。

當(dāng)support(pq,Lr)>α?xí)r,認(rèn)定該文檔與原始查詢詞是相關(guān)的,執(zhí)行步驟8。

步驟5判斷查詢詞qW是否為公式,若是則執(zhí)行步驟6;否則執(zhí)行步驟7。

步驟6對qW進(jìn)行SFE特征提取并檢索語料庫dn,執(zhí)行步驟7。

步驟7對語料庫進(jìn)行關(guān)鍵字檢索并檢索語料庫dn,執(zhí)行步驟8。

步驟8輸出最終被檢索的相關(guān)文檔并結(jié)束。

4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證基于Ontology和SFE判斷數(shù)學(xué)表達(dá)式與文檔的關(guān)聯(lián)關(guān)系的有效性和可行性,收集了中學(xué)數(shù)學(xué)、化學(xué)和物理學(xué)科的課本、試卷和習(xí)題等相關(guān)資料,共獲得含LaTeX公式的文檔為7 268篇。這里針對實(shí)際情況設(shè)定如下前提條件:

1)因數(shù)據(jù)涉及多種學(xué)科領(lǐng)域,待檢索的語料庫中通常不會完全出現(xiàn)整個(gè)公式,而是存在包含、內(nèi)嵌等情況,故被檢索表達(dá)式經(jīng)過SFE三層特征匹配命中的文檔都認(rèn)為與原查詢公式形式相關(guān)。

2)如果通過支持度計(jì)算出被檢索段落與查詢詞相關(guān),則認(rèn)為該文檔與查詢詞相關(guān)。

4.1 評價(jià)標(biāo)準(zhǔn)的建立

本文根據(jù)常見檢索系統(tǒng)性能指標(biāo)和評定標(biāo)準(zhǔn),對系統(tǒng)進(jìn)行查全率和查準(zhǔn)率比較,并按照實(shí)際情況規(guī)定擴(kuò)展率。

例如:語料庫M,當(dāng)檢索樣本A時(shí),語料庫中與A相關(guān)的文檔數(shù)為relD;普通的數(shù)學(xué)公式檢索(這里模擬SFE檢索)命中的文檔數(shù)為DSsfe,其中與查詢樣本A確切相關(guān)的文檔數(shù)為DStrue;經(jīng)由本體改進(jìn)后的系統(tǒng)檢索文檔數(shù)為DOontology,其中與查詢樣本A確切相關(guān)的文檔數(shù)為DOtrue。其中,relD、DSsfe和DOtrue均采用人工統(tǒng)計(jì)方法。據(jù)此給出如下評價(jià)指標(biāo)的定義:

定義1查準(zhǔn)率為檢索結(jié)果集內(nèi)判斷正確的文檔數(shù)量與檢索結(jié)果集內(nèi)的文檔總數(shù)的比值。

設(shè)SFE系統(tǒng)的查準(zhǔn)率為:

(13)

設(shè)本文系統(tǒng)的查準(zhǔn)率為:

(14)

定義2查全率為檢索結(jié)果集內(nèi)正確的文檔數(shù)量與檢索結(jié)果集內(nèi)實(shí)際正確的文檔數(shù)量的比值。

設(shè)SFE系統(tǒng)的查全率為:

(15)

設(shè)本文系統(tǒng)的查全率為:

(16)

定義3擴(kuò)展率(Extension ratio,E)為基于本體查詢擴(kuò)展后結(jié)果集內(nèi)增加的正確文檔數(shù)量與擴(kuò)展后結(jié)果集內(nèi)總文檔數(shù)量的比值。

設(shè)系統(tǒng)擴(kuò)展率為E:

(17)

例如:語料庫M,當(dāng)檢索樣本A時(shí)語料庫中確切相關(guān)的文檔總數(shù)為relD=550;模擬SFE檢索后得到文檔總數(shù)DSsfe=2 500,其中,與A語義相關(guān)的有DStrue=200,樣本A在基于本體檢索后得到的文檔總數(shù)DOontology=500,與查詢樣本A確切相關(guān)的文檔數(shù)為DOtrue=450。參考以上評價(jià)標(biāo)準(zhǔn),計(jì)算相應(yīng)參數(shù)如表4所示。

表4 樣本A評價(jià)參數(shù) %

4.2 實(shí)驗(yàn)對比分析

因?yàn)楸疚南到y(tǒng)可以輸入自然語言,在驗(yàn)證自然語言時(shí),基于SFE的查詢,找到自然語言相應(yīng)的標(biāo)準(zhǔn)表達(dá)式再做驗(yàn)證。數(shù)據(jù)集中類似“y=ax2+by+c”的標(biāo)準(zhǔn)樣式表達(dá)式數(shù)量極少,本文選用的樣本盡量簡化為常出現(xiàn)在公式中的局部表達(dá)式、符號或字母。實(shí)驗(yàn)樣本選取如表5所示。

表5 實(shí)驗(yàn)樣本選取

在數(shù)據(jù)集中分別模擬SFE檢索和基于Ontology的數(shù)學(xué)表達(dá)式檢索,對以上選取的樣本返回結(jié)果進(jìn)行數(shù)據(jù)統(tǒng)計(jì)并記錄如表6所示。

表6 實(shí)驗(yàn)數(shù)據(jù)

對上述數(shù)據(jù)計(jì)算得到評價(jià)標(biāo)準(zhǔn)如表7所示。

表7 實(shí)驗(yàn)數(shù)據(jù)評價(jià)值 %

圖4所示為以柱狀圖形式,分析4個(gè)樣本經(jīng)過改進(jìn)后檢索系統(tǒng)中擴(kuò)展率在檢索結(jié)果集上的分布情況。為進(jìn)行直觀有效對比,在展示擴(kuò)展率E的同時(shí),統(tǒng)計(jì)改進(jìn)前檢索正確的相關(guān)文檔占改進(jìn)后檢索的總文檔的百分比,記為保持率,和改進(jìn)后檢索的錯誤文檔占總文檔的百分比,記為錯誤率。其中,橫坐標(biāo)為樣本編號,縱坐標(biāo)為以上3類在結(jié)果文檔中所占比例。4個(gè)樣本的檢索結(jié)果如表8所示。

圖4 基于Ontology的數(shù)學(xué)表達(dá)式檢索結(jié)果分布

從表7可以看出,改進(jìn)后的系統(tǒng)無論從查全率還是查準(zhǔn)率均比原系統(tǒng)有所提高,尤其是查全率接近百分百。影響查全率RO的因素在于,文檔中有一部分與待檢索查詢詞確實(shí)有關(guān)聯(lián),但只出現(xiàn)查詢詞或相關(guān)查詢詞并未出現(xiàn)對應(yīng)表達(dá)式,在初次檢索中已經(jīng)被錯誤地過濾掉,屬于該系統(tǒng)中的不可控因素。

從圖4可以看出,每個(gè)樣本在有一定保持率的前提下,均有不同程度的擴(kuò)展,說明經(jīng)過本體查詢擴(kuò)展后擴(kuò)大了原系統(tǒng)的查詢范圍,使得最終檢索結(jié)果中與初始查詢詞語義相關(guān)的文檔增多,進(jìn)而顯示出本體查詢擴(kuò)展的必要性。圖4錯誤率占比較少,表明改進(jìn)后的系統(tǒng)并不單純地匹配表達(dá)式形式,對可能涉及多種學(xué)科多種領(lǐng)域的返回文檔使用本體進(jìn)行語義限定:將初次檢索文檔中表達(dá)式形式相同但表示其他學(xué)科語義的文檔剔除,或者將表達(dá)式相同也在數(shù)學(xué)領(lǐng)域但表示不同概念的文檔加以區(qū)分,使得最終結(jié)果語義關(guān)聯(lián)性大、正確率高。

5 結(jié)束語

本文提出一種基于Ontology擴(kuò)展查詢數(shù)學(xué)表達(dá)式的檢索方法。依據(jù)本體在查詢擴(kuò)展中的優(yōu)勢同時(shí)對查詢詞進(jìn)行不同程度的詞匯和表達(dá)式擴(kuò)展,在檢索階段達(dá)到輸入自然語言或LaTeX格式表達(dá)式匹配不同的檢索策略,從而實(shí)現(xiàn)與初始查詢詞語義相關(guān)的表達(dá)式所在文獻(xiàn)的輸出。實(shí)驗(yàn)結(jié)果表明,基于本體改進(jìn)的數(shù)學(xué)表達(dá)式檢索效率比基于SFE的檢索系統(tǒng)在語義檢索方面更優(yōu),在查全率、查準(zhǔn)率上均有提升,一定程度上擴(kuò)大了查詢范圍,在語義上限設(shè)定了檢索范圍,使得檢索語義明確且集中,更傾向于了解用戶檢索意圖,提升用戶檢索體驗(yàn)。下一步將增加與完善數(shù)學(xué)表達(dá)式中本體之間的關(guān)系構(gòu)建,并對最終輸出結(jié)果集進(jìn)行相關(guān)性排序。

[1] MILLER B R,YOUSSEF A.Technical aspects of the digital library of mathematical functions[J].Annals of Mathematics and Artificial Intelligence,2003,38(1-3):121-136.

[2] MathDex search tool [EB/OL].[2017-04-13].http://www.mathdex.com/8080/mathfind/search.

[3] Math Web search [EB/OL].[2017-04-13].http://kware.eees.iu-bremen.de/.

[4] LIBBRECHT P,MELIS E.Semantic search in leactivemath[C]//Proceedings of the 1st WebALT Conference.Eindhoven,Holland:[s.n.],2006:97-109.

[5] MISUTKA J,GALAMBOS L.Mathematical extension of full text search engine indexer[C]//Proceedings of the 3rd International Conference on Information and Communication Technologies:From Theory to Applications.Damascus,Syria:[s.n.],2008:1-6.

[6] HU X,GAO L,LIN X,et al.WikiMirs:a mathematical information retrieval system for wikipedia[C]//Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital Libraries.New York,USA:ACM Press,2013:11-20.

[7] SOJKA P,LISKA M.Indexing and searching mathematics in digital libraries[C]//Proceedings of Conference on Intelligent Computer Mathematics.Berlin,Germany:Springer,2011:228-243.

[8] 李彬.基于SFE的LaTeX表達(dá)式檢索系統(tǒng)[D].保定:河北大學(xué),2017.

[9] PINTO J M G,BARTHEL S,BALKE W T.QUALIBETA at the NTCIR-11 math 2 task:an attempt to query math collections[C]//Proceedings of the 11th NTCIR Conference.Tokyo,Japan:[s.n.],2014:103-107.

[10] NTCIRmath 2 wikipedia task[EB/OL].[2017-01-27].http://ntcir11-wmc.nii.ac.jp/index.php/NTCIR-11.

[11] DRAGONI M,PEREIRA C D C,TETTAMANZI A G B.A conceptual representation of documents and queries for information retrieval systems by using light ontologies[J].Expert Systems with Applications,2012,39(12):10376-10388.

[12] KARA S,ALAN O,SABUNCU O,et al.An ontology-based retrieval system using semantic indexing[J].Information Systems,2012,37(4):294-305.

[13] 孟紅偉,張志平,張曉丹.基于領(lǐng)域本體的文獻(xiàn)智能檢索模型研究[J].情報(bào)雜志,2013,32(9):180-184.

[14] 張勝.一種基于領(lǐng)域本體的語義檢索模型[J].軟件導(dǎo)刊,2014,13(3):18-20.

[15] REMI S,VARGHESE S C.Domain ontology driven fuzzy semantic information retrieval[J].Procedia Computer Science,2015,46(2):676-681.

[16] 王旭陽,尉醒醒.基于本體和局部共現(xiàn)的查詢擴(kuò)展方法[J].計(jì)算機(jī)科學(xué),2017,44(1):214-218.

[17] RUY E B,GUIZZARDI G,FALBO R A,et al.From reference ontologies to ontology patterns and back[J].Data and Knowledge Engineering,2017,109 :41-69

[18] 鄧志鴻.Ontology 研究綜述[J].北京大學(xué)學(xué)報(bào),2002,38(5):730-737.

[19] GRUBER T R.A translation approach to portable ontology specifications[C]//Proceedings of Japanese Knowledge Acquisition for Knowledge-based Systems Workshop.Tokyo,Japan:[s.n.],1992:89-108.

[20] NAVIGLI R,VELARDI P.Learning domain ontologies from document warehouses and dedicated websites[J].Computational Linguistics,2004,30(2):151-179.

[21] DRUMOND L,GIRARDI R.A Survey of ontology learning procedures[C]//Proceedings of IEEE Workshop on Ontologies & Their Applications.Washington D.C.,USA:IEEE Press,2008:427.

[22] ANNAMALAI M,STERLING L.Dealing with mathematical relations in web-ontologies[C]//Proceedings of IEEE OAS’03.Washington D.C.,USA:IEEE Press,2003:1-8.

[23] 王小龍.基于本體的數(shù)學(xué)表達(dá)式檢索技術(shù)研究[D].重慶:重慶大學(xué),2014.

[24] GRUBER T R.A translation approach to portable onto-logies[J].Knowledge Acquisition,1993,5(2):199-220.

[25] 《數(shù)學(xué)辭?！肪庉嬑瘑T會.數(shù)學(xué)辭海(第一卷)[M].太原:山西教育出版社,2002.

[26] PEREZ A G,BENJAMINS V R.Overview of knowledge sharing and reuse components:ontologies and problem-solving methods[C]//Proceedings of Workshop on Ontologies and Problem-Solving Methods.Washington D.C.,USA:IEEE Press,1999:1-15.