周 晶 孫喜民 羅 鵬
(國網(wǎng)電子商務(wù)有限公司 北京 100039)
在傳統(tǒng)模式下,搜索引擎都是根據(jù)頁面相互間的鏈接關(guān)系進行頁面分析,但不能表示頁面包含的信息內(nèi)容,因此無法對其中的頁面信息進行提取與處理[1~3]。對信息的檢索過程也是通過關(guān)鍵詞分解與匹配來完成,不能深入理解與處理知識。由于互聯(lián)網(wǎng)已從原先只包含網(wǎng)頁超鏈接的簡單文檔萬維網(wǎng)轉(zhuǎn)變到了目前含有大量實體關(guān)系的數(shù)據(jù)萬維網(wǎng),從而使當(dāng)前的互聯(lián)網(wǎng)搜索引擎無法完全滿足查準(zhǔn)率、查全率與智能化的要求[4~8]。
智能信息的搜索需以知識理解與邏輯推理作為判斷依據(jù),在此基礎(chǔ)上對各項檢索內(nèi)容與信息對象進行搜索分析[9]。相對于傳統(tǒng)搜索模式,智能信息的搜索可以對搜索過程與相關(guān)結(jié)果實施智能化處理,并且廣泛使用知識圖譜與語義網(wǎng)等,可以更加準(zhǔn)確、全面地表達出不同信息對象間的語義關(guān)系,從而準(zhǔn)確理解用戶發(fā)送的信息檢索要求極其需要表達的信息對象含義,這就為搜索引擎創(chuàng)造了語意理解的功能并使其具備一定的推理能力[10~11]。
知識圖譜最早是Google創(chuàng)造的一項互聯(lián)網(wǎng)應(yīng)用技術(shù),可以進一步優(yōu)化初始搜索結(jié)果,更加精確描述實體概念與屬性,并使實體與概念間建立其更加明確的關(guān)系。從本質(zhì)層面上分析,可以將知識圖譜視為一個語義網(wǎng)絡(luò),是對不同知識集合的關(guān)聯(lián),是通過連接多種信息對象而構(gòu)成的一個關(guān)系網(wǎng),可以采用結(jié)構(gòu)化語義來描述真實世界,具備從關(guān)系角度對問題進行分析的能力[12~15]??梢岳弥R圖譜來分析與信息搜索相關(guān)的復(fù)雜關(guān)系,并從語義層上理解用戶的真實意圖,從而有效提升搜索的效率。
通過設(shè)置合理的知識層次與知識概念映射方法,構(gòu)建得到關(guān)于頂層知識本體與領(lǐng)域知識本體的架構(gòu)。以本體分析工具為基礎(chǔ),集成地球環(huán)境知識本體(SWEET)、上層知識通用本體庫(SUMO)等,根據(jù)地理信息標(biāo)準(zhǔn)規(guī)范知識構(gòu)建得到時空方面的頂層知識本體,由此得到圖1所示的地理信息知識本體圖譜架構(gòu)。
圖1 面向地理環(huán)境應(yīng)用領(lǐng)域的知識圖譜框架圖
選擇關(guān)于地理環(huán)境知識的圖譜架構(gòu)作為分析依據(jù),利用分詞、搜索引擎Lucene、語義框架Jena多種工具,建立多結(jié)構(gòu)信息資源的語義標(biāo)注、注冊與索引。
以定制化方式對應(yīng)用領(lǐng)域的各項數(shù)據(jù)信息進行搜集,之后采用半自動方法標(biāo)注數(shù)據(jù)資源的信息,再自動索引數(shù)據(jù)資源的內(nèi)容,得到關(guān)于資源描述框架(RDF)的語義信息。
RDF都是使用開放的三元組結(jié)構(gòu),可以實現(xiàn)靈活擴展,并不太適合用于傳統(tǒng)關(guān)系存儲模型,此外還需能夠支持數(shù)據(jù)檢索與分析方面的功能。根據(jù)以上分析,我們通過列數(shù)據(jù)庫分布式與擴展模型并引入列數(shù)據(jù)庫擴展方法構(gòu)建得到了語義信息的動態(tài)存儲方法,可以采用分布式方法來管理所有數(shù)據(jù)資源,也可以實現(xiàn)語義信息的高效檢索過程。
語義相似程度指的是不同概念詞間的相互關(guān)聯(lián)性,通??梢愿鶕?jù)語義距離與語義相關(guān)性來評價語義相似度。計算語義相似度時可以選擇的模型包括基于距離、內(nèi)容或?qū)傩缘恼Z義相似度模型,得到的計算結(jié)果準(zhǔn)確度也存在較大區(qū)別,主要取決于概念與知識的組織方式與準(zhǔn)確性。利用知識圖譜構(gòu)建得到關(guān)于概念實例的映射關(guān)系以及跨域語義相似度分析模型,以此實現(xiàn)對智能信息的搜索分析。
在建立語義相似度分析模型的時候,需假定下述幾項條件并確定計算方法。首先,知識圖譜下層結(jié)構(gòu)中的各項概念應(yīng)比上層結(jié)構(gòu)的概念更加詳細與明確,并且概念差異性表現(xiàn)為深度增大而不斷變小的情況,二元關(guān)系具有比繼承關(guān)系更遠的語義距離。
上式中的 dep(C1)和 dep(C2)對應(yīng)各個不同節(jié)點位于知識圖譜中的層次。
其次,為知識圖譜各部位設(shè)置不同的節(jié)點稠密度,當(dāng)細分得到的子節(jié)點數(shù)量增加后,子節(jié)點間語義距離將逐漸減小,同時相似度上升,否則各子節(jié)點的抽象性越高,相似性也越低。之后,定義節(jié)點。L以及與該節(jié)點存在繼承關(guān)系或二元關(guān)系的連接節(jié)點c。所具有的密度權(quán)重,表示知識圖譜包含此類連接。
圖2 地理環(huán)境應(yīng)用知識圖譜的形態(tài)與關(guān)系
各節(jié)點比如下:
通過結(jié)合應(yīng)用信息量分析方法與知識圖譜計算方法,使動態(tài)概率估計與固定知識結(jié)構(gòu)相互結(jié)合,從而對不同概念的相似性進行客觀表達。知識圖譜所包含的概念詞匯信息取決于該詞在文獻集里的出現(xiàn)頻率。根據(jù)D.Lin提出的信息量度量方法可以發(fā)現(xiàn),兩個概念詞的相似度取決于兩者具有共同含義的信息量和總信息量相比所得的結(jié)果。知識圖譜里的.與c,共同含義指的兩者間的共享父節(jié)點cn,如下所示:
示該文檔所包含的詞匯總數(shù),words(c)代表概念。同義詞與入口詞構(gòu)成的集合,同時還應(yīng)專門指出,概念出現(xiàn)于文獻集中的概率還要加上文獻中這一概念子類的出現(xiàn)概率。由此可以得到:
根據(jù)知識圖譜對語義與搜索對象的信息相似度分析方法,除了需要考慮知識圖譜的屬性、層次位置、定義密度各項信息以外,同時還要結(jié)合數(shù)據(jù)集的自身特征,對實際客觀原貌進行模擬分析,采用并行訓(xùn)一算架構(gòu)可以完成分解任務(wù)的過程,促進訓(xùn)一算效率的顯著提升。
從“國家地理網(wǎng)”與“中國臺灣網(wǎng)”等多個網(wǎng)站上分別收集了約1000篇關(guān)于地理信息的文檔進行測試,同時保留未做標(biāo)記的文本資料,其中每篇文檔含有的字數(shù)平均為2000左右,通過分詞處理后得到約1600個,根據(jù)給出的智能信息搜索方法,分別從查準(zhǔn)率與查全率兩個方面比較了信息搜索準(zhǔn)確率的情況,具體見圖3。
采用普通智能搜索方法,關(guān)于B的概念可以擴展查詢到包括上位概念與子概念的所有文檔,并且在上位概念文檔中還可以發(fā)現(xiàn)存在和B沒有關(guān)聯(lián)性的文檔,查詢到兄弟節(jié)點F與G對應(yīng)的各個文檔,將會引起搜索漂移的現(xiàn)象,由此導(dǎo)致查準(zhǔn)率下降的現(xiàn)象。選擇圖3的信息內(nèi)容作為研究例子,可以看到查詢結(jié)果產(chǎn)生了B,通過檢索得到文檔概念集合是{B,C,D,E,A,F(xiàn),G},之后計算出查準(zhǔn)率是(100^5)/(10^6+30)=56%,查全率是(100^5)/(10^6)=83%。
采用的智能搜索模型是在添加用戶反饋的條件下,將查詢信息輸入后再進行語義分析,使領(lǐng)域關(guān)鍵字B被映射至本體概念,再擴展查詢所得結(jié)果,因為子節(jié)點屬于父節(jié)點概念細化的結(jié)果,所以可以進行準(zhǔn)確的子節(jié)點擴展查詢。以父節(jié)點實施擴展時,得到的文檔中有部分和B兄弟節(jié)點存在關(guān)系,所以可以采用擴展算法的兄弟概念和文檔建立匹配關(guān)系,并從返回結(jié)果數(shù)據(jù)中剔除關(guān)于F與G的條口;之后再擴展得到B的緊密屬性,根據(jù)索引策略可知匹配得到的文檔中沒有形成B,但形成了關(guān)于B的密切文檔,所以可能和B存在較大的關(guān)聯(lián)。結(jié)合圖3給出的信息可以發(fā)現(xiàn),查詢結(jié)果中存在B,未將其添加到新型智能搜索引擎中時,可以檢索得到如下的文檔概念集合{B,C,D,E,A},由此得到查準(zhǔn)率是600/(400+100+200)=86%,查全率是600/600=100%。因此,分別選擇原型智能搜索系統(tǒng)和Lu-Gene全文檢索系統(tǒng)實施測試,得到圖4所示的實驗測試結(jié)果。
圖3 信息搜索準(zhǔn)確率提升對比示意圖
用戶在開展實際應(yīng)用的過程中所關(guān)注的內(nèi)容通常表現(xiàn)出明顯的相似性,因此智能搜索系統(tǒng)可以根據(jù)這些用戶提供的反饋信息對各項需求內(nèi)容進行記錄與分析,也可以進行多次反饋迭代,使系統(tǒng)搜索查準(zhǔn)率獲得顯著提升。
圖4 搜索準(zhǔn)確率對比圖
1)通過設(shè)置合理的知識層次與知識概念映射方法,構(gòu)建得到關(guān)于頂層知識本體與領(lǐng)域知識本體的架構(gòu)。并結(jié)合應(yīng)用信息量分析方法與知識圖譜計算方法,使動態(tài)概率估計與固定知識結(jié)構(gòu)相互結(jié)合,對不同概念的相似性進行客觀表達。
2)從“國家地理網(wǎng)”與“中國臺灣網(wǎng)”等多個網(wǎng)站上分別收集了約1000篇關(guān)于地理信息的文檔進行測試,得到查詢結(jié)果中存在B,得到查準(zhǔn)率86%,查全率100%。用戶在開展實際應(yīng)用的過程中所關(guān)注的內(nèi)容通常表現(xiàn)出明顯的相似性,可以進行多次反饋迭代,使系統(tǒng)搜索查準(zhǔn)率獲得顯著提升。