王坤,謝振平,陳梅婕
(1. 江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122; 2. 江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫214122)
知識圖譜的概念由谷歌于2012年提出[1],是一種具有圖結(jié)構(gòu)的知識庫,其中的圖節(jié)點(diǎn)代表知識實(shí)體,邊代表實(shí)體間的各種語義關(guān)系。知識圖譜能夠很方便地用來表達(dá)和存儲(chǔ)自然語言信息,它在機(jī)器翻譯[2]、問答系統(tǒng)[3]和自然語言理解[4]等領(lǐng)域已有了廣泛的應(yīng)用。
大規(guī)模知識圖譜在具體應(yīng)用時(shí),由于原始知識圖譜規(guī)??赡茌^大,且其中存在大量冗余或未驗(yàn)證的信息[5],這將嚴(yán)重影響知識查詢的效率和準(zhǔn)確性。因而在構(gòu)建大規(guī)模知識圖譜時(shí),往往需要對原始知識庫進(jìn)行約簡、去噪,以提高模型表示效率,這一過程也與人腦對知識的聯(lián)想記憶過程有相似性。
對于大規(guī)模知識圖譜的建模,無論是基于人工規(guī)則的方法[6],還是目前比較流行的與機(jī)器學(xué)習(xí)[7]或深度學(xué)習(xí)[8]相結(jié)合的方法,都主要是從如何構(gòu)建組成知識圖譜的基本單元(通常為三元組的形式),然后利用基本單元之間的聯(lián)系,構(gòu)建成完整的知識圖譜這個(gè)角度來考慮。由于知識圖譜是一個(gè)圖結(jié)構(gòu),如果把它看作一個(gè)復(fù)雜網(wǎng)絡(luò)[9]的話,就可以從網(wǎng)絡(luò)結(jié)構(gòu)的角度利用復(fù)雜網(wǎng)絡(luò)的相關(guān)方法來進(jìn)行知識圖譜的建模。
通常而言,知識圖譜的構(gòu)建過程包括以下幾個(gè)模塊:信息抽取、知識表示、知識融合、知識推理[10-15]。其中最主要的部分就是信息抽取部分,也是知識建模的關(guān)鍵步驟;對于知識表示,通常采用“實(shí)體-關(guān)系-實(shí)體”三元組的形式,具體地,本文主要考慮對知識間的聯(lián)想關(guān)系進(jìn)行抽取構(gòu)建。
關(guān)系抽取的主要任務(wù)是從相關(guān)語料中抽取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過這種關(guān)系將實(shí)體聯(lián)系起來,最終形成網(wǎng)狀的知識結(jié)構(gòu)。早期的關(guān)系抽取方法主要是通過人工構(gòu)建語義規(guī)則和模板來識別實(shí)體之間的關(guān)系。這種方法較多地依賴于人工構(gòu)建規(guī)則,規(guī)則構(gòu)建工作量較大,且需要對不同領(lǐng)域單獨(dú)進(jìn)行。進(jìn)而發(fā)展出了利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,通過對實(shí)體間的關(guān)系模式進(jìn)行建模,以替代預(yù)先定義的語義規(guī)則。進(jìn)一步,研究提出基于特征向量或者核函數(shù)的監(jiān)督機(jī)器學(xué)習(xí)方法,這使得關(guān)系抽取的準(zhǔn)確率得以進(jìn)一步提高。劉克彬等[16]通過知網(wǎng)(How Net)提供的本體信息構(gòu)造語義核函數(shù),在開放數(shù)據(jù)集上對ACE定義的六類實(shí)體關(guān)系進(jìn)行抽取,其準(zhǔn)確率達(dá)到了88%。然而,有監(jiān)督學(xué)習(xí)方法為了確保算法的有效性,需要事先人工標(biāo)注大量的語料作為訓(xùn)練集。因此,半監(jiān)督和無監(jiān)督的學(xué)習(xí)方式開始成為新的研究重點(diǎn)。Carlson等[17]提出了一種基于Bootstrap算法的半監(jiān)督學(xué)習(xí)方法,能夠自動(dòng)進(jìn)行識別實(shí)體關(guān)系模式并對實(shí)體關(guān)系進(jìn)行建模。Zhang等[18]采用基于實(shí)例的無監(jiān)督學(xué)習(xí)方法,在公開語料庫上獲得了較好的實(shí)驗(yàn)結(jié)果,能夠?qū)?shí)體間的多種關(guān)系進(jìn)行精準(zhǔn)識別。
基于規(guī)則、監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)的方法的共同特點(diǎn)是需要預(yù)先定義實(shí)體關(guān)系類型,如整體部分關(guān)系以及位置關(guān)系等。Banko等[19]提出了面向開放域的抽取框架(open information extraction, OIE),并發(fā)布了基于自監(jiān)督(self-supervised)學(xué)習(xí)方式的開放信息抽取原型系統(tǒng)(text runner),該系統(tǒng)使用少量的人工標(biāo)記數(shù)據(jù)作為訓(xùn)練集,得到一個(gè)實(shí)體關(guān)系分類模型,然后根據(jù)該模型再對開放數(shù)據(jù)進(jìn)行分類,依據(jù)分類結(jié)果訓(xùn)練樸素貝葉斯模型來識別“實(shí)體-關(guān)系-實(shí)體”三元組。該系統(tǒng)經(jīng)過了大規(guī)模的真實(shí)數(shù)據(jù)測試,與同時(shí)期的其他方法相比效果更佳。謝振平等[20]基于表示學(xué)習(xí)技術(shù)[21]提出了利用詞向量的方法來構(gòu)建本體關(guān)系,主要通過Google開源的word2vec詞向量工具,將文本語料訓(xùn)練成向量的形式,通過判斷不同實(shí)體向量間的距離,來確定兩個(gè)實(shí)體之間能否構(gòu)成一個(gè)關(guān)系對,在個(gè)性化知識推薦問題上取得了非常有價(jià)值的性能結(jié)果。
本文從知識的聯(lián)想記憶視角來進(jìn)行知識網(wǎng)絡(luò)(知識圖譜)建模,并考慮從網(wǎng)絡(luò)結(jié)構(gòu)的角度對知識網(wǎng)絡(luò)進(jìn)行約簡,提出知識聯(lián)想關(guān)系網(wǎng)絡(luò)的圖約簡建模思路。該思路一方面能夠提高知識建模的效率,另一方面將人腦的聯(lián)想記憶過程用于知識建模,為知識建模的方法提供了一種可參考的新途徑。
主要考慮從知識間的聯(lián)想記憶這個(gè)角度出發(fā),結(jié)合圖約簡方法,提出一種新的知識網(wǎng)絡(luò)建模表示方法即聯(lián)想關(guān)系模型。通過定義給定語料中的知識聯(lián)想強(qiáng)度來確定知識間的關(guān)系,以探索發(fā)展模擬人腦聯(lián)想記憶過程的知識圖譜構(gòu)建新策略。
聯(lián)想記憶[22]是人腦計(jì)算的一個(gè)核心功能,而從基礎(chǔ)層次上來看,人腦學(xué)習(xí)是一個(gè)關(guān)于形成、刪除和改變信息間關(guān)聯(lián)的過程即聯(lián)想記憶的過程[23]。對于一個(gè)文檔集合,如果把每個(gè)文檔中的每個(gè)句子看作是一條聯(lián)想關(guān)系,句子中的每個(gè)實(shí)體看作一個(gè)神經(jīng)元的話,就可以把構(gòu)建知識網(wǎng)絡(luò)的過程看作是人腦經(jīng)過學(xué)習(xí)建立知識系統(tǒng)的過程。而對知識網(wǎng)絡(luò)約簡的過程,則可以看作是大腦重整知識聯(lián)想記憶的過程。
其中主要考慮兩個(gè)問題:1)如何從已有的文檔語料集中抽象出一個(gè)初步的知識網(wǎng)絡(luò);2)對于已構(gòu)建好的知識網(wǎng)絡(luò),如何模擬人腦學(xué)習(xí)過程,去除其中冗余的、關(guān)聯(lián)性比較低的關(guān)系對,即如何對網(wǎng)絡(luò)進(jìn)行約簡。本文利用文檔中不同實(shí)體在同一個(gè)句子的共現(xiàn)關(guān)系構(gòu)建初始的知識網(wǎng)絡(luò);采用不同的圖約簡算法模擬人腦聯(lián)想重整過程。
依據(jù)前述分析,設(shè)計(jì)給出如圖1所示的建??蚣?。其主要由兩部分構(gòu)成:直接記憶模塊和聯(lián)想約簡模塊。直接記憶模塊的主要功能是對文本語料進(jìn)行一系列處理后,形成一個(gè)直接記憶的知識網(wǎng)絡(luò)結(jié)構(gòu),主要包括知識術(shù)語識別和抽取、構(gòu)建共現(xiàn)知識網(wǎng)絡(luò)、計(jì)算原始聯(lián)想關(guān)系強(qiáng)度這幾個(gè)步驟。聯(lián)想約簡模塊的主要功能是根據(jù)對初始的直接聯(lián)想關(guān)系網(wǎng)絡(luò)進(jìn)行關(guān)系約簡,盡可能地去除冗余的和聯(lián)想度不高的關(guān)系對,優(yōu)化知識網(wǎng)絡(luò)的聯(lián)想記憶效率。
圖 1 知識聯(lián)想關(guān)系網(wǎng)絡(luò)建??蚣蹻ig. 1 Knowledge association relationship network modeling framework
構(gòu)建初始的知識網(wǎng)絡(luò)主要包含3個(gè)步驟:1)通過術(shù)語識別抽取技術(shù)將文本中的知識術(shù)語識別抽取出來;2)通過分析文本的句子中知識術(shù)語的共現(xiàn)關(guān)系來建立共現(xiàn)知識網(wǎng)絡(luò);3)對于得到的知識網(wǎng)絡(luò),通過聯(lián)想記憶的策略定義每個(gè)實(shí)體關(guān)系對的權(quán)重。
1.2.1 知識術(shù)語抽取
知識術(shù)語的識別和抽取的主要任務(wù)是從特定領(lǐng)域的文本語料中獲取完整獨(dú)立的名詞性知識術(shù)語,每一個(gè)知識術(shù)語對應(yīng)知識網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)。知識術(shù)語的識別和抽取具體流程如圖2所示:首先獲取一定量的文本語料,然后通過去除亂碼、去除停用詞等操作進(jìn)行語料預(yù)處理,將預(yù)處理的字符串進(jìn)行分詞,并把分詞后的關(guān)鍵詞進(jìn)行詞性標(biāo)注,然后選取出名詞性術(shù)語。其中,在去除停用詞和分詞的過程中,可以通過自定義停用詞表和自定義用戶詞典來改善整個(gè)流程,從而獲取更加合理的知識術(shù)語。
圖 2 術(shù)語抽取流程Fig. 2 The process of term extraction
1.2.2 關(guān)系對生成
對于獲得的知識術(shù)語,通過判斷任意兩個(gè)術(shù)語是否出現(xiàn)在同一句子中,來決定它們能否構(gòu)成一個(gè)關(guān)系對,并且認(rèn)為在同一句話中,后出現(xiàn)的術(shù)語由前一術(shù)語聯(lián)想產(chǎn)生。圖3給出了一個(gè)共現(xiàn)知識網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)圖的局部示例。
圖 3 共現(xiàn)知識網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)圖局部示例Fig. 3 Partial example of co-occurrence knowledge network relationship structure diagram
圖3 中,含有標(biāo)簽的節(jié)點(diǎn)表示知識節(jié)點(diǎn),有向邊表示直接聯(lián)想關(guān)系。上述方法構(gòu)建的知識網(wǎng)絡(luò)關(guān)系將具有以下特征:
1.2.3 關(guān)系權(quán)重計(jì)算
借鑒聯(lián)想記憶增強(qiáng)思想,考慮網(wǎng)絡(luò)中不同知識間的關(guān)系強(qiáng)度主要與它們的共現(xiàn)次數(shù)和共現(xiàn)強(qiáng)度有關(guān)。為此,引入了聯(lián)想強(qiáng)度作為知識網(wǎng)絡(luò)的關(guān)系權(quán)重。
定義1初始知識網(wǎng)絡(luò)構(gòu)建中,任意兩個(gè)知識節(jié)點(diǎn)間的直接記憶聯(lián)想強(qiáng)度定義為
為提高知識網(wǎng)絡(luò)的表示效率和強(qiáng)壯性,對其進(jìn)行關(guān)系約簡是一種可行的方法。目前對于知識網(wǎng)絡(luò)關(guān)系約簡的研究還較少,一些相關(guān)度較高的研究有,劉冰瑤等[24]提出了一種“特征降維”文本復(fù)雜網(wǎng)絡(luò)的話題表示模型,通過構(gòu)建多個(gè)級別的特征詞條來實(shí)現(xiàn)知識網(wǎng)絡(luò)的降維。Subbian等[25]利用社交網(wǎng)絡(luò)中信息傳播原理,并基于貪心策略尋找與信息流最為密切相關(guān)的實(shí)體,為知識網(wǎng)絡(luò)的關(guān)系約簡提供了一種可參考的思路。Rosenberg[26]提出了一種最大信息熵最小覆蓋的模型,并定義了一種新的信息維度計(jì)算方法,提高了計(jì)算信息維度的效率。
文中針對知識聯(lián)想關(guān)系網(wǎng)絡(luò)的生成特點(diǎn),提出了3種不同的約簡方法進(jìn)行實(shí)驗(yàn)分析:
1)全局聯(lián)想最大記憶保留約簡方法,即對于知識網(wǎng)絡(luò)中的所有關(guān)系對,根據(jù)聯(lián)想強(qiáng)度進(jìn)行降序排序,并且設(shè)置一個(gè)閾值α,然后約簡去除掉權(quán)重小于α的所有關(guān)系對。
2)局部聯(lián)想最大記憶保留法,即對于知識網(wǎng)絡(luò)中每一個(gè)知識節(jié)點(diǎn),將它的所有直接聯(lián)想知識根據(jù)聯(lián)想強(qiáng)度進(jìn)行降序排序,并對設(shè)置一個(gè)閾值,然后從的直接聯(lián)想知識中約簡掉權(quán)重小于的所有關(guān)系對。
3)隨機(jī)約簡方法,即隨機(jī)地從知識網(wǎng)絡(luò)中選擇部分關(guān)系對進(jìn)行約簡去除。
由于人腦聯(lián)想記憶的過程是非常復(fù)雜的,所以在定義了聯(lián)想強(qiáng)度的基礎(chǔ)上提出這3種約簡方法,來嘗試從相對簡單的角度來模擬人腦的知識聯(lián)想記憶重整的過程,并且根據(jù)文獻(xiàn)[23]可知,從網(wǎng)絡(luò)模型的角度來解釋神經(jīng)系統(tǒng)的話,關(guān)系強(qiáng)度高的節(jié)點(diǎn)對構(gòu)成的邊更加穩(wěn)固,即知識之間的關(guān)聯(lián)性更強(qiáng),相對的相關(guān)知識更不容易被遺忘。而這3種約簡方法在不同程度上符合神經(jīng)系統(tǒng)的這種特點(diǎn),其中全局聯(lián)想最大記憶保留約簡方法相比其他兩種方法更加符合這一特點(diǎn),局部聯(lián)想最大記憶保留法次之,而隨機(jī)約簡方法在三者之中最不能體現(xiàn)人腦神經(jīng)系統(tǒng)的這種特點(diǎn)?;谏鲜隼碚撚^點(diǎn)和后文的實(shí)驗(yàn)分析,我們來嘗試模擬大腦的聯(lián)想記憶過程。
類比于神經(jīng)元計(jì)算功能,考慮每個(gè)知識節(jié)點(diǎn)在聯(lián)想計(jì)算過程中的對等性,可進(jìn)一步對節(jié)點(diǎn)間聯(lián)想關(guān)系強(qiáng)度進(jìn)行如下方式的歸一化重整:
對于約簡后的知識網(wǎng)絡(luò),網(wǎng)絡(luò)中的某個(gè)節(jié)點(diǎn)A到其他任意一個(gè)節(jié)點(diǎn)B的一條最短路徑則被稱為節(jié)點(diǎn)A到節(jié)點(diǎn)B的聯(lián)想路徑,從節(jié)點(diǎn)A開始,每連接一個(gè)節(jié)點(diǎn)則增加一次跳轉(zhuǎn)數(shù),本文中設(shè)置的聯(lián)想路徑的最大跳轉(zhuǎn)數(shù)為7,如果聯(lián)想路徑的跳轉(zhuǎn)數(shù)大于7的話,則認(rèn)為A與B之間是不可達(dá)的。
研究中為更好地分析,選擇了兩個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)對象。第1個(gè)數(shù)據(jù)集是利用爬蟲技術(shù)從“美食百科[28]”和“食品百科[29]”上抓取的“健康知識”、“膳食營養(yǎng)”、“飲食誤區(qū)”等主題的6 242篇飲食相關(guān)科普文章作為語料素材,下文中簡稱數(shù)據(jù)集Ⅰ。第2個(gè)數(shù)據(jù)集是由搜狗實(shí)驗(yàn)室[30]提供的標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包括1 953個(gè)關(guān)于體育類的新聞網(wǎng)頁,所有的新聞網(wǎng)頁來自于搜狐體育[31],下文中簡稱為數(shù)據(jù)集Ⅱ。
依據(jù)1.2節(jié)所述方法,表1與表2分別給出了部分健康飲食知識術(shù)語間的聯(lián)想強(qiáng)度值和部分體育知識術(shù)語間的聯(lián)想強(qiáng)度值。
表 1 部分健康飲食知識術(shù)語間的聯(lián)想強(qiáng)度Table 1 Association strength between some healthy eating knowledge terms
表 2 部分體育知識術(shù)語間的聯(lián)想強(qiáng)度Table 2 Association strength between some sports knowledge terms
由表中分析可以發(fā)現(xiàn),“雞蛋”與“西紅柿”“牛奶”的聯(lián)想強(qiáng)度明顯大于與“槐樹”“紙巾”的聯(lián)想強(qiáng)度,以及“足球”與“聯(lián)賽”“世界杯”的聯(lián)想強(qiáng)度明顯大于與“國旗”“火箭”的聯(lián)想強(qiáng)度,從聯(lián)想記憶的角度來看,由“雞蛋”這個(gè)知識更容易聯(lián)想到“西紅柿”和“牛奶”這兩個(gè)知識,而不容易聯(lián)想到“茴香”和“紙巾”這兩個(gè)知識;同樣的,由“足球”這個(gè)知識更容易聯(lián)想到“聯(lián)賽”和“世界杯”這兩個(gè)知識,而不容易聯(lián)想到“國旗”和“火箭”這兩個(gè)知識。這一結(jié)果符合認(rèn)知,即符合大腦的聯(lián)想記憶的結(jié)果,這表明聯(lián)想強(qiáng)度定義的方式有一定的合理性。
進(jìn)一步,擬將構(gòu)建的初始知識網(wǎng)絡(luò)進(jìn)行不同方法的約簡,并對比分析它們的性能特征。
傳統(tǒng)的知識圖譜的構(gòu)建方法主要是從如何構(gòu)建組成知識圖譜的基本單元(通常為三元組的形式)這個(gè)角度來考慮的,而對于評價(jià)指標(biāo),基于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的方法主要采用F值作為評價(jià)指標(biāo),而無監(jiān)督的學(xué)習(xí)方法并沒有統(tǒng)一的評價(jià)指標(biāo)[27]。此外,現(xiàn)有的一些與圖約簡相關(guān)度較高的研究也往往是根據(jù)具體的應(yīng)用場景來采用不同的評價(jià)指標(biāo),如NMI(歸一化互信息)[32]。因此,單純的基于知識圖譜的評價(jià)指標(biāo)和基于圖約簡的評價(jià)指標(biāo)并不能較好地評估我們的模型方法。
考慮到知識聯(lián)想關(guān)系網(wǎng)絡(luò)的目標(biāo)場景是最優(yōu)地聯(lián)想解釋給定的語料庫,則聯(lián)想關(guān)系約簡的性能指標(biāo)可通過約簡前后的聯(lián)想分析代價(jià)值來進(jìn)行評估。聯(lián)想分析代價(jià)值表示在一段知識序列中,所有相鄰的兩個(gè)知識產(chǎn)生聯(lián)想關(guān)系需要的代價(jià)值之和,在聯(lián)想相同個(gè)數(shù)的知識的前提下,聯(lián)想分析代價(jià)值越低,聯(lián)想的效率越高,即對應(yīng)建模的效率越高。為此,首先引入定義2。
定義2設(shè)某一觀測語料中一段文本的知識詞序列為SQ =,其聯(lián)想分析代價(jià)值定義為
否則,定義
分析知識序列的聯(lián)想分析代價(jià)值的定義可知,約簡后的關(guān)系網(wǎng)絡(luò)雖然節(jié)點(diǎn)間的連通度會(huì)降低,但對于特定的觀測語料,其聯(lián)想分析代價(jià)值并不一定會(huì)增大。也即在網(wǎng)絡(luò)中知識節(jié)點(diǎn)總數(shù)沒有減少,總的聯(lián)想能力沒有減少的情況,減少一些非關(guān)鍵的聯(lián)想關(guān)系,有可能提升觀測語料的聯(lián)想分析效能。
進(jìn)一步,考慮到每個(gè)語料文檔中知識詞出現(xiàn)的次數(shù)規(guī)??赡懿灰粯樱梢胛臋n聯(lián)想建模代價(jià)定義:
基于上述文檔聯(lián)想建模代價(jià)值的定義,可通過對比觀測文檔的聯(lián)想建模代價(jià)值和有效上下文聯(lián)想占比值來定量地評估利用不同約簡方法進(jìn)行知識建模的實(shí)際性能。
基于前述數(shù)據(jù)集Ⅰ和數(shù)據(jù)集Ⅱ,通過分析不同約簡度R下的觀測文檔聯(lián)想建模代價(jià)值和有效上下文聯(lián)想占比值,研究分析本文所提知識網(wǎng)絡(luò)建模方法特征性能,并用聯(lián)想建模代價(jià)差值表示文檔集中約簡前的平均文檔聯(lián)想建模代價(jià)值減去約簡后的平均文檔聯(lián)想建模代價(jià)值。理論上,約簡前后的聯(lián)想建模代價(jià)差值應(yīng)該會(huì)隨著約簡程度的增加而增加,且約簡前后的聯(lián)想建模代價(jià)差值越大,說明約簡的效果相對越好,當(dāng)聯(lián)想建模代價(jià)差增加到一定程度時(shí),就會(huì)達(dá)到峰值,繼續(xù)對知識網(wǎng)絡(luò)進(jìn)行約簡的話聯(lián)想建模代價(jià)差應(yīng)該會(huì)開始變小,甚至變?yōu)樨?fù)值,此時(shí)就造成了“過度約簡”。表3、表4首先分別給出在數(shù)據(jù)集Ⅰ上,R=0.1和R=0.7時(shí)的平均文檔聯(lián)想建模代價(jià),以及有效上下文聯(lián)想建模的占比,其中有效上下文聯(lián)想建模的占比表示的是約簡后的知識網(wǎng)絡(luò)中連通的關(guān)系對數(shù)目與約簡前的知識網(wǎng)絡(luò)中連通的關(guān)系對數(shù)目的比值。
表 3 R=0.1時(shí)數(shù)據(jù)集I上不同約簡策略的性能比較Table 3 Performance comparison of different reduction strategies on data set I with R=0.1
表 4 R=0.7時(shí)數(shù)據(jù)集I上不同約簡策略的性能比較Table 4 Performance comparison of different reduction strategies on data set I with R=0.7
分析表3可知,當(dāng)初始知識網(wǎng)絡(luò)約簡掉10%的關(guān)系對的時(shí)候,3種策略得到的平均文檔聯(lián)想建模代價(jià)相比于未約簡前均有所減小。而其中全局聯(lián)想最大記憶保留策略方法表現(xiàn)出了最優(yōu)的綜合性能結(jié)果。進(jìn)一步分析表4結(jié)果可知,其結(jié)果特征與表3結(jié)果相一致。圖4進(jìn)一步給出具體的約簡前后聯(lián)想建模代價(jià)差值隨約簡程度變化曲線。
分析圖4中曲線關(guān)系可知,對于3種方法而言,約簡程度越高,約簡前后的聯(lián)想建模代價(jià)差值越大,當(dāng)約簡到一定程度時(shí),聯(lián)想建模代價(jià)差達(dá)到最大,繼續(xù)約簡的話聯(lián)想建模代價(jià)差開始變小,甚至變?yōu)樨?fù)值。進(jìn)一步地,全局聯(lián)想最大記憶保留法得到的聯(lián)想建模代價(jià)差在三者中是最大的,并且聯(lián)想建模代價(jià)差的峰值隨約簡程度增加出現(xiàn)得更晚,局部聯(lián)想最大記憶保留法次之,而隨機(jī)約簡法得到的約簡前后的差值是最小的,且聯(lián)想建模代價(jià)差峰值出現(xiàn)的最早。
圖 4 約簡前后聯(lián)想建模代價(jià)差值隨約簡程度變化曲線(3種不同方法在數(shù)據(jù)集Ⅰ上的實(shí)驗(yàn)結(jié)果)Fig. 4 The changes of the cost of association modeling before and after reduction with the reduction degree(Experimental results of three different methods on data set Ⅰ)
對比表3、表4結(jié)果可知,隨著約簡程度的增大,有效上下文聯(lián)想比例有所下降。圖5進(jìn)一步給出了具體的變化曲線。
圖 5 非成功聯(lián)想關(guān)系對所占比例隨約簡程度變化曲線(3種不同方法在數(shù)據(jù)集Ⅰ上的實(shí)驗(yàn)結(jié)果)Fig. 5 The curves of the proportion of unsuccessful associations with the degree of reduction (experimental results of three different methods on data set Ⅰ)
分析圖5可知,3種方法都是隨約簡程度的增加,非成功聯(lián)想關(guān)系對的比例逐漸增加,但是全局聯(lián)想最大記憶保留法增加的最為緩慢,且上限值在三者之中最小,局部聯(lián)想最大記憶保留法次之,隨機(jī)約簡增加幅度最大,增長速度最快,且上限最大。這一結(jié)果與經(jīng)驗(yàn)邏輯結(jié)果相一致,也間接表明了文中所定義的相關(guān)評價(jià)指標(biāo)的合理性。同時(shí)還表明全局聯(lián)想最大記憶保留法的性能在三者之中屬最好,局部聯(lián)想最大記憶保留法次之,隨機(jī)約簡法的性能最差。這一結(jié)論在很高程度上符合人腦遺忘的規(guī)律:最后看到的或者與之前看到的相關(guān)性比較高的知識總是相對不易忘記,而最先看到的或者相關(guān)性比較低的知識相對就比較容易忘記。
表5、表6表示在數(shù)據(jù)集Ⅱ上,R=0.1和R=0.7時(shí)平均文檔聯(lián)想建模代價(jià),以及有效上下文聯(lián)想建模的占比。
表 5 R=0.1時(shí)數(shù)據(jù)集II上不同約簡策略的性能比較Table 5 Performance comparison of different reduction strategies on data set II with R=0.1
表 6 R=0.7時(shí)數(shù)據(jù)集II上不同約簡策略的性能比較Table 6 Performance comparison of different reduction strategies on data set Ⅱ with R=0.7
分析表5可知,當(dāng)原有知識網(wǎng)絡(luò)約簡掉10%的關(guān)系對時(shí),與數(shù)據(jù)集Ⅰ上的結(jié)論類似,3種策略得到的平均文檔聯(lián)想建模代價(jià)相比于未約簡前均有所減小。而其中全局聯(lián)想最大記憶保留策略方法表現(xiàn)出了最優(yōu)的綜合性能結(jié)果。進(jìn)一步分析表6結(jié)果可知,其結(jié)果特征與表5的結(jié)果并不完全一致,其中對于全局聯(lián)想記憶保留策略得到的平均文檔聯(lián)想建模代價(jià)更小了,而局部聯(lián)想最大記憶保留策略和隨機(jī)約簡策略得到的平均文檔聯(lián)想建模代價(jià)反而變大了。這表明在數(shù)據(jù)集Ⅱ上,利用局部聯(lián)想最大記憶保留策略和隨機(jī)約簡策略對原有知識網(wǎng)絡(luò)約簡掉70%的關(guān)系對時(shí),屬于“過度約簡”了,而利用全局最大記憶保留策略對原有知識網(wǎng)絡(luò)進(jìn)行同程度的約簡后,依然能夠較好地解釋整個(gè)語料集。圖6進(jìn)一步給出具體的聯(lián)想建模代價(jià)差值隨約簡程度變化曲線。分析圖6中曲線關(guān)系可得出與圖4類似的結(jié)論,即全局聯(lián)想最大記憶保留法得到的聯(lián)想建模代價(jià)差總是最大,并且聯(lián)想建模代價(jià)差的峰值隨約簡程度增加來的更晚,局部聯(lián)想最大記憶保留法次之,而隨機(jī)約簡法得到的約簡前后的差值是最小的,且聯(lián)想建模代價(jià)差峰值來得最早。圖7給出了在數(shù)據(jù)集Ⅱ上非成功聯(lián)想關(guān)系對所占比例隨著約簡程度的變化曲線。
圖 6 約簡前后聯(lián)想建模代價(jià)差值隨約簡程度變化曲線(3種不同方法在數(shù)據(jù)集Ⅱ上的實(shí)驗(yàn)結(jié)果)Fig. 6 The changes of the cost of association modeling before and after reduction with the reduction degree(Experimental results of three different methods on data set Ⅱ)
圖 7 非成功聯(lián)想關(guān)系對所占比例隨約簡程度的變化曲線 (3種不同方法在數(shù)據(jù)集Ⅱ上的實(shí)驗(yàn)結(jié)果)Fig. 7 The curves of the proportion of unsuccessful associations with the degree of reduction (Experimental results of three different methods on data set Ⅱ)
圖7 中的曲線的整體變化趨勢與圖5類似,這表明,數(shù)據(jù)集Ⅱ上的結(jié)果與數(shù)據(jù)集Ⅰ上的結(jié)果基本一致,進(jìn)一步證明了本模型的可靠性以及該指標(biāo)的可行性。
進(jìn)一步,考慮對約簡后的知識聯(lián)想關(guān)系網(wǎng)絡(luò)進(jìn)行關(guān)系實(shí)例分析。表7給出了在數(shù)據(jù)集Ⅰ上幾組典型的模擬實(shí)驗(yàn)結(jié)果;表8給出了在數(shù)據(jù)集Ⅱ上幾組典型的模擬實(shí)驗(yàn)結(jié)果,其中約簡前的聯(lián)想分析代價(jià)值表示的是約簡前的知識網(wǎng)絡(luò)中該關(guān)系對所包含的知識序列的聯(lián)想分析代價(jià)值的總和;約簡后的聯(lián)想分析代價(jià)值表示的是約簡后的知識網(wǎng)絡(luò)中該關(guān)系對所包含的知識序列的聯(lián)想分析代價(jià)值的總和。
分析表7和表8中的前兩個(gè)實(shí)例可知,對于關(guān)系對<A,B>如果在約簡過程中該關(guān)系對被約簡掉了,且約簡后的知識網(wǎng)絡(luò)中還能找到一條從知識A到知識B的最短聯(lián)想路徑,則該路徑的聯(lián)想分析代價(jià)值有可能小于未約簡前關(guān)系對<A,B>的聯(lián)想分析代價(jià)值,即約簡后由知識A聯(lián)想到知識B的代價(jià)減小了。分析表7和表8中第3個(gè)實(shí)例可知,如果關(guān)系對<A,B>在約簡過程中沒有被約簡掉,即約簡后B還是A的直接聯(lián)想知識,則在約簡后的知識網(wǎng)絡(luò)中關(guān)系對<A,B>的聯(lián)想分析代價(jià)值往往不大于未約減時(shí)的聯(lián)想分析代價(jià)值,該性質(zhì)也符合式(2)的定義。從這一角度看,文中提出的知識聯(lián)想關(guān)系網(wǎng)絡(luò)通過知識約簡能較好地去除知識網(wǎng)絡(luò)的冗余性,在一定程度上提高了建模的效率。
表 7 約簡后產(chǎn)生的關(guān)系路徑實(shí)例(數(shù)據(jù)集I)Table 7 Relationship path instance generated after reduction (data set I)
表 8 約簡后產(chǎn)生的關(guān)系路徑實(shí)例(數(shù)據(jù)集II)Table 8 Relationship path instance generated after reduction (data set II)
本文提出了一種基于圖約簡的知識聯(lián)想關(guān)系網(wǎng)絡(luò)建模方法,該方法從大腦的聯(lián)想記憶的角度出發(fā),使用自主爬取的食品領(lǐng)域的語料和搜狗實(shí)驗(yàn)室提供的體育領(lǐng)域的語料作為實(shí)驗(yàn)的數(shù)據(jù)集,先利用知識的共現(xiàn)關(guān)系構(gòu)建初始的知識網(wǎng)絡(luò),然后對初始的知識網(wǎng)絡(luò)利用不同的約簡策略進(jìn)行約簡形成聯(lián)想關(guān)系網(wǎng)絡(luò),并利用文檔的聯(lián)想建模代價(jià)值來評價(jià)約簡后的聯(lián)想關(guān)系網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明,利用本文提出的方法能夠有效地提高知識網(wǎng)絡(luò)建模的效率,在大規(guī)模知識網(wǎng)絡(luò)構(gòu)建中有顯著的使用價(jià)值。同時(shí),為知識圖譜建模方法提供了一種可參考的新思路,也為探索類腦聯(lián)想記憶的研究提供一定的借鑒意義。