馬偉彬
(國家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作廣東中心 廣東省廣州市 510700)
隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,自然語言處理技術(shù)得到快速發(fā)展。文本相似度計(jì)算是自然語言處理中的重要內(nèi)容[1]。在自然語言處理中,文本相似度計(jì)算用于度量不同文本之間所表達(dá)的語義的相似程度?;谖谋鞠嗨贫扔?jì)算相關(guān)技術(shù)被應(yīng)用到機(jī)器翻譯、信息檢索、文本分類、自動(dòng)摘要、輿情分析、語義感情分析、對話系統(tǒng)、論文查重等領(lǐng)域[2]。
文本相似度計(jì)算在專利檢索實(shí)踐中也有廣泛應(yīng)用。Patentics 進(jìn)行語義檢索時(shí)通過對相關(guān)對比文件的相似度進(jìn)行從高到低的排序[3]。incopat 進(jìn)行語義檢索時(shí)會(huì)選擇優(yōu)先顯示相關(guān)度比較高的對比文件[4]。智能檢索系統(tǒng)中,語義檢索通過計(jì)算文獻(xiàn)之間的相似度,然后按相似度高低給出文本語義最接近的文獻(xiàn)。
詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)模型、潛在語義索引(Latent Semantic Indexing,LSI)模型是常見的文本相似度計(jì)算模型,常用于自動(dòng)評(píng)分系統(tǒng)以及網(wǎng)頁搜索和 DNA 序列匹配中[5][6]。
和網(wǎng)頁、試卷、DNA 序列相比,專利文獻(xiàn)具有格式規(guī)范,篇幅較長,有效信息出現(xiàn)頻率較低的特點(diǎn)。專利文獻(xiàn)一般包括說明書、權(quán)利要求書、說明書附圖、摘要等部分[7]。其中說明書摘要是說明書記載內(nèi)容的概述。說明書摘要記載發(fā)明的名稱和所屬的技術(shù)領(lǐng)域,并清楚地反映所要解決的技術(shù)問題、解決該問題的技術(shù)方案的要點(diǎn)以及主要用途。說明書摘要通常附有插圖。專利文獻(xiàn)的篇幅較長,通常超過數(shù)千字符,增大了文本相似度計(jì)算的難度。而專利文獻(xiàn)的檢索過程中重要的信息是發(fā)明構(gòu)思的相關(guān)信息[8][9]。發(fā)明構(gòu)思即發(fā)明人進(jìn)行研發(fā)的技術(shù)構(gòu)思或技術(shù)改進(jìn)思路,是發(fā)明人的一種智力活動(dòng),其以現(xiàn)有技術(shù)中存在的技術(shù)問題為起點(diǎn),以利用自然規(guī)律的能夠解決該技術(shù)問題的技術(shù)方案為橋梁,以該技術(shù)方案所能達(dá)到的技術(shù)效果為終點(diǎn)。也就是說,發(fā)明構(gòu)思外化于技術(shù)問題、技術(shù)方案和技術(shù)效果。抓住了發(fā)明構(gòu)思就抓住了發(fā)明創(chuàng)造的實(shí)質(zhì)。因此,對發(fā)明構(gòu)思的確認(rèn)和抽提是實(shí)質(zhì)審查工作中的重要內(nèi)容,對于檢索工作具有重大的指導(dǎo)意義[8]。然而發(fā)明構(gòu)思的相關(guān)信息在專利文獻(xiàn)的說明書、權(quán)利要求書中直接出現(xiàn)的次數(shù)較少,使得頻率統(tǒng)計(jì)中發(fā)明構(gòu)思的相關(guān)信息難以獲得較大的權(quán)重,無法在相似度中得到較好的體現(xiàn)。
表1:實(shí)驗(yàn)文檔
本文根據(jù)專利文獻(xiàn)的特點(diǎn),修改了生成詢問矢量、TFIDF 矢量的基礎(chǔ)文本,有效減少了TF-IDF 模型、LSI 模型中的噪聲信息,從而降低了非發(fā)明內(nèi)容的背景技術(shù)專利文獻(xiàn)的相似度,提高發(fā)明內(nèi)容的相關(guān)專利文獻(xiàn)的檢出率。
TF-IDF 模型是一種常用的加權(quán)算法,是詞頻和逆文檔頻率的組合,能夠確定特定詞項(xiàng)的權(quán)重的大小[6]。TF-IDF模型通過對文本集合中的每一個(gè)詞項(xiàng)都進(jìn)行分析得到每一篇文本中每一個(gè)詞項(xiàng)的TF-IDF 值,然后再利用這些TF-IDF值為每一篇文本建立一個(gè)向量模型,進(jìn)一步通過詢問文檔向量和TF-IDF 向量間的相似度來確定文本之間的相似性[10]。
TF-IDF 值的計(jì)算是以 TF 和 IDF 乘積作為特征空間坐標(biāo)系的取值測度。TF-IDF 與該詞出現(xiàn)頻率成正比,與在整個(gè)語料庫中出現(xiàn)的次數(shù)成反比。具體而言一個(gè)給定詞語wi在文檔集合D 中的TF-IDF 值如下計(jì)算,TF-IDF(wi)=TF(wi)×IDF(wi)。
其中TF(wi)=fj(wi);
fj(wi)表示一個(gè)給定詞語wi在文檔集合D 中的一篇文檔 dj中出現(xiàn)的頻率。
log(N/d f(wi))表示文檔集合D 的文本總數(shù)N 和文檔集合D 中出現(xiàn)詞語wi的文本總數(shù)df(wi)的比值的指數(shù)。 log(N/d f(wi))表征一個(gè)詞語對于整個(gè)文檔集或語料庫的重要性的判斷依據(jù)。
TF(wi)越高,說明詞語 wi對文檔 dj越重要。在文檔集合D 中,若包含詞語 wi的文檔越少,則IDF(wi)越大,說明詞語 wi在整個(gè)文檔集D 中具有很好的識(shí)別區(qū)分能力[11]。
LSI 模型是基于文檔和詞共現(xiàn)關(guān)系以及奇異值分解(SVD)方法來得到文本主題的一種模型[5]。LSI 模型通過對詞匯頻率-文本矩陣進(jìn)行奇異值分解,根據(jù)實(shí)現(xiàn)效果選取一個(gè)k 值,產(chǎn)生潛在語義空間;把查詢向量投影到變換后的k 值詞匯頻率-文本矩陣產(chǎn)生的空間中;進(jìn)一步計(jì)算相似度[12]。
LSI 是將文本和詞匯的高維表示投影在低維的潛在語義空間中,縮小了問題的規(guī)模,得到詞匯和文本的不再稀疏的低維表示,同時(shí)這種低維表示揭示出了詞匯一文本之間語義上的聯(lián)系[13]。
本實(shí)驗(yàn)以4 個(gè)文檔為例子,文檔介紹如表格1 所示。
分別對 4 個(gè)文檔進(jìn)行 TF-IDF 的算法實(shí)現(xiàn)如圖1。首先輸入文本D1-D4;使用jieba 庫進(jìn)行分詞,形成D1-D4 分詞文檔;對D1-D4 分詞文檔通過stop_word.txt 進(jìn)行停用詞去除;將去除停用詞后的D1-D4 文檔轉(zhuǎn)化成D1-D4 詞袋矢量;將D1-D4 詞袋矢量轉(zhuǎn)化成D1-D4 文本TF-IDF 矢量;通過D1的詞袋矢量和D1-D4 文本TF-IDF 矢量計(jì)算 TF-IDF 模型相似度。
圖1:TF-IDF 模型文本相似度計(jì)算過程
分別對 4 個(gè)文檔進(jìn)行l(wèi)si 的算法實(shí)現(xiàn)如圖2。首先輸入文本D1-D4;使用jieba 庫進(jìn)行分詞,形成D1-D4 分詞文檔;對D1-D4 分詞文檔通過stop_word.txt 進(jìn)行停用詞去除;將去除停用詞后的D1-D4 文檔轉(zhuǎn)化成D1-D4 詞袋矢量;將D1-D4 詞袋矢量轉(zhuǎn)化成D1-D4 文本TF-IDF 矢量;D1-D4 文本TF-IDF 矢量進(jìn)行SVD 分解,通過設(shè)置num_topics 形成若干個(gè)潛在主題;通過潛在主題將D1 的詞袋矢量轉(zhuǎn)化成LSI 矢量;通過潛在主題形成 D1-D4 文本LSI 矢量;將D1的詞袋矢量轉(zhuǎn)化成LSI 矢量和D1-D4 的文本LSI 矢量計(jì)算LSI 模型相似度。
圖2:LSI 模型文本相似度計(jì)算過程
上述專利文獻(xiàn)都是長文本,其經(jīng)過文本分詞后,D1、D2、D3、D4 的詞匯量分別為4034、8085、5170、4938。以下表格僅選取“氣體”、 “加熱器”、“取放”、“內(nèi)壁”、“執(zhí)行”、“放置”進(jìn)行統(tǒng)計(jì),如表2。其中 “氣體”、 “加熱器”是和發(fā)明內(nèi)容相關(guān)的信息詞匯;“取放”、“內(nèi)壁”、“執(zhí)行”、“放置”是和發(fā)明內(nèi)容不太相關(guān)的技術(shù)詞匯??梢姟叭》拧?、“內(nèi)壁”、“執(zhí)行”、“放置”等和發(fā)明內(nèi)容不太相關(guān)的技術(shù)詞匯的TF-IDF 值較大,最后對TF-IDF 模型文本相似度造成影響。
表2:文檔若干詞的TF-IDF 統(tǒng)計(jì)
LSI 模型相似度計(jì)算過程如附圖3 所示。從圖3 可知,在num_topics=2 時(shí),LSI 模型中通過把D1-D4 文本TF-IDF矢量轉(zhuǎn)化成兩個(gè)潛在主題。該兩個(gè)潛在主題分別由抓取、手臂、吸附、墊、吸盤、盤、機(jī)械、腔體、腔、存放;卡盤、SOI、催化、玻璃、伯努利、成膜、150、102、絕緣體、絕緣加權(quán)構(gòu)成。D1-D4 文檔的 TF-IDF 矢量投影到上述潛在主題,形成四組二維lsi_vector。D1 的詞袋矢量投影到上述潛在主題形成二維query_lsi。最后計(jì)算D1 的詞袋矢量轉(zhuǎn)化成LSI 矢量和D1-D4 的文本LSI 矢量計(jì)算 LSI 模型相似度。
圖3:LSI 模型文本相似度計(jì)算
通過D1 計(jì)算出的D1 的詞袋矢量,其詞匯量為315。其中和發(fā)明內(nèi)容相關(guān)的信息詞匯只有“氣體”、 “加熱器”、“熱應(yīng)力”、 “彎曲”、“變形”等若干個(gè)詞匯。有效信息-噪聲比值將近5/315。
采用摘要作為基礎(chǔ)文本D1’,計(jì)算D1’的詞袋矢量,其詞匯量為28。中依然保留“氣體”、 “加熱器”、 “熱應(yīng)力”、 “彎曲”、“變形”等與發(fā)明內(nèi)容相關(guān)的詞匯,從而減少了噪聲信息,把有效信息-噪聲比值提高到5/28,繼續(xù)進(jìn)行 TF-IDF 、LSI 的算法實(shí)現(xiàn)。
本實(shí)驗(yàn)以4 個(gè)文檔為例子,文檔介紹如表3 所示。
表3:實(shí)驗(yàn)文檔
分別對4 個(gè)文檔進(jìn)行 TF-IDF 、LSI 的算法實(shí)現(xiàn)。選取若干重要的詞進(jìn)行TF-IDF 統(tǒng)計(jì),并給出4 個(gè)文檔的 TF-IDF模型 、LSI 模型文本相似度,如表4。
表4:文檔若干詞的TF-IDF 統(tǒng)計(jì)
基礎(chǔ)文本調(diào)整后,D1’-D4 的TF-IDF 矢量中,“取放”、“內(nèi)壁”、“執(zhí)行”、“放置”等249 個(gè)和發(fā)明內(nèi)容不太相關(guān)的噪聲信息的TF-IDF 值得到有效降低。有效避免了TFIDF 矢量中“取放”、“內(nèi)壁”、“執(zhí)行”、“放置”等和發(fā)明內(nèi)容不太相關(guān)的噪聲信息的影響。減少了這些技術(shù)詞匯對TF-IDF 模型文本相似度造成的影響。
同時(shí),TF-IDF 矢量中“取放”、“內(nèi)壁”、“執(zhí)行”、“放置”等和發(fā)明內(nèi)容不太相關(guān)的噪聲信息的減少,還可以使LSI 模型中潛在主題噪聲信息也減少,從而減少噪聲信息對D1-D4 文檔的 TF-IDF 矢量投影、D1 的詞袋矢量投影的影響,使LSI 模型文本相似度中同領(lǐng)域非相關(guān)的技術(shù)文獻(xiàn)D3 的相似度得到比較大的降低,如圖4、5 所示。
圖4:TF-IDF 模型
從圖4 可知,采用基礎(chǔ)文本D1’后,與本申請密切相關(guān)的技術(shù)文獻(xiàn)D2 的TF-IDF 相似度從0.02881 降低為0.01496,為原來的52%;而同領(lǐng)域非相關(guān)的技術(shù)文獻(xiàn)D3 的TF-IDF 相似度從0.14992 降低為0.03270,為原來的22%??梢姴捎没A(chǔ)文本D1’更大的降低噪聲的影響。
從圖5 可知,采用基礎(chǔ)文本D1’后,與本申請密切相關(guān)的D2 的LSI 相似度從0.05901 增加為0.35108,為原來的595%;而同領(lǐng)域非相關(guān)的技術(shù)文獻(xiàn)D3 的LSI 相似度從0.98564 降低為0.33400,為原來的33%??梢姴捎没A(chǔ)文本D1’不但可以較大的降低噪聲的影響,還能提高發(fā)明內(nèi)容相關(guān)的信息的影響。
圖5:LSI 模型文本相似度
LSI 模型中,num_topics 的數(shù)值可以調(diào)整潛在主題的數(shù)量,從而對D’1-D4 文檔的lsi_vector、D1 的詞袋矢量的query_lsi 取值,進(jìn)而影響LSI 模型文本相似度。num_topics的數(shù)值過小,則會(huì)導(dǎo)致必要信息被忽略,影響文本相似度的準(zhǔn)確性。然而num_topics 的數(shù)值過大,則會(huì)導(dǎo)致過多的非必要信息被表征,影響文本相似度的準(zhǔn)確性。如附圖6 所示,采用基礎(chǔ)文本D1’進(jìn)行LSI 模型文本相似度計(jì)算,當(dāng)num_topics=1 時(shí),D’1-D4 的文本相似度都為1,無法區(qū)分和本申請相關(guān)的技術(shù)文獻(xiàn)D2、同領(lǐng)域非相關(guān)的技術(shù)文獻(xiàn)D3、不同領(lǐng)域技術(shù)文獻(xiàn)D4。當(dāng)num_topics=2 時(shí),本申請相關(guān)的技術(shù)文獻(xiàn)D2 的LSI 相似度下降為0.35109;同領(lǐng)域非相關(guān)的技術(shù)文獻(xiàn)D3 的LSI 相似度下降為0.33401;不同領(lǐng)域技術(shù)文獻(xiàn)D4 的LSI 相似度下降為0。-當(dāng)num_topics=4 時(shí),本申請相關(guān)的技術(shù)文獻(xiàn)D2的LSI相似度進(jìn)一步下降為0.02915;同領(lǐng)域非相關(guān)的技術(shù)文獻(xiàn)D3 的LSI 相似度下降為0.06372;不同領(lǐng)域技術(shù)文獻(xiàn)D4 的LSI 相似度保持為0。可見當(dāng)num_topics=2 時(shí), D2、D3、D4 得到較好的區(qū)分 。
圖6:LSI 文本相似度-topic 關(guān)系圖
本文通過把發(fā)明申請的摘要作為基礎(chǔ)文本,有效減少了和發(fā)明內(nèi)容不太相關(guān)的噪聲信息,提高基礎(chǔ)文本的有效信息-噪聲比值,從而降低了TF-IDF 模型、LSI 模型中噪聲信息對文本相似度的影響,增加了LSI 模型中有效信息的影響。本文還通過對潛在主題數(shù)量進(jìn)行設(shè)置,找到比較適合專利文獻(xiàn)LSI 模型文本相似度計(jì)算的潛在主題數(shù)。