李戰(zhàn)軍,閆紹惠
(河北軟件職業(yè)技術學院 軟件工程系,河北 保定 071000)
基于直覺模糊集的術語相似度方法研究
李戰(zhàn)軍,閆紹惠
(河北軟件職業(yè)技術學院 軟件工程系,河北 保定 071000)
直覺模糊集的術語相似度方法基于直覺模糊集進行術語相似度評估,首先采用TFIDF方法提取特征項,然后定義特征項之間的直覺模糊相似度,最后根據直覺模糊集相似度的計算結果,進行術語相似度評估。該方法符合真實評估思維,評估結果接近實際。
直覺模糊集;相似度;特征項;術語
隨著大數據與云計算技術的大規(guī)模應用,在翻譯領域實現了翻譯技術與云計算技術的結合,建立了新型的中日對譯云端語料庫。通過翻譯數據的規(guī)模化處理,進一步促進翻譯產業(yè)的技術進步和迅猛發(fā)展。在構建中日對譯云端語料庫的過程中,術語之間的相似度評估是一項基本任務。術語相似度計算對海量的中日大數據處理、信息提取,收集、整理對譯語料具有重要意義。
相似度計算方法研究是信息處理過程中的一項基礎性工作。相似度計算方法在信息處理領域的應用比較廣泛,例如信息提取與分析[1,2]、文本挖掘與聚類[3-4]、機器翻譯[5]等。劉宏哲等人[6]對基于本體的語義相似度和相關度計算研究做了綜述。分析并總結了樹和圖中影響概念相似度或者相關度的因素,系統(tǒng)地分析了語義相似度和相關度計算方法。盛秋艷[7]給出了一種基于本體的語義相似度計算方法,提出了利用本體來表示概念之間的關系,根據概念之間的相關性構建本體結構層次網絡圖通路,并且計算語義相似度實現檢索。陳海燕[8]提出了基于搜索引擎的詞匯語義相似度計算方法,這種計算方法可以去除計算過程中的噪音和冗余,并且不需要任何先驗知識與本體就可以計算語義相似度。范雪雪、王志榮等人[9]依據醫(yī)學本體的層級結構和語義關系,提取出術語的深度、距離等語義參數,利用概念密度加權得到深度系數和距離系數,構造相似度函數,計算術語相似度。
目前術語相似度計算方法研究都是基于本體進行的。本文的術語相似度算法研究是基于直覺模糊集的。直覺模糊集[10]包含三個方面,即隸屬度、非隸屬度和猶豫度。在實際生活中,人們對于大部分事物的分析與研究往往帶有不確定性和模糊性,直覺模糊集的概念符合人們對事物的評估準則。本文首先根據TFIDF方法提取特征項,構建特征矩陣,然后定義特征矩陣的直覺模糊集,最后根據直覺模糊集相似度計算方法評估術語相似度。
Zadeh[11]在1965年提出模糊集理論之后,模糊集被廣泛應用到各個領域,例如數據挖掘、信息處理、控制論、運籌學、軍事應用等。隨后Atanassov[10]對模糊集進行了擴展,提出了直覺模糊集,并將直覺模糊集劃分為隸屬度、非隸屬度和猶豫度三個方面。定義1給出了直覺模糊集的概念。
龔艷冰,丁德臣等人[12]對模糊集理論進行了擴充,依據直覺模糊集相似度[13],提出了基于直覺模糊集相似度的多屬性決策方法。
定義2 已知映射S:IFS(X)×IFS(X)→[0,1],稱S(A,B)為直覺模糊集A∈IFS(X)與B∈IFS (X)的相似度,如果S(A,B)滿足下列性質:
(1)0≤S(A,B)≤1;
(2)如果A=B,則S(A,B)=1;
(3)S(A,B)=S(B,A);
(4)如果A?B?C,A,B,C∈IFS(X),則S(A,C)≤S(A,B),S(A,C)≤S(B,C)。
對于論域X={x1,x2,…,xn,}上的任意兩個直覺模糊集可以設:
那么令:
則定義直覺模糊集相似度的計算公式為:
其中,ωi≥0為xi在論域X中的權重,且滿足
術語相似度可以根據術語所在的知識領域不同進行評估。通常來說,兩個術語在不同的上下文環(huán)境中可以相互替換而不影響語法,語義結構越大,術語相似度越大。術語相似的評估沒有確定性的標準,術語之間的相似度具有模糊性,根據選取的角度不同,得到的相似度值不同。本文首先基于TFIDF方法提取特征項,然后根據特征項與選取的術語計算相關性,最后根據術語相似度直覺模糊集公式計算相似度值。具體步驟如下:
(1)根據TFIDF方法提取特征項。根據評測術語所在的知識領域,使用TFIDF方法提取上下文中的相關詞。
(2)構建特征項矩陣。使用TFIDF方法提取上下文中的相關詞,根據接續(xù)指數計算詞語的權重,依據權重選取特征項,并構建特征矩陣。其中,矩陣值為權重值。
(3)將特征項矩陣轉換為直覺模糊集。特征項的權重值越大,說明該特征項與術語接續(xù)指數越大,那么特征項與術語具有更高的組合程度。本文將權重值作為直覺模糊集的隸屬度
(4)根據直覺模糊集相似度公式(6)計算術語相似度值。為了計算權重ωi,這里假設vi,同時滿足
首先下載由復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組提供的公開中文文本分類語料庫,以該語料庫為依托提取特征項,并進行術語相似度分析。該語料庫包括測試語料(共9 833篇文檔)和訓練語料(共9 804篇文檔),分為20個類別。本文以其中100篇教育技術領域的文檔作為數據集,采用TFIDF方法進行特征項提取,并計算特征隸屬度,選取其中前200個特征項作為評估指標。
圖1 相似度曲線圖
在特征項矩陣中,術語作為行數據,特征項作為列數據,隸屬度作為矩陣元素值。然后利用直覺模糊集相似度公式計算術語相似度值。圖1為部分測試數據的相似度曲線圖。根據曲線圖可以看出,除電視教材外,其他曲線圖近似。那么網絡教學、遠程教育、教育技術及網絡教育具有較高的相似度。
本文提出基于直覺模糊集的術語相似度計算方法。根據TFIDF方法構建特征項矩陣,并運用直覺模糊集相似度計算方法計算術語相似度值。該算法利用直覺模糊集理論評估術語相似度符合實際生活中對事物的評估方式。對于精確值的選取是今后需要進一步研究的工作。
[1]Chen M Y,Chu H C,Chen Y M.Developing a Semantic-Enable Information Retrieval Mechanism[J].Expert Systems with Application,2010,37(1):322-340.
[2]Stevenson M,Greenwood M A.A Semantic Approach to IE Pattern Introduction[C].In:Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Association for Computational Lin guistics,2005:379-386.
[3]Asservatham S,Bennani Y.Semi-Structured Document Categorization with a Semantic Kernel[J].Pattern Recognition,2009,42(9):2067-2076.
[4]Batet M,Valls A,Gibert K.Improving Classical Clustering with Ontologies[C].In:Proceedings of the 4th World Conference of the IASC,Yokohama,Japan,2008:137-146.
[5]Cilibrasi R L,Vitanyi P M B.The Google Similarity Distance[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(3):370-383.
[6]劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.
[7]盛秋艷.一種基于本體的語義相似度計算方法[J].情報科學,2012,30(8):1238-1241.
[8]陳海燕.基于搜索引擎的詞匯語義相似度計算方法[J].計算機科學,2015,42(1):261-267.
[9]范雪雪,王志榮,徐晤,等.基于醫(yī)學本體的術語相似度算法研究[J].現代圖書情報技術,2015,265(12):57-62.
[10]Atanassov K T.Intuitio nist ic fuzzy sets[J].Fuzzy Sets and Systems,1986,20(1):87-96.
[11]Zadeh L A.Fuzz y sets[J].Information and Control,1965,8(3):338-356.
[12]龔艷冰,丁德臣,何建敏.一種基于直覺模糊集相似度的多屬性決策方法[J].控制與決策,2009,24(9):1398 -1401.
[13]Li D,Cheng C.New similarity measures of intuitionistic fuzzy sets and application to pattern recognition[J]. Pattern Recognition Letters,2002,23(1):221-225.
Research on Term Similarity Method based on Intuitionistic Fuzzy Sets
LI Zhan-jun,YAN Shao-hui
(Department of Software Engineering,Hebei Software Institute,Hebei Baoding 071000,China)
The term similarity method of intuitionistic fuzzy sets is based on the evaluation of intuitionistic fuzzy sets. Firstly,the TFIDF method is used to extract the feature items,and then the intuitionistic fuzzy similarity between the feature items is defined;finally,according to the calculation results of the intuitionistic fuzzy set similarity to evaluate the similarity of term.The method is consistent with the real evaluation thinking,and the evaluation results are close to the actual situation.
intuitionistic fuzzy set;similarity;feature;term
TP319
A
1673-2022(2017)02-0039-03
2016-12-16
2015年度河北省科技計劃自籌經費項目“基于大數據和云計算技術的科技翻譯語料庫創(chuàng)建及應用研究”(15210145);河北軟件職業(yè)技術學院2013年院立課題“外貿電子商務‘云翻譯平臺’建設可行性研究”(YL2013L002)
李戰(zhàn)軍(1975-),男,河北徐水人,副教授,碩士,主要從事日語教學及日語語料庫研究;閆紹惠(1988-),女,河北承德人,助教,碩士,主要從事數據挖掘、數據分析。