亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞頻比的改進(jìn)Jaccard系數(shù)文本相似度計(jì)算

        2021-09-13 11:49:58中國(guó)人民大學(xué)信息學(xué)院
        內(nèi)江科技 2021年8期
        關(guān)鍵詞:教育法詞頻列表

        ◇中國(guó)人民大學(xué)信息學(xué)院 謝 紅

        基于詞頻比的改進(jìn)Jaccard系數(shù)文本相似度計(jì)算,交集中詞的權(quán)重不是相同的,而是按照詞頻比確定權(quán)重。通過短文本實(shí)驗(yàn)和長(zhǎng)文本實(shí)驗(yàn),基于詞頻比的改進(jìn)Jaccard相似度比傳統(tǒng)Jaccard相似度更加科學(xué)合理,適合法律法規(guī)、政策文件等說明性文本的相似度計(jì)算。

        1 引言

        文本相似度計(jì)算是指通過一定的策略比較兩個(gè)或多個(gè)實(shí)體(包括詞語(yǔ)、短文本、文檔)之間的相似程度,得到一個(gè)具體量化的相似度數(shù)值[1]。相似度數(shù)值用[0,1]閉區(qū)間的實(shí)數(shù)表示,數(shù)值越大,文本相似度越高。

        文本相似度計(jì)算廣泛應(yīng)用在信息檢索、文本分類、文本聚類、文本查重、問答系統(tǒng)、推薦系統(tǒng)等領(lǐng)域。

        目前,計(jì)算文本相似度的方法通常有四類:基于字符串(String-Based)的方法、基于語(yǔ)料庫(kù)(Corpus-Based)的方法、基于知識(shí)庫(kù)(Knowledge-Based)的方法和混合方法[1-4]。其中,基于字符串的方法是從字符串匹配度出發(fā),以字符串共現(xiàn)和重復(fù)程度為相似度的衡量標(biāo)準(zhǔn)[5]。在基于字符串的方法中,最基礎(chǔ)的是利用Jaccard系數(shù)計(jì)算文本相似度。

        2 Jaccard系數(shù)

        Jaccard系數(shù)用來比較樣本集合之間的相似性與差異性,是計(jì)算機(jī)領(lǐng)域中考察文本相似度時(shí)常用的一種方法[6]。

        給定兩個(gè)集合A和B,當(dāng)集合A與B不同時(shí)為空集時(shí),即A與B的并集不是空集時(shí),Jaccard系數(shù)定義為A與B交集的大小除以A與B并集的大小,即:

        當(dāng)集合A與B都是空集時(shí),Jaccard系數(shù)定義為1。

        Jaccard系數(shù)值越大,表明樣本之間相似度越高。

        由于集合元素的互異性,Jaccard系數(shù)用于文本相似度計(jì)算時(shí)不考慮詞在文本中出現(xiàn)的次數(shù),即不考慮詞的頻率,交集中每個(gè)詞的權(quán)重都是相同的,例如X=|A∩B|={x1,x2,…,xn},那么每個(gè)詞xi的 權(quán)重都是1/n,設(shè)詞xi在 文本1中的出現(xiàn)的頻率是f1,在文本2中的出現(xiàn)的頻率是f2,當(dāng)f1f2或f1f2時(shí),詞xi按照1/n權(quán)重參與文本計(jì)算相似度的計(jì)算顯然是不精確的,而采用基于詞頻比的改進(jìn)Jaccard系數(shù)文本相似度計(jì)算更加合理、準(zhǔn)確。

        3 基于詞頻比的改進(jìn)Jaccard系數(shù)

        3.1 原理

        基于詞頻比的改進(jìn)Jaccard系數(shù)文本相似度計(jì)算的原理是,交集中詞的權(quán)重不是相同的,按照詞頻比確定權(quán)重,具體算法是:

        設(shè)X=|A∩B|={x1,x2,…,xn},設(shè)詞xi在 文本1中的出現(xiàn)的頻率是f1,在文本2中的出現(xiàn)的頻率是f2,比較f1和f2的 大小,當(dāng)f1≤f2時(shí),詞xi的 權(quán)重是f1/ f2,否則權(quán)重是f2/ f1,將交集中所有詞x1,x2,…,xn的 權(quán)重求和,最后將交集權(quán)重和除以并集元素個(gè)數(shù)作為文本相似度。

        基于詞頻比的改進(jìn)Jaccard相似度顯然比Jaccard相似度更加合理,通常情況下,基于詞頻比的改進(jìn)Jaccard相似度都會(huì)小于Jaccard相似度,只有在交集為空,或者所有交集中的詞頻都是“1”的情況下,兩者相似度相等。

        3.2 步驟

        基于詞頻比的改進(jìn)Jaccard系數(shù)文本相似度計(jì)算的步驟主要有分詞、去停用詞、統(tǒng)計(jì)詞頻并按詞排序、計(jì)算交集中的詞頻比、計(jì)算相似度。

        具體算法是:分詞前去掉空格和符號(hào),只保留文字和數(shù)字,然后采用jieba分詞;去停用詞,去掉文本中語(yǔ)氣助詞、副詞、介詞、連詞等實(shí)際意義不大的詞,如“的”、“在”、“和”、“接著”等;建立字典并按詞排序,建立詞列表和詞頻列表;求出詞的交集和并集,統(tǒng)計(jì)交集個(gè)數(shù)和并集個(gè)數(shù),只保留交集列表中的詞頻,因?yàn)榉墙患脑~在計(jì)算相似度時(shí)的值是零,所以不必保留,這樣可以有效減少列表長(zhǎng)度和計(jì)算時(shí)間;將進(jìn)行相似度比較的兩個(gè)文本的交集詞頻存放在兩個(gè)列表中,低詞頻存放在minList[i],高詞頻存放在maxList[i],計(jì)算對(duì)應(yīng)詞頻比minList[i]/maxList[i],將對(duì)應(yīng)詞頻比求和,即:

        最后除以并集列表的長(zhǎng)度;通過以上步驟求出基于詞頻比的改進(jìn)Jaccard系數(shù)的文本相似度。

        4 實(shí)驗(yàn)與結(jié)果分析

        實(shí)驗(yàn)采用python 3.5編程實(shí)現(xiàn),無論是短文本實(shí)驗(yàn),還是長(zhǎng)文本實(shí)驗(yàn),基于詞頻比的改進(jìn)Jaccard相似度都比傳統(tǒng)Jaccard相似度更加科學(xué)合理。

        4.1 短文本實(shí)驗(yàn)與結(jié)果分析

        短文本相似度實(shí)驗(yàn)可以直觀解釋基于詞頻比的改進(jìn)Jaccard系數(shù)計(jì)算文本相似度的原理。參與計(jì)算的兩個(gè)短文本分別是短文本1:爸爸愛媽媽,媽媽愛爸爸。短文本2:我愛爸爸和媽媽。停用詞表為“和”。

        程序運(yùn)行結(jié)果如下:

        讀入的文本1為:爸爸愛媽媽,媽媽愛爸爸。

        分詞后的文本1為:爸爸 愛媽媽 媽媽 愛爸爸。

        去停用詞后的文本1為:爸爸 愛媽媽 媽媽 愛 爸爸。

        讀入的文本2為:我愛爸爸和媽媽。

        分詞后的文本2為:我愛爸爸 和媽媽。

        去停用詞后的文本2為:我愛爸爸 媽媽。

        文本1的列表為:['爸爸','愛','媽媽','媽媽','愛','爸爸']。

        文本1的字典排序?yàn)椋篬('媽媽',2),('愛',2),('爸爸',2)]。

        文本1的詞為:['媽媽','愛','爸爸']。

        文本1的詞頻為:[2,2,2]。

        文本2的列表為:['我','愛','爸爸','媽媽']。

        文本2的字典排序?yàn)椋篬('媽媽',1),('我',1),('愛',1),('爸爸',1)]。

        文本2的詞為:['媽媽','我','愛','爸爸']。

        文本2的詞頻為:[1,1,1,1]。

        交集列表為:['媽媽','愛','爸爸']。

        并集列表為:['媽媽','我','愛','爸爸']。

        交集個(gè)數(shù)為:3;并集個(gè)數(shù)為:4;Jaccard相似度為:3/4=75.00%;交集低詞頻列表為:[1,1,1];交集高詞頻列表為:[2,2,2];詞頻比為:[0.5,0.5,0.5];基于詞頻比的改進(jìn)Jaccard相似度為:1.5/ 4=37.50%。

        實(shí)驗(yàn)結(jié)果表明,基于詞頻比的改進(jìn)Jaccard相似度明顯比Jaccard相似度更加精確。

        4.2 長(zhǎng)文本實(shí)驗(yàn)與結(jié)果分析

        長(zhǎng)文本相似度實(shí)驗(yàn)采用《中華人民共和國(guó)教育法》作為測(cè)試數(shù)據(jù)。法律法規(guī)頒布以后,為了與時(shí)俱進(jìn),常常會(huì)進(jìn)行修正和修訂,比較相關(guān)法律法規(guī)的相似度有利于研究法律法規(guī)的延續(xù)性和差異性。《中華人民共和國(guó)教育法》于1995年頒布,2009年第一次修正,2015年第二次修正。經(jīng)過3次相似度對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:

        2009年修正的教育法對(duì)比1995年頒布的教育法:交集詞個(gè)數(shù)為:806;并集詞個(gè)數(shù)為:814;Jaccard相似度為:99.02%;基于詞頻比的改進(jìn)Jaccard相似度為:98.14%。

        2015年修正的教育法對(duì)比1995年頒布的教育法:交集詞個(gè)數(shù)為:779;并集詞個(gè)數(shù)為:929;Jaccard相似度為:83.85%;基于詞頻比的改進(jìn)Jaccard相似度為:77.67%。

        2015年修正的教育法對(duì)比2009年修正的教育法:交集詞個(gè)數(shù)為:778;并集詞個(gè)數(shù)為:922;Jaccard相似度為:84.38%;基于詞頻比的改進(jìn)Jaccard相似度為:78.82%。

        實(shí)驗(yàn)結(jié)果分析:1995頒布的教育法共有84條法條,2009修正的教育法共有83條法條,其中修改1條,刪除1條,2015修正的教育法共有86條法條,其中修改15條,增加3條。因?yàn)?009修正的教育法修改的法條非常少,2015修正的教育法修改的法條比較多,所以3次實(shí)驗(yàn)結(jié)果完全符合實(shí)際情況。

        5 結(jié)語(yǔ)

        基于詞頻比的改進(jìn)Jaccard系數(shù)計(jì)算文本相似度算法簡(jiǎn)單,實(shí)現(xiàn)方便,運(yùn)行高效,不需要語(yǔ)料庫(kù)和知識(shí)庫(kù),適合法律法規(guī)、政策文件等說明性文本的比較。這種方法的不足之處是每個(gè)詞語(yǔ)都是獨(dú)立的,沒有考慮詞語(yǔ)之間的順序,也不包含語(yǔ)義信息,所以“我愛媽媽”和“媽媽愛我”的相似度是100%,“我愛媽媽”和“我愛母親”的相似度是50%,這時(shí)候的相似度計(jì)算是不準(zhǔn)確的,需要采用其他方法進(jìn)行比較。

        猜你喜歡
        教育法詞頻列表
        思考
        巧用列表來推理
        基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        學(xué)習(xí)運(yùn)用列表法
        擴(kuò)列吧
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        不含3-圈的1-平面圖的列表邊染色與列表全染色
        《職業(yè)教育法》重要問題修訂意見的調(diào)查
        亚洲视频中文字幕更新| 亚洲成a人片在线观看无码| 91精品国产乱码久久中文| 国产精品久久久久久久久绿色| 少妇高潮惨叫正在播放对白| 麻豆国产av尤物网站尤物| 国产成人综合日韩精品无| 久久精品伊人久久精品| 亚洲人成在线播放网站| 日本成本人三级在线观看| 亚洲一级电影在线观看| 邻居少妇张开腿让我爽视频| 亚洲av免费手机在线观看| 无套内射无矿码免费看黄| 日韩亚洲制服丝袜中文字幕| 亚洲色图在线视频免费观看| 亚洲最大一区二区在线观看| 国精品午夜福利视频不卡| 丝袜AV在线一区二区三区| 五月天亚洲av优女天堂| 精品国产一区二区三区三级| 精品久久欧美熟妇www| 国产在线观看黄| 隔壁的日本人妻bd高清中字| 国产av国片精品有毛| 国产第19页精品| 国产av91在线播放| 国产区女主播一区在线| 欧美精品videossex少妇| 任你躁欧美一级在线精品免费| 日本国产一区二区在线观看| 色一情一乱一伦一视频免费看| 少妇高潮惨叫久久久久久| 国产人妖一区二区在线| 人妻久久一区二区三区蜜桃| 亚洲精品无码久久久久秋霞| 久久亚洲日本免费高清一区| 国产精品亚洲综合久久| 亚洲av无码乱码国产精品| 国产精品一区二区在线观看完整版| 美国又粗又长久久性黄大片|