亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中文分詞技術(shù)的文本相似度檢測研究

        2019-07-06 07:32:48范慶春
        池州學(xué)院學(xué)報(bào) 2019年3期

        范慶春

        (合肥師范學(xué)院計(jì)算機(jī)學(xué)院,安徽合肥230601)

        目前,本科生畢業(yè)選題存在的重題現(xiàn)象一般是用人工的方式來做相似性檢查,憑記憶和文檔的查找來區(qū)分重題。既沒有涉及字面上的相似問題,又缺乏對選題相似性工作的比較部分。蔣勇青等從分析了現(xiàn)有文獻(xiàn)相似檢測系統(tǒng)應(yīng)用的有效性[1];劉銳等采用Lucene框架技術(shù)對學(xué)位論文全文極性檢索[2];張海騰等用兩個文本向量的余弦值來計(jì)算相似度,實(shí)現(xiàn)了對電子作業(yè)的查重工作[3];張振國等使用PLSA(Probabilistic Latent Semantic Analysis,概率潛在語義分析)方法從語義角度來分析畢業(yè)論文題目的相似性[4];黃莉等使用最大公共序列算法來處理畢業(yè)論文題目相似性[5]。本文采用自然語言處理的中文分詞技術(shù)[6],最后通過選題互相比較得出相似度。

        1 研究方法

        中文分詞算法主要有基于詞典的算法、基于統(tǒng)計(jì)的算法和結(jié)合前兩者的算法[7]。先對所有的畢業(yè)選題利用jieba分詞技術(shù)進(jìn)行分詞處理,大致過程是通過jieba分詞技術(shù),利用自定義的相似度比較函數(shù),實(shí)現(xiàn)相似度檢測的結(jié)果。Jieba分詞是最常用的方法,該技術(shù)包含3種分詞模式,對于未登錄詞采用了HMM模型,使用了Viterbi算法,可以自定義添加詞和詞典,適合畢業(yè)設(shè)計(jì)選題的分詞工作[8]。

        具體工作流程如下:

        (a)讀取數(shù)據(jù)

        導(dǎo)入Excel畢業(yè)設(shè)計(jì)選題文件,讀取數(shù)據(jù)。

        (b)導(dǎo)入用戶詞典

        有些詞匯專業(yè)程度很高,在分詞之前需要將專業(yè)詞匯進(jìn)行整理,作為用戶詞典。

        (c)jieba分詞

        在使用jieba分詞之前先用jieba.load_userdict方法來導(dǎo)入用戶詞典。選擇使用精確模式進(jìn)行jieba分詞。

        (d)去停用詞

        停用詞是一些沒有意義的詞,出現(xiàn)的頻率比較高,如果不去除會影響下一步工作的準(zhǔn)確度。故分詞后,需要將兩類詞刪除,為了直觀地看到去除停用詞的效果,圖2是使用詞云的技術(shù)來對比去除停用詞前后的效果,可以看到圖(b)中的關(guān)鍵詞比圖(a)更具專業(yè)性、更突出。

        圖1 去除停用詞前后對比圖

        (e)調(diào)用自定義函數(shù)

        去停用詞的下一步就是循環(huán)調(diào)用diff函數(shù)計(jì)算選題的相似度,其中A={WORD0,WORD1,… ,WORDp-1},B={WORD0,WORD1,… ,WORDq-1},分別表示選題A、B集合中有p和q個關(guān)鍵詞。相似性計(jì)算采用(1),即用兩個選題中的詞的交集除以其并集,得到相似度的百分比REP。

        (f)保存數(shù)據(jù)

        最后一步的工作是將所有相似度檢測的結(jié)果存儲到本地Excel文件中,方便人工查閱核對。

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 數(shù)據(jù)集

        本課題采用的數(shù)據(jù)集包括兩個部分,第一部分?jǐn)?shù)據(jù)是430條計(jì)算機(jī)類專業(yè)的本科生的申報(bào)選題,從本科畢業(yè)論文管理系統(tǒng)中導(dǎo)出,其選題包含軟件APP開發(fā)、管理系統(tǒng)開發(fā)、硬件設(shè)計(jì)、網(wǎng)絡(luò)設(shè)計(jì)等各種方向。每一個選題作為Excel文件的一行,包含課題、申報(bào)人、申報(bào)時(shí)間、指導(dǎo)老師、審核是否通過等字段。

        第二部分?jǐn)?shù)據(jù)是從知網(wǎng)上通過篇名搜索方式,分別用“網(wǎng)站and研究”和“網(wǎng)站and應(yīng)用and研究”各搜索并下載100篇文獻(xiàn)名作為對比實(shí)驗(yàn)的數(shù)據(jù)集,分別命名為“知網(wǎng)數(shù)據(jù)1”和“知網(wǎng)數(shù)據(jù)2”。

        2.2 實(shí)驗(yàn)及分析

        對“知網(wǎng)數(shù)據(jù)1”和“知網(wǎng)數(shù)據(jù)2”用本課題的算法計(jì)算出其平均相似度分別是34.8%、35.1%(如表1所示),從而驗(yàn)證本課題的算法是有效的。

        表1 知網(wǎng)數(shù)據(jù)平均相似度統(tǒng)計(jì)

        根據(jù)相似性檢測工作的一般規(guī)定,相似度閾值設(shè)為29%。為了比較清楚地顯示實(shí)驗(yàn)結(jié)果,圖3使用100個選題來查重,橫坐標(biāo)為選題編號,縱坐標(biāo)是相似度百分比,將超過29%相似度的選題用散點(diǎn)圖標(biāo)記??梢钥吹较嗨贫茸罡叩氖屈c(diǎn)(45,25),它表示編號45和編號25的兩個選題相似度接近70%,點(diǎn)(83,17)相似度為60%。

        圖2 選題相似度檢測效果圖

        針對部分畢業(yè)設(shè)計(jì)選題與若干其它選題重復(fù)的情況,列出兩個實(shí)例加以說明,如圖3所示。圖3(a)表明選題“基于JAVA WEB的英語單詞學(xué)習(xí)網(wǎng)站”和另外3個選題的相似情況,其中與“基于Java Web的學(xué)習(xí)資源共享網(wǎng)站”相似度最高。圖3(b)表明與選題“基于Android的水果銷售APP”相似度最高的是選題“基于Android的鮮花銷售APP”。

        圖3 單個選題多個重復(fù)情況相似度檢測效果

        圖4 與知網(wǎng)數(shù)據(jù)實(shí)驗(yàn)效果對比圖

        本數(shù)據(jù)集中的430條畢業(yè)設(shè)計(jì)選題,相似度超過29%的選題平均有38%,與知網(wǎng)的2個實(shí)驗(yàn)對比如圖4所示,本數(shù)據(jù)集與知網(wǎng)數(shù)據(jù)獲得的相似度是可比擬的,高處的部分有多種原因造成,例如,每個畢業(yè)選題中關(guān)鍵詞比較少,其平均個數(shù)只有3.93個等。

        3 結(jié)語

        本課題采用自然語言處理技術(shù)來對本科生畢業(yè)設(shè)計(jì)選題做查重工作,基于jieba分詞技術(shù),在以知網(wǎng)數(shù)據(jù)庫作為基準(zhǔn)數(shù)據(jù)集來確保該算法的有效性的情況下,對430條計(jì)算機(jī)類專業(yè)的本科生的畢業(yè)選題進(jìn)行查重,在閾值29%的情況下,獲得了平均相似度為38%的實(shí)驗(yàn)結(jié)果。該方法同樣適用于其它專業(yè)的選題查重工作中,具有一定的實(shí)用價(jià)值。

        国产精品久久久久久久久KTV| 99噜噜噜在线播放| 亚洲视频在线观看| 色猫咪免费人成网站在线观看 | 亚洲暴爽av天天爽日日碰| 亚洲无AV码一区二区三区| 久久精品国产亚洲av豆腐| 亚洲av一二三区成人影片| 丰满少妇大力进入av亚洲| 亚洲色偷拍一区二区三区| 少妇久久一区二区三区| 国产精品理论片在线观看| 国产精品va无码一区二区| 无码一区二区三区不卡AV| 中文字幕精品久久一区二区三区| 性高朝久久久久久久3小时| 在线亚洲欧美日韩精品专区| 免费二级毛片在线播放| 亚洲av色香蕉一区二区三区av| 一本大道av伊人久久综合 | 久久精品国内一区二区三区| 久久久国产精品ⅤA麻豆百度| 丝袜av乱码字幕三级人妻| 色婷婷亚洲一区二区三区| 最近中文av字幕在线中文| 麻豆av一区二区天堂| 青青草高中生在线视频| 午夜性无码专区| 免费看一级a女人自慰免费| 亚洲国产成人久久精品美女av | 亚洲国产精品久久久久秋霞1| 亚洲第一页在线观看视频网站| 无套熟女av呻吟在线观看| 久久乐国产精品亚洲综合| 国产真实伦视频在线视频| 婚外情长久的相处之道| 激情综合色综合久久综合| 国产精品自产拍在线18禁| 日本精品少妇一区二区| 人成午夜免费视频无码| 国产成人无码aⅴ片在线观看|