亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lucene 的畢業(yè)論文相似性檢測

        2013-12-06 06:32:50裴志松
        關(guān)鍵詞:畢業(yè)論文文檔排序

        裴志松

        (長春工業(yè)大學(xué)人文信息學(xué)院,長春130122)

        0 引言

        畢業(yè)論文是本科人才培養(yǎng)的重要實踐性教學(xué)環(huán)節(jié),也是學(xué)士學(xué)位評定的重要依據(jù)。但是隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)資源方便易得,畢業(yè)論文成段復(fù)制也給學(xué)生的抄襲帶來了極大的方便。本文研究和分析了開源的搜索引擎工具Lucene的原理,將Lucene技術(shù)應(yīng)用于畢業(yè)論文選題系統(tǒng)中,對上傳論文的相似性進行檢測,及時發(fā)現(xiàn)抄襲論文,防止學(xué)生抄襲,進而提高論文質(zhì)量。

        1 Lucene及相關(guān)技術(shù)

        1.1 Lucene概述

        Lucene是Apache軟件基金會Jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包。Lucene有兩個主要的服務(wù):索引和檢索,兩者任務(wù)是相互獨立的。Lucene提供了豐富的API,可以與存儲在索引中的信息方便地交互。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便地在目標(biāo)系統(tǒng)中實現(xiàn)全文檢索的功能,這使得開發(fā)人員可以根據(jù)需要對它們進行擴展。在實際應(yīng)用中,Lucene只是一個java.jar包。即若想讓Lucene真正起作用,還需在其基礎(chǔ)上做一些必要的二次開發(fā)[1]。

        1.2 Lucene體系結(jié)構(gòu)

        Lucene的系統(tǒng)由基礎(chǔ)結(jié)構(gòu)封裝、索引核心、對外接口3大部分組成[2],如圖1所示。

        圖1 Lucene體系結(jié)構(gòu)

        由圖1所示Lucene體系結(jié)構(gòu)可以看出,Lucene代碼的組織結(jié)構(gòu)主要包括7個包,每個包都完成特定的功能[3],如表1所示。

        1.3 Lucene的核心技術(shù)

        Lucene的核心技術(shù)包括分詞技術(shù)、倒排索引技術(shù)和檢索技術(shù)。

        表1 Lucene包結(jié)構(gòu)功能表

        1.3.1 分詞技術(shù)

        Lucene中所包含的文本分析接口不依賴任何文件格式及語言,索引器若要創(chuàng)建索引文件只需獲取到Token流即可。因為Lucene具有良好的可擴展性,用戶若要實現(xiàn)中文檢索功能只需擴展Lucene中所包含的語言及詞法分析接口[4]。

        1.3.2 倒排索引技術(shù)

        Lucenc使用了眾所周知的索引結(jié)構(gòu):倒排索引。因為通常索引是描述某文檔包含了某詞項。但是用戶查詢是通過詞項來查找文檔,需要遍歷所有文檔才能找到包含該詞項的文檔。因此,如果以詞項為中心,記錄每個詞項出現(xiàn)的文檔,就能更有效率地完成查詢過程。

        Lucene索引index由若干段(segment)組成,每一段由若干的文檔(document)組成,每一個文檔由若干的域(field)組成,每一個域由若干的項(term)組成。項是最小的索引概念單位,它直接代表了一個字符串及其在文件中的位置、出現(xiàn)次數(shù)等信息。域是一個關(guān)聯(lián)的元組,由一個域名和一個域值組成。文檔是提取了某個文件中的所有信息之后的結(jié)果,這些組成了段,或者稱為一個子索引。子索引可以組合為索引,也可以合并為一個新的包含了所有合并項內(nèi)部元素的子索引。我們可以清楚地看出Lucene的索引結(jié)構(gòu)在概念上即為傳統(tǒng)的倒排索引結(jié)構(gòu)。

        1.3.3 檢索技術(shù)

        當(dāng)用戶提交查詢請求后,檢索程序會從索引數(shù)據(jù)庫中找出所有符合關(guān)鍵詞的相關(guān)文檔。按照現(xiàn)成的相關(guān)度數(shù)值進行排序,因為跟該關(guān)鍵詞相關(guān)的所有文檔早已計算好。相關(guān)度越高的數(shù)據(jù),排名就會越靠前。最后將搜索結(jié)果頁面的內(nèi)容摘要、鏈接地址等內(nèi)容組織起來呈現(xiàn)給用戶。這個過程就是檢索的基本流程,包括查詢詞的預(yù)處理、文本索引庫匹配、相似度和排序計算、文檔結(jié)果排重和生成結(jié)果頁。

        2 Lucene在論文檢測中的應(yīng)用

        畢業(yè)論文選題系統(tǒng)除了包含教師出題、學(xué)生選題、教師審核、學(xué)生上傳論文等基本功能外,還具有論文檢測功能。論文檢測,就是對自然語言文本進行相似度計算,在指定論文庫中找出兩兩相似的論文。論文檢測主要包括抄襲的界定、倒排索引、隨機特征碼提取、針對提取的特征碼進行搜索、相似度計算并排序等過程。該檢測所有排序后的結(jié)果均以超鏈接方式顯示,檢測人員可通過超鏈接直接打開論文。本系統(tǒng)中的論文檢測是基于Lucene工具包進行索引與檢索并進行相似度計算的。

        2.1 抄襲的界定

        抄襲很難用一個量化指標(biāo)來確定,目前比較通用的判斷方法是:如果文本有10%的內(nèi)容相似,即認(rèn)定為抄襲。但是在教學(xué)領(lǐng)域,考慮到學(xué)生們論文的書寫水平和查找參考資料的途徑,本系統(tǒng)將相似度閾值暫定為20%,日后可根據(jù)實際情況設(shè)定合適的閾值。本系統(tǒng)只針對字面上的抄襲進行判定,無法識別對文檔思想抄襲的情況。系統(tǒng)的判斷結(jié)果僅僅作為一種建議,最后由系統(tǒng)管理員對是否抄襲進行確認(rèn)。

        2.2 建立索引

        Lucene的檢索原理是搜索索引,是一種典型的用空間換時間的做法。檢索的時候,需要先對檢索內(nèi)容建立索引,檢索詞只在索引上進行搜索。所建立的索引是倒排索引,也就是針對關(guān)鍵詞,記錄該關(guān)鍵詞出現(xiàn)的位置、次數(shù)、關(guān)鍵詞所對應(yīng)的文件名等信息,這樣能快速得到檢索結(jié)果。相對于檢索速度得到的回報,所付出的空間代價是微不足道的,因為文本文件所占用的磁盤空間少,而索引文件大概只占內(nèi)容大小的30%。主要代碼:

        2.3 提取特征碼

        采用隨機特征碼提取算法,提取特征碼。該算法將隨機算法和特征碼向量聚類算法相結(jié)合,利用對文檔某些位置的詞串進行抽樣來發(fā)現(xiàn)相似的論文。通常特征碼會選取多個,每個特征碼的取位是隨機數(shù),而特征碼長度固定[5]。

        由于畢業(yè)論文文章較長,且題目相似性較大,因此特征碼選取不能太少,否則,大量文章的檢索關(guān)鍵詞相差不多,會造成很高的誤判率。特征碼長度L即要能區(qū)分不同論文,又要考慮到論文間的相似性,因此L一般不小于10個詞。特征碼由一系列詞串組成,從選取位置自左向右,忽略大小寫與標(biāo)點。

        特征碼選取的位置可以是普通段落也可以是標(biāo)題或關(guān)鍵詞等重要位置。特征碼首詞位置隨機產(chǎn)生,即隨機數(shù)是在(SminSmax)之間的整數(shù)。由于特征碼選取的位置對文章檢索意義有較大區(qū)別,因此采用特征碼位置具有不同權(quán)值來區(qū)分其檢索的關(guān)鍵性。

        2.4 文本搜索

        當(dāng)抽取一定數(shù)量和長度的特征碼后,對所有特征碼進行組合,構(gòu)成特征向量。Lucene將特征向量在記錄中出現(xiàn)的次數(shù)、頻率、位置的映射來檢索,大大提高檢索效率。同時,Lucene使用了一套非常優(yōu)秀的評分機制來對檢索出的文檔進行相似性排序。這套評分機制綜合了檢索詞的詞頻、逆文檔頻率、激勵因子(權(quán)重)等因素來衡量文檔間的相似性,根據(jù)預(yù)先設(shè)定好的閾值進行判斷,將相似度大于閾值的論文判定為抄襲論文,以使結(jié)果更為合理。搜索分為以下4個部分[6]:

        (1)計算特征碼詞串在各個索引的得分,排序得分確定需要查詢的索引集合。選擇超過特定閾值的簇或者根據(jù)得分排序選取特定數(shù)目的簇。假設(shè)特征碼詞串為Q={tq1,tq2,……tqk},索引簇index-1的簇心PC={tq1:w1,tq2:w2,……tqk:wk}。根據(jù)式(1)計算特征碼詞串在索引中評分

        (2)計算各特征碼的全局文檔頻率DF值然后再計算全局IDF,主要代碼如下:

        (3)IndexSearcher是Lucene搜索中最主要的類,Similarity類會調(diào)用IndexSearch中的統(tǒng)計函數(shù)來獲取特征碼的DF值和文檔總數(shù),本文方法繼承并覆蓋IndexSearcher中相應(yīng)的方法docFreq()和maxDoc(),分別返回對應(yīng)的全局IDF值和文檔數(shù),主要代碼如下:

        3 實驗結(jié)果

        實驗的論文數(shù)據(jù)來自2009級畢業(yè)生的489篇畢業(yè)論文。下面用傳統(tǒng)的文本聚類與本文提出的基于Lucene的隨機特征碼算法進行論文抄襲對比試驗,用以確定這2種方法在論文抄襲識別中的效果,見表2。試驗所用的計算機配置為CPU2.91,3G內(nèi)存。

        表2 兩種方法檢測雷同的比較

        實驗表明,隨機特征碼算法在查準(zhǔn)率和查全率上均有較好結(jié)果,且算法隨著數(shù)據(jù)量的增加基本呈線性結(jié)構(gòu),具有較好的時間復(fù)雜度。

        4 結(jié)語

        針對畢業(yè)論文可能出現(xiàn)的抄襲現(xiàn)象,本文探討了基于Lucene的畢業(yè)論文檢測方法。在使用Lucene進行檢索時,采用隨機特征碼提取算法,降低了偶然性,提高抄襲檢測的查全率和查準(zhǔn)率。而且該檢測方法復(fù)雜性為線性,適合大批量論文的抄襲檢測。

        需要說明的是本文提出的檢測方法只能針對字面抄襲現(xiàn)象,對于思想抄襲無法進行檢測。同時,本文只能認(rèn)定某篇論文為疑似抄襲,即起到一定的篩選和提示作用,最終確定是否為抄襲還需人工慎重辨別。

        [1]李永春,丁華福.Lucene的全文檢索的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2010,20(2):13-15.

        [2]管建和,甘劍峰.基于Lucene全文檢索引擎的應(yīng)用研究與實現(xiàn)[J].計算機工程與設(shè)計,2007,28(2):489-491.

        [3]Gospodnetic O,Hatcher E.Lucene in action[M].[s.l.]:Marrning Publications Co,2005.

        [4]周鳳麗,林曉麗.基于Lucene的Web搜索引擎的研究和實現(xiàn)[J].計算機技術(shù)與發(fā)展,2012,1(22):140-142.

        [5]秦穎,文秋芳,梁茂成.應(yīng)用隨機特征碼檢測雷同譯文[J].外語電化教學(xué),2009,11(130):14-17.

        [6]馮汝偉,謝強,丁秋林.基于文本聚類與分布式Lucene的知識檢索[J].計算機應(yīng)用,2013,33(1):186-188.

        猜你喜歡
        畢業(yè)論文文檔排序
        排序不等式
        有人一聲不吭向你扔了個文檔
        恐怖排序
        “本科畢業(yè)論文要不要取消”為何長期無解
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        基于RI碼計算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        我的月子畢業(yè)論文
        母子健康(2015年2期)2015-09-28 02:42:10
        我的月子畢業(yè)論文
        母子健康(2015年1期)2015-02-28 11:21:48
        情爱偷拍视频一区二区| 国产成年无码AⅤ片日日爱| 日本人妖一区二区三区| 国产日产韩国av在线| 国产精品∧v在线观看| 美女视频一区| 亚洲综合原千岁中文字幕| 不卡一本av天堂专区| а天堂中文最新一区二区三区| 在线播放国产一区二区三区| 毛片一级精油按摩无码| 99久久婷婷亚洲综合国产| 久久人妻无码一区二区| 乱中年女人伦av| 国产免费人成视频在线观看播放| 婷婷色精品一区二区激情| 最近2019年好看中文字幕视频| 亚洲最新偷拍网站| 日韩av不卡一二三区| 精品人妻va一区二区三区| 亚洲国产成人久久综合下载| 亚洲AⅤ无码国精品中文字慕| 久久国产精品免费久久久| 少妇无码av无码专线区大牛影院| 日本阿v网站在线观看中文| 2020国产精品久久久久| 久久久人妻一区二区三区蜜桃d| 国产精品亚洲lv粉色| 天天天综合网| 极品少妇在线观看视频| 亚洲国产精品久久久av| 日韩成人极品在线内射3p蜜臀| 国产精品无码不卡在线播放| 麻豆成人久久精品一区| 欧美国产综合欧美视频| 亚洲成a人片在线| 一区二区三区在线日本| 2018天天躁夜夜躁狠狠躁| 蜜桃av噜噜一区二区三区| 挑战亚洲美女视频网站| 白白色发布的在线视频|