亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本相似性檢索技術(shù)解決命題中重題檢測問題的實踐
        ——以北京市自學(xué)考試命題為例

        2018-05-30 08:18:33沈鋼
        中國考試 2018年3期
        關(guān)鍵詞:查重查全率題庫

        沈鋼

        (北京教育考試院,北京 100083)

        1 問題提出

        如何控制復(fù)本試卷間試題的重復(fù)率是專業(yè)考試機(jī)構(gòu)的一個難題。以單個試題為基礎(chǔ)的題卡庫,重復(fù)的試題不僅造成資源浪費和額外的開銷,還會嚴(yán)重地影響組卷的質(zhì)量。以試卷為基礎(chǔ)的卷庫,試卷重復(fù)率超標(biāo)①試卷重復(fù)率超標(biāo)指的是一張試卷中的試題同復(fù)本試卷重題分值之和是否超標(biāo),其標(biāo)準(zhǔn)需要參照命題部門的內(nèi)部標(biāo)準(zhǔn)。,不僅影響考試的公平、公正與測驗的效度,還會讓社會對考試機(jī)構(gòu)的專業(yè)性產(chǎn)生質(zhì)疑。傳統(tǒng)的人工檢測既費時,又費力。舉例來說,假設(shè)題庫中已有1 000道試題,需要新添加10道試題,則需要進(jìn)行10 000次檢測,才能完成人工核查試題重復(fù)率(以下簡稱“查重”)。如果要查重新命制試題與全部已考試題,人力根本無法勝任。從多年實際工作的效果來看,通過查重方式不僅效率低下,而且無法全面、準(zhǔn)確地統(tǒng)計試題重復(fù)率,查重存在很大的風(fēng)險。鑒于此,我們引用計算機(jī)文本相似性檢索系統(tǒng),結(jié)合已有的自學(xué)考試命題信息管理系統(tǒng),設(shè)計了自學(xué)考試試題查重系統(tǒng)。

        1.1 文本相似性檢索

        文本相似性技術(shù)是數(shù)據(jù)挖掘、信息分類、信息檢索等電子信息處理研究領(lǐng)域的基礎(chǔ),根據(jù)文本的內(nèi)容屬性來度量兩個電子文檔的相似程度,在論文剽竊檢索、稿件查重、版權(quán)保護(hù)等方面有著廣泛的應(yīng)用。相似試題檢測是指把試題庫中相似度很高的試題抽取出來,由學(xué)科專家來判定它們是否有同時存在的必要性,或由計算機(jī)自動篩掉相似度很高的試題[1]。本文提出的試題查重系統(tǒng)是在拓爾思(Text Retrieval System,TRS)相似文本檢索軟件的基礎(chǔ)上,結(jié)合自學(xué)考試的命題特點二次開發(fā)的計算機(jī)軟件。系統(tǒng)首先對文本進(jìn)行分詞和詞性標(biāo)注,然后使用特征提取技術(shù)抽取有用的文本特征,將提取的文本特征表示成文本“指紋”,最后到文檔“指紋”庫中檢索與當(dāng)前文檔相似的文檔,并給出文檔的相似度量。

        1.2 重題與相似試題的界定

        在計算試題相似度之前,我們首先要定義重題和相似試題。重題,顧名思義就是完全或者幾乎完全雷同的試題。而相似試題是指兩道題在形式和內(nèi)容上有很大的相似之處,但又不完全相同,所產(chǎn)生的效果也是不相同的。例如兩道題,“在我國國家秘密的3個等級中,其密級應(yīng)由縣以上單位頒布的是”和“在我國國家秘密的3個等級中,其密級應(yīng)由市以上單位頒布的是”,題干文字內(nèi)容非常相近,但一個關(guān)鍵字的區(qū)別使兩道試題考查了同一個知識點的不同內(nèi)容,答案也完全不同。

        重題不但會造成資源的浪費,還會產(chǎn)生試卷質(zhì)量的隱患。重題不應(yīng)該出現(xiàn)在題庫中。在卷庫的使用中也有嚴(yán)格的限制,需要計算一張試卷中重題的分值是否超標(biāo)。而相似試題在很多時候?qū)τ诿}尤其是自學(xué)考試命題是有意義的。一本教材的知識點是有限的,題庫中不可能完全回避相同知識點的試題。從課程的學(xué)習(xí)和考試的規(guī)律上看,課程的重點內(nèi)容和重要知識點不僅不能回避,還應(yīng)該反復(fù)考核。一方面,只有考查課程的重點知識才能準(zhǔn)確地測量被試的能力;另一方面,如果限制命題教師命制相似試題,則會產(chǎn)生大量的偏題、怪題,從而降低試卷的信度和效度;同時,由于相似試題的考點和試題形式相近,使用相似試題還有助于提高試卷之間的平行性。然而,在實際命題工作中,相似試題的使用也有相應(yīng)的要求。首先,相似試題不能出現(xiàn)在同一張試卷里,這有可能會造成考核點重復(fù)或者試題相互提示的問題;其次,對于相近期次的考試,相似試題的分值也要嚴(yán)格控制,以免考生抓住規(guī)律,投機(jī)取巧。

        1.3 文本檢索工具

        如何選擇文本檢索工具是設(shè)計試題查重系統(tǒng)時遇到的一個核心問題。經(jīng)過研究討論,有以下幾種方案可供選擇:1)利用數(shù)據(jù)庫產(chǎn)品的全文檢索功能。此方案的優(yōu)點是幾乎沒有額外研發(fā)和采購的成本,但是,查重的指標(biāo)不清晰,檢索的體系封閉,很難做進(jìn)一步的優(yōu)化。2)基于文本分詞進(jìn)行比對,可以利用開源社區(qū)如Apache的Lucence項目成果。此方案優(yōu)點是整體技術(shù)可控,但未考慮忽略詞、同義詞的干擾因素,效果不好。3)利用現(xiàn)有文本特征提取和相似度計算的研究成果,選擇合適的算法并將算法程序化。此方案的優(yōu)點是采用的理論可以得到比較權(quán)威的證實,但對實驗室產(chǎn)品的實際效果缺乏案例支持,而且參數(shù)調(diào)校耗費大量精力。4)在商業(yè)化的文本檢索和語義理解產(chǎn)品基礎(chǔ)上開發(fā)查重系統(tǒng)。此方案的優(yōu)點是具有類似成功案例的支持,如網(wǎng)頁去重、專利查新、論文剽竊檢測等領(lǐng)域的應(yīng)用,并可以開放接口以便于二次開發(fā);此方案的缺點是將付出較為昂貴的成本代價。在考慮自主開發(fā)程序的難度以及使用效果后,我們認(rèn)為,第4種方案更適合本系統(tǒng)的開發(fā),最終選用了業(yè)內(nèi)比較成熟的文本相似性檢索軟件——拓爾思作為系統(tǒng)的文本檢索工具。

        2 系統(tǒng)的設(shè)計和實現(xiàn)

        2.1 試題錄入模板

        試題電子化是試題查重的基礎(chǔ)。因此,試題數(shù)據(jù)來源的規(guī)范以及信息讀取的完整與準(zhǔn)確是查重系統(tǒng)的先決條件。試題錄入模板為命題教師提供了一個方便錄入試題和參數(shù)的載體,系統(tǒng)通過讀取模板文件可以將試題拆分成題干、選項、答案和參數(shù)等信息,并批量入庫。除上述信息外,試題模板還提供了課程代碼、試卷編號、每道試題的題號以及所屬題型等內(nèi)容。試題錄入模板采用word文件作為載體,word的錄入方式比軟件填寫方式更容易被命題教師所接受。試題錄入模板在word的基礎(chǔ)上加入保護(hù)區(qū)和書簽定位,命題教師只允許在保護(hù)區(qū)內(nèi)填寫內(nèi)容,保證了命題教師無法隨意改動模板的結(jié)構(gòu)。同時,系統(tǒng)通過書簽可以精準(zhǔn)定位試題或參數(shù)的起始位置,并把相關(guān)內(nèi)容抽取出來[2]。

        2.2 閾值的設(shè)定

        本文的閾值是指兩道試題的匹配符合程度,數(shù)值為0~1之間的實數(shù),共100個等級,數(shù)值越大,表明2道試題相似度越高。當(dāng)取值為1時,表明兩道試題完全相同,即重復(fù)試題;數(shù)值越小,則表明兩道試題相似度越低,當(dāng)取值為0時,表明兩道試題完全不同[3]。試題查重系統(tǒng)需要使用者預(yù)先設(shè)定閾值,系統(tǒng)在查重后會返回大于閾值的試題列表。我們根據(jù)自學(xué)考試的實際情況,設(shè)置不同閾值反復(fù)測試,最終將閾值的默認(rèn)值設(shè)置為0.80。根據(jù)此閾值檢測出的試題,基本覆蓋所有相似試題和重題,并把需要人工復(fù)核的試題數(shù)量控制在一個合理的范圍,保證了實際使用的工作效率。另外,針對不同課程的具體情況,使用者也可以手動調(diào)整閾值,以達(dá)到最佳的查重效果。

        2.3 查重系統(tǒng)工作流程

        從命題工作程序來看,自學(xué)考試命題工作分為分散命題、試題接收、試題入庫、試卷生成、試卷校對、試卷驗收等環(huán)節(jié)。目前采用的人工試題查重設(shè)置在試卷驗收環(huán)節(jié),這種工作模式的弊端在于:查重范圍有限;需要人工計算試卷重復(fù)試題的分?jǐn)?shù)以及與某套試卷中重復(fù)試題的分?jǐn)?shù)之和;若發(fā)現(xiàn)重復(fù)率超標(biāo)的情況,就要由命題教師補(bǔ)救,工作比較被動。啟用試題查重系統(tǒng)后,可以在試題接收環(huán)節(jié),即試題入庫前進(jìn)行試題查重,將查重結(jié)果立即反饋給學(xué)科秘書和命題教師,學(xué)科秘書或命題教師可以在第一時間對疑似重復(fù)試題進(jìn)行處理。如果使用者不希望人工干預(yù),只需要把默認(rèn)閾值設(shè)置的高一些,系統(tǒng)也可以完成自動相似試題檢測,但自動相似試題檢測的缺陷是可能產(chǎn)生誤判的現(xiàn)象[1]。

        試題查重系統(tǒng)工作流程如圖1所示。具體工作流程如下:

        圖1 試題查重系統(tǒng)流程圖

        1)命題教師將填好的試題模板交給工作人員,通過命題管理信息系統(tǒng)對試題模板進(jìn)行加載、拆分,生成試卷包導(dǎo)入系統(tǒng)。

        2)工作人員對查重參數(shù)進(jìn)行設(shè)置,包括閾值和是否同題型查重(一般為默認(rèn))。查重系統(tǒng)對導(dǎo)入的試題文本進(jìn)行分析,內(nèi)容包括題干、選項和答案,提取文本特征并與題庫中同科目的試題進(jìn)行對比。

        3)系統(tǒng)列出查重結(jié)果,包括所有超過閾值的試題、系統(tǒng)對應(yīng)的已存在題庫中的試題題號、試題內(nèi)容、試題所屬試卷的試卷編號等。除此之外,系統(tǒng)還將計算出本次導(dǎo)入試題中超過閾值的試題的分?jǐn)?shù)之和、與某套試卷中疑似重復(fù)試題的分?jǐn)?shù)之和,并提供打印查重結(jié)果供學(xué)科秘書參考。

        4)學(xué)科秘書對系統(tǒng)給出的查重結(jié)果進(jìn)行人工審核,若確認(rèn)本套試卷重復(fù)試題分?jǐn)?shù)超過命題要求的標(biāo)準(zhǔn),則反饋給命題教師進(jìn)行修改。

        5)命題教師對重復(fù)試題進(jìn)行修改,將重新編輯后的試題模板導(dǎo)入系統(tǒng),再次查重后如果確認(rèn)合格,試題入庫。

        3 實驗結(jié)果和討論

        為了測試實際使用效果,我們利用自學(xué)考試題庫的數(shù)據(jù)對系統(tǒng)進(jìn)行測試。選取5門自學(xué)考試課程作為測試對象,并對題庫中的部分試題進(jìn)行改造,使其成為相似題和重題,以滿足測試的需要。

        3.1 準(zhǔn)確率和查全率

        本文引入衡量信息檢索系統(tǒng)性能最重要的2個參數(shù)——準(zhǔn)確率和查全率。準(zhǔn)確率和查全率是廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的2個度量值,用來評價結(jié)果的質(zhì)量。其中,準(zhǔn)確率是檢索出相關(guān)文檔數(shù)與文檔總數(shù)的比率,查全率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率。兩者取值在0~1,數(shù)值越接近1,準(zhǔn)確率或查全率就越高。準(zhǔn)確率和查全率的數(shù)學(xué)公式為:準(zhǔn)確率=提取出的正確文本數(shù)/提取出的文本數(shù)×100%,查全率=提取出的正確文本數(shù)/樣本中的文本數(shù)×100%[4]。

        3.2 實驗結(jié)果

        5門課程在題庫中共有1 858道試題,我們準(zhǔn)備了150道相似試題,50道重題。測試試題分布情況如表1所示。

        表1 測試試題分布情況

        本次測試統(tǒng)一采用0.80作為查重閾值。首先對查重結(jié)果進(jìn)行逐題分析,判斷檢索出的試題是否與原題相關(guān),是否屬于相似試題或重題。經(jīng)過對查重結(jié)果進(jìn)行人工統(tǒng)計后,得出測試結(jié)果如表2所示。

        表2 測試結(jié)果

        通過測試結(jié)果可以看出,相似題和重題的準(zhǔn)確率和查全率令人滿意。在閾值設(shè)置為0.80的情況下,相似題的查全率也可以達(dá)到100%。通過綜合分析,我們可以歸納出影響查重檢測結(jié)果的因素主要有:1)題庫中試題的總量。目前測試的課程在題庫中大約有8~10套的存量題,如果對容量更大的題庫進(jìn)行測試,預(yù)計準(zhǔn)確率將有所降低。但自學(xué)考試題庫受自學(xué)考試特點所限,實際題庫容量不會太大,因此,系統(tǒng)能夠滿足自學(xué)考試題庫的需求。2)閾值的大小。閾值的大小直接決定檢測出試題的數(shù)量和人工處理的工作量。在閾值設(shè)置為0.80的情況下,查全率可以達(dá)到100%,準(zhǔn)確率也達(dá)到比較高的標(biāo)準(zhǔn),人工復(fù)核的壓力較小。因此,0.80作為默認(rèn)查重閾值是合理的。3)樣本的內(nèi)容。本次測試的樣本是對題庫中現(xiàn)有試題進(jìn)行改造后形成的,對原題內(nèi)容改動的多少直接影響檢測結(jié)果。4)人工判斷。檢索出的試題是否與樣本相關(guān),即是否認(rèn)定為相似題或重題,取決于工作人員的人工判斷。本次測試過程的人工判斷是由具有豐富命題管理經(jīng)驗的學(xué)科秘書負(fù)責(zé)實施,認(rèn)定的結(jié)果可以被認(rèn)為是準(zhǔn)確的。

        4 結(jié)語

        試題查重系統(tǒng)成功地將文本相似性檢索引入到試題查重檢測,并很好地融入了現(xiàn)有的命題流程,實現(xiàn)了半自動化的試題查重檢索。對5門自學(xué)考試課程進(jìn)行實驗測試表明,試題查重的準(zhǔn)確率和查全率均達(dá)到較高的水平。該系統(tǒng)的應(yīng)用使控制自學(xué)考試試題重復(fù)率成為可能,解決了命題管理中復(fù)本試卷間重復(fù)率超標(biāo)的難題,節(jié)省了人力資源,提高了工作效率和命題質(zhì)量。該試題查重系統(tǒng)雖是以自學(xué)考試題庫作為模型設(shè)計開發(fā)的,但通用性較強(qiáng),未來可以推廣到其他的考試項目。

        [1]李峰超.基于領(lǐng)域知識的試題分類及相似試題檢測的研究[D].大連:大連海事大學(xué),2009.

        [2]沈鋼,趙曉茫.自學(xué)考試計算機(jī)題庫管理系統(tǒng)的設(shè)計與實踐[J].中國考試,2014(4):55-59.

        [3]周舫.漢語句子相似度計算方法及其應(yīng)用的研究[D].開封:河南大學(xué),2005.

        [4]李璐,江葆紅,孫紅紅.如何提高文獻(xiàn)信息檢索中的查全率與查準(zhǔn)率[J].科技文獻(xiàn)信息管理,2010(1):23-25.

        猜你喜歡
        查重查全率題庫
        “勾股定理”優(yōu)題庫
        學(xué)位論文查重亂象引關(guān)注
        科教新報(2021年18期)2021-06-11 13:25:24
        論文查重雜談
        “軸對稱”優(yōu)題庫
        “軸對稱”優(yōu)題庫
        “整式的乘法與因式分解”優(yōu)題庫
        學(xué)術(shù)論文該“查”什么?
        雜文月刊(2018年20期)2018-11-14 21:28:46
        海量圖書館檔案信息的快速檢索方法
        學(xué)術(shù)論文該“查”什么?
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        国产女主播福利一区在线观看| 少妇特黄a一区二区三区| 最新国产三级| 毛片av中文字幕一区二区| 国产一区二区三区av免费| а√天堂资源官网在线资源| 少妇高潮惨叫久久久久久| 国产视频不卡在线| 国产精品国产传播国产三级| 十八禁视频网站在线观看| 国产精品无套内射迪丽热巴| 日本一道dvd在线中文字幕| av新型国产在线资源| 综合色就爱涩涩涩综合婷婷| 免费人成再在线观看网站 | 中文字幕五月久久婷热| 久久精品国产亚洲av高清三区| 久久成人影院精品777| 中文字幕国产欧美| 日本激情一区二区三区| 熟女体下毛荫荫黑森林| 扒开双腿疯狂进出爽爽爽视频| 国产一区二区三区免费在线视频| 国产丝袜美腿中文字幕| 高h纯肉无码视频在线观看| 麻豆国产高清精品国在线| 午夜日本理论片最新片| 亚洲性无码av中文字幕 | 欧洲中文字幕| 翘臀诱惑中文字幕人妻| 久久久亚洲欧洲日产国码aⅴ| 国产精品揄拍100视频| 日韩精品视频免费福利在线观看| 日本高清乱码中文字幕| 日本成本人三级在线观看| 日韩精品一区二区三区毛片| 丰满老熟女性生活视频| 欧洲美女黑人粗性暴交| 国产白丝网站精品污在线入口| 国产又湿又爽又猛的视频| 玩弄放荡人妇系列av在线网站|