亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義相似度的主觀題評(píng)分算法研究

        2012-12-26 06:44:22張立巖張世民
        關(guān)鍵詞:主觀題分詞特征向量

        張立巖,張世民

        (河北科技大學(xué)信息科學(xué)與工程學(xué)院,河北石家莊 050018)

        基于語義相似度的主觀題評(píng)分算法研究

        張立巖,張世民

        (河北科技大學(xué)信息科學(xué)與工程學(xué)院,河北石家莊 050018)

        主觀題閱卷系統(tǒng)在目前較受人們的關(guān)注。主觀題評(píng)分原則常見的是對(duì)比試卷答案與參考答案的相似程度,進(jìn)而得出分?jǐn)?shù)。利用自然語言處理分詞技術(shù)將文本切分為詞的組合,然后通過改進(jìn)語義相似度算法,計(jì)算句子相似度,進(jìn)而得到試卷答案和參考答案的相似程度,給出分?jǐn)?shù)。

        主觀題;分詞;語義相似度

        考試在任何教育體系中都是不可缺少的重要環(huán)節(jié),是考察、評(píng)估學(xué)生能否真正掌握相應(yīng)知識(shí)、技術(shù)的較為有效的檢驗(yàn)手段。在考試中主觀題占有相當(dāng)大的比例。主觀題的分值評(píng)定較直觀、全面地反映了學(xué)生掌握知識(shí)的程度,并且對(duì)于考試分?jǐn)?shù)具有重要的影響。但人工閱卷對(duì)主觀題評(píng)閱受到多種因素干擾,并不能高效、準(zhǔn)確地完成。研究一種智能主觀題閱卷系統(tǒng)取代人工閱卷成為教育系統(tǒng)的一個(gè)重要任務(wù)。筆者研究的主觀題閱卷系統(tǒng)主要解決主觀性很強(qiáng)的題目(例如論述題、簡答題等)的評(píng)分算法問題。

        1 主觀題評(píng)分算法相關(guān)理論

        自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向[1]。主觀題評(píng)分主要涉及中文分詞理論和語義相似度計(jì)算問題。

        1.1 中文分詞理論

        中文分詞理論主要研究漢字中詞與詞的分隔。中文分詞包括3種方法:1)基于字符串匹配的分詞;2)基于理解的分詞;3)基于統(tǒng)計(jì)的分詞。

        根據(jù)系統(tǒng)的要求和特點(diǎn)采用基于字符串匹配分詞方法。它是按照一定的策略將待分析的漢字串與一個(gè)充分大的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出1個(gè)詞)[2]??紤]到逆向最大匹配法分詞較為準(zhǔn)確,所以系統(tǒng)采用逆向最大匹配法。

        1.2 中文文本相似度

        文本相似度是表示2個(gè)或多個(gè)文本之間匹配程度的一個(gè)度量參數(shù),相似度越大,說明文本相似程度越高,反之越低。采用基于文本表面特征的相似度計(jì)算方法不需要大規(guī)模語料庫的支持,也不需要長時(shí)間的訓(xùn)練,準(zhǔn)確率較高。

        對(duì)于文本A和文本B的相似度通常由詞形相似度決定,詞形相似度的計(jì)算公式[3]如式(1)所示。

        其中number(A),number(B)代表文本A和B中分詞的個(gè)數(shù),Sim(A,B)代表文本A,B的相似度,但僅僅這樣計(jì)算,精確度不高。需對(duì)算法進(jìn)行改進(jìn)。

        1)將文檔分成若干詞條,由T={T1,T2,…,Tn}組成。計(jì)算詞語Ti在文本中的權(quán)值Wi,加入評(píng)估參數(shù)δ。如果Wi≥δ,則詞語Ti被提取出來并加入特征向量中,否則,不加入。評(píng)估參數(shù)δ決定文本特征向量維度的閾值,根據(jù)多次實(shí)驗(yàn)的數(shù)據(jù)獲得。這樣可降低計(jì)算效率,降低計(jì)算復(fù)雜性。

        2)對(duì)于文本A和文本B,通過中文分詞、特征向量提取和降維的步驟后得到詞條向量分別為TA={A1,A2,…,An},TB={B1,B2,…,Bn},由式(1)可得到矩陣M(n,n)={|Sij|,即向量TA中第i個(gè)詞與向量TB中第j個(gè)詞的相似度}。引入評(píng)估參數(shù)δ,如果相似度矩陣中的元素Sij≥δ,2個(gè)詞語相似度較高,這個(gè)元素就被保留下來用于在算法中構(gòu)建最長公共子序列矩陣中的一個(gè)判斷條件。評(píng)估參數(shù)δ是決定相似度高低的閾值,根據(jù)多次實(shí)驗(yàn)的數(shù)據(jù)獲得。

        3)利用2個(gè)文本得出的詞條向量以及上述判斷語義相似的條件構(gòu)建2個(gè)文本的公共子序列矩陣,從而求2個(gè)文本的最長公共子序列長度,最后用求得的長度之比計(jì)算2個(gè)文本的相似度。

        2 算法實(shí)現(xiàn)

        基于語義相似度的中文文本相似度算法流程。

        步驟1:讀取2個(gè)需要比較的文本A,B,并對(duì)文本A,B進(jìn)行分詞。

        步驟2:文本包含的詞為T={T1,T2,…,Ti,…,Tn},計(jì)算Ti在文本中的權(quán)重Wi,得到權(quán)重向量W={W1,W2,…,Wi,…,Wn},其中Wi=n×log(M/m)。n為Ti出現(xiàn)的次數(shù),m為其他文本中Ti出現(xiàn)的次數(shù),M為文本的總數(shù)。

        步驟3:依據(jù)上節(jié)算法2)對(duì)特征向量進(jìn)行提取和降維,并根據(jù)式(1)生成降維后的相似度矩陣Sij。

        步驟4:將2個(gè)特征向量存入數(shù)組arr(A)和arr(B)中,計(jì)算2個(gè)特征向量的長度L(A)和L(B)。

        步驟5:構(gòu)建最長公共子序列矩陣C[L(A)×L(B)],矩陣大小為L(A)×L(B)。

        3 分?jǐn)?shù)評(píng)定

        在評(píng)閱系統(tǒng)設(shè)計(jì)中,對(duì)于某道題,相似度高于Hi的試卷給予最高分HighScorei,語義相似度低于Li的給予最低分LowScorei,相似介于最低與最高之間的,利用式(2)計(jì)算得分:

        這樣對(duì)于有m道試題的答卷,其總分由式(3)求得:

        4 測試結(jié)果與分析

        為檢驗(yàn)算法分析文本的能力以及系統(tǒng)對(duì)試卷評(píng)閱結(jié)果的準(zhǔn)確程度,進(jìn)行計(jì)算機(jī)自動(dòng)閱卷與人工閱卷方法的比較并計(jì)算其實(shí)際誤差率。計(jì)算機(jī)自動(dòng)閱卷方法總分表示為C(sum),人工閱卷總分表示為P(sum),試卷中的實(shí)際總分表示為R(sum),誤差率η的計(jì)算公式:

        隨機(jī)抽取500份語文試卷作為樣本空間進(jìn)行手工評(píng)分和計(jì)算機(jī)自動(dòng)評(píng)分,并將結(jié)果進(jìn)行比較,比較結(jié)果的部分樣本如表1所示。

        由表1可以看出計(jì)算機(jī)閱卷系統(tǒng)的自動(dòng)評(píng)閱方法與人工閱卷方法相比,實(shí)際的誤差率相對(duì)較小,并且計(jì)算機(jī)閱卷受人為干擾因素很少,在一定的允許誤差范圍之內(nèi),表明該閱卷系統(tǒng)具有較好的準(zhǔn)確性和客觀性,同時(shí)在時(shí)間上,系統(tǒng)評(píng)閱的優(yōu)勢更加明顯。

        表1 手工評(píng)分和計(jì)算機(jī)自動(dòng)評(píng)分結(jié)果比較Tab.1 Result comparison of manual score with auto-grade by computer

        5 結(jié) 論

        主觀題的智能閱卷是計(jì)算機(jī)自動(dòng)閱卷系統(tǒng)必然選擇。模擬了閱卷評(píng)定主觀題時(shí)的思維,對(duì)基于語義的相似度算法進(jìn)行了改進(jìn),為主觀題評(píng)分提供了計(jì)算公式。當(dāng)然,測評(píng)科目不同,評(píng)估使用的參數(shù)設(shè)置會(huì)有所變化,算法在實(shí)際應(yīng)用中參數(shù)修正方面還有待深入研究。

        [1] 梁 娜,耿國華,周明全.自然語言處理中的語義關(guān)系與句法模式互發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究(Application Research of Computers),2008,25(8):2 295-2 298.

        [2] 付年鈞,彭昌水,王 慰.中文分詞技術(shù)及其實(shí)現(xiàn)[J].軟件導(dǎo)刊(Software Guide),2011,10(1):18-20.

        [3] 王常亮,騰至陽.語句相似度計(jì)算在FAQ中的應(yīng)用[J].計(jì)算機(jī)時(shí)代(Computer Era),2006(2):24-26.

        [4] 侯貴賓,曹衛(wèi)東.一種面向自然語言表達(dá)的不確定時(shí)態(tài)數(shù)據(jù)的建模方法[J].河北科技大學(xué)學(xué)報(bào)(Journal of Hebei University of Science and Technology),2010,31(5):463-467.

        Algorithm of subjective item marking based on semantic similarity

        ZHANG Li-yan,ZHANG Shi-min
        (College of Information Science and Engineerning,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China)

        Subjective item marking system has been a study focus.The common method is to contrast the answers with the reference answers to form a score.This paper uses the technology of natural language processing participle to divide a sentence into the assemble of phrases,and then get the score by computing a sentence similarity degree with improved semantic similarity algorithm.

        subjective item;participle;semantic similarity

        TP391

        A

        1008-1542(2012)03-0263-03

        2011-11-21;責(zé)任編輯:陳書欣

        張立巖(1970-),女,河北藁城人,副教授,碩士,主要從事分布式應(yīng)用開發(fā)方面的研究。

        猜你喜歡
        主觀題分詞特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        淺談“立體幾何主觀題”的復(fù)習(xí)備考
        淺談高中政治“認(rèn)識(shí)類”主觀題答題技巧
        井岡教育(2022年2期)2022-10-14 03:11:28
        極坐標(biāo)方程主觀題考點(diǎn)分析
        克羅內(nèi)克積的特征向量
        高考政治主觀題對(duì)學(xué)生思維能力的考查
        甘肅教育(2021年10期)2021-11-02 06:14:28
        結(jié)巴分詞在詞云中的應(yīng)用
        一類特殊矩陣特征向量的求法
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        值得重視的分詞的特殊用法
        成人免费自拍视频在线观看 | av成人综合在线资源站| 丝袜人妻中文字幕首页| 91九色免费视频网站| 亚洲无线一二三四区手机| 免费人成激情视频在线观看冫| 大肉大捧一进一出视频| 五月天激情综合网| 亚洲欧洲精品成人久久曰不卡| 亚洲欧美日韩中文字幕网址 | 免费看黄片的视频在线观看| 亚洲欧美国产精品久久| 夜夜揉揉日日人人| 男人天堂免费视频| 欧洲亚洲色一区二区色99| 亚洲综合久久中文字幕专区一区 | 加勒比av在线一区二区| 日本人妻免费在线播放| 中文字幕在线观看| 国产午夜精品一区二区三区嫩草| 青草热久精品视频在线观看| 精品一区二区三区不老少妇| 隔壁的日本人妻bd高清中字| 真实的国产乱xxxx在线| 中文字幕精品久久久久人妻红杏ⅰ| 亚洲成人观看| 91久久精品国产性色tv| av天堂中文亚洲官网| 天天做天天摸天天爽天天爱| 东京热人妻一区二区三区| 亚洲中文无码永久免| 伊人久久大香线蕉在观看| 久久久婷婷综合亚洲av| 午夜精品男人天堂av| 欧美69久成人做爰视频| 8ⅹ8x擦拨擦拨成人免费视频| 欧美精品一区视频| 亚洲av一二三四又爽又色又色| 在线观看视频免费播放| 亚洲一区二区三区小说| 国产真实强被迫伦姧女在线观看|