亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        研究生學位論文格式自動檢測系統(tǒng)設計與實現(xiàn)

        2017-06-19 19:32:02葉秀云劉德正
        現(xiàn)代計算機 2017年13期
        關鍵詞:段落文檔參考文獻

        葉秀云,劉德正

        (大連理工大學軟件學院,大連 116621)

        研究生學位論文格式自動檢測系統(tǒng)設計與實現(xiàn)

        葉秀云,劉德正

        (大連理工大學軟件學院,大連 116621)

        研究生學位論文一般采用Word軟件撰寫,對論文格式要求非常嚴格,傳統(tǒng)依靠人工進行格式檢測的方式效率較低?;贠penXML技術,設計一種學位論文格式自動檢測系統(tǒng),能夠根據(jù)論文模板自動掃描待測論文,找到其中不符合模板要求的格式問題,并生成檢測報告。實驗結果顯示該方法具有較低的誤報率和漏報率,能夠有效工作。

        0 引言

        國內高校大量使用微軟公司的Word字處理軟件撰寫學位論文,學位論文有較嚴格的格式要求,人工檢測效率和準確性均較低,因此有必要設計一種學位論文格式自動檢測系統(tǒng)。安徽工業(yè)大學的陳國勝、何宗明老師早在 2009年就提出了一種基于 XML技術的Word文檔錄入及格式檢測系統(tǒng)設計方法,該方法通過Word文檔和XML文檔的相互轉換,設計了一個Word文檔錄入和格式檢測模型系統(tǒng),但是該系統(tǒng)還有不完善的地方,例如需要改進文檔格式檢測機制,進一步實現(xiàn)Excel接口和XSTL轉化接口;東北電力大學的闞運奇老師在2012年提出一種基于VBA的論文檢測方法,該方法需使用VBA技術操作宏,普通用戶難以使用;隋欣、張軍輝在2013年提出了一種基于.NET的文檔信息提取解析方式,該方法僅僅讀取到了文檔內部的文本、標題、目錄和表格信息,但對文檔的樣式信息提取并沒有涉及。

        雖然不少學者提出了各種操作文檔的想法,但是目前還沒有一種比較方便有效的系統(tǒng)供人們對大量相同格式要求的論文進行檢測。本文設計開發(fā)了一套基于OpenXML格式規(guī)范的研究生學位論文格式自動檢測系統(tǒng),該系統(tǒng)利用自動化方法檢測docx格式論文文檔,可以提高用戶編輯學位論文的效率,減輕教師和學生的負擔。

        1 系統(tǒng)功能設計

        本方法的系統(tǒng)架構圖如圖1所示,包括單元定位模塊、格式提取模塊、對比模塊三個模塊。

        圖1 系統(tǒng)架構圖

        單元定位模塊包括封面定位子模塊、獨創(chuàng)性聲明定位子模塊、標題定位子模塊等11個子模塊,功能為分別定位論文的各個特定部位,獲取對應的XML信息。

        格式提取模塊包括段落屬性提取子模塊和特殊格式屬性提取子模塊兩個子模塊。段落屬性提取子模塊的功能是提取待測論文每個部分共有的段落屬性,如每個段落的字體、字號、段間距。特殊格式屬性提取子模塊的功能是提取除段落屬性之外的其他格式,如參考文獻樣式提取、圖和表所在章節(jié)的標題名稱提取。

        對比模塊包括規(guī)則配置文件、規(guī)則對比子模塊、報告生成子模塊三個部分。規(guī)則配置文件的功能是存儲模板論文規(guī)定的規(guī)則,是檢測待測論文正確與否的標準。規(guī)則對比子模塊的功能是將待測論文的格式特征與規(guī)則配置文件配置的規(guī)則進行對比,判斷格式的正誤。報告生成子模塊的功能是獲取規(guī)則對比子模塊中檢測到的錯誤信息并寫入檢測報告中。

        2 單元定位模塊

        由于本系統(tǒng)處理的是論文各個部分的格式,如何準確地定位各部分以及如何精準地切割就顯得至關重要。以下列出論文中幾個關鍵部分的定位算法。

        首先尋找到全文的第一個帶編號的標題,標題后的第一個段落就是正文開始處;接著過濾中間封裝標題的

        元素和封裝圖的

        元素;最后定位正文結束部分,尋找正文結束后出現(xiàn)的第一個沒有編號的標題,以此為正文部分的結束定位標志。

        元素存儲了標題的文本信息以及樣式,OpenXML中根據(jù)文檔設置的各個節(jié)的頁眉屬性如首頁不同、奇偶頁不同生成相應的頁眉。方法如下:首先遍歷

        元素,判斷其中是否包含子元素;若包含子元素,找出元素的所有頁眉引用子元素,接著找出元素的所有頁腳引用子元素,利用頁眉引用、頁腳引用的標識符定位到相應的頁眉元素、頁腳元素;若不包含子元素,遍歷下一個

        元素重復第一步,直到文檔最后停止遍歷;在< body>元素中尋找保存最后一節(jié)屬性的子元素,重復第二步。

        表格信息存儲在元素的子元素內,依次遍歷每個元素,可找到表格位置。定位表名的方法如下:首先獲取的位置信息,即計算這個元素是的第幾個子元素,然后再檢測前一個位置的

        是否為空段落,空段落體現(xiàn)為一個空行,非空段落作為表名處理。如在該前一個位置沒有找到表名,則再向前回溯一個位置繼續(xù)進行判斷。如超過3步回溯仍未找到表名,認為表名缺失或表名的格式有誤。

        3 格式提取模塊

        格式提取模塊的功能為獲取論文各特定部分的格式。格式提取模塊包括段落屬性提取子模塊和特殊格式屬性提取子模塊。

        待測學位論文的每個特定部分都具有段落屬性,段落屬性提取是所有特定部分的共性工作,由段落屬性提取子模塊完成。在OpenXML中,所有文本內容都保存在段落元素

        中,在表1中給出了段落中常見的元素及其說明。

        表1 常見的段落元素和C#類說明

        (1)字體

        依次遍歷每一個

        元素,由rFonts元素按照樣式的層次結構依次提取字體樣式,獲取到中英文的字體;檢測段落是否為全英文、全中文,或者既有中文又有英文,若是全英文,舍棄提取到的中文字體樣式,不能用于對比模塊;若是全中文,舍棄提取到的英文字體樣式,不能用于對比模塊;若既有中文又有英文,提取到的中文英文字體樣式全部保存。

        (2)字號

        首先按照樣式的層次結構獲取的屬性Val的值,計算得到以磅為單位的字號大??;然后參考字號對照表得到字號和磅數(shù)的對應關系,得到實際字號;將字號保存用于對比模塊。

        (3)段前距離

        段前距離信息從元素的before和before鄄Lines屬性中提取。首先依據(jù)樣式的層次結構找到元素;若該元素包含beforeLines屬性,獲取該屬性對應的屬性值,計算得到以行距倍數(shù)表示的該段落的段前距離;利用元素的子元素的linePitch屬性可以獲得一行的磅數(shù),統(tǒng)一換算成以“磅”為單位的段前距離;若不包含beforeLines屬性,則獲取before屬性的屬性值,計算得到以“磅”為單位的段前距離。

        特殊格式提取子模塊用于處理除段落屬性之外的其他格式提取問題,包括參考文獻樣式提取、圖和表所在章節(jié)的標題名稱提取等,這些格式要求在OpenXML中并沒有明確的元素對應,需采用特殊方式提取。

        (1)參考文獻格式提取

        首先利用正則表達式匹配參考文獻的標志代碼,根據(jù)標志代碼確定參考文獻的類型;若無法匹配,說明此條參考文獻缺少標志代碼,保存錯誤信息后,繼續(xù)下一條參考文獻格式的提取;若匹配成功,接著以中括號為分割點把該條參考文獻分割成幾部分,檢測作者、出版社、出版年份等格式是否滿足要求;接下來獲取參考文獻的編號樣式,判斷參考文獻的編號是否連續(xù),若不連續(xù),保存錯誤信息,若連續(xù),進入下一步;最后統(tǒng)計參考文獻條目的數(shù)目,保存起來用于對比模塊。

        檢測參考文獻連續(xù)性的方法如下:首先記錄并維護參考文獻的正確編號值,即編號應為從1開始的連續(xù)自然數(shù),每次檢測到新的參考文獻條目后此值加1;接著判斷此參考文獻是手動編號還是自動編號,若是手動編號,利用正則表達式獲取編號,然后判斷是否和正確編號值相同,若是自動編號只需檢測自動編號開始的參考文獻編號是否和正確編號值相同。

        (2)圖和表所在章節(jié)的標題名稱提取

        首先用鏈表保存章節(jié)標題所在的段落的位置信息,即索引值;然后獲取圖、表的索引,用圖、表的索引值和鏈表中的各個值依次比較,直到鏈表中的值大于此值為止,則鏈表中的前一個數(shù)值就是該圖、表所在章節(jié)標題的位置;最后根據(jù)此索引即可得到標題名稱。

        4 對比模塊

        對比模塊的功能是將格式提取模塊提取出的待測論文中的格式特征與論文模板中的規(guī)則進行對比,將對比結果不一致格式問題輸出到檢測報告中。該模塊分為規(guī)則配置文件、規(guī)則對比子模塊、報告生成子模塊三個部分。

        規(guī)則配置文件包含了模板論文規(guī)定的規(guī)則,是檢測待測論文正確與否的標準。在調用規(guī)則配置文件時,首先由單元定位模塊確定當前檢測的位置在論文中所屬的部分,然后檢測該部分是否已存在XML格式的配置文件,若存在,則進入規(guī)則對比子模塊;若不存在,則說明當前部分沒有設置格式要求,結束當前部分的檢測。

        首先獲取單元定位模塊的結果,判斷當前要檢測的段落是待測論文的哪一部分,在規(guī)則配置文件中找到模板論文相應的規(guī)則,將格式提取模塊提取到的該部分的格式信息與相應的規(guī)則配置文件中的規(guī)則進行對比,若該格式特征與規(guī)則配置文件中的規(guī)則一致,則說明該格式正確;反之將錯誤信息交由報告生成子模塊處理。

        首先獲取生成報告的保存路徑,若用戶未自定義,默認路徑設置為該待測論文的上傳路徑;接著獲取在規(guī)則配置文件中保存的所有待檢測的特定部分的節(jié)點信息,依次遍歷每個節(jié)點;獲取節(jié)點中保存的該節(jié)點對應的名稱,從而找到對應的錯誤信息的保存位置;將尋找到的錯誤信息編號后保存到檢測報告中,最終生成一份檢測報告。

        5 實驗及分析

        在編程結束后,共進行了開發(fā)人員測試和用戶測試兩方面測試,下面是兩種測試環(huán)境下的具體分析。

        為了實現(xiàn)快速檢測大批量、相同格式要求論文的目的,檢測單篇論文的程序被進行了批處理,在批處理程序中選擇需要檢測的部分,包括封面、獨創(chuàng)性聲明、標題、摘要、目錄、正文、頁眉頁腳、表格、圖形、參考文獻、授權書等十一個部分。在.NET及Java環(huán)境下,對包含46篇論文的論文集檢測結果如下:46篇論文全部檢測成功,共用時33秒,平均0.717秒一篇。

        本系統(tǒng)于2016年6月1日正式上線,在2016年6月本科生畢業(yè)期間共收到來自全校的500余篇論文的上傳,其中不同的論文317篇,剩余的200余次上傳為同一用戶在修改論文的過程中不斷地使用本系統(tǒng)進行檢測與修正,最終修正為格式無誤的論文。在2016年9月研究生畢業(yè)期間,共收到來自23名用戶的50余篇不同的研究生論文。

        6 結語

        學位論文格式自動檢測系統(tǒng)可以根據(jù)論文模板,自動對待測論文進行格式檢測,具有自動化程度高、檢測速度快、檢測準確率高等優(yōu)點,可大幅降低畢業(yè)生和指導教師的工作量,提高工作效率。下一步工作可重點考慮在線配置檢測規(guī)則,以提高本系統(tǒng)對不同學校論文模板的適用性。

        [1]陳國勝,何宗明.基于XML技術的Word文檔錄入及格式檢測系統(tǒng)設計[J].計算機時代,2009(4):38-40.

        [2]闞運奇.畢業(yè)論文格式檢測系統(tǒng)的設計與研究[J].無線互聯(lián)科技,2012(11):17-17.

        [3]隋欣,張軍輝.基于.NET的Word的文檔信息讀取解析[J].計算機光盤軟件與應用,2013(24):87-88.

        [4]葉明,張諍.基于C#.NET的Word報告生成功能開發(fā)[J].計算機工程與應用,2008,44(9):104-106.

        [5]徐東風,彭紅星,廖俊杰.基于 Java的文檔格式檢查技術的研究及其應用[J].計算機工程與設計,2010,31(19):4309-4315

        [6]周益蘭.TMLC在研究生學位論文檢測中的應用研究[J].研究生教育研究,2012,02:71-74.

        [7]趙常麗,楊磊.基于學位論文管理系統(tǒng)的本科生學位論文檢測方法研究[J].青海大學學報(自然科學版),2014,01:85-89.

        Design and Im p lementation of Automatic Detection System of Graduation Thesis Format

        YE Xiu-yun,LIU De-zheng
        (School of Software,Dalian University of Technology,Dalian 116621)

        Graduate degree thesis is generally written in Word software,and the format requirements of the thesis are very strict.Based on the OpenXML technology,designs an automatic detection system of degree thesis,which can automatically scan the papers to be tested ac鄄cording to the template,and find the formats that do notmeet the requirements of the template,and generate the test report.The experi鄄mental results show that thismethod has low false positive rate and false negative rate,and can work effectively.

        國家級大學生創(chuàng)新創(chuàng)業(yè)項目(No.2016101410302)

        葉秀云(1996-),女,安徽阜陽人,在讀本科,研究方向為算法設計與分析

        2017-02-28

        2017-04-20

        1007-1423(2017)13-0051-04

        10.3969/j.issn.1007-1423.2017.13.012

        學位論文;格式檢測;OpenXML

        劉德正(1996-),男,河北滄州人,在讀本科,研究方向為算法設計與分析

        Degree Thesis;Format Detection;OpenXML

        猜你喜歡
        段落文檔參考文獻
        有人一聲不吭向你扔了個文檔
        【短文篇】
        心理小測試
        The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
        夏天,愛情的第四段落
        散文詩(2017年17期)2018-01-31 02:34:11
        Study on the physiological function and application of γ—aminobutyric acid and its receptors
        東方教育(2016年4期)2016-12-14 13:52:48
        基于RI碼計算的Word復制文檔鑒別
        弄清段落關系 按圖索驥讀文
        讀寫算(下)(2016年11期)2016-05-04 03:44:07
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        The Review of the Studies of Trilingual Education in inghai
        午夜福利试看120秒体验区| 女同欲望一区二区三区| 国产一区二区三区十八区| 高h喷水荡肉爽文np肉色学校| 一本大道无码av天堂| 依依成人影视国产精品| 中文字幕手机在线精品| 4455永久免费视频| 成人免费av色资源日日| 乱色精品无码一区二区国产盗| 久久精品成人欧美大片| 极品av在线播放| 亚洲av香蕉一区二区三区av| 亚洲精品久久久久avwww潮水| 久久99国产亚洲高清观看韩国| 国产亚洲av手机在线观看| 亚洲乱码中文字幕视频| 成人精品视频一区二区三区尤物 | 久久久99久久久国产自输拍| 国产高清视频在线不卡一区| 在线观看成人无码中文av天堂| 亚洲国产欧美在线成人| 中文字幕一区二区三区.| 亚洲三级视频一区二区三区 | 婷婷精品国产亚洲av| 精品一区二区三区蜜桃麻豆| 久久香蕉国产线熟妇人妻| 成人xx免费无码| 日本中文字幕官网亚洲| 日本一卡二卡3卡四卡免费观影2022| 久久久精品2019免费观看| 久久久久无码中文字幕| 美女丝袜美腿玉足视频| 国产精品无码午夜福利| 国产在亚洲线视频观看| 日韩精品一区二区三区影音视频 | 成人免费无码视频在线网站| 日本黄页网站免费大全| 亚洲av色在线观看网站| 香蕉视频在线观看亚洲| 久久久精品欧美一区二区免费|