馬玉慶, 劉一翔, 張根熹, 萬宇明
(上海交通大學(xué) 電子信息與電氣工程學(xué)院, 上海 200240)
年鑒是特定年份特定區(qū)域或領(lǐng)域所發(fā)生的重要事件的記錄。年鑒的編制既是對事件的記錄與整理,也是對特定范圍內(nèi)工作的匯總總結(jié)。對管理者進(jìn)一步?jīng)Q策,起到輔助支持作用。高校年鑒編制對各院系圍繞教學(xué)、科研所開展活動(dòng)及所取得的成果進(jìn)行分類匯總,一般有院系行政管理人員完成。由于高校教學(xué)與科研工作具備專業(yè)化、創(chuàng)新性強(qiáng)的特點(diǎn),辦公室行政人員在進(jìn)行年鑒編制時(shí)存在如下挑戰(zhàn)。
(1) 教學(xué)科研與行政管理人員由于專業(yè)隔閡原因,造成年鑒編制人員進(jìn)行年鑒材料內(nèi)容篩選、分類困難。高校教學(xué)科研活動(dòng)一般與所在院系專業(yè)相關(guān)程度高,年鑒材料中涉及到大量專業(yè)相關(guān)學(xué)術(shù)內(nèi)容,年鑒編寫行政人員在進(jìn)行內(nèi)容篩選時(shí),較難對其成果的專業(yè)水平進(jìn)行準(zhǔn)確評價(jià),教學(xué)與科研交叉融合進(jìn)一步造成年鑒編制內(nèi)容分類甄別困難。
(2) 實(shí)驗(yàn)室與行政管理分離造成年鑒編制內(nèi)容收集困難。高校年鑒編寫主要是對教學(xué)、科研基層組織,例如實(shí)驗(yàn)室或授課教師重要活動(dòng)或成果的記錄。由于實(shí)驗(yàn)室科研以及教學(xué)管理活動(dòng)與行政管理常常是部門分離的,并且,教師和實(shí)驗(yàn)室科研人員在年鑒材料收集方面積極性偏低,因此通過人工方式進(jìn)行年鑒材料收集是一個(gè)耗費(fèi)人力時(shí)間的過程。
針對不同類型年鑒編寫,相關(guān)學(xué)者分別圍繞方法創(chuàng)新、制度建設(shè)等方面展開研究。羅潔瓊等[1]認(rèn)為年鑒條目是年鑒編寫的關(guān)鍵部分,提出可以從年鑒條目材料收集的覆蓋性、年鑒條目標(biāo)題的準(zhǔn)確性,以及年鑒條目內(nèi)容的質(zhì)量3個(gè)方面,提高年鑒編寫水平。孫永華等[2]從年鑒框架結(jié)構(gòu)設(shè)計(jì)出發(fā),結(jié)合區(qū)域發(fā)展中高新區(qū)現(xiàn)代工業(yè)與科技領(lǐng)域、外向型經(jīng)濟(jì)、旅游經(jīng)濟(jì)等特色,認(rèn)為突出區(qū)域特色,推動(dòng)創(chuàng)新編寫,是提高區(qū)域年鑒編寫水平的關(guān)鍵。針對高校年鑒編寫,羅應(yīng)梅等[3]認(rèn)為完善年鑒編寫制度與流程、加強(qiáng)年鑒編寫人員培訓(xùn)是持續(xù)推進(jìn)年鑒編寫工作健康發(fā)展的基礎(chǔ),同時(shí)認(rèn)為互聯(lián)網(wǎng)和數(shù)字化技術(shù)會(huì)成為年鑒傳播的趨勢之一。
自動(dòng)摘要技術(shù)是基于計(jì)算機(jī)的自然語言理解的重要內(nèi)容,在行政檔案、企業(yè)知識管理等領(lǐng)域有較多應(yīng)用。姜志祥等[4]生成式摘要方法中存在的問題,提出并設(shè)計(jì)了基于自注意力與指針網(wǎng)絡(luò)的自動(dòng)摘要模型,通過基于深度學(xué)習(xí)的語義處理技術(shù),提升自動(dòng)摘要算法的準(zhǔn)確度。從年鑒詞條生成角度,由于深度學(xué)習(xí)對于訓(xùn)練數(shù)據(jù)有一定的數(shù)量要求,因此存在工程應(yīng)用的難度。章成志等[5]對書評內(nèi)容進(jìn)行摘要,利用詞向量以及近鄰傳播聚類等方法構(gòu)建圖書屬性詞集,在此基礎(chǔ)上利用TextRank算法生成圖書內(nèi)容摘要[6]。該研究表明自動(dòng)摘要技術(shù)可以對文本內(nèi)容進(jìn)行分析,并區(qū)分文本內(nèi)容的類別,例如屬于書評內(nèi)容還是屬于書籍內(nèi)容,從而對文本內(nèi)容進(jìn)行分別處理。在年鑒生成過程中,對于年鑒資料的分類是抽取年鑒詞條的依據(jù),本文在年鑒自動(dòng)生成研究中借鑒了相關(guān)聚類方法的應(yīng)用。同時(shí),由于信息化的普及,年鑒資料的來源主要來自于企業(yè)網(wǎng)站等平臺,網(wǎng)頁內(nèi)容自動(dòng)抽取有較多研究與應(yīng)用,例如王雪梅等[7]利用標(biāo)簽和分塊特征進(jìn)行新聞網(wǎng)頁內(nèi)容抽取,以進(jìn)行新聞網(wǎng)頁內(nèi)容分析。在年鑒生成方法中,利用企業(yè)網(wǎng)站內(nèi)容分析可以提高年鑒資料的收集效率。
基于以上分析,本文利用網(wǎng)頁內(nèi)容管理、圖像分類標(biāo)注與文本自動(dòng)摘要方法對互聯(lián)網(wǎng)內(nèi)容進(jìn)行自動(dòng)分析,研究行政檔案自動(dòng)摘要與應(yīng)用系統(tǒng)設(shè)計(jì)。課題利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行網(wǎng)站數(shù)據(jù)抓取,利用專家經(jīng)驗(yàn)構(gòu)建領(lǐng)域詞庫與概念關(guān)系,形成內(nèi)容評價(jià)指標(biāo)體系,在此基礎(chǔ)上進(jìn)行分詞以及權(quán)重計(jì)算,根據(jù)權(quán)重結(jié)果判定事件的重要程度。通過原型系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)以及學(xué)院網(wǎng)站分析結(jié)果,驗(yàn)證了本項(xiàng)目所設(shè)計(jì)方法的可用性。
高校行政年鑒條目內(nèi)容主要涵蓋年度科研、教學(xué)活動(dòng)等活動(dòng)中重要事件。一般地,高校年鑒由學(xué)校和院系不同級別行政管理人員協(xié)同完成。年鑒整體架構(gòu)和類目等,由學(xué)校統(tǒng)一制定,各院系在統(tǒng)一年鑒架構(gòu)的指導(dǎo)下,進(jìn)行年度重要事件材料收集,以形成條目和大事記內(nèi)容[8]。
條目和大事記內(nèi)容的編寫是一個(gè)繁瑣的過程,需要對年度發(fā)生的各類事件進(jìn)行整體梳理、歸類和重要性評估。為了提升年鑒條目信息收集的效率,本文以條目生成為例,研究提出基于網(wǎng)絡(luò)爬蟲的網(wǎng)站新聞內(nèi)容自動(dòng)抽取與分析方法,以生成年鑒條目推薦列表,其抽取分析過程如圖1所示。
圖1 面向網(wǎng)站新聞的年鑒條目自動(dòng)抽取方法
由圖1可知,年鑒條目自動(dòng)抽取方法主要包括3個(gè)部分,即網(wǎng)站結(jié)構(gòu)抽取、新聞內(nèi)容抽取以及條目推薦。
網(wǎng)站結(jié)構(gòu)抽取部分,由于年鑒條目和大事記主要收集本行政單位年度發(fā)生的重要活動(dòng),因此網(wǎng)站分析目標(biāo)主要是本部門的官網(wǎng)或公眾號,網(wǎng)站結(jié)構(gòu)相對固定、可根據(jù)網(wǎng)站開發(fā)文檔獲知。
新聞內(nèi)容抽取部分,則需較大的靈活性,本文主要借助自動(dòng)摘要研究中較成熟的分詞工具,進(jìn)行新聞內(nèi)容關(guān)鍵字的抽取。雖然從生成條目的角度,單純的關(guān)鍵字并不能完全反映條目或大事記的全部內(nèi)容,但是從新聞所反映的活動(dòng)事件重要性評價(jià)角度,關(guān)鍵字是較重要的評價(jià)依據(jù)。
條目推薦部分的主要目的是通過對新聞內(nèi)容的評估,挑選出可能列為年鑒條目的新聞材料。如何進(jìn)行新聞內(nèi)容重要程度評價(jià)是關(guān)鍵。本文借助領(lǐng)域知識圖譜思想,設(shè)計(jì)了關(guān)鍵詞關(guān)聯(lián)與權(quán)重指標(biāo)體系,構(gòu)建結(jié)合領(lǐng)域關(guān)鍵詞層次及權(quán)重分配的內(nèi)容評價(jià)方法。
在年鑒條目的自動(dòng)生成過程中,除了內(nèi)容自動(dòng)摘要外,從年鑒角度對新聞內(nèi)容進(jìn)行重要性評估是條目自動(dòng)生成的關(guān)鍵。在新聞內(nèi)容重要性評估方面,領(lǐng)域?qū)I(yè)人員一般需要將先驗(yàn)知識與后驗(yàn)統(tǒng)計(jì)結(jié)果兩方面相融合。因此,本文借鑒知識圖譜概念,設(shè)計(jì)了領(lǐng)域關(guān)鍵詞權(quán)重指標(biāo)體系,將領(lǐng)域?qū)I(yè)知識與關(guān)鍵詞統(tǒng)計(jì)結(jié)果相結(jié)合,計(jì)算所分析新聞的活動(dòng)重要程度,以判斷是否列入條目推薦列表。
關(guān)鍵詞權(quán)重指標(biāo)體系元模型及指標(biāo)體系示例如圖2所示。
圖2中,左側(cè)虛線框內(nèi)為指標(biāo)體系的元模型。指標(biāo)體系中包含3類元素:指標(biāo)項(xiàng)、屬性項(xiàng)和關(guān)鍵詞。
圖2 關(guān)鍵詞權(quán)重指標(biāo)體系元模型及指標(biāo)體系示例
條目=(指標(biāo)項(xiàng)1,指標(biāo)項(xiàng)2,……,指標(biāo)項(xiàng)n);
指標(biāo)項(xiàng)={指標(biāo)項(xiàng)|<屬性項(xiàng),權(quán)重>};
屬性項(xiàng)={<屬性項(xiàng),權(quán)重>|<關(guān)鍵詞,權(quán)重>}
其中,年鑒條目是由若干并列的指標(biāo)項(xiàng)組成,它們彼此獨(dú)立,按時(shí)間構(gòu)成大事記的基礎(chǔ)。指標(biāo)項(xiàng)間由于是各自獨(dú)立的,因此不區(qū)分權(quán)重。
首先,首先使用Request庫,通過網(wǎng)站URL地址、page=
urllib.request.urlopen(url)、contents = page.read()和soup = BeautifulSoup(contents,"html.parser")建立soup對象。
然后,在Web中找到新聞內(nèi)容的存放位置(p),使用Soup對象的find_all功能,提取內(nèi)容并寫入分析文件txt中。其代碼片段如圖3所示。
圖3 獲取新聞內(nèi)容代碼片段
圖3所示的偽代碼以utf-8的編碼格式打開txt文檔,遍歷HTML頁面中p標(biāo)簽內(nèi)的文字,并將其寫入1.txt。
對于存儲在文件1.txt中的新聞內(nèi)容,本文采用Jieba庫來獲取特定新聞的關(guān)鍵詞,偽代碼如圖4所示。
圖4 新聞關(guān)鍵詞提取偽代碼片段
圖4偽代碼片段中,首先是讀取出目標(biāo)txt文檔中的文本,并用Jieba庫中的Lcut函數(shù)處理得到處理成關(guān)鍵詞的對象文本,并對關(guān)鍵詞進(jìn)行遍歷篩選,最后返回出頻率最高的前l(fā)en(cha)個(gè)關(guān)鍵詞。
年鑒編寫是行政辦公室的重要職能工作之一。但是,也是一項(xiàng)耗費(fèi)時(shí)間人力的任務(wù)。對于高校年鑒編寫還存在專業(yè)壁壘,具有一定的挑戰(zhàn)性。本文研究了網(wǎng)頁內(nèi)容抽取方法,設(shè)計(jì)了年鑒詞條評價(jià)模型,并進(jìn)行了關(guān)鍵詞體系構(gòu)建;設(shè)計(jì)了年鑒詞條自動(dòng)抽取方法,并進(jìn)行了原型設(shè)計(jì)驗(yàn)證。該方法對于提升年鑒編寫效率有一定借鑒作用。