湯力 杜潔 李芹 王菁
摘 要:采購(gòu)是信息化項(xiàng)目建設(shè)的重要環(huán)節(jié)。但是由于近年來(lái)信息化項(xiàng)目申報(bào)數(shù)量多,很容易發(fā)生重復(fù)采購(gòu)的現(xiàn)象,除了影響項(xiàng)目的進(jìn)度外,也會(huì)影響電網(wǎng)公司的經(jīng)濟(jì)效益。因此,必須要對(duì)采購(gòu)文件進(jìn)行審查,杜絕重復(fù)申報(bào)。傳統(tǒng)的審查方法通常存在效率低、準(zhǔn)確性差等問(wèn)題,不能滿足電網(wǎng)公司的使用需要。本文提出了一種基于自然語(yǔ)言處理技術(shù)的采購(gòu)文件智能化審查方法,運(yùn)用了建模等技術(shù),可以支持文檔模板固化、資料審查等功能,實(shí)際應(yīng)用中速率快、準(zhǔn)確度高,具體推廣應(yīng)用價(jià)值。
關(guān)鍵詞:自然語(yǔ)言處理技術(shù);智能化;審查方法;信息化項(xiàng)目
1.電網(wǎng)采購(gòu)文件智能化審查系統(tǒng)的關(guān)鍵技術(shù)
1.1詞權(quán)重計(jì)算技術(shù)
在電網(wǎng)采購(gòu)文件中,不同文件的重要程度存在很大差異。詞權(quán)重計(jì)算,就是根據(jù)各類文件標(biāo)題的重要程度,為其賦予不同的權(quán)重,這樣才能讓最終的審查結(jié)果更加真實(shí)、有效。例如,采購(gòu)文件中包含一些高頻率的詞語(yǔ),或是專業(yè)術(shù)語(yǔ),應(yīng)當(dāng)賦予相對(duì)較高的權(quán)重。計(jì)算詞語(yǔ)權(quán)重是運(yùn)用統(tǒng)計(jì)學(xué)的知識(shí),也就是用文本的統(tǒng)計(jì)信息(如詞頻、詞之間的同現(xiàn)頻率等)計(jì)算詞語(yǔ)的權(quán)重,大部分的統(tǒng)計(jì)方法都基于香農(nóng)信息學(xué)理論:如果特征項(xiàng)在所有文本中出現(xiàn)的頻率越高,那么它所包含的信息熵也就越少;如果特征項(xiàng)只在少量文本中有較高的出現(xiàn)頻率,那么該特征項(xiàng)就會(huì)擁有較高的信息熵。其中熵是不確定性的衡量,不確定性越高,熵越高。TF-IDF算法是計(jì)算詞語(yǔ)權(quán)重的典型代表,在準(zhǔn)確提取特征詞匯等方面有著明顯的優(yōu)勢(shì)。
1.2中文分詞技術(shù)
計(jì)算機(jī)在識(shí)別并理解文檔內(nèi)容的過(guò)程中,無(wú)法理解整個(gè)句子的含義,只能先將句子拆分成最小的單元,即原子詞匯。然后再利用特定的算法,檢測(cè)詞匯的重復(fù)率。中文分詞是基于自然語(yǔ)言處理技術(shù)的審查系統(tǒng)的核心技術(shù)之一,目前常用的分詞方法有多種,較為常見(jiàn)的是機(jī)械式分詞、統(tǒng)計(jì)式分詞。其中,基于統(tǒng)計(jì)的分詞方法中,比較典型的算法是N元文法模型(N-gram模型),該模型基于這樣一種假設(shè),第N個(gè)詞的出現(xiàn)只與前面N–1個(gè)詞相關(guān),而與其他任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。N-gram模型通過(guò)計(jì)算N個(gè)詞匯組成序列的概率值來(lái)衡量分詞方案的合理性。
2.系統(tǒng)運(yùn)行流程
2.1全文檢索流程
工作人員登錄Web界面后,在檢索欄中輸入想要檢索的內(nèi)容,可以是某個(gè)關(guān)鍵詞,也可以是某個(gè)語(yǔ)句,然后點(diǎn)擊全文檢索。系統(tǒng)接收到檢索指令后,第一步是進(jìn)行中文分詞,同時(shí)在系統(tǒng)后臺(tái)開(kāi)始加載LSI主題模型。利用該模型完成相似度分析,最終在Web界面上輸出檢索結(jié)果。
2.2主題模型訓(xùn)練流程
電網(wǎng)智能化審查系統(tǒng)主要有文檔模板語(yǔ)料標(biāo)記和數(shù)據(jù)預(yù)處理兩個(gè)功能。為了保證兩個(gè)功能的順利實(shí)現(xiàn),在完成系統(tǒng)設(shè)計(jì)后,還要對(duì)運(yùn)行流程進(jìn)行調(diào)試和訓(xùn)練,用于檢測(cè)流程是否順暢、功能是否實(shí)現(xiàn)。主題模型訓(xùn)練流程如下:系統(tǒng)自動(dòng)調(diào)用采購(gòu)文件資料庫(kù)中存儲(chǔ)的各類文檔,并檢測(cè)文檔的存儲(chǔ)格式。將所有格式的電子文檔,去掉圖片、表格以后,統(tǒng)一轉(zhuǎn)化為txt.格式。完成格式轉(zhuǎn)化后,依次進(jìn)行中文分詞、TF-IDF轉(zhuǎn)換、LSI主題建模等。最后將建立的模型,保存到計(jì)算機(jī)的硬盤(pán)中。當(dāng)需要語(yǔ)料標(biāo)記和數(shù)據(jù)預(yù)處理時(shí),可以直接調(diào)用相應(yīng)的模型,完成檢索和查重。具體流程如圖1所示。
2.3采購(gòu)文件智能化審查流程
當(dāng)工作人員將一份新的采購(gòu)文件錄入該系統(tǒng)時(shí),該系統(tǒng)首先識(shí)別該資料的文件格式,如果屬于PDF或Word格式,第一步進(jìn)行格式轉(zhuǎn)換,統(tǒng)一轉(zhuǎn)換為T(mén)XT格式。然后開(kāi)始中文分詞,在這一過(guò)程中系統(tǒng)同時(shí)在后臺(tái)加載LSI主題模型。模型加載完成后,自動(dòng)對(duì)已經(jīng)完成中文分詞的采購(gòu)文件進(jìn)行相似度分析。新的采購(gòu)文件同時(shí)進(jìn)行備份,并將備份文件納入到采購(gòu)資料庫(kù)中,實(shí)現(xiàn)資料庫(kù)的數(shù)據(jù)更新。完成相似度分析后,將分析結(jié)果在Web界面上展示,工作人員可以根據(jù)使用需求選擇打印出來(lái)。
3.系統(tǒng)軟件架構(gòu)
電網(wǎng)采購(gòu)文件審查系統(tǒng)的軟件部分共分為4個(gè)單元,具體功能為:(1)采購(gòu)資料庫(kù)單元,用于存放電網(wǎng)公司以往產(chǎn)生的采購(gòu)文件。以資料產(chǎn)生年限作為劃分依據(jù),方便相關(guān)人員查找、調(diào)用。(2)文本相似度分析單元。作為該系統(tǒng)的關(guān)鍵部分,具體又可以分為中文分詞、主題建模等功能。首先識(shí)別待檢測(cè)的采購(gòu)文件,然后與資料庫(kù)中已有的文件進(jìn)行對(duì)比,對(duì)比結(jié)果即為文本相似度,同時(shí)生成相似度報(bào)告,以便于相關(guān)人員對(duì)采購(gòu)文件的進(jìn)行調(diào)整。(3)Web界面。該系統(tǒng)的人機(jī)交互界面,管理員需要獲取權(quán)限后才能登陸Web界面,并完成采購(gòu)文件查詢、上傳、下載等具體操作。(4)模型管理。支持對(duì)LSI主題模型的構(gòu)建、修改和調(diào)用等操作。
4.應(yīng)用效果
為了驗(yàn)證基于自然語(yǔ)言處理技術(shù)的采購(gòu)文件審查系統(tǒng)的實(shí)際應(yīng)用效果,選取了一臺(tái)Windows 10 64位操作系統(tǒng),8G內(nèi)存,3.20GHz雙核CPU計(jì)算機(jī)進(jìn)行測(cè)試。其中,當(dāng)文檔數(shù)量為1000個(gè)時(shí),中文分詞時(shí)間為28秒,主題建模時(shí)間為45秒,采購(gòu)文件的審查時(shí)間為1.2秒;當(dāng)文檔數(shù)量為5000個(gè)時(shí),中文分詞時(shí)間為160秒,主題建模時(shí)間為184秒,采購(gòu)文件審查為1.3秒;當(dāng)文檔數(shù)量為10000個(gè)時(shí),中文分詞事件為314秒,主題建模時(shí)間為352秒,采購(gòu)文件審查為1.5秒。根據(jù)測(cè)試數(shù)據(jù)可知,隨著資料數(shù)量的增加,無(wú)論是正則匹配消耗的時(shí)間,還是主體建模需要的時(shí)間,都會(huì)同步增加,呈正相關(guān);但是審查所需時(shí)間變化不大,應(yīng)用效果良好。
結(jié)語(yǔ):電網(wǎng)公司現(xiàn)行的文件審查方法無(wú)論是在審查所需時(shí)間,還是審查結(jié)果準(zhǔn)確性方面,仍然存在一些不足。本文提出的一種基于自然語(yǔ)言處理技術(shù)的審查系統(tǒng),除了可以高效率、精準(zhǔn)性的完成采購(gòu)文件審查外,還具有審查疏漏等功能,進(jìn)一步提高了系統(tǒng)的適用性。利用Web界面,管理人員可以很方便的完成主題模型的更新、調(diào)用,保證了該系統(tǒng)可以根據(jù)電網(wǎng)公司采購(gòu)文件審查需要,切實(shí)維護(hù)了電網(wǎng)公司的綜合效益。
參考文獻(xiàn):
[1]郭蕾.基于自然語(yǔ)言處理的英語(yǔ)翻譯計(jì)算機(jī)智能評(píng)分系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2019(04):158-160.
[2]徐琳宏,丁堃,林原,等.基于機(jī)器學(xué)習(xí)算法的引文情感自動(dòng)識(shí)別研究--以自然語(yǔ)言處理領(lǐng)域?yàn)槔齕J].現(xiàn)代情報(bào),2020(01):124-125.
(云南電網(wǎng)有限責(zé)任公司信息中心? 云南 昆明? 650217)