亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于自然語言處理技術(shù)的電網(wǎng)采購文件智能化系統(tǒng)應用

2021-03-08 15:12:23湯力杜潔李芹王菁

科學與財富 2021年3期

關(guān)鍵詞：智能化

湯力杜潔李芹王菁

摘要：采購是信息化項目建設的重要環(huán)節(jié)。但是由于近年來信息化項目申報數(shù)量多，很容易發(fā)生重復采購的現(xiàn)象，除了影響項目的進度外，也會影響電網(wǎng)公司的經(jīng)濟效益。因此，必須要對采購文件進行審查，杜絕重復申報。傳統(tǒng)的審查方法通常存在效率低、準確性差等問題，不能滿足電網(wǎng)公司的使用需要。本文提出了一種基于自然語言處理技術(shù)的采購文件智能化審查方法，運用了建模等技術(shù)，可以支持文檔模板固化、資料審查等功能，實際應用中速率快、準確度高，具體推廣應用價值。

關(guān)鍵詞：自然語言處理技術(shù);智能化;審查方法;信息化項目

1.電網(wǎng)采購文件智能化審查系統(tǒng)的關(guān)鍵技術(shù)

1.1詞權(quán)重計算技術(shù)

在電網(wǎng)采購文件中，不同文件的重要程度存在很大差異。詞權(quán)重計算，就是根據(jù)各類文件標題的重要程度，為其賦予不同的權(quán)重，這樣才能讓最終的審查結(jié)果更加真實、有效。例如，采購文件中包含一些高頻率的詞語，或是專業(yè)術(shù)語，應當賦予相對較高的權(quán)重。計算詞語權(quán)重是運用統(tǒng)計學的知識，也就是用文本的統(tǒng)計信息（如詞頻、詞之間的同現(xiàn)頻率等）計算詞語的權(quán)重，大部分的統(tǒng)計方法都基于香農(nóng)信息學理論：如果特征項在所有文本中出現(xiàn)的頻率越高，那么它所包含的信息熵也就越少;如果特征項只在少量文本中有較高的出現(xiàn)頻率，那么該特征項就會擁有較高的信息熵。其中熵是不確定性的衡量，不確定性越高，熵越高。TF-IDF算法是計算詞語權(quán)重的典型代表，在準確提取特征詞匯等方面有著明顯的優(yōu)勢。

1.2中文分詞技術(shù)

計算機在識別并理解文檔內(nèi)容的過程中，無法理解整個句子的含義，只能先將句子拆分成最小的單元，即原子詞匯。然后再利用特定的算法，檢測詞匯的重復率。中文分詞是基于自然語言處理技術(shù)的審查系統(tǒng)的核心技術(shù)之一，目前常用的分詞方法有多種，較為常見的是機械式分詞、統(tǒng)計式分詞。其中，基于統(tǒng)計的分詞方法中，比較典型的算法是N元文法模型（N-gram模型），該模型基于這樣一種假設，第N個詞的出現(xiàn)只與前面N–1個詞相關(guān)，而與其他任何詞都不相關(guān)，整句的概率就是各個詞出現(xiàn)概率的乘積。N-gram模型通過計算N個詞匯組成序列的概率值來衡量分詞方案的合理性。

2.系統(tǒng)運行流程

2.1全文檢索流程

工作人員登錄Web界面后，在檢索欄中輸入想要檢索的內(nèi)容，可以是某個關(guān)鍵詞，也可以是某個語句，然后點擊全文檢索。系統(tǒng)接收到檢索指令后，第一步是進行中文分詞，同時在系統(tǒng)后臺開始加載LSI主題模型。利用該模型完成相似度分析，最終在Web界面上輸出檢索結(jié)果。

2.2主題模型訓練流程

電網(wǎng)智能化審查系統(tǒng)主要有文檔模板語料標記和數(shù)據(jù)預處理兩個功能。為了保證兩個功能的順利實現(xiàn)，在完成系統(tǒng)設計后，還要對運行流程進行調(diào)試和訓練，用于檢測流程是否順暢、功能是否實現(xiàn)。主題模型訓練流程如下：系統(tǒng)自動調(diào)用采購文件資料庫中存儲的各類文檔，并檢測文檔的存儲格式。將所有格式的電子文檔，去掉圖片、表格以后，統(tǒng)一轉(zhuǎn)化為txt.格式。完成格式轉(zhuǎn)化后，依次進行中文分詞、TF-IDF轉(zhuǎn)換、LSI主題建模等。最后將建立的模型，保存到計算機的硬盤中。當需要語料標記和數(shù)據(jù)預處理時，可以直接調(diào)用相應的模型，完成檢索和查重。具體流程如圖1所示。

2.3采購文件智能化審查流程

當工作人員將一份新的采購文件錄入該系統(tǒng)時，該系統(tǒng)首先識別該資料的文件格式，如果屬于PDF或Word格式，第一步進行格式轉(zhuǎn)換，統(tǒng)一轉(zhuǎn)換為TXT格式。然后開始中文分詞，在這一過程中系統(tǒng)同時在后臺加載LSI主題模型。模型加載完成后，自動對已經(jīng)完成中文分詞的采購文件進行相似度分析。新的采購文件同時進行備份，并將備份文件納入到采購資料庫中，實現(xiàn)資料庫的數(shù)據(jù)更新。完成相似度分析后，將分析結(jié)果在Web界面上展示，工作人員可以根據(jù)使用需求選擇打印出來。

3.系統(tǒng)軟件架構(gòu)

電網(wǎng)采購文件審查系統(tǒng)的軟件部分共分為4個單元，具體功能為：（1）采購資料庫單元，用于存放電網(wǎng)公司以往產(chǎn)生的采購文件。以資料產(chǎn)生年限作為劃分依據(jù)，方便相關(guān)人員查找、調(diào)用。（2）文本相似度分析單元。作為該系統(tǒng)的關(guān)鍵部分，具體又可以分為中文分詞、主題建模等功能。首先識別待檢測的采購文件，然后與資料庫中已有的文件進行對比，對比結(jié)果即為文本相似度，同時生成相似度報告，以便于相關(guān)人員對采購文件的進行調(diào)整。（3）Web界面。該系統(tǒng)的人機交互界面，管理員需要獲取權(quán)限后才能登陸Web界面，并完成采購文件查詢、上傳、下載等具體操作。（4）模型管理。支持對LSI主題模型的構(gòu)建、修改和調(diào)用等操作。

4.應用效果

為了驗證基于自然語言處理技術(shù)的采購文件審查系統(tǒng)的實際應用效果，選取了一臺Windows 10 64位操作系統(tǒng)，8G內(nèi)存，3.20GHz雙核CPU計算機進行測試。其中，當文檔數(shù)量為1000個時，中文分詞時間為28秒，主題建模時間為45秒，采購文件的審查時間為1.2秒;當文檔數(shù)量為5000個時，中文分詞時間為160秒，主題建模時間為184秒，采購文件審查為1.3秒;當文檔數(shù)量為10000個時，中文分詞事件為314秒，主題建模時間為352秒，采購文件審查為1.5秒。根據(jù)測試數(shù)據(jù)可知，隨著資料數(shù)量的增加，無論是正則匹配消耗的時間，還是主體建模需要的時間，都會同步增加，呈正相關(guān);但是審查所需時間變化不大，應用效果良好。

結(jié)語：電網(wǎng)公司現(xiàn)行的文件審查方法無論是在審查所需時間，還是審查結(jié)果準確性方面，仍然存在一些不足。本文提出的一種基于自然語言處理技術(shù)的審查系統(tǒng)，除了可以高效率、精準性的完成采購文件審查外，還具有審查疏漏等功能，進一步提高了系統(tǒng)的適用性。利用Web界面，管理人員可以很方便的完成主題模型的更新、調(diào)用，保證了該系統(tǒng)可以根據(jù)電網(wǎng)公司采購文件審查需要，切實維護了電網(wǎng)公司的綜合效益。

參考文獻：

[1]郭蕾.基于自然語言處理的英語翻譯計算機智能評分系統(tǒng)設計[J].現(xiàn)代電子技術(shù)，2019（04）：158-160.

[2]徐琳宏，丁堃，林原，等.基于機器學習算法的引文情感自動識別研究--以自然語言處理領域為例[J].現(xiàn)代情報，2020（01）：124-125.

（云南電網(wǎng)有限責任公司信息中心? 云南昆明? 650217）