亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

自然語言處理在招投標(biāo)文件管理平臺(tái)中的應(yīng)用

2023-10-18 13:32:52宋學(xué)武張勁松唐世貴

科技創(chuàng)新與應(yīng)用 2023年29期

宋學(xué)武，張勁松，唐世貴，廖松，陳昀，尹智

（重慶海裝風(fēng)電銷售有限公司，重慶 401122）

招投標(biāo)是一種在建筑和商品交易中非常常見的公開的競爭形式。在招標(biāo)階段，招標(biāo)人發(fā)布招標(biāo)公告或者招標(biāo)邀請書，根據(jù)項(xiàng)目的特點(diǎn)和需要編制好招標(biāo)文件，之后在投標(biāo)階段，投標(biāo)人再根據(jù)招標(biāo)文件來編寫并提交投標(biāo)文件，投標(biāo)人參與競爭并進(jìn)行一次或多次性投標(biāo)報(bào)價(jià)。而這些公開的招投標(biāo)信息往往具有很高的商業(yè)價(jià)值，對于很多企業(yè)而言，從中挖掘潛在的商業(yè)機(jī)會(huì)，能起到事半功倍的效果。本文的招投標(biāo)文件管理平臺(tái)處理的業(yè)務(wù)流程是一套完整的招投標(biāo)流程，包括招標(biāo)、投標(biāo)、中標(biāo)、合同起草和合同簽訂等，在處理復(fù)雜且數(shù)量多的各類招投標(biāo)文件時(shí)，可以利用新技術(shù)來實(shí)現(xiàn)更好的管理。

人類的日?；顒?dòng)是無法脫離語言的，而自然語言則是一種最直接、最簡單的語言表達(dá)方式，它可以把人類的語言進(jìn)行加工，變成機(jī)器能夠聽懂的機(jī)器語言[1]。作為人工智能的一個(gè)重要分支，它在信息處理中的作用也日益突出，目前已為人們所熟悉和使用。若是將自然語言處理技術(shù)運(yùn)用在招投標(biāo)文件管理平臺(tái)中管理各類文件，可以實(shí)現(xiàn)機(jī)器化代替人工辦公，大大提高文件處理效率。

1 招投標(biāo)文件管理平臺(tái)分析

1.1 招投標(biāo)文件管理特點(diǎn)

1.1.1 內(nèi)容形式多樣性

在投標(biāo)階段，會(huì)有很多投標(biāo)文件來自于不同的、有意愿投標(biāo)的企業(yè)，因?yàn)椴煌镜墓芾碇贫取⒐ぷ鞣绞?、文件的質(zhì)量都不一樣，也就導(dǎo)致投標(biāo)文件的種類、形式繁多，而在之后簽訂合同的階段，不僅要了解合同文件，還要解讀多個(gè)合同的相關(guān)法律法規(guī)和政策。有些東西，必須要有專門的專家來做，否則不僅會(huì)降低工作的效率，還會(huì)降低員工的使用效率。

1.1.2 時(shí)效性需求高

與其他文件的管理方式不同，招投標(biāo)項(xiàng)目文件的時(shí)效性是一個(gè)非常重要的問題，在指定的時(shí)間里得到所有的關(guān)鍵信息，再據(jù)此得出結(jié)果。同時(shí)，由于信息技術(shù)的飛速發(fā)展，大量的電子文件、復(fù)印文件不斷增多，而紙質(zhì)文件的數(shù)量卻在不斷減少，從而保證項(xiàng)目文件不會(huì)成為阻礙項(xiàng)目進(jìn)度的“瓶頸”。所以在招投標(biāo)項(xiàng)目文件的管理中，如何更快、更有效地進(jìn)行電子和復(fù)印文件的處理變得日益重要。

1.1.3 安全性與保密性

不同的文件類型對招投標(biāo)文件的保密需求也是不同的。在招投標(biāo)文件的管理中，如何將保密與方便結(jié)合起來是一個(gè)非常關(guān)鍵的問題，資訊的保密性是一個(gè)招標(biāo)項(xiàng)目的關(guān)鍵，許多資料都會(huì)牽扯到招標(biāo)人與投標(biāo)人的商業(yè)機(jī)密。所以，必須建立、健全安保體系，一方面要加強(qiáng)對招標(biāo)項(xiàng)目文件的安全管理；另一方面，又要保證招標(biāo)項(xiàng)目文件的可操作性。

1.1.4 信息查詢簡潔化

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，以及大數(shù)據(jù)網(wǎng)絡(luò)時(shí)代的來臨，人們在傳遞、接收文件等方面更加便捷，但在提供多種便利的同時(shí)，也產(chǎn)生了大量的信息爆炸。對于海量的數(shù)據(jù)，在很短的一段時(shí)間里，如何將多余的信息剔除掉，獲取重要的信息，就成了文件管理的重中之重，所以在管理中必須充分重視文檔數(shù)字化和信息化的問題，需要對文件進(jìn)行信息化集成，以形成易于查詢的體系。

1.2 管理中的問題及預(yù)期標(biāo)準(zhǔn)

隨著近幾年網(wǎng)絡(luò)信息技術(shù)的迅猛發(fā)展，更多企業(yè)選擇創(chuàng)建自己的文件管理平臺(tái)，不再依賴第三方平臺(tái)，但使用過程中會(huì)出現(xiàn)一些問題，如本文的招投標(biāo)文件管理平臺(tái)會(huì)存在招投標(biāo)文件不規(guī)范、部分內(nèi)容失真、信息化程度不足等問題。由于投標(biāo)文件來自于不同的有意向投標(biāo)的公司或企業(yè)，意味著投標(biāo)文件多種多樣，缺乏整體規(guī)范性。在此情況下，部分文件的質(zhì)量就會(huì)與標(biāo)準(zhǔn)文件的質(zhì)量有較大差異，甚至?xí)霈F(xiàn)內(nèi)容失真的錯(cuò)誤，如簽名內(nèi)容模糊不清、重要信息遺漏等。信息化程度不足具體表現(xiàn)在平臺(tái)空有上傳的一大堆文件資源卻不能很好地利用，未能將其變成可隨時(shí)查閱的數(shù)據(jù)庫資源。

針對以上提出的問題，在招投標(biāo)文件管理中，可以得出招投標(biāo)文件管理中的預(yù)期標(biāo)準(zhǔn)。首先是規(guī)范性，上傳的招投標(biāo)文件應(yīng)當(dāng)符合平臺(tái)規(guī)定的統(tǒng)一標(biāo)準(zhǔn)，字體、格式、結(jié)構(gòu)均需保持一致，從上傳文件開始嚴(yán)格把關(guān)，即從源頭入手，保證所有文件的規(guī)范性[2]。其次是準(zhǔn)確性，為了保證后期工作的順利進(jìn)行，在管理文件之前應(yīng)仔細(xì)審查上傳的文件，避免出現(xiàn)重要信息缺失，符合規(guī)范且信息準(zhǔn)確萬無一失的文件才是需要管理的對象。最后是易用性，要做到方便用戶使用，可以快速便捷檢索到需要的文件信息，也要具備良好易用的人機(jī)接口來更好地管理文件。綜上所述，招投標(biāo)文件管理平臺(tái)在管理中的預(yù)期標(biāo)準(zhǔn)便是達(dá)到很好的規(guī)范性、準(zhǔn)確性及易用性。

2 自然語言處理技術(shù)可行性分析

2.1 自然語言處理技術(shù)介紹

自然語言處理已經(jīng)成為機(jī)器學(xué)習(xí)的研究熱點(diǎn)之一，作為一門包含人工智能、計(jì)算機(jī)科學(xué)及語言學(xué)等一系列學(xué)科的交叉學(xué)科，在數(shù)據(jù)處理領(lǐng)域逐漸占據(jù)一席之地。本文的招投標(biāo)文件管理平臺(tái)在管理文件的過程中使用自然語言處理的相關(guān)技術(shù)，會(huì)大大提高辦公效率，減少多余人力資源的消耗。

自然語言處理技術(shù)可以有效地提高招投標(biāo)文件的規(guī)范性和安全性，利用其處理不同形式的文件，從文件中篩選出重要的信息，可以防止中的重要信息缺失，確保文件的準(zhǔn)確性，也可以進(jìn)行安全檢查，對合同金額和技術(shù)細(xì)節(jié)進(jìn)行嚴(yán)格的檢查，保證文件的質(zhì)量[3]。同時(shí)，自然語言處理技術(shù)也能幫助完成多個(gè)版本的文件比對，在一定程度上減少了上傳文件和打印文件過程中的差錯(cuò)，降低了產(chǎn)生“陰陽合同”的風(fēng)險(xiǎn)。除此之外，自然語言處理技術(shù)還可以幫助改善招投標(biāo)文件管理的易用性，若采用人工方式，那么處理文件的速度與個(gè)人的能力、知識(shí)背景、文件的內(nèi)容和類型有關(guān)，而采用自然語言處理技術(shù)則能將專家經(jīng)驗(yàn)與IT 技術(shù)相結(jié)合能更好地運(yùn)用電腦來實(shí)現(xiàn)招投標(biāo)文件的管理，將技術(shù)變革作為企業(yè)獨(dú)立文件管理平臺(tái)的有力武器。

2.1.1 信息抽取

信息抽取是從文本中提取和轉(zhuǎn)化的一種方法，它可以從自然語言的語料庫中提取出不同的名稱實(shí)體，這是一種深入的研究過程。信息提取分為3 個(gè)步驟：第一個(gè)是自動(dòng)化處理非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)，第二個(gè)是針對目標(biāo)文字進(jìn)行信息的提取，第三個(gè)是將信息結(jié)構(gòu)化處理。

2.1.2 命名實(shí)體識(shí)別

命名實(shí)體識(shí)別是指識(shí)別文本中有特定意義的詞語，將其標(biāo)注出來，為后續(xù)工作做鋪墊，招投標(biāo)文件中的實(shí)體例如項(xiàng)目名稱、項(xiàng)目地點(diǎn)、合同金額、開標(biāo)時(shí)間和投標(biāo)截止時(shí)間等[4]。最近幾年國內(nèi)的研究熱點(diǎn)也是在將命名實(shí)體識(shí)別投入到應(yīng)用階段，在智能問答、機(jī)器翻譯、信息檢索等領(lǐng)域也發(fā)揮著巨大作用[5]。

2.1.3 文本糾錯(cuò)技術(shù)

文本糾錯(cuò)技術(shù)就是針對文字中的各種錯(cuò)誤進(jìn)行修正，可分為文本錯(cuò)誤識(shí)別和文本錯(cuò)誤糾正這兩個(gè)階段。由于中文本身就有其獨(dú)特的語言特征，所以其文本糾錯(cuò)就必須要有特定的方法和思維來加以解決。例如，中文的詞匯范圍和詞匯量很大，這就需要大量的學(xué)習(xí)。中文文本經(jīng)常出現(xiàn)的四種錯(cuò)誤類型：字級(jí)、詞級(jí)、語法和語義錯(cuò)誤，而后面二者比較難檢測出來，需要聯(lián)系上下文來判斷。因?yàn)橹形牡恼Z言特點(diǎn)，其錯(cuò)誤類型也不同于英文，相對于英文，中文也不會(huì)有太多的語法錯(cuò)誤。

2.1.4 文本聚類

文本的聚類與分類本質(zhì)上可以看作是一種技術(shù)手段，兩者都是通過利用文本的內(nèi)在特性將其整合到不同的類別。而文本聚類技術(shù)無需預(yù)先對文本數(shù)據(jù)進(jìn)行標(biāo)記，而是能夠根據(jù)文本數(shù)據(jù)本身的內(nèi)在關(guān)聯(lián)識(shí)別數(shù)據(jù)的特性，將具有相似特性的文本進(jìn)行分割，使其能夠充分利用本身特性而不會(huì)受到外部因素的影響。所以，使用聚類技術(shù)來進(jìn)行文本分析，可以獲得與實(shí)際情況更加接近的期望結(jié)果。然而，與其他機(jī)器學(xué)習(xí)方法一樣，文本聚類算法也不能直接地學(xué)習(xí)和處理非結(jié)構(gòu)化數(shù)據(jù)。因此，在進(jìn)行文本聚類時(shí)，必須先將待處理的文字資料轉(zhuǎn)化為結(jié)構(gòu)化文本，然后再進(jìn)行聚類分析。文本聚類過程包括文本預(yù)處理、文本特征表示、文本特征提取、聚類算法等。

2.2 招投標(biāo)文件分析編制功能需求分析

在投標(biāo)階段，本文的招投標(biāo)文件管理平臺(tái)主要采用的項(xiàng)目功能是文件分析編制功能，對各類分析報(bào)表、投標(biāo)、合同文件進(jìn)行分析整理和存儲(chǔ)，主要功能包括半自動(dòng)化文件分析、模塊化資料管理、標(biāo)準(zhǔn)化文件輸出。文件分析功能主要是指文件重要技術(shù)信息提取，并做好信息的分類統(tǒng)計(jì)、存儲(chǔ)、輸出，作為數(shù)據(jù)分析來源之一；模塊化資料管理是指平臺(tái)要具備模塊庫，根據(jù)標(biāo)題維度和應(yīng)用場景來劃分模塊，同時(shí)具備模塊庫增刪功能；文件輸出這一部分是文件以格式或標(biāo)題形式進(jìn)行預(yù)排，具有選擇架構(gòu)，并記憶自動(dòng)存取投標(biāo)文件模板，除此之外，還可以自動(dòng)調(diào)取模塊庫內(nèi)容，再按照要求比對模板后自動(dòng)篩查文件完整性，也具備自動(dòng)排版、文檔糾錯(cuò)、前后關(guān)聯(lián)內(nèi)容查驗(yàn)與修正等功能。

3 在招投標(biāo)文件管理中的應(yīng)用

通過介紹了部分自然語言處理技術(shù)以及其可行性分析，以下3 個(gè)小節(jié)便是3 個(gè)應(yīng)用自然語言處理技術(shù)于平臺(tái)文件分析編制功能中的詳細(xì)示例。如圖1 所示。

圖1 自然語言處理技術(shù)在文件分析編制功能中的作用

3.1 提取招投標(biāo)文件重要信息

利用自然語言處理技術(shù)，從招投標(biāo)文件中提取出關(guān)鍵信息，傳統(tǒng)的信息提取是一種文本加工技術(shù)，它是從對象的自然語言中提取特定類型的實(shí)體、關(guān)系和事件，再將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后輸出。常用的抽取信息有抽取人名、地名、機(jī)構(gòu)名稱和時(shí)間等。以合同文件為例，可以設(shè)定包括甲方、乙方、金額大寫、金額小寫、起始時(shí)間、結(jié)束時(shí)間、簽約地點(diǎn)和銀行賬號(hào)等，通過自然語言處理技術(shù)這些數(shù)據(jù)就會(huì)被自動(dòng)存檔。之后想要檢索類似信息，就能很容易地查找到有關(guān)的資料，做好招投標(biāo)文件管理的信息化。

采用基于深度學(xué)習(xí)的信息抽取方法，統(tǒng)一步驟如下。

1）文本預(yù)處理，面對大量待處理文本，對其進(jìn)行中文分詞、命名實(shí)體識(shí)別、關(guān)系抽取和實(shí)體消歧等基本處理。

2）針對性選擇合適的神經(jīng)網(wǎng)絡(luò)模型，比起傳統(tǒng)的機(jī)器學(xué)習(xí)算法，深度學(xué)習(xí)中的一些模型可以免去特征工程這一步。

3）整合處理過后的數(shù)據(jù)，得到目標(biāo)文本的關(guān)鍵要素。

3.2 輔助投標(biāo)文件編寫與輸出

在招投標(biāo)文件編寫過程中，需要做到文檔糾錯(cuò)、前后關(guān)聯(lián)內(nèi)容查驗(yàn)與修正這些功能，而運(yùn)用自然語言處理技術(shù)比如文本糾錯(cuò)技術(shù)可以滿足以上功能需求。從字錯(cuò)誤、語法錯(cuò)誤和語義錯(cuò)誤3 個(gè)層面，漢字錯(cuò)誤的識(shí)別方法主要采用機(jī)器學(xué)習(xí)和傳統(tǒng)檢索兩種。如采用n元模型、神經(jīng)網(wǎng)絡(luò)、最大熵等機(jī)器學(xué)習(xí)方式。采用統(tǒng)計(jì)機(jī)器翻譯、神經(jīng)網(wǎng)絡(luò)聯(lián)合模型、集成學(xué)習(xí)等語法錯(cuò)誤研究方法，或通過條件隨機(jī)場（Conditional Random Field，CRF）查找文本的錯(cuò)誤。采用結(jié)合上下文語境、基于語義搭配等語法錯(cuò)誤研究方法?；诤Ａ康恼Z料庫構(gòu)造字典，并在字典的基礎(chǔ)上對錯(cuò)誤的文本進(jìn)行遍歷和改正，以實(shí)現(xiàn)文本自動(dòng)糾錯(cuò)。

在面向招投標(biāo)文件這類規(guī)范性文件的文本糾錯(cuò)時(shí)，采用基于BERT-BiLSTM-CRF 的復(fù)合模型來檢索錯(cuò)誤，其中CRF 模型專注于解決序列標(biāo)注的難題，將其放置于整個(gè)流程的最后一層用于處理經(jīng)過BERT 層和BiLSTM 層訓(xùn)練后得到的序列，對每個(gè)字符進(jìn)行標(biāo)注，分為正確字符和錯(cuò)誤字符。采用整個(gè)復(fù)合模型標(biāo)注出來的錯(cuò)誤標(biāo)簽與采用命名實(shí)體識(shí)別獲取句子的實(shí)體標(biāo)簽進(jìn)行比對，如有一致的部分則匹配到相同的實(shí)體，取消錯(cuò)誤標(biāo)簽，之后便可進(jìn)行下一階段即糾錯(cuò)階段。

3.3 招投標(biāo)文件分類

面對繁多的招投標(biāo)文件，將其歸入合適的類別，對后期檢索相關(guān)關(guān)鍵詞的文件來說省時(shí)省力。而用于文本分類的機(jī)器算法主要有樸素貝葉斯、決策樹、KNN和支持向量機(jī)等，也可以使用深度學(xué)習(xí)文本分類算法如卷積神經(jīng)網(wǎng)絡(luò)。其中基于卷積神經(jīng)網(wǎng)絡(luò)的分類算法分為3 個(gè)步驟：首先是對數(shù)據(jù)進(jìn)行預(yù)處理，清除文本中的一些噪聲數(shù)據(jù)，對文本進(jìn)行分詞，然后是對預(yù)處理后的文本進(jìn)行特征分析，最后是最重要的分類部分，采用以上所說的機(jī)器算法來進(jìn)行分類，這里使用Softmax 回歸深度學(xué)習(xí)模型，表達(dá)式如下式所示

該式表示為樣本x屬于類別k的概率，其中分子與分母的概率都處于0 與1 之間，采用以e為底的指數(shù)函數(shù)，使自變量大于1 時(shí)可以清晰地看見變量的劇烈變化。

4 結(jié)束語

隨著信息技術(shù)的高速發(fā)展，招投標(biāo)管理平臺(tái)運(yùn)用新興技術(shù)如自然語言處理技術(shù)來管理文件意義重大。本文創(chuàng)新性地將自然語言處理技術(shù)用在平臺(tái)的文件分析編制功能中，主要體現(xiàn)在以下兩方面。第一，文中通過對招投標(biāo)文件管理平臺(tái)的特點(diǎn)、管理問題以及功能分析，采用了基于深度學(xué)習(xí)的招投標(biāo)文件關(guān)鍵信息抽取，除此之外，還利用了文本糾錯(cuò)和聚類技術(shù)來實(shí)現(xiàn)文件的分析編制功能，證明了自然語言處理可以幫助解決問題，滿足需求，從而完善平臺(tái)的使用感。第二，在應(yīng)用方面，實(shí)現(xiàn)紙質(zhì)化文件管理向數(shù)字化文件管理的轉(zhuǎn)變，加入辦公無紙化的發(fā)展隊(duì)列，也用機(jī)器審核取代人工審核，節(jié)省時(shí)間與資源，也保障了企業(yè)在招投標(biāo)環(huán)節(jié)的經(jīng)濟(jì)效益。