亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語言處理在招投標(biāo)文件管理平臺(tái)中的應(yīng)用

        2023-10-18 13:32:52宋學(xué)武張勁松唐世貴
        科技創(chuàng)新與應(yīng)用 2023年29期
        關(guān)鍵詞:文本信息管理

        宋學(xué)武,張勁松,唐世貴,廖 松,陳 昀,尹 智

        (重慶海裝風(fēng)電銷售有限公司,重慶 401122)

        招投標(biāo)是一種在建筑和商品交易中非常常見的公開的競爭形式。在招標(biāo)階段,招標(biāo)人發(fā)布招標(biāo)公告或者招標(biāo)邀請書,根據(jù)項(xiàng)目的特點(diǎn)和需要編制好招標(biāo)文件,之后在投標(biāo)階段,投標(biāo)人再根據(jù)招標(biāo)文件來編寫并提交投標(biāo)文件,投標(biāo)人參與競爭并進(jìn)行一次或多次性投標(biāo)報(bào)價(jià)。而這些公開的招投標(biāo)信息往往具有很高的商業(yè)價(jià)值,對于很多企業(yè)而言,從中挖掘潛在的商業(yè)機(jī)會(huì),能起到事半功倍的效果。本文的招投標(biāo)文件管理平臺(tái)處理的業(yè)務(wù)流程是一套完整的招投標(biāo)流程,包括招標(biāo)、投標(biāo)、中標(biāo)、合同起草和合同簽訂等,在處理復(fù)雜且數(shù)量多的各類招投標(biāo)文件時(shí),可以利用新技術(shù)來實(shí)現(xiàn)更好的管理。

        人類的日?;顒?dòng)是無法脫離語言的,而自然語言則是一種最直接、最簡單的語言表達(dá)方式,它可以把人類的語言進(jìn)行加工,變成機(jī)器能夠聽懂的機(jī)器語言[1]。作為人工智能的一個(gè)重要分支,它在信息處理中的作用也日益突出,目前已為人們所熟悉和使用。若是將自然語言處理技術(shù)運(yùn)用在招投標(biāo)文件管理平臺(tái)中管理各類文件,可以實(shí)現(xiàn)機(jī)器化代替人工辦公,大大提高文件處理效率。

        1 招投標(biāo)文件管理平臺(tái)分析

        1.1 招投標(biāo)文件管理特點(diǎn)

        1.1.1 內(nèi)容形式多樣性

        在投標(biāo)階段,會(huì)有很多投標(biāo)文件來自于不同的、有意愿投標(biāo)的企業(yè),因?yàn)椴煌镜墓芾碇贫取⒐ぷ鞣绞?、文件的質(zhì)量都不一樣,也就導(dǎo)致投標(biāo)文件的種類、形式繁多,而在之后簽訂合同的階段,不僅要了解合同文件,還要解讀多個(gè)合同的相關(guān)法律法規(guī)和政策。有些東西,必須要有專門的專家來做,否則不僅會(huì)降低工作的效率,還會(huì)降低員工的使用效率。

        1.1.2 時(shí)效性需求高

        與其他文件的管理方式不同,招投標(biāo)項(xiàng)目文件的時(shí)效性是一個(gè)非常重要的問題,在指定的時(shí)間里得到所有的關(guān)鍵信息,再據(jù)此得出結(jié)果。同時(shí),由于信息技術(shù)的飛速發(fā)展,大量的電子文件、復(fù)印文件不斷增多,而紙質(zhì)文件的數(shù)量卻在不斷減少,從而保證項(xiàng)目文件不會(huì)成為阻礙項(xiàng)目進(jìn)度的“瓶頸”。所以在招投標(biāo)項(xiàng)目文件的管理中,如何更快、更有效地進(jìn)行電子和復(fù)印文件的處理變得日益重要。

        1.1.3 安全性與保密性

        不同的文件類型對招投標(biāo)文件的保密需求也是不同的。在招投標(biāo)文件的管理中,如何將保密與方便結(jié)合起來是一個(gè)非常關(guān)鍵的問題,資訊的保密性是一個(gè)招標(biāo)項(xiàng)目的關(guān)鍵,許多資料都會(huì)牽扯到招標(biāo)人與投標(biāo)人的商業(yè)機(jī)密。所以,必須建立、健全安保體系,一方面要加強(qiáng)對招標(biāo)項(xiàng)目文件的安全管理;另一方面,又要保證招標(biāo)項(xiàng)目文件的可操作性。

        1.1.4 信息查詢簡潔化

        隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,以及大數(shù)據(jù)網(wǎng)絡(luò)時(shí)代的來臨,人們在傳遞、接收文件等方面更加便捷,但在提供多種便利的同時(shí),也產(chǎn)生了大量的信息爆炸。對于海量的數(shù)據(jù),在很短的一段時(shí)間里,如何將多余的信息剔除掉,獲取重要的信息,就成了文件管理的重中之重,所以在管理中必須充分重視文檔數(shù)字化和信息化的問題,需要對文件進(jìn)行信息化集成,以形成易于查詢的體系。

        1.2 管理中的問題及預(yù)期標(biāo)準(zhǔn)

        隨著近幾年網(wǎng)絡(luò)信息技術(shù)的迅猛發(fā)展,更多企業(yè)選擇創(chuàng)建自己的文件管理平臺(tái),不再依賴第三方平臺(tái),但使用過程中會(huì)出現(xiàn)一些問題,如本文的招投標(biāo)文件管理平臺(tái)會(huì)存在招投標(biāo)文件不規(guī)范、部分內(nèi)容失真、信息化程度不足等問題。由于投標(biāo)文件來自于不同的有意向投標(biāo)的公司或企業(yè),意味著投標(biāo)文件多種多樣,缺乏整體規(guī)范性。在此情況下,部分文件的質(zhì)量就會(huì)與標(biāo)準(zhǔn)文件的質(zhì)量有較大差異,甚至?xí)霈F(xiàn)內(nèi)容失真的錯(cuò)誤,如簽名內(nèi)容模糊不清、重要信息遺漏等。信息化程度不足具體表現(xiàn)在平臺(tái)空有上傳的一大堆文件資源卻不能很好地利用,未能將其變成可隨時(shí)查閱的數(shù)據(jù)庫資源。

        針對以上提出的問題,在招投標(biāo)文件管理中,可以得出招投標(biāo)文件管理中的預(yù)期標(biāo)準(zhǔn)。首先是規(guī)范性,上傳的招投標(biāo)文件應(yīng)當(dāng)符合平臺(tái)規(guī)定的統(tǒng)一標(biāo)準(zhǔn),字體、格式、結(jié)構(gòu)均需保持一致,從上傳文件開始嚴(yán)格把關(guān),即從源頭入手,保證所有文件的規(guī)范性[2]。其次是準(zhǔn)確性,為了保證后期工作的順利進(jìn)行,在管理文件之前應(yīng)仔細(xì)審查上傳的文件,避免出現(xiàn)重要信息缺失,符合規(guī)范且信息準(zhǔn)確萬無一失的文件才是需要管理的對象。最后是易用性,要做到方便用戶使用,可以快速便捷檢索到需要的文件信息,也要具備良好易用的人機(jī)接口來更好地管理文件。綜上所述,招投標(biāo)文件管理平臺(tái)在管理中的預(yù)期標(biāo)準(zhǔn)便是達(dá)到很好的規(guī)范性、準(zhǔn)確性及易用性。

        2 自然語言處理技術(shù)可行性分析

        2.1 自然語言處理技術(shù)介紹

        自然語言處理已經(jīng)成為機(jī)器學(xué)習(xí)的研究熱點(diǎn)之一,作為一門包含人工智能、計(jì)算機(jī)科學(xué)及語言學(xué)等一系列學(xué)科的交叉學(xué)科,在數(shù)據(jù)處理領(lǐng)域逐漸占據(jù)一席之地。本文的招投標(biāo)文件管理平臺(tái)在管理文件的過程中使用自然語言處理的相關(guān)技術(shù),會(huì)大大提高辦公效率,減少多余人力資源的消耗。

        自然語言處理技術(shù)可以有效地提高招投標(biāo)文件的規(guī)范性和安全性,利用其處理不同形式的文件,從文件中篩選出重要的信息,可以防止中的重要信息缺失,確保文件的準(zhǔn)確性,也可以進(jìn)行安全檢查,對合同金額和技術(shù)細(xì)節(jié)進(jìn)行嚴(yán)格的檢查,保證文件的質(zhì)量[3]。同時(shí),自然語言處理技術(shù)也能幫助完成多個(gè)版本的文件比對,在一定程度上減少了上傳文件和打印文件過程中的差錯(cuò),降低了產(chǎn)生“陰陽合同”的風(fēng)險(xiǎn)。除此之外,自然語言處理技術(shù)還可以幫助改善招投標(biāo)文件管理的易用性,若采用人工方式,那么處理文件的速度與個(gè)人的能力、知識(shí)背景、文件的內(nèi)容和類型有關(guān),而采用自然語言處理技術(shù)則能將專家經(jīng)驗(yàn)與IT 技術(shù)相結(jié)合能更好地運(yùn)用電腦來實(shí)現(xiàn)招投標(biāo)文件的管理,將技術(shù)變革作為企業(yè)獨(dú)立文件管理平臺(tái)的有力武器。

        2.1.1 信息抽取

        信息抽取是從文本中提取和轉(zhuǎn)化的一種方法,它可以從自然語言的語料庫中提取出不同的名稱實(shí)體,這是一種深入的研究過程。信息提取分為3 個(gè)步驟:第一個(gè)是自動(dòng)化處理非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),第二個(gè)是針對目標(biāo)文字進(jìn)行信息的提取,第三個(gè)是將信息結(jié)構(gòu)化處理。

        2.1.2 命名實(shí)體識(shí)別

        命名實(shí)體識(shí)別是指識(shí)別文本中有特定意義的詞語,將其標(biāo)注出來,為后續(xù)工作做鋪墊,招投標(biāo)文件中的實(shí)體例如項(xiàng)目名稱、項(xiàng)目地點(diǎn)、合同金額、開標(biāo)時(shí)間和投標(biāo)截止時(shí)間等[4]。最近幾年國內(nèi)的研究熱點(diǎn)也是在將命名實(shí)體識(shí)別投入到應(yīng)用階段,在智能問答、機(jī)器翻譯、信息檢索等領(lǐng)域也發(fā)揮著巨大作用[5]。

        2.1.3 文本糾錯(cuò)技術(shù)

        文本糾錯(cuò)技術(shù)就是針對文字中的各種錯(cuò)誤進(jìn)行修正,可分為文本錯(cuò)誤識(shí)別和文本錯(cuò)誤糾正這兩個(gè)階段。由于中文本身就有其獨(dú)特的語言特征,所以其文本糾錯(cuò)就必須要有特定的方法和思維來加以解決。例如,中文的詞匯范圍和詞匯量很大,這就需要大量的學(xué)習(xí)。中文文本經(jīng)常出現(xiàn)的四種錯(cuò)誤類型:字級(jí)、詞級(jí)、語法和語義錯(cuò)誤,而后面二者比較難檢測出來,需要聯(lián)系上下文來判斷。因?yàn)橹形牡恼Z言特點(diǎn),其錯(cuò)誤類型也不同于英文,相對于英文,中文也不會(huì)有太多的語法錯(cuò)誤。

        2.1.4 文本聚類

        文本的聚類與分類本質(zhì)上可以看作是一種技術(shù)手段,兩者都是通過利用文本的內(nèi)在特性將其整合到不同的類別。而文本聚類技術(shù)無需預(yù)先對文本數(shù)據(jù)進(jìn)行標(biāo)記,而是能夠根據(jù)文本數(shù)據(jù)本身的內(nèi)在關(guān)聯(lián)識(shí)別數(shù)據(jù)的特性,將具有相似特性的文本進(jìn)行分割,使其能夠充分利用本身特性而不會(huì)受到外部因素的影響。所以,使用聚類技術(shù)來進(jìn)行文本分析,可以獲得與實(shí)際情況更加接近的期望結(jié)果。然而,與其他機(jī)器學(xué)習(xí)方法一樣,文本聚類算法也不能直接地學(xué)習(xí)和處理非結(jié)構(gòu)化數(shù)據(jù)。因此,在進(jìn)行文本聚類時(shí),必須先將待處理的文字資料轉(zhuǎn)化為結(jié)構(gòu)化文本,然后再進(jìn)行聚類分析。文本聚類過程包括文本預(yù)處理、文本特征表示、文本特征提取、聚類算法等。

        2.2 招投標(biāo)文件分析編制功能需求分析

        在投標(biāo)階段,本文的招投標(biāo)文件管理平臺(tái)主要采用的項(xiàng)目功能是文件分析編制功能,對各類分析報(bào)表、投標(biāo)、合同文件進(jìn)行分析整理和存儲(chǔ),主要功能包括半自動(dòng)化文件分析、模塊化資料管理、標(biāo)準(zhǔn)化文件輸出。文件分析功能主要是指文件重要技術(shù)信息提取,并做好信息的分類統(tǒng)計(jì)、存儲(chǔ)、輸出,作為數(shù)據(jù)分析來源之一;模塊化資料管理是指平臺(tái)要具備模塊庫,根據(jù)標(biāo)題維度和應(yīng)用場景來劃分模塊,同時(shí)具備模塊庫增刪功能;文件輸出這一部分是文件以格式或標(biāo)題形式進(jìn)行預(yù)排,具有選擇架構(gòu),并記憶自動(dòng)存取投標(biāo)文件模板,除此之外,還可以自動(dòng)調(diào)取模塊庫內(nèi)容,再按照要求比對模板后自動(dòng)篩查文件完整性,也具備自動(dòng)排版、文檔糾錯(cuò)、前后關(guān)聯(lián)內(nèi)容查驗(yàn)與修正等功能。

        3 在招投標(biāo)文件管理中的應(yīng)用

        通過介紹了部分自然語言處理技術(shù)以及其可行性分析,以下3 個(gè)小節(jié)便是3 個(gè)應(yīng)用自然語言處理技術(shù)于平臺(tái)文件分析編制功能中的詳細(xì)示例。如圖1 所示。

        圖1 自然語言處理技術(shù)在文件分析編制功能中的作用

        3.1 提取招投標(biāo)文件重要信息

        利用自然語言處理技術(shù),從招投標(biāo)文件中提取出關(guān)鍵信息,傳統(tǒng)的信息提取是一種文本加工技術(shù),它是從對象的自然語言中提取特定類型的實(shí)體、關(guān)系和事件,再將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后輸出。常用的抽取信息有抽取人名、地名、機(jī)構(gòu)名稱和時(shí)間等。以合同文件為例,可以設(shè)定包括甲方、乙方、金額大寫、金額小寫、起始時(shí)間、結(jié)束時(shí)間、簽約地點(diǎn)和銀行賬號(hào)等,通過自然語言處理技術(shù)這些數(shù)據(jù)就會(huì)被自動(dòng)存檔。之后想要檢索類似信息,就能很容易地查找到有關(guān)的資料,做好招投標(biāo)文件管理的信息化。

        采用基于深度學(xué)習(xí)的信息抽取方法,統(tǒng)一步驟如下。

        1)文本預(yù)處理,面對大量待處理文本,對其進(jìn)行中文分詞、命名實(shí)體識(shí)別、關(guān)系抽取和實(shí)體消歧等基本處理。

        2)針對性選擇合適的神經(jīng)網(wǎng)絡(luò)模型,比起傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)中的一些模型可以免去特征工程這一步。

        3)整合處理過后的數(shù)據(jù),得到目標(biāo)文本的關(guān)鍵要素。

        3.2 輔助投標(biāo)文件編寫與輸出

        在招投標(biāo)文件編寫過程中,需要做到文檔糾錯(cuò)、前后關(guān)聯(lián)內(nèi)容查驗(yàn)與修正這些功能,而運(yùn)用自然語言處理技術(shù)比如文本糾錯(cuò)技術(shù)可以滿足以上功能需求。從字錯(cuò)誤、語法錯(cuò)誤和語義錯(cuò)誤3 個(gè)層面,漢字錯(cuò)誤的識(shí)別方法主要采用機(jī)器學(xué)習(xí)和傳統(tǒng)檢索兩種。如采用n元模型、神經(jīng)網(wǎng)絡(luò)、最大熵等機(jī)器學(xué)習(xí)方式。采用統(tǒng)計(jì)機(jī)器翻譯、神經(jīng)網(wǎng)絡(luò)聯(lián)合模型、集成學(xué)習(xí)等語法錯(cuò)誤研究方法,或通過條件隨機(jī)場(Conditional Random Field,CRF)查找文本的錯(cuò)誤。采用結(jié)合上下文語境、基于語義搭配等語法錯(cuò)誤研究方法?;诤A康恼Z料庫構(gòu)造字典,并在字典的基礎(chǔ)上對錯(cuò)誤的文本進(jìn)行遍歷和改正,以實(shí)現(xiàn)文本自動(dòng)糾錯(cuò)。

        在面向招投標(biāo)文件這類規(guī)范性文件的文本糾錯(cuò)時(shí),采用基于BERT-BiLSTM-CRF 的復(fù)合模型來檢索錯(cuò)誤,其中CRF 模型專注于解決序列標(biāo)注的難題,將其放置于整個(gè)流程的最后一層用于處理經(jīng)過BERT 層和BiLSTM 層訓(xùn)練后得到的序列,對每個(gè)字符進(jìn)行標(biāo)注,分為正確字符和錯(cuò)誤字符。采用整個(gè)復(fù)合模型標(biāo)注出來的錯(cuò)誤標(biāo)簽與采用命名實(shí)體識(shí)別獲取句子的實(shí)體標(biāo)簽進(jìn)行比對,如有一致的部分則匹配到相同的實(shí)體,取消錯(cuò)誤標(biāo)簽,之后便可進(jìn)行下一階段即糾錯(cuò)階段。

        3.3 招投標(biāo)文件分類

        面對繁多的招投標(biāo)文件,將其歸入合適的類別,對后期檢索相關(guān)關(guān)鍵詞的文件來說省時(shí)省力。而用于文本分類的機(jī)器算法主要有樸素貝葉斯、決策樹、KNN和支持向量機(jī)等,也可以使用深度學(xué)習(xí)文本分類算法如卷積神經(jīng)網(wǎng)絡(luò)。其中基于卷積神經(jīng)網(wǎng)絡(luò)的分類算法分為3 個(gè)步驟:首先是對數(shù)據(jù)進(jìn)行預(yù)處理,清除文本中的一些噪聲數(shù)據(jù),對文本進(jìn)行分詞,然后是對預(yù)處理后的文本進(jìn)行特征分析,最后是最重要的分類部分,采用以上所說的機(jī)器算法來進(jìn)行分類,這里使用Softmax 回歸深度學(xué)習(xí)模型,表達(dá)式如下式所示

        該式表示為樣本x屬于類別k的概率,其中分子與分母的概率都處于0 與1 之間,采用以e為底的指數(shù)函數(shù),使自變量大于1 時(shí)可以清晰地看見變量的劇烈變化。

        4 結(jié)束語

        隨著信息技術(shù)的高速發(fā)展,招投標(biāo)管理平臺(tái)運(yùn)用新興技術(shù)如自然語言處理技術(shù)來管理文件意義重大。本文創(chuàng)新性地將自然語言處理技術(shù)用在平臺(tái)的文件分析編制功能中,主要體現(xiàn)在以下兩方面。第一,文中通過對招投標(biāo)文件管理平臺(tái)的特點(diǎn)、管理問題以及功能分析,采用了基于深度學(xué)習(xí)的招投標(biāo)文件關(guān)鍵信息抽取,除此之外,還利用了文本糾錯(cuò)和聚類技術(shù)來實(shí)現(xiàn)文件的分析編制功能,證明了自然語言處理可以幫助解決問題,滿足需求,從而完善平臺(tái)的使用感。第二,在應(yīng)用方面,實(shí)現(xiàn)紙質(zhì)化文件管理向數(shù)字化文件管理的轉(zhuǎn)變,加入辦公無紙化的發(fā)展隊(duì)列,也用機(jī)器審核取代人工審核,節(jié)省時(shí)間與資源,也保障了企業(yè)在招投標(biāo)環(huán)節(jié)的經(jīng)濟(jì)效益。

        猜你喜歡
        文本信息管理
        棗前期管理再好,后期管不好,前功盡棄
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        “這下管理創(chuàng)新了!等7則
        雜文月刊(2016年1期)2016-02-11 10:35:51
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        人本管理在我國國企中的應(yīng)用
        展會(huì)信息
        如何快速走進(jìn)文本
        管理的另一半
        97无码人妻Va一区二区三区| 亚洲综合欧美色五月俺也去| 成人欧美一区二区三区| 成人区人妻精品一区二区不卡网站 | 日本超级老熟女影音播放| 国产亚洲一区二区在线观看| av无码免费永久在线观看| 高清国产美女一级a毛片在线| 国产成人美涵人妖视频在线观看| 黑人巨大精品欧美| 四川老熟女下面又黑又肥 | 日本中文一区二区在线| 亚洲国产精品毛片av不卡在线| 少妇精品无码一区二区三区| 亚洲一区二区三区品视频| 人妻一区二区三区av| 久久久久人妻一区精品色欧美| 免费毛片性天堂| 国产激情在线观看视频网址| 色窝窝无码一区二区三区| 欧美性狂猛xxxxx深喉| 日韩激情网| 青青久在线视频免费视频| 五月丁香综合激情六月久久| 亚洲综合一区二区三区四区五区| 日韩精品一区二区三区四区视频| 国产人妻熟女呻吟在线观看| 欧美另类高清zo欧美| 无码一区久久久久久久绯色AV| 免费观看在线视频播放| 无码人妻丰满熟妇区bbbbxxxx| 国产av无码专区亚洲av手机麻豆| 亚洲女同一区二区久久| 麻豆精品一区二区av白丝在线 | 无码丰满少妇2在线观看| 男子把美女裙子脱了摸她内裤| 久久亚洲道色综合久久| 国产成人精品999在线观看| 欧美日本视频一区| 东京热加勒比久久精品| 久久久www成人免费精品|