米健霞,謝紅薇
太原理工大學(xué) 軟件學(xué)院,太原030024
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,電子招投標(biāo)依托于互聯(lián)網(wǎng)的開(kāi)放環(huán)境也得到了迅速發(fā)展,并形成了一種全新的投標(biāo)采購(gòu)活動(dòng)。用戶依托于電子招投標(biāo),可以互不謀面地與供應(yīng)商進(jìn)行采購(gòu)活動(dòng)。然而,隨著電子招標(biāo)采購(gòu)領(lǐng)域的深化與擴(kuò)展,命名實(shí)體識(shí)別成為從海量數(shù)據(jù)中為用戶提取有價(jià)值的信息的重要手段之一。
命名實(shí)體識(shí)別最早采用基于規(guī)則和字典的方法,此方法可以對(duì)具有一定規(guī)律的語(yǔ)句準(zhǔn)確反映,但依賴于大量的人工,耗費(fèi)代價(jià)太大,且泛化能力極差。隨后出現(xiàn)了最大熵模型[1]、條件隨機(jī)場(chǎng)(conditional random field,CRF)[2]、隱馬爾可夫模型(hidden Markov model,HMM)[3]等基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,此方法能夠減少人工成本,但這類方法仍需要大量語(yǔ)料庫(kù)和標(biāo)注支持。隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[5]、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[6]、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long-short term memory,BiLSTM)[7]等基于深度學(xué)習(xí)方法的迅猛發(fā)展,命名實(shí)體識(shí)別的研究迎來(lái)了新的曙光,打破了傳統(tǒng)方法的約束,解決了數(shù)據(jù)中高維、冗雜等傳統(tǒng)機(jī)器學(xué)習(xí)難以解決的問(wèn)題,不需要大量的人工干預(yù)便可以得到較好的識(shí)別效果。
雖然針對(duì)命名實(shí)體識(shí)別的研究已較為廣泛,但在招投標(biāo)領(lǐng)域尚未得到較好的發(fā)展。現(xiàn)階段,招投標(biāo)公司仍使用規(guī)則的方法解決物料識(shí)別問(wèn)題,時(shí)間及人力成本較高。因此,提出一種基于深度學(xué)習(xí)的面向招投標(biāo)領(lǐng)域的命名實(shí)體識(shí)別方法,不僅能夠降低時(shí)間和人力成本,而且能夠增強(qiáng)泛化能力,為招投標(biāo)物料問(wèn)題的解決提供了一種高效的新方案。
近年來(lái),大量學(xué)者對(duì)命名實(shí)體識(shí)別方法及應(yīng)用進(jìn)行了深入研究,梅豐等[8]將電子數(shù)碼領(lǐng)域中的品牌知識(shí)庫(kù)與最大熵模型結(jié)合進(jìn)行訓(xùn)練學(xué)習(xí),最終F1值達(dá)到86.91%;劉非凡等[9]為證明隱馬爾可夫模型在解決多尺度嵌套序列方面的有效性優(yōu)于最大熵模型,對(duì)電子數(shù)碼和手機(jī)兩個(gè)領(lǐng)域的產(chǎn)品名、產(chǎn)品型號(hào)、產(chǎn)品品牌三種實(shí)體進(jìn)行識(shí)別,F(xiàn)1值分別為79.7%、86.9%、75.8%;谷川等[10]在條件隨機(jī)場(chǎng)中融合詞、詞性、品牌、數(shù)字、特殊符號(hào)五種不同層次特征,在電子數(shù)碼和家電領(lǐng)域中的F1值達(dá)到了93.67%;蔣超[11]提出創(chuàng)新的回溯CRF算法,并結(jié)合特征提取優(yōu)化算法運(yùn)用到研報(bào)領(lǐng)域產(chǎn)品中,豐富了模型特征,準(zhǔn)確率達(dá)到了87.34%;雖然這些方法取得較好的效果,但這類方法仍需要大量語(yǔ)料庫(kù)和標(biāo)注支持。隨著深度學(xué)習(xí)的迅猛發(fā)展,此類方法被廣泛使用,李博等[12]使用Transformer-CRF模型,在醫(yī)學(xué)電子病歷中取得了95.02%的F1值;買買提阿依甫等[13]通過(guò)構(gòu)建BILSTM-CRF深層模型,驗(yàn)證了該模型在解決維吾爾文命名實(shí)體識(shí)別中的魯棒性;李一斌等[14]在中文包裝產(chǎn)品命名實(shí)體中驗(yàn)證了雙向GRU-CRF模型優(yōu)于單向長(zhǎng)短期記憶模型,最終準(zhǔn)確率達(dá)到了82.45%;張應(yīng)成等[15]對(duì)標(biāo)書的實(shí)體識(shí)別進(jìn)行了研究,運(yùn)用BiLSTM-CRF模型對(duì)標(biāo)書中的招標(biāo)人、招標(biāo)代理和招標(biāo)編號(hào)三種實(shí)體進(jìn)行識(shí)別,其準(zhǔn)確率分別為82.16%、88.91%、85.74%;但此類方法仍有缺點(diǎn),無(wú)法有效地處理一詞多義問(wèn)題,且沒(méi)有考慮到分詞的影響,從而影響命名實(shí)體識(shí)別。唐煥玲等[16]提出BERT預(yù)訓(xùn)練模型和CRF相結(jié)合的方法,驗(yàn)證了BERT模型能夠充分學(xué)習(xí)語(yǔ)義特征,從而解決語(yǔ)料中一詞多義。
中文作為一種象形文字,有獨(dú)特的字形特征,如部首、筆畫、五筆等特征以及端點(diǎn)、折角點(diǎn)、交叉點(diǎn)等特殊特征。漢字結(jié)構(gòu)特征和其所蘊(yùn)含的事物信息往往具有關(guān)聯(lián)相似性,如具有“艸”“竹”“木”等偏旁的漢字多于植物有關(guān),許多疾病實(shí)體詞往往帶有“疒”部首,Dong等[17]用漢字的偏旁部首信息來(lái)增強(qiáng)漢字信息,用LSTM-CRF模型對(duì)中文實(shí)體進(jìn)行識(shí)別;趙健等[18]為了驗(yàn)證特殊特征對(duì)手寫漢字識(shí)別率提升的重要性,選擇漢字筆畫的特殊特征進(jìn)行提取,例如端點(diǎn)、折角點(diǎn)、交叉點(diǎn)特征;Dai等[19]為了證明字形特征對(duì)命名實(shí)體識(shí)別的影響,運(yùn)用CNN提取漢字的圖像特征達(dá)到了較高的識(shí)別率。但以上方法只使用了漢字的一種特征,泛化能力較差。
考慮到BERT模型可以解決招標(biāo)物料的多義性和分詞問(wèn)題,CNN提取漢字的五筆特征可以增強(qiáng)語(yǔ)義向量,BiLSTM可以對(duì)其結(jié)合的信息進(jìn)行上下文提取,CRF能夠?qū)iLSTM的標(biāo)簽結(jié)果進(jìn)行檢查約束,從而獲取最優(yōu)的全局標(biāo)注序列,本文提出一種CB-BiLSTM-CRF模型,用來(lái)識(shí)別招標(biāo)物料中名稱、自然高、胸徑、冠幅、光束角、功率、光通量等12種實(shí)體。
本文首先采用BERT預(yù)訓(xùn)練模型對(duì)輸入文本進(jìn)行特征提取,通過(guò)雙向Transformer編碼器,對(duì)詞前后的信息充分利用,從而獲取更準(zhǔn)確的詞向量分布表征;同時(shí)將輸入文本轉(zhuǎn)換為五筆編碼的形式,通過(guò)CNN對(duì)五筆編碼進(jìn)行卷積提取字形特征,隨后,將BERT獲得的字向量與漢字五筆字形向量相結(jié)合,并將組合結(jié)果作為雙向LSTM的輸入進(jìn)行訓(xùn)練,最后將雙向LSTM模型的結(jié)果輸入到CRF中進(jìn)行約束,最終得到最優(yōu)預(yù)測(cè)結(jié)果,這樣既結(jié)合了中文特有的字形特征,避免了分詞,又實(shí)現(xiàn)了一詞多義。這一創(chuàng)新模型通過(guò)對(duì)中文特有的字形特征與BERT預(yù)訓(xùn)練模型結(jié)合,減少了命名實(shí)體的識(shí)別錯(cuò)誤,能夠以少量的資源實(shí)現(xiàn)高效的識(shí)別效果。本文提出的CB-BiLSTM-CRF模型結(jié)構(gòu)如圖1所示。
圖1 CB-BiLSTM-CRF模型架構(gòu)圖Fig.1 CB-BILSTM-CRF model architecture diagram
卷積神經(jīng)網(wǎng)絡(luò)由Yan Lecun于1998年提出,卷積神經(jīng)網(wǎng)絡(luò)由卷積層、激活層和池化層三部分構(gòu)成,該模型采用局部鏈接和權(quán)值共享的策略,減少了網(wǎng)絡(luò)參數(shù),具有平移不變形。卷積層的作用是利用不同尺寸的卷積核在輸入的特征上以特定的步長(zhǎng)滑動(dòng)進(jìn)行卷積計(jì)算;在池化層中,卷積數(shù)據(jù)和參數(shù)量被壓縮,一方面可以簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度,另一方面能夠通過(guò)壓縮來(lái)提取主要特征;激活層是利用激活函數(shù)對(duì)結(jié)果做非線性映射,使其能夠更好地解決復(fù)雜的問(wèn)題。
漢字作為世界上最古老的象形文字之一,所蘊(yùn)含的含義大多與漢字字形密切相關(guān),具有相似字形的漢字往往也具有相似的含義,但是漢字的這一特性在電子招投標(biāo)命名實(shí)體識(shí)別領(lǐng)域還未充分利用。五筆特征在編碼時(shí)充分結(jié)合了漢字的筆畫和字形結(jié)構(gòu),是一種能較好表征漢字字形特點(diǎn)的編碼形式。例如,漢字“花”由“艸”“亻”“匕”三種筆畫組成,分別用“a”“w”“x”表示,“花”的上下結(jié)構(gòu)和最后筆畫“折”用識(shí)別碼“b”來(lái)表示,由漢字的筆畫信息和結(jié)構(gòu)信息便組成了“花”的五筆編碼,即“awxb”。因此,本文充分利用這一特點(diǎn),將漢字轉(zhuǎn)換為五筆編碼形式,然后利用CNN的卷積和池化操作進(jìn)行特征提取,最終得到五筆特征向量。字形特征提取步驟如下:
步驟1將輸入的中文語(yǔ)句拆分為單個(gè)漢字。
步驟2用程序?qū)崿F(xiàn)每個(gè)漢字向五筆編碼的轉(zhuǎn)換,以特殊符號(hào)>作為每個(gè)漢字五筆編碼間的分隔符。
步驟3通過(guò)五筆編碼獲取對(duì)應(yīng)漢字的五筆向量矩陣表示,利用CNN網(wǎng)絡(luò)的卷積和池化操作對(duì)每個(gè)漢字的五筆特征進(jìn)行提取。
2018年,Devlin等[20]提出了BERT模型,該模型采用了只有編碼模塊,沒(méi)有解碼模塊的雙向Transformer結(jié)構(gòu)。
BERT模型將三個(gè)能夠充分表達(dá)語(yǔ)義信息的向量相加作為輸入,分別為token詞向量、segment句子向量和位置向量;其中segment句子向量的作用主要是通過(guò)在句首添加[CLS]開(kāi)始標(biāo)志,句尾加[SEP]結(jié)束標(biāo)記來(lái)判定詞匯的語(yǔ)句歸屬;BERT模型通過(guò)這三個(gè)輸入的向量,既能夠?qū)崿F(xiàn)對(duì)字符級(jí)、詞級(jí)、句子級(jí)甚至句子之前的關(guān)系的充分描述,又可以更好地表征不同語(yǔ)境中的句法與語(yǔ)義信息。
BERT模型有兩大核心任務(wù):Masked LM和下一句話預(yù)測(cè)。Masked LM,即mask語(yǔ)言訓(xùn)練模型,BERT模型中,作者隨機(jī)抽取訓(xùn)練集15%的詞,在抽取的詞中,80%用[mask]替換,10%維持不變,10%用隨機(jī)詞進(jìn)行替換,通過(guò)這樣的方式對(duì)被msak的詞的原意進(jìn)行預(yù)測(cè)。下一句話預(yù)測(cè)是針對(duì)所有訓(xùn)練的語(yǔ)句,對(duì)語(yǔ)句之間的關(guān)系進(jìn)行判斷,例如,A、B是預(yù)訓(xùn)練樣本,B有50%的概率是A的下一句,記為IsNext,同理,B有50%的概率不是A的下一句,而是一句隨機(jī)從訓(xùn)練集中抽取的語(yǔ)句,記為NotNext。BERT模型通過(guò)這兩大任務(wù)分別捕捉詞和句子的表示,進(jìn)而更好地利用上下文信息。
BERT模型的核心是Transformer中的自注意力機(jī)制,首先對(duì)每句話中每個(gè)詞與其他詞的相似度進(jìn)行計(jì)算,然后對(duì)相似度做歸一化得到注意力權(quán)重,利用注意力權(quán)重對(duì)字向量進(jìn)行加權(quán)線性組合,從而使得每個(gè)字向量都含有當(dāng)前句子中所有字向量的信息。計(jì)算公式如下:
其中,Q為要查詢的詞,K為其他詞,V為真實(shí)被取出來(lái)的值,dk為Q和V的維度,先用Q與每個(gè)K做attention點(diǎn)積計(jì)算,然后通過(guò)與dk做除把注意力矩陣轉(zhuǎn)為標(biāo)準(zhǔn)正態(tài)分布,保證結(jié)果的穩(wěn)定性,接著用softmax進(jìn)行歸一化,最后乘以V得到輸出向量。
softmax函數(shù),常用于多分類問(wèn)題中,作用是將得到的分值進(jìn)行歸一化,最終概率值分布在[0,1]之間,且概率和為1,概率最大的便是預(yù)測(cè)目標(biāo),計(jì)算公式如公式(2):
為了確保每個(gè)head關(guān)注的信息都不同,BERT模型利用多頭自注意力機(jī)制,將詞的多種維度作為多個(gè)head,這樣每個(gè)head便可以從不同的表示子空間進(jìn)行學(xué)習(xí)。公式如下:
BERT模型解決一詞多義問(wèn)題,Masked LM、下一句話預(yù)測(cè)這兩大核心任務(wù)和多層雙向Transformer及其多頭自注意力機(jī)制發(fā)揮著重要的作用,Masked LM使其不僅學(xué)習(xí)下文信息,也能夠?qū)W習(xí)到上文信息,多頭自注意力機(jī)制能夠同時(shí)提取特征,解決長(zhǎng)距離依賴問(wèn)題,這樣便使每個(gè)詞可以同時(shí)利用該詞的上下文信息,從而達(dá)到一詞多義的效果。
1997年,Hochreiter、Scmidhuber[21]為了解決RNN模型的缺點(diǎn)提出LSTM網(wǎng)絡(luò),該模型的誕生,為RNN中梯度消失及爆炸問(wèn)題的解決提供了途徑,從而擺脫了在處理長(zhǎng)期依賴信息方面的困擾。
LSTM整體功能的實(shí)現(xiàn)主要依靠細(xì)胞狀態(tài)、輸入門、遺忘門、輸出門等組件。其中,遺忘門輸入的是上一時(shí)刻隱含層ht-1和這一時(shí)刻的輸入xt,sigmoid激活函數(shù)作為是否遺忘上層細(xì)胞狀態(tài)內(nèi)容的標(biāo)準(zhǔn);輸入門既要對(duì)輸入信息進(jìn)行處理,又要對(duì)更新信息進(jìn)行確定,同時(shí)更新細(xì)胞狀態(tài);最后,輸出門決定輸出細(xì)胞狀態(tài)中保存的哪些信息。圖2為L(zhǎng)STM的結(jié)構(gòu)圖。
圖2 LSTM結(jié)構(gòu)圖Fig.2 LSTM diagram
LSTM網(wǎng)絡(luò)的計(jì)算過(guò)程如公式(5)~(10)所示,其中ht-1表示上一時(shí)刻隱含層狀態(tài),xt表示這一時(shí)刻的輸入,以it作為輸入門,ot作為輸出門,ft為遺忘門,W作為權(quán)重矩陣,用b表示偏置,Sigmoid激活函數(shù)為δ,雙曲正切函數(shù)為tanh。
Sigmoid函數(shù)和tanh函數(shù)是兩種使用廣泛的激活函數(shù)。Sigmoid激活函數(shù),如公式(11),用于二分類問(wèn)題中,其取值范圍為(0,1),即經(jīng)過(guò)Sigmoid函數(shù)激活后恒為正值;tanh雙曲正切函數(shù)以(0,0)為中心點(diǎn),其取值范圍為(-1,1),收斂速度與Sigmoid相比更快,如公式(12)。
BiLSTM模型,即雙向LSTM模型,由前向LSTM和后向LSTM共同結(jié)合而成,結(jié)構(gòu)如圖3所示。BiLSTM不僅可以學(xué)習(xí)到前向的有效信息,還可以學(xué)習(xí)到后向信息,更好獲取上下文信息,進(jìn)而提高識(shí)別率。
圖3 BiLSTM結(jié)構(gòu)圖Fig.3 BiLSTM diagram
2001年,Lafferty等[22]提出CRF模型,CRF模 型可以解決BiLSTM模型難以實(shí)現(xiàn)的標(biāo)簽依賴的問(wèn)題,如BiLSTM模型可能會(huì)在“O”標(biāo)簽后輸出“I-mc”等錯(cuò)誤標(biāo)簽,CRF模型通過(guò)計(jì)算句子的標(biāo)注序列概率可以得到標(biāo)簽之間的約束條件,如標(biāo)簽開(kāi)頭應(yīng)該是“B”或“O”,“O”后邊不應(yīng)該輸出“I-mc”,“B-mc”后應(yīng)該是“I-mc”或“O”等;CRF模型通過(guò)給定句子x計(jì)算標(biāo)注序列y的概率如公式(13)、(14),其中F(y,x)是轉(zhuǎn)移矩陣和狀態(tài)矩陣。
本文采用python語(yǔ)言,通過(guò)整合Flask輕量級(jí)框架設(shè)計(jì)并構(gòu)建了“智能物料”可視化Web在線識(shí)別平臺(tái),可以快速識(shí)別出名稱、胸徑、藤長(zhǎng)、功率、光通量、光束角、品牌等特征。該平臺(tái)初始界面如圖4。
圖4 “智能物料”在線識(shí)別平臺(tái)初始界面Fig.4 Initial interface of“Smart Materials”online identification platform
其中,輸入框記錄用戶提交的物料信息,“在線識(shí)別”按鈕將用戶參數(shù)傳遞至Web后端,通過(guò)調(diào)用訓(xùn)練好的模型對(duì)輸入數(shù)據(jù)進(jìn)行識(shí)別,最后將識(shí)別結(jié)果返回到“智能物料”在線平臺(tái)中,識(shí)別界面如圖5所示。
圖5 “智能物料”在線識(shí)別平臺(tái)識(shí)別界面Fig.5 Identification interface of“Smart Materials”online identification platform
由于電子招投標(biāo)領(lǐng)域的特殊性,缺乏權(quán)威性的語(yǔ)料支持,所以本文采用人工收集的方式來(lái)構(gòu)建實(shí)驗(yàn)樣本。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于兩部分,一部分是招標(biāo)公司提供的真實(shí)發(fā)生采購(gòu)的物料數(shù)據(jù),另一部分是從各招標(biāo)網(wǎng)站中爬蟲的產(chǎn)品數(shù)據(jù),一共收集了約8萬(wàn)條數(shù)據(jù),其中植物類約2萬(wàn)條,燈具類數(shù)據(jù)約3萬(wàn)條。實(shí)驗(yàn)中,使用植物類、燈具類兩類數(shù)據(jù),并將數(shù)據(jù)集按2∶2∶6的比例隨機(jī)分為驗(yàn)證集、測(cè)試集和訓(xùn)練集。本文采用的標(biāo)注方法為BIO標(biāo)注法,采用的判斷預(yù)測(cè)正確的條件為實(shí)體的邊界和類型都正確。實(shí)體標(biāo)簽及標(biāo)注如表1所示。
表1 實(shí)體標(biāo)簽及標(biāo)注Table 1 Physical labeling and labeling
本文將準(zhǔn)確率P、召回率R、F1值作為實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),公式如下:
本實(shí)驗(yàn)使用12層的谷歌BERT-Base預(yù)訓(xùn)練模型,隱藏層數(shù)為768,12頭,參數(shù)共110×106。實(shí)驗(yàn)參數(shù)如表2所示。
表2 實(shí)驗(yàn)參數(shù)Table 2 Experimental parameters
為了證明模型的實(shí)驗(yàn)效果,本文用相同的數(shù)據(jù)集分別以GRU-CRF、LSTM-CRF、BiLSTM-CRF、CNNBiLSTM-CRF、BERT-BiLSTM-CRF、CB-BiLSTM-CRF模型進(jìn)行了實(shí)驗(yàn),并用同樣的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),各方法的實(shí)驗(yàn)結(jié)果如表3所示。
實(shí)驗(yàn)1為了對(duì)比GRU和LSTM在命名實(shí)體識(shí)別的效果,使用GRU-CRF和LSTM-CRF兩種方法進(jìn)行實(shí)驗(yàn),由表3可知,LSTM-CRF準(zhǔn)確率、召回率、F1值分別為75.12%、77.63%、76.35%,分別比GRU-CRF提高了0.59、0.76、0.82個(gè)百分點(diǎn)。由此可見(jiàn),LSTM-CRF識(shí)別效果較好,因此本文選用LSTM-CRF作為基準(zhǔn)模型。
表3 各方法識(shí)別結(jié)果Table 3 Results identified by each method單位:%
實(shí)驗(yàn)2采用BiLSTM-CRF模型,由表3可知,其識(shí)別效果比LSTM-CRF模型提高3.05、1.96、2.52個(gè)百分點(diǎn),這是因?yàn)锽iLSTM-CRF模型能夠提取前向和后向兩個(gè)方向的語(yǔ)義信息,相較于特性提取方向單一的LSTMCRF模型而言,具有更好的實(shí)體識(shí)別效果。
實(shí)驗(yàn)3在實(shí)驗(yàn)2的基礎(chǔ)上增加了卷積神經(jīng)網(wǎng)絡(luò),由表3可知,CNN-BiLSTM-CRF模型在識(shí)別準(zhǔn)確率、召回率、F1值上比BiLSTM-CRF模型分別提高7.91、5.97、6.94個(gè)百分點(diǎn),說(shuō)明通過(guò)CNN能夠有效對(duì)招標(biāo)物料特征進(jìn)行局部提取,從而提高招標(biāo)物料命名實(shí)體的識(shí)別效果。
實(shí)驗(yàn)4將實(shí)驗(yàn)3的CNN換為BERT預(yù)訓(xùn)練模型,實(shí)驗(yàn)表明BERT-BiLSTM-CRF模型比CNN-BiLSTM-CRF模型提高了約8個(gè)百分點(diǎn),主要因?yàn)楸疚牡恼袠?biāo)物料內(nèi)容更多涉及一詞多義的處理,CNN僅對(duì)招標(biāo)物料局部特征進(jìn)行提取,難以處理一詞多義問(wèn)題,BERT模型利用多頭注意力機(jī)制提取句子中的語(yǔ)義信息從而解決這一問(wèn)題,因此BERT-BiLSTM-CRF模型整體優(yōu)于CNNBiLSTM-CRF模型。
實(shí)驗(yàn)5為了進(jìn)一步提高招標(biāo)物料的命名實(shí)體識(shí)別準(zhǔn)確率,本文提出CB-BiLSTM-CRF模型,利用CNN對(duì)招標(biāo)物料五筆字形特征提取,最終F1值達(dá)到了95.82%,說(shuō)明將BERT預(yù)訓(xùn)練模型獲得的字符向量和CNN模型獲得的字形五筆特征相結(jié)合可以強(qiáng)化招標(biāo)物料的語(yǔ)義信息,從而達(dá)到更高的識(shí)別效果。
最后對(duì)本文招標(biāo)物料名稱、胸徑、藤長(zhǎng)、冠幅等12類實(shí)體在CB-BiLSTM-CRF模型和BERT-BiLSTM-CRF模型進(jìn)行實(shí)驗(yàn)做細(xì)化對(duì)比,兩模型在12類實(shí)體的F1值結(jié)果如表4所示??梢钥闯觯渲忻Q和胸徑相較于其他實(shí)體識(shí)別效果最好,F(xiàn)1值均達(dá)到98%以上,這是因?yàn)槊Q和胸徑實(shí)體有較為明確的上下文信息以及字形特征;而品牌這一實(shí)體的識(shí)別效果最差,其原因是品牌種類繁多,沒(méi)有特定的字形特征,邊界不好確定,但相較于BERT-BiLSTM-CRF模型提高了1.01個(gè)百分點(diǎn)。綜上所述,從表中可以看出本文模型對(duì)招標(biāo)物料的識(shí)別效果有一定的積極影響。
傳統(tǒng)招標(biāo)物料數(shù)據(jù)的識(shí)別過(guò)度依賴人工,人為定義的數(shù)據(jù)識(shí)別規(guī)則對(duì)物料的識(shí)別率起決定性作用。隨著招標(biāo)領(lǐng)域物料數(shù)據(jù)的復(fù)雜性、多樣性、數(shù)據(jù)量的不斷提升,通過(guò)人工定義規(guī)則的識(shí)別方式已經(jīng)不能滿足需求,本文提出CB-BiLSTM-CRF模型,在提升識(shí)別效果的同時(shí)降低了人力成本。通過(guò)采用不同模型對(duì)多類物料數(shù)據(jù)進(jìn)行實(shí)驗(yàn),最終使F1值達(dá)到95.82%,說(shuō)明了在招標(biāo)物料的命名實(shí)體識(shí)別中,CB-BiLSTM-CRF模型效果更好。同時(shí),本文搭建了在線招標(biāo)物料命名實(shí)體識(shí)別網(wǎng)頁(yè)平臺(tái),方便用戶快速?gòu)奈谋局刑崛∮行畔ⅰ?/p>
雖然本文提出的模型在招標(biāo)物料中達(dá)到了95.82%的F1值,但本文僅使用植物類和燈具類兩種物料數(shù)據(jù),且沒(méi)有考慮到錯(cuò)別字和別稱的問(wèn)題,接下來(lái)將結(jié)合錯(cuò)別字和別稱的情況在更多種類的物料數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比,以提高招標(biāo)物料的命名實(shí)體識(shí)別效果。