亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進BERT的電力領域中文分詞方法

        2024-01-09 04:00:04夏飛陳帥琦華珉蔣碧鴻
        計算機應用 2023年12期
        關鍵詞:層數(shù)分詞編碼器

        夏飛,陳帥琦,華珉,蔣碧鴻

        基于改進BERT的電力領域中文分詞方法

        夏飛1,陳帥琦1,華珉2*,蔣碧鴻3

        (1.上海電力大學 自動化工程學院,上海 200090; 2.國網(wǎng)上海電力公司 電力科學研究院,上海 200437; 3.上海電力大學 圖書館 上海 200090)(?通信作者電子郵箱hmhzgb@163.com)

        針對電力領域中文文本包含大量專有詞時分詞效果不佳的問題,提出一種基于改進BERT (Bidirectional Encoder Representation from Transformers)的電力領域中文分詞(CWS)方法。首先,構建分別涵蓋通用、領域詞的詞典,并設計雙詞典匹配融合機制將詞特征直接融入BERT模型,使模型更有效地利用外部知識;其次,通過引入DEEPNORM方法提高模型對于特征的提取能力,并使用貝葉斯信息準則(BIC)確定模型的最佳深度,使BERT模型穩(wěn)定加深至40層;最后,采用ProbSparse自注意力機制層替換BERT模型中的經(jīng)典自注意力機制層,并利用粒子群優(yōu)化(PSO)算法確定采樣因子的最優(yōu)值,在降低模型復雜度的同時確保模型性能不變。在人工標注的電力領域?qū)@谋緮?shù)據(jù)集上進行了分詞性能測試。實驗結果表明,所提方法在該數(shù)據(jù)集分詞任務中的F1值達到了92.87%,相較于隱馬爾可夫模型(HMM)、多標準分詞模型METASEG(pre-training model with META learning for Chinese word SEGmentation)與詞典增強型BERT(LEBERT)模型分別提高了14.70、9.89與3.60個百分點,驗證了所提方法有效提高了電力領域中文文本的分詞質(zhì)量。

        中文分詞;領域分詞;改進BERT;電力文本;深度學習;自然語言處理

        0 引言

        電力領域的文本數(shù)據(jù)這類非結構化數(shù)據(jù)包含大量運行經(jīng)驗,對它進行分析可以為電力運行提供支持[1]。電力領域中文文本分詞是自然語言處理技術范疇內(nèi)中文分詞(Chinese Word Segmentation, CWS)任務的一個分支,它的目的是將整段的電力領域文本正確拆分成詞的集合,為后續(xù)電力文本挖掘、知識圖譜構建等基于詞級語料的電力領域自然語言處理任務提供基礎數(shù)據(jù)[2-3],因此,電力文本分詞的質(zhì)量直接影響后續(xù)任務的質(zhì)量。

        CWS任務一直面臨分詞標準選擇、分詞歧義和未登錄詞(Out-Of-Vocabulary, OOV)識別的問題[4]。CWS通常被視為序列標注任務。在近20年的發(fā)展中,CWS經(jīng)歷了隱馬爾可夫模型(Hidden Markov Model,HMM)、條件隨機場(Conditional Random Field, CRF)等基于統(tǒng)計的方法[5-6],以及長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡、BERT(Bidirectional Encoder Representation from Transformers)等基于深度神經(jīng)網(wǎng)絡模型的方法[7-8],準確率逐步提升。目前,分詞標準選擇與分詞歧義的問題隨著更多標準的提出與深度神經(jīng)網(wǎng)絡模型的大規(guī)模應用得到有效緩解,未登錄詞成為影響分詞準確性的最重要的因素[4]。

        未登錄詞指的是分詞任務中遇到但模型訓練語料中沒有涉及的詞。在對未登錄詞的研究中發(fā)現(xiàn),56%~72%的未登錄詞為專有詞[9];因此,采用面向通用場景的語料庫設計的分詞手段應用于特定領域時通常效果較差。為此,研究者們開始探索針對領域文本分詞任務的方法。

        針對領域文本的分詞方法一般通過改進通用分詞模型、結合領域詞典、采用遷移學習等方式獲得更好的領域分詞性能。文獻[10]中在雙向長短期記憶(Bidirectional LSTM, Bi-LSTM)網(wǎng)絡模型中添加了詞典信息并取得了較好的效果,證明了在神經(jīng)網(wǎng)絡模型中添加詞典對指導拆分領域?qū)S性~的有效性;文獻[11]中在自適應HMM的基礎上添加領域詞典和互信息,構建了對石油領域文本的分詞模型;文獻[12]中設計了一種利用未標記和部分標記數(shù)據(jù)訓練的Bi-LSTM網(wǎng)絡分詞模型,在跨領域CWS任務中取得了良好的效果;文獻[13]中基于Bi-LSTM網(wǎng)絡和遷移學習設計了領域自適應的分詞方法;文獻[14]中使用雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, Bi-GRU)代替多頭注意力機制中的位置編碼,設計了面向領域的分詞模型;文獻[15]中通過設計新詞發(fā)現(xiàn)機制自動標注新領域語料,并用它訓練門控卷積神經(jīng)網(wǎng)絡(Gated Convolutional Neural Network, GCNN)分詞模型,在多個領域的測試中取得了較好的成績。

        目前,面向電力領域文本的自然語言處理技術研究中缺乏對電力領域中文文本分詞任務的研究,現(xiàn)有研究大多使用基于規(guī)則或統(tǒng)計的方法實現(xiàn)分詞。文獻[16]中使用經(jīng)過電力專業(yè)詞典增強的HMM對電力設備缺陷記錄進行分詞以構建知識圖譜;文獻[17]中利用HMM與Viterbi算法輔以領域詞典進行分詞,再依據(jù)分詞結果構建Bi-LSTM分類器,實現(xiàn)變壓器故障文本句子分類;文獻[18]中采用串頻統(tǒng)計等方法實現(xiàn)分詞,用于后續(xù)電力領域命名實體識別;文獻[19]中設計了包含大量領域詞匯的預設詞庫,通過正向逆向最大匹配的方法獲取低粒度電力詞匯?;谝?guī)則與統(tǒng)計的分詞方法存在分詞歧義、粒度混亂和對未登錄詞錯誤分詞的問題,且對領域詞典質(zhì)量有較高要求,分詞效果不理想,會對后續(xù)任務造成嚴重影響。在與分詞任務同屬序列標注任務的電力領域命名實體識別中,深度學習技術得到了廣泛應用。文獻[20]中使用經(jīng)過電力領域語料預訓練的電力BERT模型作為字嵌入的編碼方式,之后通過Bi-LSTM網(wǎng)絡與CRF輸出序列標注;文獻[21]中使用多個雙向循環(huán)神經(jīng)網(wǎng)絡(Bidirectional Recurrent Neural Network, Bi-RNN)創(chuàng)建多個單一實體識別器,最后利用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)分析結果,輸出最終的電力實體信息。以上述文獻為代表的電力領域命名實體識別工作雖然同為序列標注任務,但它們僅針對電力實體詞匯的識別,應用在電力文本的整體分詞任務時,效果較差,無法解決依賴詞級語料的模型的語料問題;同時,BERT模型的特征提取能力與表示能力較強,但目前基于BERT的領域文本序列標注方法(包含分詞與命名實體識別)大多僅作為動態(tài)字嵌入的獲取方式,而將特征提取工作交予送入了字嵌入與詞典等外部信息的后續(xù)模型(例如Bi-LSTM),這樣的模型設計將外部知識表示與字嵌入獲取過程隔離,沒有充分利用外部知識以及BERT模型的特征提取能力與表示能力,提高了模型復雜度。

        綜上,目前面向電力領域的分詞方法研究較少,分詞手段性能落后,嚴重制約了模型性能。為了實現(xiàn)以高準確率切分電力領域文本詞匯的目的,本文受詞典增強型BERT (Lexicon Enhanced BERT, LEBERT)模型[22]的啟發(fā),以電力領域?qū)@谋緸閷嶒瀸ο筮M行了研究,提出了面向電力領域的CWS深度神經(jīng)網(wǎng)絡模型。

        本文的主要工作內(nèi)容如下:

        1)構建了面向電力領域的領域詞典,設計了包含領域詞典與通用詞典的雙詞典匹配融合機制,將外部知識信息直接集成到BERT內(nèi)部,強化了語料特征并緩解了未登錄詞問題。

        2)引入DEEPNORM方法[23],將BERT模型穩(wěn)定加深至40層,避免了傳統(tǒng)深層BERT模型面臨的增量爆炸問題,提高了模型對特征的提取能力;結合貝葉斯信息準則(Bayesian Information Criterion, BIC)對模型性能、時間等因素綜合評分,確定了模型最佳深度,防止模型過于復雜。

        3)為進一步降低模型規(guī)模,采用ProbSparse自注意力機制[24]層替換了BERT模型中的經(jīng)典自注意力機制層,降低了模型的時間與空間復雜度;利用粒子群優(yōu)化(Particle Swarm Optimization,PSO)確定采樣因子的最優(yōu)值,在降低模型復雜度的同時確保了模型性能不變。

        1 融合領域詞典與通用詞典的CWS模型

        圖1 融合領域詞典與通用詞典的CWS模型

        1.1 雙詞典匹配融合機制

        1.1.1詞典建立與詞特征提取

        詞典作為分詞模型的重要組成部分,直接指導模型對于專有名詞的拆分。本文的具體思路為通過通用、領域兩個詞典為模型添加外部知識,其中:通用詞典有多個內(nèi)容豐富的高質(zhì)量開源詞典,選擇文獻[25]中制作的詞典與詞嵌入,該詞典具有完整的詞匯文本部分與詞嵌入部分,詞語總數(shù)約為882萬;對于領域詞典,目前缺乏成熟統(tǒng)一的電力領域開源詞典,需要構建,選擇電力行業(yè)國標[26]、現(xiàn)有電力詞匯書籍[27]等內(nèi)容作為主體,用人工總結的最新電力熱詞作為填充構建電力領域詞典,包含的詞語總數(shù)約為15萬,可以基本滿足電力領域?qū)S忻~分詞的需要。

        1.1.2詞特征的融入

        由于詞嵌入的維度與模型字符特征的維度可能存在差異,為了使新加入的詞嵌入能夠與字符特征匹配,需要對詞嵌入進行非線性變換,將它與字符特征統(tǒng)一維度:

        圖3 雙詞典匹配融合機制的結構

        由于同一個字符可能涉及多個匹配的詞語,為防止引入歧義干擾,需要對結果進行選擇。本文沿用雙線性注意力機制實現(xiàn)詞語挑選,基于字符特征獲取各詞嵌入的注意力得分,之后計算每個字符對應的領域詞的加權和,即為領域詞特征:

        將獲得的領域詞特征與字符特征結合,并進行層標準化:

        其中:LN代表LayerNorm,是用來進行層標準化的經(jīng)典函數(shù)。

        同理,使用添加了領域詞特征的字符特征與通用詞嵌入計算雙線性注意力得分,構建通用詞特征:

        然后將獲得的通用詞特征與添加了領域詞特征的字符特征融合,最后經(jīng)過dropout與層標準化,完成詞典信息的匹配添加。

        1.2 深層BERT

        1.2.1DEEPNORM方法

        雙詞典匹配融合機制將領域詞典信息與通用詞典信息融入BERT,給模型添加了更有效的外部知識,但也存在詞特征被稀釋的問題;另一方面,領域語料庫的規(guī)模通常因為文本數(shù)量與標注成本問題而受到限制,因而需要提高模型對特征的提取能力。目前Transformer模型[28]正在向著大型化方向發(fā)展,對于基于Transformer的BERT模型,參數(shù)量意味著模型的寬度,而BERT編碼器層數(shù)則代表模型的深度,更深的模型可以在較窄的情況下獲得比寬而淺的模型更好的效果,因此,本文引入DEEPNORM方法[23]穩(wěn)定地增加BERT模型的層數(shù)。DEEPNORM方法的公式為:

        Tab.1 Values of and corresponding to SGD and Adam optimizers

        注:代表BERT編碼器的層數(shù)。

        1.2.2基于BIC的BERT編碼器層數(shù)確定方法

        雖然BERT編碼器的層數(shù)在一定范圍內(nèi)加深可以獲得更好的效果,但超過該范圍后模型的整體性能將下降。BIC是一種常用的判別準則,用于評價模型性能。本文采用經(jīng)過改進的BIC對不同深度的模型進行評價,以確定模型中BERT編碼器層數(shù)的最優(yōu)值。最佳層數(shù)可以通過BIC評分結果得到。

        本文所述BIC公式為:

        1.3 基于ProbSparse 自注意力機制的模型簡化

        1.3.1ProbSparse 自注意力機制

        優(yōu)化后的BERT模型提升了特征提取的能力,但也帶來了時間復雜度與空間復雜度高的新問題。針對這一問題,本文引入ProbSparse自注意力機制[24]替換BERT編碼器中原本的自注意力機制,在幾乎不影響模型效果的前提下進一步減少參數(shù)量,提高訓練速度。

        最終,ProbSparse自注意力機制的公式可以表示為:

        1.3.2基于PSO的采樣因子確定方法

        采樣因子的選取對模型有直接影響:選取過大會削弱ProbSparse自注意力機制的模型簡化效果;選取過小則會造成特征丟失,降低模型性能。針對這一問題,本文建立了最優(yōu)化目標函數(shù),利用PSO算法確定采樣因子的最佳取值。

        PSO算法粒子速度、位置的更新公式為:

        圖4 PSO算法優(yōu)化采樣因子的流程

        2 實驗與結果分析

        為了驗證本文模型的效果,搭建了基于Python的實驗環(huán)境,開展了大量實驗。計算機操作系統(tǒng)為Windows 10,CPU為AMD Ryzen5 3600,內(nèi)存32 GB,GPU為NVIDIA GEFORCE RTX 3090,顯存容量24 GB。

        在討論模型的最優(yōu)參數(shù)選擇時,由于采樣因子相較于BERT編碼器層數(shù)對模型性能的影響更大,因此在設置模型超參數(shù)之后,先確定采樣因子的最優(yōu)值,再討論BERT編碼器層數(shù)的優(yōu)選值。

        2.1 語料構成與評價標準

        為充分體現(xiàn)模型性能,選取電力專業(yè)詞匯密集且涵蓋廣泛的電力領域?qū)@谋具M行人工標注制作語料庫。由于領域文本僅能靠人工標注獲取,規(guī)模較小,且具有一定程度上的局限性,因此將領域語料庫與Bakeoff提供的微軟亞洲研究院(MicroSoft Research Asia, MSRA)語料庫、北京大學(PeKing University, PKU)語料庫等標準語料庫[29]的部分內(nèi)容進行組合,使領域語料庫與標準語料庫的文本比例為1∶2。用于訓練的語料庫具體構成情況如表2所示。取領域語料庫的10%用于后續(xù)測試。

        在分詞規(guī)范方面,本文參照文獻[30],對于規(guī)范未涉及的專業(yè)領域詞匯,采用國標等文件中提供的標準作為分詞規(guī)范。

        表2訓練語料庫構成情況

        Tab.2 Composition of training corpus

        2.2 模型構建與超參數(shù)設置

        本文模型基于BERT模型構建,其中,BERT模型的初始化采用huggingface[31]提供的中文BERT模型參數(shù)。通用詞典采用文獻[25]中制作的中文詞典,領域詞典使用Word2Vec方法訓練詞嵌入。經(jīng)過測試,在可以取得最佳效果的BERT第1、2層編碼器之間插入雙詞典匹配融合機制。采用{B,M,E,S}四詞位進行序列標注,使用AdamW(Adam Weight decay)優(yōu)化器和最小化負對數(shù)似然損失函數(shù)對神經(jīng)網(wǎng)絡進行訓練。損失函數(shù)公式為:

        2.3 采樣因子的確定實驗

        圖5 不同采樣因子的計算結果

        2.4 BERT編碼器層數(shù)的確定實驗

        表3模型性能與耗時的測試結果

        Tab.3 Test results of model performance and time consumption

        圖6 不同BERT編碼器層數(shù)的BIC評分結果

        由表3、圖6中的數(shù)據(jù)可知,當BERT編碼器層數(shù)多于30時,模型1值的增長趨于平緩,在層數(shù)為35和40時,BIC評分結果達到最小。根據(jù)BIC的“吝嗇原理”,結果最小的模型為最佳模型。當BERT編碼器層數(shù)為40時,模型不僅取得了最佳的BIC評分結果,還具有更大的1值,因此本文最終選擇BERT編碼器層數(shù)為40。

        2.5 分詞結果及分析

        在確定了模型的各項參數(shù)之后,對模型在電力領域?qū)@谋菊Z料上的分詞性能進行了測試。由于近年來鮮有針對電力領域的CWS模型研究,為了驗證本文模型的效果,選取了多個具有代表性的模型進行分詞結果比較,這些模型包括:多標準分詞模型METASEG(pre-training model with META learning for Chinese word SEGmentation)[33],電力領域自然語言處理研究常用分詞模型HMM(添加電力領域詞典輔助分詞)[32],以解決分詞問題為主的序列標注模型ZEN(a BERT-based Chinese(Z) text encoder Enhanced by N-gram representations)[34]和LEBERT[22]。評測結果如表4所示。

        表4不同模型的分詞評測結果 單位:%

        Tab.4 Test results of word segmentation by different models unit:%

        通過對比可以發(fā)現(xiàn),在針對電力領域具有代表性的專利文本語料分詞任務中,本文模型與次優(yōu)的LEBERT相比,1值提高了3.60個百分點,相較于HMM、METASEG也分別提高了14.70和9.89個百分點。這驗證了本文模型在電力領域文本分詞上的優(yōu)勢。

        為了對比分詞效果,在表5中列出了各模型對幾個例句進行分詞的結果比較。由表5可知,本文模型對于登錄詞的切分更準確,對于未登錄詞,本文依賴更深的BERT神經(jīng)網(wǎng)絡能夠更好地將它們切分。例如對于短語“輸電線路”“電磁屏蔽”“能源交互”,其他模型更傾向于將它們切分為更細的粒度。同樣的,對于未登錄詞例如“纖維素基”“能量云”“風雨水能”等,其他模型更傾向于將它們切分成“纖維素/基”“能量/云”“風雨/水能”,本文模型則傾向于將它們作為一個整詞進行切分。此類切分差異會對后續(xù)任務例如聚類、構建知識圖譜等產(chǎn)生重要影響。

        表5不同模型分詞結果示例

        Tab.5 Examples of word segmentation results by different models

        注:加粗字為不同模型的具體分詞差異示例。

        除了分詞準確性,還對ProbSparse自注意力機制(此處用PSAttn表示)加入前后模型(非PSAttn模型和PSAttn模型)的訓練速度和顯存占用進行了測試,以評測模型在降低算法復雜度方面的作用。測試時,設置顯存上限為16 GB,batch_size從1開始增加至顯存允許的最高值。為衡量不同batch_size下的模型精度,同時測試了不同batch_size下模型的1值,具體結果如表6所示。從結果看,ProbSparse自注意力機制的引入使得模型訓練時間與顯存占用大幅減少,降低了對硬件的要求;同時,通過對比采用ProbSparse自注意力機制模型(PSAttn模型)與未采用模型(非PSAttn模型)的1值可以發(fā)現(xiàn),ProbSparse自注意力機制的引入并未對模型性能造成影響。由此可知,在保證分詞準確性以外,本文模型由于引入了ProbSparse自注意力機制,可以降低模型的時間復雜度和空間復雜度。時間復雜度的降低直接縮減了模型訓練所需時間;空間復雜度的降低允許模型以更大的batch_size或者在顯存容量更低的硬件條件下進行訓練。

        表6訓練速度及顯存占用的測試結果

        Tab.6 Test results of training speed and memory consumption

        綜上所述,在電力領域文本的分詞任務中,本文提出的模型具有更好的性能,可以更準確地切分詞語。

        3 結語

        本文針對電力領域分詞任務進行了研究,并對目前存在的不足進行了改進。具體地,首先構建了面向電力領域的領域詞典,并設計了用于更好地向BERT注入詞典信息的雙詞典匹配融合機制;其次引入了DEEPNORM方法穩(wěn)定增加BERT模型深度,提高了模型的特征提取能力,并使用BIC確定了BERT編碼器的最佳層數(shù),防止模型過于復雜;最后采用ProbSparse自注意力機制降低了深度BERT模型的時間與空間復雜度,并利用PSO算法確定了最優(yōu)采樣因子,確保了在降低復雜度的同時不改變模型性能。本文將標準語料與人工標注的電力領域?qū)@谋鞠嗳诤?,制作了語料庫,并以此為依托設計了對比實驗,1值達到了92.87%,體現(xiàn)出了本文模型對電力領域中文文本內(nèi)的詞匯尤其是專業(yè)詞匯的拆分效果,在電力文本信息挖掘、知識圖譜構建等電力領域自然語言處理任務中具有良好的應用前景。

        在測試中,具有更深BERT編碼器層數(shù)的模型展現(xiàn)出了獲得更好效果的趨勢,但為了降低模型復雜度,本文未將DEEPNORM方法的潛力充分發(fā)揮。因此,如何在控制模型體積的前提下進一步加深模型將是我們未來的研究方向。

        [1] 李剛,李銀強,王洪濤,等.電力設備健康管理知識圖譜:基本概念、關鍵技術及研究進展[J].電力系統(tǒng)自動化,2022,46(3):1-13.(LI G, LI Y Q, WANG H T, et al. Knowledge graph of power equipment health management: basic concepts, key technologies and research progress [J]. Automation of Electric Power Systems, 2022, 46(3): 1-13.)

        [2] 馮斌,張又文,唐昕,等.基于BiLSTM-Attention神經(jīng)網(wǎng)絡的電力設備缺陷文本挖掘[J].中國電機工程學報,2020,40(S1):1-10.(FENG B, ZHANG Y W, TANG X, et al. Power equipment defect record text mining based on BiLSTM-attention neural network [J]. Proceedings of the CSEE, 2020, 40(S1): 1-10.)

        [3] 許堯,馬歡,許旵鵬,等.智能變電站繼電保護智能運維系統(tǒng)自動配置技術研究[J].電力系統(tǒng)保護與控制,2022,50(11):160-168.(XU Y, MA H, XU C P, et al. Self-configuration technology of an intelligent operation and maintenance system of intelligent substation relay protection [J]. Power System Protection and Control, 2022, 50(11): 160-168.)

        [4] 唐琳,郭崇慧,陳靜鋒.中文分詞技術研究綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(Z1):1-17.(TANG L, GUO C H, CHEN J F. Review of Chinese word segmentation studies [J]. Data Analysis and Knowledge Discovery, 2020, 4(Z1): 1-17.)

        [5] 錢智勇,周建忠,童國平,等.基于HMM的楚辭自動分詞標注研究[J].圖書情報工作,2014, 58(4): 105-110.(QIAN Z Y, ZHOU J Z, TONG G P, et al. Research on automatic word segmentation and pos tagging forbased on HMM [J]. Library and Information Service, 2014, 58(4): 105-110.)

        [6] 朱艷輝,劉璟,徐葉強,等.基于條件隨機場的中文領域分詞研究[J].計算機工程與應用,2016,52(15):97-100.(ZHU Y H, LIU J, XU Y Q, et al. Chinese word segmentation research based on conditional random field [J]. Computer Engineering and Applications, 2016, 52(15): 97-100.)

        [7] CHEN X, QIU X, ZHU C, et al. Long short-term memory neural networks for Chinese word segmentation [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1197-1206.

        [8] DEVLIN J, CHANG M-W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.

        [9] SHEIKH I, ILLINA I, FOHR D, et al. OOV proper name retrieval using topic and lexical context models [C]// Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2015: 5291-5295.

        [10] ZHANG Q, LIU X, FU J. Neural networks incorporating dictionaries for Chinese word segmentation [C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 5682-5689.

        [11] 宮法明,朱朋海.基于自適應隱馬爾可夫模型的石油領域文檔分詞[J].計算機科學,2018,45(6A):97-100.(GONG F M, ZHU P H. Word segmentation based on adaptive hidden Markov model in oilfield [J]. Computer Science, 2018, 45(6A): 97-100.)

        [12] ZHAO L J, ZHANG Q, WANG P, et al. Neural networks incorporating unlabeled and partially-labeled data for cross-domain Chinese word segmentation [C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 4602-4608.

        [13] 成于思,施云濤.基于深度學習和遷移學習的領域自適應中文分詞[J].中文信息學報,2019,33(9):9-16,23.(CHENG Y S, SHI Y T. Domain adaption of Chinese word segmentation based on deep learning and transfer learning [J]. Journal of Chinese Information Processing, 2019, 33(9): 9-16,23.)

        [14] 崔志遠,趙爾平,雒偉群,等.面向?qū)I(yè)領域的多頭注意力中文分詞模型——以西藏畜牧業(yè)為例[J].中文信息學報,2021,35(7):72-80.(CUI Z Y, ZHAO E P, LUO W Q, et al. Multi-head attention for domain specific Chinese word segmentation model — a case study on Tibet’s animal husbandry [J]. Journal of Chinese Information Processing, 2021, 35(7): 72-80.)

        [15] 張軍,賴志鵬,李學,等.基于新詞發(fā)現(xiàn)的跨領域中文分詞方法[J].電子與信息學報,2022,44(9):3241-3248.(ZHANG J, LAI Z P, LI X, et al. Cross-domain Chinese word segmentation based on new word discovery [J]. Journal of Electronics & Information Technology, 2022, 44(9): 3241-3248.)

        [16] 劉梓權,王慧芳.基于知識圖譜技術的電力設備缺陷記錄檢索方法[J].電力系統(tǒng)自動化,2018,42(14):158-164.(LIU Z Q, WANG H F. Retrieval method for defect records of power equipment based on knowledge graph technology [J]. Automation of Electric Power Systems, 2018, 42(14): 158-164.)

        [17] 杜修明,秦佳峰,郭詩瑤,等.電力設備典型故障案例的文本挖掘[J].高電壓技術,2018,44(4):1078-1084.(DU X M,QIN J F, GUO S Y, et al. Text mining of typical defects in power equipment [J]. High Voltage Engineering, 2018, 44(4): 1078-1084.)

        [18] 劉蔭,張凱,王惠劍,等.面向電力低資源領域的無監(jiān)督命名實體識別方法[J].中文信息學報,2022,36(6):69-79.(LIU Y, ZHANG K, WANG H J, et al. Unsupervised low-resource name entities recognition in electric power domain [J]. Journal of Chinese Information Processing, 2022, 36(6): 69-79.)

        [19] 劉文松,胡竹青,張錦輝,等.基于文本特征增強的電力命名實體識別[J].電力系統(tǒng)自動化,2022,46(21):134-142.(LIU W S, HU Z Q, ZHANG J H, et al. Named entity recognition for electric power industry based on enhanced text features [J]. Automation of Electric Power Systems, 2022, 46(21): 134-142.)

        [20] 蔣晨,王淵,胡俊華,等.基于深度學習的電力實體信息識別方法[J].電網(wǎng)技術,2021,45(6):2141-2149.(JIANG C, WANG Y, HU J H, et al. Power entity information recognition based on deep learning [J]. Power System Technology, 2021, 45(6): 2141-2149.)

        [21] 田嘉鵬,宋輝,陳立帆,等.面向知識圖譜構建的設備故障文本實體識別方法[J].電網(wǎng)技術,2022,46(10):3913-3922.(TIAN J P, SONG H, CHEN L F, et al. Entity recognition approach of equipment failure text for knowledge graph construction [J]. Power System Technology, 2022, 46(10): 3913-3922.)

        [22] LIU W, FU X, ZHANG Y, et al. Lexicon enhanced Chinese sequence labeling using BERT adapter [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2021: 5847-5858.

        [23] WANG H, MA S, DONG L, et al. DeepNet: scaling Transformers to 1,000 layers [EB/OL]. (2022-03-01)[2022-03-23]. https://arxiv.org/pdf/2203.00555.pdf.

        [24] ZHOU H, ZHANG S, PENG J, et al. Informer: beyond efficient Transformer for long sequence time-series forecasting [C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 11106-11115.

        [25] SONG Y, SHI S, LI J, et al. Directional skip-gram: explicitly distinguishing left and right context for word embeddings [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 175-180.

        [26] 國家發(fā)展和改革委員會. 電力行業(yè)詞匯:DL/T 1033—2006 [S].北京:中國電力出版社,2007:1-20.(National Development and Reform Commission. Electric power standard thesaurus: DL/T 1033—2006[S]. Beijing: China Electric Power Press, 2007:1-20.)

        [27] 楊善讓,趙曉彤,楊紹胤.英漢電力技術詞典[M].2版.北京:中國電力出版社,2014:1-1469.(YANG S R, ZHAO X T, YANG S Y. An English-Chinese Dictionary of Electric Power Technology [M]. 2nd edtion. Beijing: China Electric Power Press, 2014: 1-1469.)

        [28] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010.

        [29] EMERSON T. The second international Chinese word segmentation bakeoff[C]// Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2005:123-133.

        [30] 俞士汶,段慧明,朱學鋒,等.北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學報,2002,16(5):49-64.(YU S W, DUAN H M, ZHU X F, et al. The basic processing of contemporary Chinese corpus at Peking University SPECIFICATION [J]. Journal of Chinese Information Processing, 2002, 16(5): 49-64.)

        [31] HUGGINGFACE. Transformers [CP/OL]. [2021-12-11]. https://github.com/huggingface/transformers.

        [32] 蔣衛(wèi)麗,陳振華,邵黨國,等.基于領域詞典的動態(tài)規(guī)劃分詞算法[J].南京理工大學學報,2019,43(1):63-71.(JIANG W L, CHEN Z H, SHAO D G, et al. Dynamic programming word segmentation algorithm based on domain dictionaries [J]. Journal of Nanjing University of Science and Technology, 2019, 43(1): 63-71.)

        [33] KE Z, SHI L, SUN S T, et al. Pre-training with meta learning for Chinese word segmentation [C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 5514-5523.

        [34] DIAO S, BAI J, SONG Y, et al. ZEN: pre-training Chinese text encoder enhanced by n-gram representations [C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2020: 4729-4740.

        Chinese word segmentation method in electric power domain based on improved BERT

        XIA Fei1, CHEN Shuaiqi1, HUA Min2*, JIANG Bihong3

        (1,,200090,;2,,200437,;3,,200090,)

        To solve the problem of poor performance in segmenting a large number of proprietary words in Chinese text in electric power domain, an improved Chinese Word Segmentation (CWS) method in electric power domain based on improved BERT (Bidirectional Encoder Representations from Transformer) was proposed. Firstly, two lexicons were built covering general words and domain words respectively, and a dual-lexicon matching and integration mechanism was designed to directly integrate the word features into BERT model, enabling more effective utilization of external knowledge by the model. Then, DEEPNORM method was introduced to improve the model’s ability to extract features, and the optimal depth of the model was determined by Bayesian Information Criterion (BIC), which made BERT model stable up to 40 layers. Finally, the classical self-attention layer in BERT model was replaced by the ProbSparse self-attention layer, and the best value of sampling factor was determined by using Particle Swarm Optimization (PSO) algorithm to reduce the model complexity while ensuring the model performance. The test of word segmentation was carried out on a hand-labeled patent text dataset in electric power domain. Experimental results show that the proposed method achieves the F1 score of 92.87%, which is 14.70, 9.89 and 3.60 percentage points higher than those of the methods to be compared such as Hidden Markov Model (HMM), multi-standard word segmentation model METASEG(pre-training model with META learning for Chinese word SEGmentation)and Lexicon Enhanced BERT (LEBERT) model, verifying that the proposed method effectively improves the quality of Chinese text word segmentation in electric power domain.

        Chinese Word Segmentation (CWS); domain word segmentation; improved BERT (Bidirectional Encoder Representations from Transformer); electric power text; deep learning; natural language processing

        This work is partially supported by State Grid Science and Technology Project (52094020001A).

        XIA Fei, born in 1978, Ph. D., associate professor. His research interests include power data analysis, power image processing.

        CHEN Shuaiqi, born in 1997, M. S. candidate. His research interests include natural language processing.

        HUA Min, born in 1987, M. S., engineer. His research interests include scientific and technological information, data management and applications, digital transformation of energy.

        JIANG Bihong, born in 1981, M. S., librarian. His research interests include natural language processing, machine learning.

        TP391.1

        A

        1001-9081(2023)12-3711-08

        10.11772/j.issn.1001-9081.2022121897

        2022?12?26;

        2023?02?26;

        2023?03?02。

        國家電網(wǎng)科技項目(52094020001A)。

        夏飛(1978—),男,江西南昌人,副教授,博士,CCF高級會員,主要研究方向:電力數(shù)據(jù)分析、電力圖像處理;陳帥琦(1997—),男,山東泰安人,碩士研究生,主要研究方向:自然語言處理;華珉(1987—),男,上海人,工程師,碩士,主要研究方向:科技情報、數(shù)據(jù)管理與應用、能源數(shù)字化轉(zhuǎn)型;蔣碧鴻(1981—),男,廣西博白人,館員,碩士,主要研究方向:自然語言處理、機器學習。

        猜你喜歡
        層數(shù)分詞編碼器
        填筑層數(shù)對土石壩應力變形的影響研究
        上海發(fā)布藥品包裝物減量指南
        康復(2022年31期)2022-03-23 20:39:56
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        MoS2薄膜電子性質(zhì)隨層數(shù)變化的理論研究
        電子制作(2019年11期)2019-07-04 00:34:50
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設計
        值得重視的分詞的特殊用法
        JESD204B接口協(xié)議中的8B10B編碼器設計
        電子器件(2015年5期)2015-12-29 08:42:24
        住在哪一層
        多總線式光電編碼器的設計與應用
        99精品热这里只有精品| 长腿校花无力呻吟娇喘的视频| 蜜臀av一区二区三区免费观看| 91久久精品人妻一区二区| 好大好硬好爽免费视频| 含紧一点h边做边走动免费视频| 亚洲中文字幕视频第一二区| 亚洲男人堂色偷偷一区| 亚洲男人的天堂在线播放| 国产一二三四2021精字窝| 国产精品美女一区二区av| 岛国熟女一区二区三区| 亚洲av片不卡无码久久| 久久久中文久久久无码| 国产精品自产拍在线18禁| 激情人妻中出中文字幕一区| 91制服丝袜| 国产一区二区三精品久久久无广告 | 一区二区三区视频免费观看在线| 亚洲爆乳大丰满无码专区| 全球av集中精品导航福利| 欧美激情肉欲高潮视频| 亚洲国产综合人成综合网站| 国产精品不卡在线视频| 波霸影院一区二区| 小sao货水好多真紧h视频| 人与动牲交av免费| 中文字幕亚洲乱码成熟女1区| 国产在线一区二区三区不卡| 杨幂国产精品一区二区| 精品国产18久久久久久| 亚洲三区在线观看内射后入| 国产一区二区三区日韩在线观看| 国产亚洲一区二区三区三州| 韩国精品一区二区三区| 久久免费看少妇高潮v片特黄| 久久久精品国产sm调教网站| 国产成人亚洲精品无码青| 国产一区二区三区免费精品视频| 久久蜜桃一区二区三区| 亚洲黄片久久|