亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XLNet的物聯(lián)網(wǎng)領(lǐng)域命名實(shí)體識(shí)別

        2021-06-18 06:47:48葛海波車虹葵趙其實(shí)
        關(guān)鍵詞:語義信息模型

        葛海波,車虹葵,趙其實(shí),安 康

        (西安郵電大學(xué) 電子工程學(xué)院,陜西 西安 710121)

        命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語言處理中一個(gè)重要領(lǐng)域[1],旨在檢測(cè)給定文本中的實(shí)體,并將其分類到預(yù)定義的類別中。NER生成的結(jié)果是問答系統(tǒng)、機(jī)器翻譯和對(duì)話系統(tǒng)等許多下游任務(wù)的關(guān)鍵。

        近年來,物聯(lián)網(wǎng)領(lǐng)域發(fā)展迅速,其設(shè)備外延從傳統(tǒng)的感知器、執(zhí)行器向更多元化發(fā)展。為解決物聯(lián)網(wǎng)實(shí)體多樣化帶來實(shí)體信息形式多樣化和對(duì)實(shí)體信息的理解能力不足的問題,研究者們將語義網(wǎng)[2]中的智能化特征引入到物聯(lián)網(wǎng)中。由此,物聯(lián)網(wǎng)由傳統(tǒng)的物聯(lián)網(wǎng)(Internet of Things,IoT)向基于語義技術(shù)的萬維物聯(lián)網(wǎng)(Web of Things,WoT)邁進(jìn),WoT技術(shù)的核心是構(gòu)建一個(gè)高可用實(shí)體庫(kù)。目前,針對(duì)物聯(lián)網(wǎng)領(lǐng)域暫無已經(jīng)做好標(biāo)注的語料,且無特定的物聯(lián)網(wǎng)領(lǐng)域命名實(shí)體模型。對(duì)于物聯(lián)網(wǎng)領(lǐng)域的命名實(shí)體識(shí)別研究的難點(diǎn)主要體現(xiàn)在物聯(lián)網(wǎng)實(shí)體種類多樣化和實(shí)體命名不規(guī)范等方面。在研究過程中需要根據(jù)物聯(lián)網(wǎng)實(shí)體特征構(gòu)建模型,把握好實(shí)體邊界的劃分。

        如何自動(dòng)化構(gòu)建物聯(lián)網(wǎng)本體庫(kù)是WoT發(fā)展的核心需求,而構(gòu)建物聯(lián)網(wǎng)本體庫(kù)的前提是能夠在非機(jī)構(gòu)化的語料中識(shí)別出物聯(lián)網(wǎng)實(shí)體,針對(duì)上述問題,研究自然語言處理中的NER技術(shù),將NER應(yīng)用到物聯(lián)網(wǎng)領(lǐng)域中,提出基于XLNet的物聯(lián)網(wǎng)領(lǐng)域NER模型,以期在物聯(lián)網(wǎng)數(shù)據(jù)集中取得較好效果。

        1 相關(guān)工作

        1.1 NER技術(shù)

        NER的主要技術(shù)方法包括基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[3]。基于規(guī)則的方法依賴領(lǐng)域?qū)<抑贫ㄒ?guī)則模版,其識(shí)別效果對(duì)規(guī)則的依賴性高,且不同場(chǎng)景下的實(shí)體識(shí)別規(guī)則不同,可擴(kuò)展性弱。

        基于機(jī)器學(xué)習(xí)的方法主要是對(duì)于特征的學(xué)習(xí),并將特征添加到特征向量中,主要方法有隱馬爾可夫模型 (Hidden Markov Model ,HMM )[4]、支持向量機(jī) (Support Vector Machine ,SVM )[5]和決策樹[6]等。該類方法對(duì)特征的選取要求較高,比較依賴語料的質(zhì)量。

        隨著深度學(xué)習(xí)的發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)模型完成NER別任務(wù)成為一種趨勢(shì)。Hammerton[7]首次使用長(zhǎng)短期記憶模型(Long Short Term Memory,LSTM)進(jìn)行NER任務(wù)。以LSTM為基礎(chǔ),后續(xù)產(chǎn)生較好的LSTM-CRF命名實(shí)體識(shí)別框架。Tomas等[8]提出Word2Vec模型,對(duì)文本進(jìn)行了低維稠密的向量化表示,但是Word2Vec不能解決多義詞的向量映射問題。Peter等[9]提出詞嵌入模型(Embeddings from Language Models,ELMO)有效解決了一詞多義問題。Alec等[10]針對(duì)中文電子病例命名實(shí)體識(shí)別,提出基于Transformer的NER模型,F(xiàn)1值高達(dá)95.02%。Devlin[11]等提出了BERT(Bidirectional Encoder Representation form Transformers)預(yù)訓(xùn)練模型,楊飄等[12]將BERT模型應(yīng)用在命名實(shí)體模型,提高了中文命名實(shí)體識(shí)別效果。BERT模型基于Transformer模型并結(jié)合遮罩(Mask)語言模型,使得模型考慮到文本的上下文信息,Mask語言模型在預(yù)訓(xùn)練和微調(diào)中階段的不對(duì)稱性在具體任務(wù)時(shí)會(huì)影響精確度。Yang等[13]提出廣義自回歸語言模型(XLNet),該模型引入排列語言模型思想,在預(yù)訓(xùn)練階段應(yīng)用Transformer-XL[14]相對(duì)位置編碼,能夠考慮序列歷史信息,使得該模型有強(qiáng)大的表義能力,基于XLNet優(yōu)秀的語義表征能力,并考慮模型在實(shí)體識(shí)別中標(biāo)簽依賴問題,基于XLNet在上層搭建模型解決物聯(lián)網(wǎng)領(lǐng)域命名實(shí)體識(shí)別問題。

        1.2 物聯(lián)網(wǎng)實(shí)體命名方法

        許多組織及個(gè)人針對(duì)物聯(lián)網(wǎng)不同應(yīng)用場(chǎng)景下的語義需求,提出不同概念的系統(tǒng)本體,歐盟首次將語義技術(shù)引入物聯(lián)網(wǎng)[15]。Sheth[16]提出使用設(shè)備自描述信息中的時(shí)空信息以及傳感觀測(cè)信息對(duì)感知數(shù)據(jù)進(jìn)行標(biāo)注,該方法包含的語義屬性較少,缺少與通用知識(shí)庫(kù)數(shù)據(jù)的對(duì)齊。物聯(lián)網(wǎng)行業(yè)的快速發(fā)展,其外延在不斷擴(kuò)大和發(fā)展,感知器、執(zhí)行器、各種智能設(shè)備和微電子機(jī)械被包含其中,進(jìn)一步加劇物聯(lián)網(wǎng)系統(tǒng)的泛在性和動(dòng)態(tài)性特征。為了應(yīng)對(duì)物聯(lián)網(wǎng)更智能化的需求,需要一種更為高級(jí)和抽象的數(shù)據(jù)模型表示物理網(wǎng)領(lǐng)域設(shè)備和數(shù)據(jù)服務(wù)。

        為了對(duì)物聯(lián)網(wǎng)內(nèi)數(shù)據(jù)及服務(wù)進(jìn)行語義化標(biāo)注,在傳統(tǒng)物聯(lián)網(wǎng)架構(gòu)增加了資源抽象層,由物理設(shè)備層、數(shù)據(jù)層、資源抽象層和應(yīng)用服務(wù)層等4層組成,其整體架構(gòu)如圖1所示。

        圖1 物聯(lián)網(wǎng)架構(gòu)模型

        物理設(shè)備層包括物聯(lián)網(wǎng)系統(tǒng)中所有完成物理環(huán)境感知和控制任務(wù),數(shù)據(jù)層是對(duì)物理設(shè)備層的軟硬件進(jìn)行分類抽象,資源抽象層是對(duì)物聯(lián)網(wǎng)應(yīng)用系統(tǒng)內(nèi)的數(shù)據(jù)、服務(wù)進(jìn)行語義化標(biāo)注,應(yīng)用服務(wù)層為開發(fā)者所搭建的服務(wù)應(yīng)用。為了正確表示物聯(lián)網(wǎng)領(lǐng)域?qū)嶓w,需要涵蓋幾個(gè)重要概念,如表1所示。

        表1 物聯(lián)網(wǎng)領(lǐng)域?qū)嶓w模型標(biāo)簽

        參考自然語言處理通用實(shí)體劃分,根據(jù)物聯(lián)網(wǎng)領(lǐng)域特點(diǎn)加入領(lǐng)域內(nèi)主要概念類型,并去除領(lǐng)域關(guān)聯(lián)較少的實(shí)體,將物聯(lián)網(wǎng)實(shí)體分為人物、地名、組織機(jī)構(gòu)名、時(shí)間、傳感器、執(zhí)行器、應(yīng)用名稱、電子器件名稱、數(shù)據(jù)流名稱和其他實(shí)體。

        1.3 數(shù)據(jù)集介紹

        1.3.1 數(shù)據(jù)預(yù)處理

        語料數(shù)據(jù)來自Wiki百科中文數(shù)據(jù)集以及爬取物聯(lián)網(wǎng)領(lǐng)域相關(guān)文本。通過爬取獲得的語料數(shù)據(jù),存在大量非文本標(biāo)簽影響文本標(biāo)注。通過預(yù)定義的清理規(guī)則,刪除非法格式的文本數(shù)據(jù),獲取規(guī)范的物聯(lián)網(wǎng)語料庫(kù)數(shù)據(jù)。

        1.3.2 數(shù)據(jù)標(biāo)注

        實(shí)體標(biāo)注使用BIO標(biāo)注方式,其中,B表示實(shí)體開始,I表示實(shí)體結(jié)尾或者中間部分,O表示其他實(shí)體或非實(shí)體。根據(jù)物聯(lián)網(wǎng)實(shí)體命名分類,實(shí)體標(biāo)簽如表2所示。

        表2 物聯(lián)網(wǎng)領(lǐng)域?qū)嶓w標(biāo)簽

        2 基于XLNet的命名實(shí)體識(shí)別模型

        基于XLNet強(qiáng)大的語義表征能力,提出了基于XLNet命名實(shí)體識(shí)別模型,該模型由XLNet層、Bi-LSTM層、Attention層和CRF層等4個(gè)部分組成,結(jié)構(gòu)如圖2所示。該模型通過XLNet模型提取字向量特征,將字向量拼接后作為Bi-LSTM層輸入,經(jīng)過Bi-LSTM層對(duì)語義進(jìn)一步編碼獲取隱藏層輸出并輸入Attention層,CRF層專注于上下文注釋信息,最終輸出概率最大序列標(biāo)簽。該模型使用XLNet可以獲得更佳的詞向量表示,再經(jīng)過“Bi-LSTM+Attention”層利用字符上下文信息,最后通過CRF層降低非法標(biāo)注出現(xiàn)的概率。

        圖2 “XLNet+Bi-LSTM+Attention+CRF”模型結(jié)構(gòu)

        2.1 XLNet層

        無監(jiān)督學(xué)習(xí)模型分為自回歸(Autoregressive,AR)語言模型和自編碼(Autoencoding,AE)語言模型。與傳統(tǒng)AR語言模型不同的是,以BERT為代表的AE語言模型實(shí)現(xiàn)了雙向預(yù)測(cè)。

        圖3 XLNet模型Mask機(jī)制

        給定序列長(zhǎng)度為T,排序方式總數(shù)m=T!,模型可以通過m種排列方式學(xué)習(xí)到各種上下文,在實(shí)際應(yīng)用中,XLNet隨機(jī)采樣m中的部分排列,其全排列模型的公式為

        (1)

        其中:E表示序列集合;z~ZT為所有可能的文本排列方式;xz,t表示當(dāng)前詞;Xz

        XLNet的核心為Transformer-XL,在Transformer結(jié)構(gòu)基礎(chǔ)上引入相對(duì)位置編碼思想和循環(huán)機(jī)制。Transformer在訓(xùn)練中規(guī)定輸入序列是定長(zhǎng)序列,長(zhǎng)序列在訓(xùn)練中分割后模型利用不到片段之間的聯(lián)系,會(huì)造成信息缺失問題。Transformer-XL在片段之間插入隱狀態(tài)信息,在當(dāng)前段的預(yù)測(cè)通過隱狀態(tài)信息可以利用前一段的信息,模型可以學(xué)習(xí)更為長(zhǎng)遠(yuǎn)的語義信息。兩個(gè)片段之間循環(huán)機(jī)制的信息傳遞方式如圖4所示,灰線表示記憶信息,在Sgment2段訓(xùn)練中可以利用Segment1段的Cache信息,XLNet通過該機(jī)制實(shí)現(xiàn)歷史信息的傳遞。

        圖4 XLNet循環(huán)機(jī)制

        Transformer通過正弦函數(shù)的形式將絕對(duì)位置編碼成一個(gè)向量,上層可以通過該向量學(xué)習(xí)兩個(gè)詞的相對(duì)位置的關(guān)系,計(jì)算公式為

        hr+1=f(hr,Dsr+1+U1:L)

        (2)

        hr=f(hr-1,Dsr+U1:L)

        (3)

        其中:hr表示r時(shí)刻向量編碼;Dsr表示當(dāng)前片段文本向量位置編碼;U1:L表示位置編碼,不同片段中U1:L一樣,模型無法通過向量準(zhǔn)確判斷是哪個(gè)片段的具體位置。絕對(duì)位置編碼對(duì)于每個(gè)片段的相同位置編碼都是相同的,而Transformer-XL可以利用不同片段的歷史信息,考慮到片段不同而位置編碼相同的詞對(duì)于當(dāng)前片段的信息貢獻(xiàn)度不同,因此,Transformer-XL使用相對(duì)位置編碼思想,其在計(jì)算Attention時(shí)根據(jù)當(dāng)前位置和需要利用到的位置計(jì)算相對(duì)距離。

        XLNet以Transformer-XL框架為核心,通過引入循環(huán)機(jī)制和相對(duì)位置編碼,充分考慮雙向語義信息和挖掘較為長(zhǎng)遠(yuǎn)的歷史信息,可以獲得更為準(zhǔn)確的詞向量表示。

        2.2 Bi-LSTM層

        LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),其單元結(jié)構(gòu)如圖5所示。傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用存在梯度消失和梯度爆炸的問題,其記憶長(zhǎng)度有限。LSTM通過控制門選擇“記憶”當(dāng)前信息和“遺忘”歷史信息,解決了長(zhǎng)依賴問題,其內(nèi)部包含輸入門、輸出門、遺忘門和記憶單元等4個(gè)部分。

        圖5 LSTM單元結(jié)構(gòu)

        LSTM單元具體實(shí)現(xiàn)的方程組為

        (4)

        其中:it為輸入門;ft為遺忘門;ot為輸出門;ct和ht指t時(shí)刻的候選記憶單元、新記憶單元和隱藏狀態(tài);ct-1和ht-1指模型t-1時(shí)刻的記憶單元和隱藏狀態(tài);σ是Sigmoid的函數(shù);W為權(quán)重矩陣;b表示偏置。

        實(shí)驗(yàn)采取雙向LSTM實(shí)現(xiàn)對(duì)上下文信息的共同編碼。Bi-LSTM層的輸入為從ALNet層得到的詞向量,該層由多個(gè)Bi-LSTM單元組成,并分別輸出各時(shí)刻的隱狀態(tài)。

        2.3 Attention層

        考慮實(shí)體在文本中多次出現(xiàn)且表述方式不同,通過Attention機(jī)制計(jì)算實(shí)體不同時(shí)刻的特征向量權(quán)重,關(guān)注實(shí)體的重要特征信息,減少實(shí)體標(biāo)注不一致問題。Attention層實(shí)現(xiàn)的方程組為

        (5)

        式中:s為當(dāng)前時(shí)間字符得分;v表示當(dāng)前狀態(tài);A表示當(dāng)前字符權(quán)重;M表示得分的總數(shù);g表示含有各字符信息的特征向量。通過Attention機(jī)制增強(qiáng)語料中上下文之間實(shí)體聯(lián)系,得到更準(zhǔn)確的實(shí)體信息。

        2.4 CRF層

        在標(biāo)記序列中,標(biāo)簽之間存在著依賴關(guān)系,該依賴性可以看作約束條件。如實(shí)體標(biāo)記的第一個(gè)字應(yīng)該為B,不能為I;一組實(shí)體序列開始與結(jié)尾標(biāo)記類型應(yīng)該相同。CRF可以關(guān)注標(biāo)簽之間的相鄰關(guān)系得到最優(yōu)標(biāo)簽序列,提高實(shí)體識(shí)別精度。

        給定輸入n維序列x=(x1,x2,x3,…,xn)和對(duì)應(yīng)標(biāo)簽序列y=(y1,y2,y3,…,yn),定義評(píng)價(jià)方法的表達(dá)式為

        (6)

        其中:Vyi-1,yi表示標(biāo)簽轉(zhuǎn)移分?jǐn)?shù);Qi,yi表示該字符被定義為第yi的概率。CRF的訓(xùn)練使用最大條件似然估計(jì),似然函數(shù)表達(dá)式為

        (7)

        其中,概率Q的表達(dá)式為

        (8)

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        在構(gòu)建的物聯(lián)網(wǎng)領(lǐng)域數(shù)據(jù)集上驗(yàn)證模型的識(shí)別性能。該數(shù)據(jù)集約57 780條句子,將該數(shù)據(jù)集按比例8∶1∶1分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,各類實(shí)體統(tǒng)計(jì)如表3所示。

        表3 標(biāo)記實(shí)體類型統(tǒng)計(jì)

        3.2 實(shí)驗(yàn)環(huán)境

        3.2.1 環(huán)境配置

        實(shí)驗(yàn)運(yùn)行環(huán)境如表4所示。

        表4 實(shí)驗(yàn)環(huán)境

        3.2.2 參數(shù)設(shè)置

        實(shí)驗(yàn)中模型參數(shù)配置如表5所示。

        表5 參數(shù)配置

        3.3 評(píng)價(jià)標(biāo)準(zhǔn)

        對(duì)于命名實(shí)體識(shí)別的評(píng)價(jià)標(biāo)準(zhǔn)為精確率P、召回率R和模型評(píng)價(jià)標(biāo)準(zhǔn)F1值,其定義分別為

        (9)

        其中:TP表示模型所正確識(shí)別的實(shí)體總數(shù);FP表示模型識(shí)別錯(cuò)誤的實(shí)體總數(shù);FN表示模型未能識(shí)別出的實(shí)體數(shù)。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證模型的效果,實(shí)驗(yàn)選取機(jī)器學(xué)習(xí)中的CRF模型、基于深度學(xué)習(xí)中的“Bi-LSTM+CRF”模型和“BERT+Bi-LSTM+CRF”作對(duì)比,與所搭建“XLNet+Bi-LSTM+Attention+CRF”模型對(duì)同一數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證,對(duì)比結(jié)果如表6所示。

        表6 實(shí)驗(yàn)結(jié)果

        由表6可以看出,CRF模型評(píng)價(jià)結(jié)果最低。Bi-LSTM可以融合輸入序列的上下文語義信息,有著更強(qiáng)的語言表征能力,因此,“Bi-LSTM+CRF”模型F1值比CRF模型高12.94% ,提高了命名實(shí)體識(shí)別的F1值。Word2Vec只是在句子的表面對(duì)上下文信息進(jìn)行提取表示,沒有融入更多的內(nèi)部特征,而BERT可以利用到上下文信息,能夠更好地挖掘語義信息,因此,“BERT+Bi-LSTM+CRF”比Bi-LSTM模型F1值高出1.98%。基于XLNet的“XLNet+Bi-LSTM+Attention+CRF”模型,通過XLNet訓(xùn)練得到具有更好的表征能力字向量,識(shí)別效果最好,優(yōu)于其他模型。

        “XLNet+Bi-LSTM+Attention+CRF”有著更好的實(shí)體識(shí)別效果,該模型對(duì)于物聯(lián)網(wǎng)各個(gè)實(shí)體的識(shí)別效果如表7所示。

        表7 實(shí)體評(píng)價(jià)結(jié)果

        表7中,時(shí)間、組織機(jī)構(gòu)、傳感器、數(shù)據(jù)流和電子器件這幾類實(shí)體規(guī)律性,如“組織機(jī)構(gòu)”類實(shí)體一般格式為“××地××組織”,命名方式規(guī)范。因此,這幾類實(shí)體識(shí)別效果較好?!皯?yīng)用名稱”類命名規(guī)律性較差,且該類數(shù)據(jù)集較少,訓(xùn)練出的模型對(duì)于該類的識(shí)別效果較差,導(dǎo)致F1值較低。

        4 結(jié)語

        基于物聯(lián)網(wǎng)本體的語義特征,歸納出物聯(lián)網(wǎng)核心語義概念,提出新型命名模型,該模型涵蓋物聯(lián)網(wǎng)領(lǐng)域中物理設(shè)備層、數(shù)據(jù)層、資源抽象層和應(yīng)用服務(wù)層,將其具體化為感知單元、計(jì)算單元、執(zhí)行單元、消息單元、服務(wù)單元、位置單元和觀測(cè)單元,基于該命名規(guī)范特點(diǎn)搭建4個(gè)物聯(lián)網(wǎng)領(lǐng)域本體命名實(shí)體識(shí)別模型。通過實(shí)驗(yàn)分析對(duì)比,可以得出“XLNet+Bi-LSTM+Attention+CRF”模型的效果最好,為以后該模型的下游任務(wù)應(yīng)用的研究奠定了基礎(chǔ)。對(duì)于后續(xù)研究,主要考慮基于知識(shí)蒸餾對(duì)于原有模型進(jìn)行壓縮,使得模型滿足物聯(lián)網(wǎng)應(yīng)用場(chǎng)景輕量化的需求。

        猜你喜歡
        語義信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言與語義
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        展會(huì)信息
        語義分析與漢俄副名組合
        色婷婷色99国产综合精品| 亚洲avav天堂av在线网毛片 | 精品国产v无码大片在线观看| 人妻精品久久中文字幕| 亚洲五月天中文字幕第一页| 一本色道无码不卡在线观看| 亚洲色www成人永久网址| 无码中文日韩Av| 蜜桃av一区二区三区久久| 自慰高潮网站在线观看| 不卡av一区二区在线| 999精品无码a片在线1级| 成人看片黄a免费看那个网址 | 国产伦理自拍视频在线观看| 亚洲国产精品中文字幕久久| 精品亚洲麻豆1区2区3区| 亚洲国产精品日韩av专区| 亚洲AV无码未成人网站久久精品 | 欧美一性一乱一交一视频| 丝袜AV在线一区二区三区| 日本大胆人体亚裔一区二区| 不卡的高清av一区二区三区| 成人a级视频在线观看| 亚洲性啪啪无码AV天堂| 人妖与人妖免费黄色片| 国产suv精品一区二区四| 国产肉丝袜在线观看| 欧美日韩国产高清| 高清不卡日本v二区在线| 国产成人综合亚洲看片| 又色又爽又黄又硬的视频免费观看| 亚洲国产一区二区三区最新| 精品黑人一区二区三区久久hd| 午夜不卡无码中文字幕影院| 国产精品区一区第一页| 97久久成人国产精品免费| 人成在线免费视频网站| 天美传媒一区二区| 999久久66久6只有精品| 国产极品大秀在线性色| 未满十八勿入av网免费|