亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的Web信息抽取模型研究與應(yīng)用

        2019-10-20 14:53:51俞鑫吳明暉
        計(jì)算機(jī)時(shí)代 2019年9期
        關(guān)鍵詞:深度學(xué)習(xí)

        俞鑫 吳明暉

        摘? 要: Web網(wǎng)頁中包含了大量異構(gòu)的半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),如何準(zhǔn)確地從這些網(wǎng)頁中提取有價(jià)值的信息顯得極其重要。文章基于深度學(xué)習(xí),結(jié)合BERT構(gòu)建了一種新型的BERT+BiLSTM+CRF信息抽取模型,實(shí)驗(yàn)結(jié)果表明了該方法的有效性。

        關(guān)鍵詞: 深度學(xué)習(xí); 信息抽取模型; Web; BERT+BiLSTM+CRF

        中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-30-03

        Research and application of deep learning based Web information extraction model

        Yu Xin, Wu Minghui

        (Computer and Computing Science School, Zhejiang University City College, Hangzhou 310015, China)

        Abstract: Web pages contain large amount of heterogeneous semi-structured or unstructured data, and how to accurately extract valuable information from web pages is extremely important. With the help of deep learning, this paper proposes a new BERT+BiLSTM+CRF information extraction model. The experimental results show the effectiveness of the proposed method.

        Key words: deep learning; information extraction model; Web; BERT+BiLSTM+CRF

        0 引言

        伴隨著互聯(lián)技術(shù)的迅猛發(fā)展,網(wǎng)上的數(shù)據(jù)總量呈指數(shù)增長。互聯(lián)網(wǎng)Web網(wǎng)頁中的海量數(shù)據(jù)包含了大量有價(jià)值的信息。因此,如何準(zhǔn)確地從網(wǎng)頁中抽取有價(jià)值的信息變得越來越重要。然而,由于不同網(wǎng)頁的結(jié)構(gòu)差異和數(shù)據(jù)格式不同,大多數(shù)網(wǎng)頁都顯示半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。如何有效地從網(wǎng)頁中提取所需信息一直是互聯(lián)網(wǎng)數(shù)據(jù)處理行業(yè)的關(guān)鍵問題之一。

        信息抽取是自然語言處理領(lǐng)域的一個(gè)子領(lǐng)域。近年來,深度學(xué)習(xí)也在被大量應(yīng)用到自然語言處理(NLP)相關(guān)領(lǐng)域,并取得了重大突破。使用深度學(xué)習(xí)的方法,可以自動(dòng)地學(xué)習(xí)合適的特征與多層次的表達(dá)與輸出。

        本文提出了一種基于深度學(xué)習(xí)的BERT+BiLSTM+CRF的Web信息抽取模型,并在高校教師的個(gè)人主頁信息抽取中得到應(yīng)用。

        1 Web信息抽取模型及實(shí)現(xiàn)

        1.1 模型概況

        首先通過網(wǎng)絡(luò)爬蟲獲取教師個(gè)人主頁內(nèi)容,對(duì)內(nèi)容按一定規(guī)則進(jìn)行處理,對(duì)部分教師簡介的標(biāo)記,制作成訓(xùn)練集和驗(yàn)證集,經(jīng)過深度學(xué)習(xí)模型訓(xùn)練,實(shí)現(xiàn)自動(dòng)對(duì)同類型的其他Web頁面進(jìn)行結(jié)構(gòu)化目標(biāo)信息抽取。

        圖1是一個(gè)非結(jié)構(gòu)化的教師個(gè)人主頁簡介,頁面中目標(biāo)信息字段有教師姓名,性別,職務(wù),學(xué)歷,人才層次,榮譽(yù)和獲得獎(jiǎng)勵(lì)等。目標(biāo)是將這些目標(biāo)信息準(zhǔn)確地提取出來。

        1.2 數(shù)據(jù)預(yù)處理和實(shí)體定義

        通過網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)之后需要對(duì)數(shù)據(jù)預(yù)處理,去除文本中大量無意義的空格和空行。將文本按句劃分,每句一行,長度不超過LSTM設(shè)置的最大長度。

        下一步進(jìn)行數(shù)據(jù)標(biāo)注。通過標(biāo)注數(shù)據(jù)明確哪些信息需要被抽取和數(shù)據(jù)之間的聯(lián)系,構(gòu)建出用于模型訓(xùn)練的數(shù)據(jù)集。

        本文使用BIO標(biāo)注:將每個(gè)字標(biāo)注為“B-X”、“I-X”或者“O”。其中,“B-X”表示該字是實(shí)體X的開頭,“I-X” 表示該字是實(shí)體X的中間部分,“O”表示不是需要識(shí)別實(shí)體。例如:教授標(biāo)記為“教 B-TIT 授 I-TIT”。具體實(shí)體標(biāo)簽定義見表1。待抽取網(wǎng)頁如圖1。

        1.3 模型構(gòu)建

        所構(gòu)建的BERT+BiLSTM+CRF模型,包括一個(gè)BERT Embedding層,一個(gè)BiLSTM層和一個(gè)CRF層,模型結(jié)構(gòu)如圖2所示。

        ⑴ BERT Embedding層,將輸入的句子通過Tokenize轉(zhuǎn)化成數(shù)字id,輸入BERT Embedding層提取特征,生成輸入向量。BERT是Devlin等人提出了一種新語言表示模型[1],其目標(biāo)是通過聯(lián)合調(diào)節(jié)所有層中的左右上下文來預(yù)訓(xùn)練深度雙向表示。在實(shí)際使用中需要一個(gè)額外的輸出層來微調(diào)預(yù)先訓(xùn)練的BERT表示。

        ⑵ BiLSTM層,輸入為了BERT Embedding層生成的輸入向量。將向量序列一個(gè)向前的LSTM和一個(gè)向后的LSTM,把這兩個(gè)LSTM在隱藏層進(jìn)行拼接成為BiLSTM[2],經(jīng)過全連接輸出一個(gè)長度為標(biāo)簽數(shù)量的一個(gè)向量。BiLSTM綜合考慮了過去的特征(正向過程提?。┖臀磥淼奶卣鳎嫦蜻^程提取),避免了僅僅使用單向LSTM在對(duì)語句進(jìn)行建立模型時(shí)會(huì)遇到無法獲取從后到前信息的問題,通過BiLSTM可以更好的捕捉雙向的語義依賴。

        ⑶ CRF層,使用crf_log_likelihood對(duì)LSTM輸出向量進(jìn)行序列標(biāo)記,計(jì)算標(biāo)簽概率值。因?yàn)椴煌种g存在相互關(guān)聯(lián),標(biāo)記符號(hào)之間也會(huì)相互作用,比如O后面就不能接I等。CRF[3]可以使用句子級(jí)標(biāo)記信息,并對(duì)兩個(gè)不同標(biāo)記間的關(guān)聯(lián)進(jìn)行建模。

        2 實(shí)驗(yàn)

        2.1 模型實(shí)現(xiàn)與訓(xùn)練

        基于TensorFlow框架對(duì)該模型進(jìn)行了算法實(shí)現(xiàn)。

        數(shù)據(jù)集包括2384條句子,按6:4劃分成訓(xùn)練集和測(cè)試集。參數(shù)設(shè)置為:單向LSTM 長度為100,BiLSTM的長度為200,LSTM的Cell使用CoupledInputForgetGateLSTMCell[4];學(xué)習(xí)率為0.001,Dropout為0.5;優(yōu)化器選擇Adam;Batch size為128,在GPU上訓(xùn)練200輪。

        2.2 模型應(yīng)用

        訓(xùn)練好模型后,使用該模型來對(duì)網(wǎng)頁信息進(jìn)行目標(biāo)數(shù)據(jù)抽取,應(yīng)用案例如圖3所示。

        2.3 實(shí)驗(yàn)結(jié)果對(duì)比分析

        為了驗(yàn)證所提出模型的效果,與一般的BiLSTM+CRF模型[5]進(jìn)行了對(duì)比實(shí)驗(yàn),采用Precision(P)、Recall(R)和F1 Score(F1)作為模型效果評(píng)價(jià)標(biāo)準(zhǔn)。

        模型1為本文所研究的BERT+BiLSTM+CRF模型,模型2為一般的BiLSTM+CRF模型。在模型2中沒有模型1的BERT Embedding層,而是傳統(tǒng)的Char Embedding,字向量使用隨機(jī)初始化的方式獲得。兩種模型實(shí)驗(yàn)結(jié)果如表2所示。

        由表2可以看出,除LVL和EDU標(biāo)簽之外,其余7種標(biāo)簽在BERT+BiLSTM+CRF模型中F1值更高,且EDU標(biāo)簽F1值相差僅1.02%。整體上使用Bert模型能夠有效提高信息抽取率,F(xiàn)1整體提高約3%。

        3 結(jié)束語

        本文提出了一種基于深度學(xué)習(xí)的BERT+BiLSTM+CRF的Web信息抽取模型,并使用TensorFlow框架和BERT對(duì)該模型進(jìn)行了算法實(shí)現(xiàn)。通過實(shí)驗(yàn)對(duì)比分析,驗(yàn)證了模型的有效性,并在高校教師個(gè)人主頁信息抽取中得到了實(shí)際應(yīng)用。

        參考文獻(xiàn)(References):

        [1] Devlin J,Chang M,Lee K,et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.2018.

        [2] Hochreiter S,Schmidhuber J.Long short-term memory[J]. Neural Computation,1997.9(8):1735-1780

        [3] Lafferty J D,Mccallum A,Pereira F,et al.Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C].international conference on machine learning,2001: 282-289

        [4] Greff K,Srivastava R K,Koutnik J,et al. LSTM:A Search Space Odyssey[J]. IEEE Transactions on Neural Networks. 2017.28(10):2222-2232

        [5] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J].arXiv preprint arXiv:1508.01991, 2015.

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
        搭建深度學(xué)習(xí)的三級(jí)階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        国产免费破外女真实出血视频| 日本口爆吞精在线视频| 资源在线观看视频一区二区| 日产分东风日产还有什么日产| 亚洲国产女性内射第一区二区| 26uuu在线亚洲欧美| 国产三级精品三级在线观看| 人妻少妇偷人精品无码| 美女一区二区三区在线观看视频| 亚洲av资源网站手机在线| 亚洲va视频一区二区三区| 伊人久久大香线蕉av不卡| 午夜成人理论无码电影在线播放| 亚洲Va中文字幕久久无码一区| 亚洲黄片久久| 日本在线无乱码中文字幕| 欧美性猛交xxxx乱大交极品| 一本色道久久综合无码人妻| 亚洲旡码a∨一区二区三区| 亚洲国产日韩在线人成蜜芽| 手机在线免费看av网站| 亚洲中文字幕久久精品一区| 国产精品美女久久久久久| 国产微拍精品一区二区| 国产精品青草久久久久婷婷| 最新中文字幕乱码在线| 国产精品偷窥熟女精品视频 | 在线播放草猛免费视频| 欧美中日韩免费观看网站| 亚洲国产夜色在线观看| 一本色道久久综合狠狠躁中文| 日本女同视频一区二区三区 | 成人免费播放视频影院| 精品久久久久香蕉网| 99视频一区| 中文字幕久区久久中文字幕| 国产真实一区二区三区| 又粗又黄又猛又爽大片app| 国产精品丝袜黑色高跟鞋| 亚洲av色在线观看网站| 午夜天堂一区人妻|