亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的旅游信息關(guān)系抽取研究

        2019-08-23 05:38:50鮑玉來耿雪來飛龍
        現(xiàn)代情報(bào) 2019年8期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

        鮑玉來 耿雪來 飛龍

        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);關(guān)系抽取;旅游信息;詞向量

        隨著“互聯(lián)網(wǎng)+旅游業(yè)”的不斷發(fā)展演進(jìn),旅游信息的傳播方式生發(fā)生了很大變化,涌現(xiàn)出大量的關(guān)于旅游網(wǎng)站和手機(jī)應(yīng)用程序,隨之產(chǎn)生了大量的、冗余的旅游信息資源,“信息過載”問題也隨之產(chǎn)生。知識(shí)圖譜(Knowledge Graph)的提出主要被用來優(yōu)化和完善當(dāng)前的搜索引擎。知識(shí)圖譜能夠更好地查詢較為繁雜的相關(guān)信息,分析查詢語義.來理解用戶的查詢需求.從而改進(jìn)搜索質(zhì)量。在構(gòu)建知識(shí)圖譜、知識(shí)庫(kù)過程中,語義抽取和處理是必要的前提.語義抽取的質(zhì)量決定著知識(shí)圖譜的構(gòu)建質(zhì)量。語義抽取包括實(shí)體、關(guān)系和屬性等知識(shí)要素抽取。其中,關(guān)系抽取是語義抽取研究中的重要內(nèi)容,是構(gòu)建知識(shí)圖譜的重要步驟,實(shí)體關(guān)系抽取的準(zhǔn)確率將極大影響所構(gòu)建的知識(shí)圖譜的質(zhì)量,因此研究關(guān)系抽取問題對(duì)構(gòu)建知識(shí)圖譜有著積極意義。

        1研究現(xiàn)狀

        在早期的關(guān)系抽取中,人們主要是利用人工構(gòu)造語義規(guī)則和模板的方法來判斷實(shí)體之間的關(guān)系后來.人工預(yù)定義的語法與規(guī)則被實(shí)體間的關(guān)系模型取代,如面向開放域的信息抽取框架;馬爾可夫邏輯網(wǎng)的抽取、本體推理的抽取方法_。上述傳統(tǒng)的關(guān)系抽取模型需要人工進(jìn)行特征設(shè)計(jì),其性能取決于人工特征設(shè)計(jì)的質(zhì)量。近年來,深度神經(jīng)網(wǎng)絡(luò)技術(shù)被越來越多地應(yīng)用到關(guān)系抽取任務(wù)中.其中卷積神經(jīng)網(wǎng)絡(luò)因其優(yōu)秀的特征提取能力在實(shí)體關(guān)系抽取任務(wù)中表現(xiàn)出優(yōu)異性能。萬靜等提出的基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的關(guān)系抽取模型,該模型包括雙向GRU的向量表示、PC.NN的特征學(xué)習(xí)和注意力權(quán)重學(xué)習(xí).通過在NewYork Times數(shù)據(jù)集上的實(shí)驗(yàn)表明,基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法可以避免一些NLP工具的錯(cuò)誤,更加準(zhǔn)確地學(xué)習(xí)到句子的語義信息_。張曉斌等應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的實(shí)體關(guān)系抽取模型,在SemEval-2010 Task 8數(shù)據(jù)集上取得了不錯(cuò)的效果。在面向中文專業(yè)領(lǐng)域的關(guān)系抽取目前研究并不多見。杜嘉等面向煤礦領(lǐng)域知識(shí)圖譜構(gòu)建,應(yīng)用循環(huán)神經(jīng)網(wǎng)路進(jìn)行了煤礦專業(yè)領(lǐng)域本文文本的關(guān)系抽取研究,實(shí)驗(yàn)結(jié)果表明詞向量可以更好地表現(xiàn)出文本數(shù)據(jù)中詞匯間的內(nèi)在聯(lián)系。本文面向中文旅游領(lǐng)域信息資源,探索采用詞向量的方式表示文本數(shù)據(jù).繼而通過卷積神經(jīng)網(wǎng)絡(luò)獲取特征并進(jìn)行分類的關(guān)系抽取方法。

        2卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型

        2.1卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中經(jīng)常使用的網(wǎng)絡(luò)模型,其在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域有重要應(yīng)用。CNN網(wǎng)絡(luò)的結(jié)構(gòu)模型主要有5部分組成,分別是:輸入層、卷積層、池化層、全連接層以及輸出層,如圖1所示。首先將原始數(shù)據(jù)通過輸入層載入模型,其次通過卷積層進(jìn)行卷積運(yùn)算.通過卷積層后可以得到特征圖。池化層對(duì)輸出參數(shù)進(jìn)行優(yōu)化,得到對(duì)應(yīng)的特征映射圖。緊接著再利用下一層卷積層對(duì)這些映射圖進(jìn)行卷積操作得到特征圖,再對(duì)特征對(duì)進(jìn)行池化操作,得到新的特征映射圖;通過降采樣,將其送人全連接層。依次逐層訓(xùn)練這樣的訓(xùn)練過程就可以得到原始數(shù)據(jù)的特征向量。將這些特征向量通過全連接層進(jìn)入分類器進(jìn)行最后的分類結(jié)果輸出。

        2.2Word2Vec

        Word2vec是一個(gè)處理文本的雙層神經(jīng)網(wǎng)絡(luò)。它的輸入是一個(gè)文本語料庫(kù),它的輸出是該語料庫(kù)中單詞的特征向量。Word2vec首先根據(jù)訓(xùn)練文本數(shù)據(jù)構(gòu)建詞匯表,然后學(xué)習(xí)單詞的矢量表示。生成的單詞矢量文件可以用作許多自然語言處理和機(jī)器學(xué)習(xí)應(yīng)用程序中的特征。雖然Word2vec不是深度神經(jīng)網(wǎng)絡(luò).但其將文本轉(zhuǎn)換為深度學(xué)習(xí)可以理解的數(shù)字形式。Word2vec創(chuàng)建的向量是單詞特征的分布式數(shù)字表示,諸如單個(gè)單詞的上下文特征。因此,Word2vec通過CBOW和Skip-Gram兩種方式,可以根據(jù)上下文對(duì)單詞的含義進(jìn)行高度準(zhǔn)確地發(fā)現(xiàn)。CBOW模型的訓(xùn)練輸入是某一個(gè)特征詞的上下文相關(guān)的詞對(duì)應(yīng)的詞向量,而輸出就是這特定的一個(gè)詞的詞向量。Skip-Gram模型與CBOW相反,即輸入是特定的一個(gè)詞的詞向量,而輸出是特定詞對(duì)應(yīng)的上下文詞向量。這些猜測(cè)可以用來建立一個(gè)單詞與其他單詞的關(guān)聯(lián),或者按主題進(jìn)行文檔聚類。由于本文所使用的語料規(guī)模不是特別大,所以選擇Skip-gram模型進(jìn)行詞向量的轉(zhuǎn)化。

        Skip-gram模型有3層結(jié)構(gòu),分別是輸入層、投影層和輸出層。所有詞的詞向量都存在于隱藏層的參數(shù)矩陣之中。模型的輸入是目標(biāo)詞,輸出是目標(biāo)詞的上下文。例如:當(dāng)設(shè)置窗口為2的時(shí)候,對(duì)于輸入的詞W,其輸出的是W的2個(gè)上下文詞匯模型圖如圖2所示。

        2.3模型設(shè)計(jì)

        使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取和學(xué)習(xí)句子特征,其中在窗口處理的部分.使用了詞特征和位置特征作為基礎(chǔ)特征并把它們進(jìn)行線性組合。為了下一步的卷積運(yùn)算,我們將這些線性特征轉(zhuǎn)化成對(duì)應(yīng)的特征向量。卷積運(yùn)算完成后,再通過非線性的轉(zhuǎn)化的方式得到句子層級(jí)的特征。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        為了更好地表達(dá)特征,我們以詞嵌入作為基礎(chǔ)特征。而對(duì)詞性特征進(jìn)行選擇時(shí),也關(guān)注了實(shí)體詞本身以及其前后兩個(gè)詞的詞性,據(jù)此可以充分表達(dá)出詞性特征。在詞匯特征這部分主要考慮4個(gè)部分:實(shí)體1;實(shí)體2;實(shí)體1前后兩個(gè)詞的詞性;實(shí)體2前后兩個(gè)詞的詞性。通過Word2Vec獲取詞特征(WF),但僅靠WF是得不到完整特征信息的,加入位置特征(PF),來指定句子中的輸入標(biāo)記對(duì)應(yīng)的目標(biāo)名詞。

        位置特征是將每個(gè)詞分別與兩個(gè)實(shí)體之間的相對(duì)距離進(jìn)行組合。例如,如圖5所示,前面句子中的“是”到實(shí)體“哈素海”和“32平方公里”的相對(duì)距離分別是3和-1。

        這里,把相對(duì)距離轉(zhuǎn)換成一個(gè)隨機(jī)初始化的維度向量d,然后求得相對(duì)距離的向量d和d,其

        盡管詞向量具有強(qiáng)烈的特征表達(dá)能力,其利用窗口中得到的上下文特征向量來推理出句子中對(duì)應(yīng)的上下文特征信息,但是它有一定的局限性,即只能在句子中每個(gè)詞的周圍產(chǎn)生的是局部特征信息。CNN網(wǎng)絡(luò)可以融合這些特征,因此,本文采用線性變換來處理窗口,具體方式如式(1)所示:

        利卷積層處理特征信息的過程,是將選中的詞向量利用卷積矩陣轉(zhuǎn)換為對(duì)應(yīng)的上下文特征的向量的過程,式(2),卷積層對(duì)窗口中的每一個(gè)詞組進(jìn)行處理之后,輸出的是每個(gè)詞對(duì)應(yīng)的上下文特征向量,而且其對(duì)應(yīng)的僅僅是局部特征。

        3.2人工標(biāo)注

        在關(guān)系抽取的過程中,本文共定義位置、星級(jí)、適宜季節(jié)、修建時(shí)間、展覽、庫(kù)存容量、面積、代表項(xiàng)目、海拔、長(zhǎng)度、深度以及其他12個(gè)屬性關(guān)系。人工標(biāo)注訓(xùn)練級(jí)格式采用SemEval 2010

        3實(shí)驗(yàn)設(shè)計(jì)

        3.1數(shù)據(jù)預(yù)處理

        在百度、攜程、去哪兒等一些網(wǎng)站上通過爬蟲獲取基礎(chǔ)語料集,共爬取1500多篇有關(guān)旅游領(lǐng)域(內(nèi)蒙古境內(nèi))的非結(jié)構(gòu)化文本,首先進(jìn)行數(shù)據(jù)清洗,去除標(biāo)點(diǎn)符號(hào);然后利用漢語分詞工具進(jìn)行分詞,停用詞典、自定義詞典。首先進(jìn)行分詞處理,以空格隔開,使文本轉(zhuǎn)換成指定的格式,如圖6所示。

        3.3詞向量

        使用Gensim實(shí)現(xiàn)Word2Vec Skip-gram模型,在本實(shí)驗(yàn)中,詞向量的維度大小定為200維;滑動(dòng)

        3.4CNN

        應(yīng)用Python深度學(xué)習(xí)工具包Keras實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò),其基本參數(shù)為,隱藏層設(shè)置為2個(gè),而且它們的節(jié)點(diǎn)個(gè)數(shù)分別是100和200,還將卷積窗口大小設(shè)置為3。標(biāo)注1000篇作為訓(xùn)練樣本,500篇作為的測(cè)試樣本,訓(xùn)練樣本中有句子4682個(gè),關(guān)系屬性15976個(gè),測(cè)試樣本中關(guān)系屬性共有7861個(gè)。

        4實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)抽取到7558個(gè),其中正確的屬性關(guān)系有5974個(gè)。在關(guān)系抽取是同樣使用這3個(gè)評(píng)估標(biāo)準(zhǔn),只是計(jì)算公式有所變化.公式如下:

        在實(shí)驗(yàn)中,選取了詞匯級(jí)、句子級(jí)、詞匯+句子級(jí)3種不同的特征進(jìn)行試驗(yàn),其中詞匯特征和句子特征結(jié)合作為分類特征的試驗(yàn)結(jié)果最好,如表1、圖8所示。

        本文探索了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)和詞向量模型進(jìn)行旅游信息實(shí)體關(guān)系抽取方法.該方法通過Word2Vee來學(xué)習(xí)詞語的上下文信息.使用卷積神經(jīng)網(wǎng)絡(luò)獲取更多的特征信息并進(jìn)行分類。實(shí)驗(yàn)證明了本文方法能有效地在非結(jié)構(gòu)化的旅游信息文本中實(shí)現(xiàn)關(guān)系抽取。

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)
        基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
        卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
        卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
        基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
        基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
        基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
        軟件(2016年5期)2016-08-30 06:27:49
        基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
        国产亚洲精品在线播放| 久久久久久久久久免免费精品| 国产一区二区三区精品久久呦| 久久久久亚洲AV无码专区一区| 色婷婷一区二区三区77| 日本在线一区二区免费| 丝袜美腿亚洲第一免费| 97人妻精品一区二区三区免费| 一区二区三区中文字幕p站| 色欲aⅴ亚洲情无码av| 中国凸偷窥xxxx自由视频| 久久精品国产一区二区电影| 日韩精品成人无码AV片| 日本一区二区在线播放观看| 久久国产精品色av免费看| 91九色成人蝌蚪首页| 少妇精品无码一区二区三区| 国产成人精品电影在线观看| 狠狠噜天天噜日日噜| 水蜜桃一二二视频在线观看免费 | 东京热加勒比视频一区| 精品无码av无码专区| 性xxxx18免费观看视频| 无码三级在线看中文字幕完整版 | 成人国产精品999视频| 亚洲精品国产二区三区在线| 久久精品国产白丝爆白浆| 久久久久亚洲av无码a片| 久青草久青草视频在线观看| 国产精品白浆视频免费观看| 亚洲国产成人va在线观看天堂| 亚洲av综合av国产av中文| 337人体做爰大胆视频| 精品国产91天堂嫩模在线观看| 欧美日韩国产在线人成dvd| 青青草视频免费在线播放| 国产自拍精品一区在线观看 | 少女高清影视在线观看动漫| 日韩国产精品一本一区馆/在线| 亚洲国产精品久久久婷婷| 中国孕妇变态孕交xxxx|