亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多特征混合神經網絡模型在ADR分類中的應用

        2018-07-24 03:04:06趙鑫李正光吳鏑方金朋
        大連交通大學學報 2018年4期
        關鍵詞:特征向量卷積向量

        趙鑫,李正光,吳鏑,方金朋

        (大連交通大學 軟件學院,遼寧 大連 116028)

        0 引言

        近年來,特別是社交網絡的發(fā)展使得用于研究藥物不良反應的互聯(lián)網數(shù)據增長迅速,文本分類成為處理大量文本數(shù)據的關鍵技術.文本分類,就是在事先給定的類別標記(label)集合下,根據文本的內容來判斷它的類別,這在自然語言處理中有著廣泛的運用[1].

        目前應用到文本分類中的算法很多,例如KNN分類算法、樸素貝葉斯分類算法、支持向量機(SVM),神經網絡、最大熵等,這些方法都是通過淺層神經網絡來實現(xiàn)的,在文本分類中取得了很好的效果.但是它們的局限性表現(xiàn)在對復雜函數(shù)的表示能力不足,使得對復雜分類問題的泛化能力不足[2-3].

        深度神經網絡的迅速發(fā)展為解決這個問題提供了可能,多層的神經網絡模型不但可以克服這一問題,同時非線性映射的深層結構能夠利用比較少的傳參數(shù)來完成較復雜的函數(shù)逼近,具備良好的特征學習能力.而在深度神經網絡模型中,文本的預處理以及特征的選擇在很大程度上影響最終分類器的性能.目前大多數(shù)的研究都提取了某一類特征運用于分類任務中.文獻[4]使用卷積神經網絡和詞向量,加入位置特征,其分類性能超越了傳統(tǒng)方法.但是,不同類型的特征所表征的信息并不相同,僅使用一種特征不能充分利用文本信息.基于此問題,本文提出了一種混合多特征的神經網絡模型,融合詞性特征,情感特征和位置特征作為多通道卷積網絡的輸入,通過CNN和LSTM模型的特征學習,最后利用softmax輸出關系類型完成分類.

        1 方法

        1.1 文本預處理

        本文所用的數(shù)據來自twitter中與藥品相關的帖子共計6773條推文,預處理的過程包括:

        (1)獲取文檔中的文本信息,即去除文檔中用戶的ID、名稱等信息,去除標點符號以及一些特殊符號(如“ , …”),并將所有的單詞變?yōu)樾?

        (2)構建映射表,將每個單詞均映射成數(shù)字,這樣可以將文檔表示成特征向量的形式,每個特征向量對應一個單詞.例如,單詞bloody映射成9.

        通過以上處理工作,把文本表示成特征向量形式,結構化數(shù)據,以便于后續(xù)的處理.另外,模型訓練時,數(shù)據集中90%作為訓練集,為了加快訓練速度以及增加精確度,使用5倍平衡將訓練集中正例擴充5倍;剩余的10%作為測試集.

        1.2 詞向量模型

        詞向量(word vector)也稱為詞嵌入(word embedding),是詞語的一種分布式表示.每個單詞被表示成一個連續(xù)的實數(shù)值向量,并通過訓練使得向量空間的相似度可以表示文本語義的相似度[5].同時,相比較于其他的文本表示方法,例如one-hot、概率主題模型等,詞向量模型包含的語義信息更加豐富[6].本文選用Google在2013年開源Word2Vec作為詞向量訓練工具,該工具使用的訓練模型是Mikvolov等人[6]在2013年提出的CBOW和skip-gram,并且因為使用簡單,而且效果顯著被廣泛使用.

        1.3 特征提取

        1.3.1 詞性標注(Part-of-Speech tagging)

        通過詞性標注概括文本,可以保存更多的文本信息,而且利用詞性能夠代表某一類文本的特征這一特點,以詞性序列作為文本的特征表示,相較于N-gram特征提取方法也可達到降低特征表示維度的效果[7].文獻[8]提出的詞性標注方法在twitter數(shù)據上實驗得到將近90%的準確率.本文利用NLP工具Word2Vec自動獲取詞性序列.如圖1所示.

        圖1 本文獲取的詞性序列

        用工具自動獲取詞性,構建詞性-數(shù)字映射表,則上述句子被表示為:[1,2,3,1,4].

        1.3.2 情感分析(Sentiment Analysis)

        對文本感情色彩的判斷來自于文本中帶有感情色彩的詞語,在特定的文本分類任務中,不同的感情色彩也影響著分類的精確度.在ADR文本分類中,帶有負面情感的文本屬于ADR的概率更大.文獻[9]提出一種基于監(jiān)督學習的方法應用到情感分析中,對影評文本進行情感傾向性分類,該研究對之后的情感分析研究有著深遠的影響.

        本文使用情感詞典,其中有117個負面情感詞,將情感詞映射為特征向量,與利用語料庫所構建詞袋(bag-of-words)中的每個詞所映射的特征向量通過式(1)計算得到情感特征向量.

        (1)

        1.3.3 位置特征(Position Features)

        文本上下文中詞語對關系實例的描述能力與詞語和關系實例間相對位置有關.詞語距離關系實例越近,其對實例的描述能力越強[10].所以詞語的位置特征能夠作為文本分類中有用的特征.求詞語的位置特征有很多選取方法,文獻[11]提出將詞語相對位置的信息增益作為位置特征.

        本文使用一種簡單的提取位置特征的計算方法,假設目標實體(即文本中的藥品名稱)的位置為a,則該實體所在的句子中其余詞相對于實體的位置信息表達為:

        (2)

        其中,c表示該詞語當前位置,sum表示句子長度.例如:“My doc is going to up my fluoxetine dosages.”,句子中藥品實體為“fluoxetine”,則通過式(2)計算其余詞相對實體的位置,最終句子表示為: [-0.78,-0.67,-0.56, -0.44,-0.33,-0.22,-0.11,0.0,0.11]

        2 混合神經網絡模型

        2.1 模型搭建

        本文提出的多特征混合神經網絡模型結構如圖2所示,不同的特征向量通過不同的CNN模型通道輸入到模型中,經過CNN訓練之后的結果經過池化層以及merge層的融合連接作為LSTM模型的輸入,最終運用softmax分類器計算輸出向量在類別空間中的置信度分布.

        圖2 多通道卷積神經網絡

        2.1.1 卷積層

        卷積層接收嵌入層輸出的特征向量r,

        r=WwdV

        其中:Wwd=[W1,W2,…,Wi]∈Rc×v×d是訓練好的詞向量矩陣,Wi表示輸入第i通道的特征向量,c為通道,υ為詞典大小,d為詞向量的維度;V∈Rc×n×d表示輸入矩陣,用于之后的卷積層提取特征,n表示輸入句子的最大長度.

        卷積核D∈Rc×h×d,h表示卷積核的高度.設Di×Rh×d表示第i通道卷積核,大小為h×d,Vi[k:k+h-1]表示第i通道第k到k+h-1的向量,b為偏置,f為非線性激活函數(shù),則卷積mk表示為:

        mk=f(Vi[k:k+h-1]·Di+b)

        (4)

        輸入層矩陣通過式(4)得到卷積后得到一個新的特征C:

        C=[m1,m2,m3,…,mn-h+1]

        (5)

        卷積層提取窗口大小為h的輸入層句子特征,由于輸入層特征不同,可以提取更多新的特征.

        2.1.2 Bi-LSTM層

        長短時間記憶網絡(Long Short Term Memory Net-works, LSTM),一種特殊的循環(huán)神經網絡(RNN),該網絡能夠解決深度學習中RNN梯度消失的問題.CNN模型的輸出經過池化層和merge層融合連接之后作為LSTM模型的輸入.LSTM 的模型由專門的記憶存儲單元組成,經過精心設計的輸入門、遺忘門和輸出門來控制各個記憶存儲單元的狀態(tài),通過門的控制保證了隨著隱藏層在新的時間狀態(tài)下不斷疊加輸入序列,前面的信息能夠繼續(xù)向后傳播而不消失.

        利用形式化語言,LSTM可以表述為:

        其中,δ表示激活函數(shù)sigmod;W*,U*,V*,b*分別表示系數(shù)矩陣和偏置向量;it,ft,ot分別表示t時刻輸入門、遺忘門和輸出門的計算方法,ct表示t時刻記憶單元計算方法,表示t時刻LSTM單元的輸出.

        另外,單向LSTM只能參考輸入序列的上文信息,而對下文信息并無涉及為了解決這一缺點,充分利用上下文信息,所以構建了雙向的LSTM(簡稱Bi-LSTM),對每個訓練序列分別訓練一個正向LSMT網絡和一個反向LSTM網絡,并且在同一個輸出層輸出,這樣能夠充分捕獲輸入序列每個點的上下文信息.

        2.2 模型訓練

        在訓練過程中有幾個參數(shù)需要調整:多通道詞向量矩陣Wwd,多通道卷積核D,轉移矩陣W,以及偏移量b,有θ=(Wwd,D,W,b), 使用式(11)作為損失函數(shù):

        (11)

        yi為輸入xi的標簽,L表示每次訓練的樣本數(shù)量.在訓練參數(shù)時使用梯度下降最小化損失函數(shù),使用式(12)更新梯度:

        另一方面,為了減少固定學習率λ造成的不穩(wěn)定的損失,使用adam算法改進每個訓練步驟中梯度下降參數(shù).

        3 實驗結果及分析

        模型訓練各個超參數(shù)設置如下:卷積核個數(shù)為128;卷積核高度為3,4,5;步長為1;激活函數(shù)為Relu;池化窗口大小為5.為了驗證多通道模型可以提高關系抽取的性能,進行對比試驗,實驗分別設置為只使用位置特征,只使用詞性特征,只使用情感特征以及同時使用三通道,其他參數(shù)保持一致.

        圖3 迭代次數(shù)對比

        圖3所示為四種模型迭代次數(shù)的對比,從圖中可以看出多通道模型(Muti)迭代次數(shù)明顯少于詞性模型(POS)和情感特征模型(Sentiment)的迭代次數(shù),而與位置特征(Position)的迭代次數(shù)相差不大,說明多通道模型可以加快收斂,使訓練速度大大提升.

        表1為單個特征模型和多通道模型結果,通過對比得出:

        (1)不同的特征向量訓練得出的結果有差別,說明不同的特征帶有不同的信息;

        (2)使用多通道將各個特征向量融合后訓練結果優(yōu)于使用單一特征向量的訓練結果.

        表1 模型訓練結果

        為了證明本文所提出的模型有較好的識別效果,表2列舉了幾個分類模型作為對比.

        表2 模型對比

        其中,FastText模型利用n元組(bag-of-n-gram)將特征轉化為低維向量空間,這樣可以通過分類算法實現(xiàn)不同特征共享[13];Supervised CNN使用上下文語境作為默認參數(shù)訓練CNN模型;ADR Classifier是一個較先進的二分類模型,識別短文本是否為藥物不良反應(ADR)文本[14];而Multi-CNN為本文提出的模型,通過對比可知,本文所提模型無論從準確率,召回率還是F值上都略高于其余模型,證明本文所提模型的有效性與先進性.

        4 結論

        本文提出一種多通道網絡模型,該模型用于生物醫(yī)學的實體關系抽取中,使用word2vec訓練工具提取特征向量并應用到多通道模型中,從而可以增加表征信息.通過實驗對比得知,多通道模型在生物醫(yī)學的實體關系抽取中表現(xiàn)突出.在未來的工作中,可以嘗試更多的特征融合到多通道中,比如依存句法樹等.另外可以使用GloVe作為詞向量提取特征向量.GloVe是由斯坦福大學Pennington等人[15]提出的,模型構造了一個全局的詞共現(xiàn)矩陣,是基于計數(shù)的方法,從而可以利用全局統(tǒng)計信息,更多的考慮了全局的信息.所以使用GloVe在多通道模型關系抽取中有很大的研究價值.

        猜你喜歡
        特征向量卷積向量
        二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
        向量的分解
        克羅內克積的特征向量
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        一類特殊矩陣特征向量的求法
        基于傅里葉域卷積表示的目標跟蹤算法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
        中華建設(2017年1期)2017-06-07 02:56:14
        向量垂直在解析幾何中的應用
        免费人成黄页网站在线观看国产| 久久久久亚洲av无码专区导航| 在线免费毛片| 97碰碰碰人妻视频无码| 午夜影院免费观看小视频| 国产欧美va欧美va香蕉在| 欧美丰满大屁股ass| 无码国产精品一区二区AV| 网红尤物泛滥白浆正在播放| 免费观看mv大片高清| 亚州少妇无套内射激情视频| 婷婷一区二区三区在线| 丝袜美腿亚洲综合在线播放| 欧美日韩精品乱国产| 国产高潮国产高潮久久久| 久久99精品久久久久九色| 国产中文字幕亚洲国产| 无码中文字幕日韩专区| 免费无码国产v片在线观看| 国产在线天堂av| 日韩一区二区三区熟女| 在线观看成人无码中文av天堂| 在线中文字幕有码中文| 久久久久久久久888| 99成人无码精品视频| 毛片精品一区二区二区三区| 中文字幕亚洲无线码一区女同| 国产精品欧美福利久久| 激情欧美日韩一区二区| 国产在线AⅤ精品性色| 亚洲国产av一区二区三区天堂| 一本久道综合在线无码人妻| 夜夜综合网| 蜜桃av观看亚洲一区二区 | 国产亚洲av成人噜噜噜他| 亚洲中文字幕久在线| 国产一区二区三区小说| 国产小视频一区二区三区| 国产91在线播放九色快色| 久久综合亚洲色一区二区三区| 99久久精品费精品国产一区二区|