亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)rcnn模型的多標(biāo)簽短文本自適應(yīng)分類

        2021-11-17 08:37:26夏梓淵
        計(jì)算機(jī)仿真 2021年5期
        關(guān)鍵詞:分類文本信息

        王 東,夏梓淵

        (重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054;)

        1 引言

        電子商務(wù)以及社交網(wǎng)絡(luò)的迅猛發(fā)展,促使人們網(wǎng)絡(luò)生活的形式日益多樣化,越來(lái)越多的人們積極主動(dòng)加入社交網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中進(jìn)行交流以及發(fā)表自己的評(píng)論[1-2],以上行為大幅度增加了互聯(lián)網(wǎng)的數(shù)據(jù)量。現(xiàn)階段互聯(lián)網(wǎng)已經(jīng)日益滲透到人們的生活以及工作中,為了傳統(tǒng)的經(jīng)濟(jì)結(jié)構(gòu)以及商業(yè)模式帶來(lái)了全新的轉(zhuǎn)機(jī)?;ヂ?lián)網(wǎng)的開(kāi)放性、匿名性等優(yōu)勢(shì),促使越來(lái)越多的人愿意將身邊發(fā)生的事情進(jìn)行分享,并且在網(wǎng)絡(luò)中查詢自己感興趣的信息[3-4],整個(gè)社交平臺(tái)為人們的生活帶來(lái)了極大的便利,同時(shí)也有效促進(jìn)了各個(gè)企業(yè)的發(fā)展。

        互聯(lián)網(wǎng)技術(shù)的普及以及飛速發(fā)展,促使互聯(lián)網(wǎng)絡(luò)中的多標(biāo)簽文本分類變得越來(lái)越迫切。本文主要結(jié)合經(jīng)過(guò)改進(jìn)的rcnn模型,提出一種基于改進(jìn)rcnn模型的多標(biāo)簽短文本自適應(yīng)分類方法。仿真結(jié)果表明,所提方法能夠有效提升分類結(jié)果的準(zhǔn)確性,同時(shí)具有較強(qiáng)的實(shí)用性。

        2 方法

        2.1 多標(biāo)簽短文本特征提取

        多標(biāo)簽短文本是一種非結(jié)構(gòu)化信息,它本身是無(wú)法使用計(jì)算機(jī)進(jìn)行直接處理的,所以需要將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),促使計(jì)算機(jī)能夠快速、有效的進(jìn)行應(yīng)用。

        多標(biāo)簽短文本預(yù)處理是文本分類的開(kāi)始,也是文本分類的必要階段。

        在多標(biāo)簽短文本經(jīng)過(guò)預(yù)處理之后,原始的多標(biāo)簽短文本有效刪除了的噪聲信息,同時(shí)以詞匯為單位進(jìn)行文本表述。但是,由于計(jì)算機(jī)只能夠接受二進(jìn)制編碼,其中類似于詞匯這種非結(jié)構(gòu)化字符輸入無(wú)法被處理。所以,將非結(jié)構(gòu)化字符轉(zhuǎn)換為二進(jìn)制編碼以方便計(jì)算機(jī)識(shí)別處理,整個(gè)轉(zhuǎn)化過(guò)程被稱為文本表示。文本表示是首先抽取出文本的特征詞,再使用教學(xué)方法進(jìn)行數(shù)字表示的過(guò)程,它能夠轉(zhuǎn)化為無(wú)結(jié)構(gòu)信息,對(duì)多標(biāo)簽文本信息進(jìn)行抽象表述。多標(biāo)簽短文本首先需要提取出人本的特征詞,然后再使用數(shù)學(xué)方法進(jìn)行數(shù)字表示的過(guò)程,它能夠轉(zhuǎn)化為無(wú)結(jié)構(gòu)信息,同時(shí)對(duì)文本內(nèi)容進(jìn)行抽象表述。

        衡量單詞權(quán)重最為有效的一種算法就是TD-IDF算法,使用該算法通常情況下會(huì)將較為常見(jiàn)的詞語(yǔ)過(guò)濾掉,保留其中較為重要的詞語(yǔ)。整個(gè)算法主要是由以下兩個(gè)部分組成,分別為:

        1)詞頻

        2)逆向文件頻率

        針對(duì)于特定文件里面的詞語(yǔ)ti而言,以下給出詞頻的具體計(jì)算方法

        (1)

        逆向文件頻率也是衡量一個(gè)詞語(yǔ)普遍重要性的度量[6],具體的計(jì)算式如下所示

        (2)

        結(jié)合式(1)以及式(2)則能夠完成TD-IDF算法,即

        tf-idfi,j=tfi,j×idfi

        (3)

        以下給出互信息的基本定義

        (4)

        針對(duì)已有多標(biāo)簽文本特征集

        T={tk,k=1,2,…,m}

        (5)

        類別集能夠表示為以下的形式

        C={cj,j=1,2,…,r}

        (6)

        其中特征詞tk和類別cj的互信息計(jì)算方式能夠表示為以下的形式

        (7)

        綜合上述分析可知,假設(shè)使用分詞以及詞頻作為特征詞和對(duì)應(yīng)的權(quán)值進(jìn)行空間向量模型的文本表示。當(dāng)數(shù)據(jù)集過(guò)大時(shí)且包含詞匯過(guò)多時(shí)會(huì)出現(xiàn)維度爆炸的情況。同時(shí),僅使用詞匯進(jìn)行表示是無(wú)法描述各個(gè)詞匯之間的關(guān)系的,而且還會(huì)導(dǎo)致大部分語(yǔ)義信息的丟失。

        為了更好地將自然語(yǔ)言交給rcnn模型完成處理任務(wù),人們將詞匯轉(zhuǎn)換為數(shù)字向量形式的人本表達(dá)方式,以上方式即為詞向量表示方法。

        信息熵以及信息增益是現(xiàn)階段使用最為廣泛的最優(yōu)屬性劃分方法。在整個(gè)算法應(yīng)用的過(guò)程中,文本分類任務(wù)能夠有效解決特征提取過(guò)程中的非線性問(wèn)題,所以其在語(yǔ)言處理中占據(jù)十分重要的作用。在現(xiàn)實(shí)使用的過(guò)程中,需要設(shè)定對(duì)應(yīng)的參數(shù)。其中后驗(yàn)概率計(jì)算式能夠表示為以下的形式

        (8)

        上式中,d代表屬性的總數(shù);xi代表第i個(gè)屬性上的取值。

        其中最小化分類錯(cuò)誤率計(jì)算式能夠表示為以下的形式:

        (9)

        在現(xiàn)實(shí)應(yīng)用的過(guò)程中,為了更加高效的使用rcnn模型,需要結(jié)合對(duì)應(yīng)的數(shù)據(jù)集以及分類任務(wù)特點(diǎn)進(jìn)行對(duì)應(yīng)的改進(jìn)以及調(diào)整。假設(shè)任務(wù)數(shù)據(jù)更新較為頻繁,則采用懶惰學(xué)習(xí)的方式,也就是首先不進(jìn)行訓(xùn)練,在收到預(yù)測(cè)請(qǐng)求后再對(duì)當(dāng)前的數(shù)據(jù)集進(jìn)行概率估計(jì);假設(shè)數(shù)據(jù)隨著系統(tǒng)采集不斷增加,則通常對(duì)新增樣本的屬性值以及所涉及到的概率估計(jì)值進(jìn)行修正,以確保增量學(xué)習(xí)的實(shí)現(xiàn)。

        其中模型聯(lián)合概率能夠表示為以下的形式:

        (10)

        式中,α代表文檔中主題分布信息;β代表主題中特征詞分布信息;N代表文檔中的特征詞數(shù)量;θ代表文檔所對(duì)應(yīng)的主體向量。

        多標(biāo)簽短文本輸入層的任務(wù)就是講詞向量拼接為文本矩陣,同時(shí)將其傳遞給下一層,方便進(jìn)行卷積操作。

        多標(biāo)簽短文本處理需要考慮文本中各個(gè)詞語(yǔ)之間的關(guān)系[7-8],這樣才能夠獲取一個(gè)較為完整的語(yǔ)義特征。

        設(shè)定特征向量ai是在詞匯aixi:i+h-1中形成的,則有

        ai=f(xi:i+h-1+b)

        (11)

        特征向量能夠表示為以下的形式

        a=[a1,a2,…,an-h+1]

        (12)

        為了有效避免訓(xùn)練過(guò)程中出現(xiàn)擬合的情況,需要結(jié)合相關(guān)操作來(lái)禁止隱層節(jié)點(diǎn)參與到前項(xiàng)傳播過(guò)程,這些神經(jīng)元將不再參與此次更新,進(jìn)一步促使權(quán)值的更新不再依賴于固定節(jié)點(diǎn)的作用。

        在上述分析的基礎(chǔ)上,提取多標(biāo)簽短文本數(shù)據(jù)集中多標(biāo)簽短文本的不同特征,同時(shí)將其作為傳統(tǒng)機(jī)器學(xué)習(xí)模型以及深度模型的輸入。

        2.2 基于改進(jìn)rcnn模型的多標(biāo)簽短文本自適應(yīng)分類

        在rcnn模型中,所謂的特征融合主要是指在各個(gè)角度進(jìn)行多標(biāo)簽文本提取,同時(shí)結(jié)合相關(guān)理論將得到的特征放入到rcnn模型中,以有效提升模型的綜合性能。

        通過(guò)模型融合的方法能夠完成詞匯特征以及語(yǔ)義特征的融合,在2.1小節(jié)中提取到的多標(biāo)簽短文本特征設(shè)定為輸入,然后對(duì)模型進(jìn)行訓(xùn)練,同時(shí)將語(yǔ)義特征設(shè)定為輸入,再對(duì)模型進(jìn)行訓(xùn)練,這樣就能夠獲取多個(gè)不同的多標(biāo)簽短文本分類模型,最后結(jié)合Stacking技術(shù)對(duì)rcnn模型模型進(jìn)行改進(jìn),通過(guò)改進(jìn)的rcnn模型對(duì)多個(gè)基分類器的分類結(jié)果進(jìn)行融合處理,獲取多標(biāo)簽短文本自適應(yīng)分類的最終結(jié)果。

        為了確保重要的信息能夠被保留,以下采用Sigmoid函數(shù)對(duì)上一時(shí)間階段輸出的權(quán)重進(jìn)行保留,具體的計(jì)算式如下所示

        ft=δ(Wf·[ht-1,xt]+bf)

        (13)

        結(jié)合以上函數(shù)對(duì)系統(tǒng)中的輸入信息進(jìn)行更新,同時(shí)形成對(duì)應(yīng)的候選值,則有

        it=δ(Wi·[ht-1,xt]+bi)

        (14)

        Ct=tanh(WC·[ht-1,xt]+bC)

        (15)

        結(jié)合文本數(shù)據(jù)的信息特征,網(wǎng)絡(luò)層利用卷積模塊設(shè)定為卷積策略,由于多標(biāo)簽短文本中的數(shù)據(jù)存在一定的差異性,這會(huì)導(dǎo)致卷積層內(nèi)形成的特征圖也存在差異。為了能夠使用循環(huán)網(wǎng)絡(luò)對(duì)特征圖進(jìn)行統(tǒng)一的處理[9],需要采用池化模塊對(duì)其進(jìn)行處理,將其長(zhǎng)度進(jìn)行統(tǒng)一。

        為了對(duì)傳統(tǒng)的rcnn模型進(jìn)行改進(jìn),以下采用參數(shù)優(yōu)化的方式實(shí)現(xiàn),則有

        ui=tanh(Whht+bw)

        (16)

        以下計(jì)算中間向量和文本上下向量的相似度,具體如式(17)所示

        (17)

        將原始向量矩陣以及加權(quán)兩者相加,則能夠獲取經(jīng)過(guò)優(yōu)化后的特征向量,則有

        (18)

        在多標(biāo)簽短文本處理任務(wù)中,文本向量能夠采用詞向量進(jìn)行表示。從語(yǔ)義的角度出發(fā)可知,字和詞兩者都能夠?yàn)槿祟惾蝿?wù)提供十分有價(jià)值的信息。實(shí)際上就是,多標(biāo)簽短文本中的字和詞是進(jìn)行分類的決定性因素,如果只選取其中任意一種,都會(huì)導(dǎo)致信息的丟失。

        整個(gè)模型主要能夠劃分為三層,分別為:

        1)編碼層;

        2)特征提取層;

        3)全連接層。

        編碼層通過(guò)相應(yīng)的詞向量以及字向量模型,將輸入文本解析為詞向量序列以及字向量序列,則有

        S=[Sw⊕Sc]

        (19)

        全連接層主要是由線性轉(zhuǎn)換層以及Softmax層組成,其中線性轉(zhuǎn)換層將特征向量轉(zhuǎn)換為一個(gè)維度和分類類別相當(dāng)?shù)膶?shí)值向量[10],則

        P=softmax(WsS+bs)

        (20)

        其中損失函數(shù)能夠表示為以下的形式

        (21)

        在上述操作的基礎(chǔ)上,結(jié)合Stacking技術(shù)對(duì)rcnn模型模型進(jìn)行改進(jìn),通過(guò)改進(jìn)的rcnn模型對(duì)多個(gè)基分類器的分類結(jié)果進(jìn)行融合處理,以達(dá)到多標(biāo)簽短文本自適應(yīng)分類,利用圖1給出具體的操作流程圖。

        圖1 多標(biāo)簽短文本自適應(yīng)分類流程圖

        3 仿真研究

        為了驗(yàn)證所提基于改進(jìn)rcnn模型的多標(biāo)簽短文本自適應(yīng)分類方法的綜合有效性,需要進(jìn)行仿真測(cè)試,實(shí)驗(yàn)平臺(tái)為64位Win7操作系統(tǒng)的PC機(jī),CPU主頻3.2GHz,內(nèi)存為8G,在matlab2012b軟件平臺(tái)下使巧M語(yǔ)言進(jìn)行軟件編程。

        1)查全率/(%)

        以下選取兩種傳統(tǒng)的多標(biāo)簽短文本自適應(yīng)分類方法作為對(duì)比方法,對(duì)比三種方法的查全率,對(duì)比結(jié)果如表1至表3所示。

        表1 所提方法的查全率變化情況

        表2 文獻(xiàn)[4]方法的查全率變化情況

        表3 文獻(xiàn)[5]方法的查全率變化情況

        分析表1至表4的實(shí)驗(yàn)數(shù)據(jù)可知,所提方法的查全率在三種分類方法中為最高;文獻(xiàn)[4]方法的查全率次之;文獻(xiàn)[5]方法的查全率最低。以上實(shí)驗(yàn)數(shù)據(jù)充分說(shuō)明,所提方法具有較好的分類效果。

        表4 所提方法的耗時(shí)變化情況

        2)分類準(zhǔn)確率/(%)

        為了更進(jìn)一步驗(yàn)證所提分類方法的有效性,以下需要對(duì)比三種方法的分類準(zhǔn)確率,具體的對(duì)比結(jié)果如下圖所示。

        分析圖2中的實(shí)驗(yàn)數(shù)據(jù)可知,隨著節(jié)點(diǎn)數(shù)量的持續(xù)增加,各種多標(biāo)簽短文本自適應(yīng)分類方法的準(zhǔn)確率也在不斷發(fā)生變化。其中所提方法的分類準(zhǔn)確率明顯高于其它兩種方法,這充分說(shuō)明了所提方法的優(yōu)越性。

        圖2 不同分類方法的分類準(zhǔn)確率對(duì)比結(jié)果

        3)耗時(shí)/(min)

        在上述實(shí)驗(yàn)環(huán)境的基礎(chǔ)上,以下需要對(duì)比三種方法的耗時(shí),具體的對(duì)比結(jié)果如下表所示。

        表5 文獻(xiàn)[4]方法的耗時(shí)變化情況

        分析表4至表6的實(shí)驗(yàn)數(shù)據(jù)可知,相比傳統(tǒng)方法,所提方法的耗時(shí)有了較為明顯的下降趨勢(shì)。

        表6 文獻(xiàn)[5]方法的耗時(shí)變化情況

        4 結(jié)束語(yǔ)

        針對(duì)傳統(tǒng)的多標(biāo)簽短文本自適應(yīng)分類方法存在耗時(shí)較長(zhǎng)、查全率以及分類準(zhǔn)確率較低等問(wèn)題,提出基于改進(jìn)rcnn模型的多標(biāo)簽短文本自適應(yīng)分類方法。仿真結(jié)果表明,所提方法能夠有效提升查全率以及分類準(zhǔn)確率,同時(shí)有效減少耗時(shí)。

        猜你喜歡
        分類文本信息
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        国产在线一区二区三区四区不卡| 欧美日韩中文亚洲另类春色| 国产精品性一区二区三区| 日本人妻系列中文字幕| 超碰97人人射妻| 8888四色奇米在线观看| 亚洲男人在线无码视频| 亚洲色图偷拍自拍在线| 波多野结衣爽到高潮大喷| 国产真实乱人偷精品人妻| 毛片一级精油按摩无码| 国产色av一区二区三区| 国产精品久久久久久一区二区三区| 午夜精品一区二区三区在线观看| 无码制服丝袜中文字幕| 精品人妻一区二区三区视频| 国产va免费精品高清在线观看 | 日本熟妇色xxxxx日本妇| 亚洲 欧美 激情 小说 另类 | 国产精品国语对白露脸在线播放 | 人妻少妇中文字幕在线| 国产人妻精品一区二区三区| 国产人成无码视频在线观看| 色欲aⅴ亚洲情无码av蜜桃| 亚洲中文字幕无码不卡电影| 99久久久人妻熟妇精品一区二区| 亚洲av无码成人网站在线观看| 亚洲香蕉视频| 国产精品成人有码在线观看| 影音先锋久久久久av综合网成人| 波多野结衣av手机在线观看| 国产黑色丝袜在线观看视频| 丝袜美腿制服诱惑一区二区| 久久久久亚洲精品无码网址蜜桃| 久久精品国产精品青草色艺| 极品少妇被后入内射视| 情爱偷拍视频一区二区| 色一情一乱一伦一区二区三区| 亚州五十路伊人网| 在线视频中文字幕一区二区三区| 99久久精品日本一区二区免费 |