亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞義消歧的短文本情感分類方法研究

        2018-08-01 01:09:56金保華周兵王睿殷長魁
        現(xiàn)代計算機 2018年20期
        關(guān)鍵詞:語義分類文本

        金保華,周兵,王睿,殷長魁

        (鄭州輕工業(yè)學(xué)院,鄭州 410002)

        0 引言

        隨著互聯(lián)網(wǎng)的發(fā)展和普及,其影響已經(jīng)深入到了人們的日常生活,對人們的生活方式也產(chǎn)生了巨大的影響。網(wǎng)絡(luò)空間已經(jīng)成為人們獲取知識和信息的重要渠道,同時,也是人們表達(dá)自己的情感觀點的集散地和社會事件輿論信息的放大器。例如:微博,跟帖評論等。如何對這些承載著情感信息的網(wǎng)絡(luò)文本進(jìn)行情感分類,有利于了解和掌握社會事件輿情的動態(tài)。

        面對這些數(shù)據(jù)量如此龐大的文本信息,以人工的方式對它們識別分類,這顯然是不現(xiàn)實的,因此就需要一種智能的方法代替人工來處理這種事情。文本信息的情感分類研究是一項新的研究領(lǐng)域,它包含人工智能、計算機語言學(xué)、機器學(xué)習(xí)、信息挖掘等學(xué)科內(nèi)容。近年來,關(guān)于文本情感信息分類的研究已經(jīng)取得了長足的進(jìn)步。

        1 相關(guān)研究

        基于文本的情感傾向分析是一個多學(xué)科相互交叉的研究工作,它包含人工智能、數(shù)據(jù)挖掘、信息檢索等多個領(lǐng)域和學(xué)科。自21世紀(jì)初,Pang[1]提出了有關(guān)文本情感傾向分析的概念后,不少的學(xué)者都對此問題進(jìn)行了卓有成效的研究。Hinton[2]于2006年提出了深度學(xué)習(xí)的方法,隨后,深度學(xué)習(xí)方法在計算機語音與圖像識別領(lǐng)域得到了廣泛運用,并且取得了不錯的研究效果,于是越來越多的學(xué)者和研究人員,在借鑒了該方法在其他領(lǐng)域的成功經(jīng)驗,將其應(yīng)用于文本情感傾向分析判斷的研究中。

        目前為止,常用的文本情感分析方法是基于機器學(xué)習(xí)的情感分類分析方法,該類分析方法又可以分為支持向量機(SVM)、最大熵(ME)、樸素貝葉斯分類器(NB)、k-最鄰近(kNN)等方法。雖然以上方法可以有效地促進(jìn)情感傾向分析的準(zhǔn)確率,但是這些方法在對文本進(jìn)行分析之前,需要對文本預(yù)處理,例如,對文本信息的預(yù)處理、分詞、特征提取等步驟和過程,這些過程對文本情感傾向分析的準(zhǔn)確率,起著至關(guān)重要的作用。由于需要對文本信息進(jìn)行過多的人工預(yù)處理,而且還忽略了詞義之的關(guān)系,費時費力。因此選用一種減少人工預(yù)處理的方法,對現(xiàn)在不斷飛速擴展的互聯(lián)網(wǎng)文本信息的處理,就顯得尤關(guān)必要了。

        詞義消歧是自然語言處理中一項重要的工作,同一個的詞匯在不同的語境之下含義不同的現(xiàn)象在自然語言的語境中普遍存在,所以消除詞匯之間的歧義,在文本情感傾向分析中,有著至關(guān)重要的作用。為了獲取文本內(nèi)容向下文相關(guān)聯(lián)的文本特征信息,Graves[3]提出一種BLSTM模型,該模型采用雙向的LSTM(長短時記憶網(wǎng)絡(luò))對文本信息和特征進(jìn)行雙向識別。Zhou[4]介紹了帶注意力機制的BLSTM模型,該模型能夠在沒有太多干預(yù)的情況下依靠自己來獲取文本特征信息。在2014年,學(xué)者Kim[5]提出了一個新的文本情感分類模型,它利用卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),對提取到的文本數(shù)據(jù)特征進(jìn)行處理操作,該模型中運用兩個大小不同的過濾器,作為一個分布式的文本特征提取器,被應(yīng)用于文本情感分類模型中。

        本文采用了一種基于卷積神經(jīng)網(wǎng)絡(luò)和詞義消歧的結(jié)構(gòu)模型,大大減少了以人工的方式對文本進(jìn)行預(yù)處理,利用有關(guān)數(shù)據(jù)集對模型進(jìn)行一定量的訓(xùn)練后,再進(jìn)行文本情感傾向的分析。實驗結(jié)果表明,該方法模型在減少人工預(yù)處理的工作之后,仍然能取得良好的結(jié)果。

        2 卷積神經(jīng)網(wǎng)絡(luò)與詞義消歧模型

        2.1 詞向量

        為了實現(xiàn)計算機能夠有效地識別和處理現(xiàn)實生活中的文字文本信息,就需要找到一種計算機能夠識別的合適的對文本內(nèi)容信息結(jié)構(gòu)化表示的方法,向量空間模型(Vector Space Model,VSM)是現(xiàn)在最常用的文本表示方法,它是在20世紀(jì)60年代末,由哈佛大學(xué)的Gerard Salton[6]首先提出的,該表示方法模型最早被應(yīng)用于Smart信息檢索系統(tǒng)上。在這個模型中,每一個文本都被映射成多維向量中的一個點,以向量的形式給出。將這些向量集合在在一起,于是就形成一個文本的向量空間。

        例如,對于給定的文本 D,其中包含單詞集W(w1,w2,…,wm),提取到文本的特征集 K(k1,k2,…,kn),m是文本中的單詞個數(shù),n是表示提取到的文本特征個數(shù)。第 j個單詞提取到的 i個文本特征表示為對文本信息做詞向量化處理:

        其中,rw是詞 w向量的向量表示,Wword∈Rl×||m表示文本的詞向量矩陣。

        兩個文本向量在它們的空間上的距離稱之為它們的相似度。文檔 d1和文檔 d2向量在空間上的夾角余弦值稱之為文檔在該空間上的相似度,其向量余弦值定義為:

        文檔向量之間的向量余弦值越高,則表示兩個文檔之間的相關(guān)度越高。

        2.2 詞義消歧

        在人類自然語言的語境中,一個詞匯往往含有一個甚至多個語義,如果將這個詞匯在一定的語境中獨立出來,這個詞匯就會產(chǎn)生語義歧義。確定一個詞匯的哪個語義在哪個語境中被使用,是詞義消歧研究的目的。

        關(guān)于詞義消歧的研究在機器翻譯、信息檢索、文本分析、知識挖掘等研究方向都具有十分重要的意義?,F(xiàn)有的詞義消歧方法主要可以分為兩類:一、基于詞典的方法,二、基于語料庫的方法。基于詞典的方法利用詞典資源中詞匯和語義之間的對應(yīng)關(guān)系進(jìn)行詞義消歧,基于語料庫的方法從提供的語料庫中學(xué)習(xí)自然語言的語言規(guī)則,以此來實現(xiàn)語義消岐。

        本文選取一種基于知網(wǎng)的語義消歧算法[7],作為本文的研究工具。該算法利用利用語義聯(lián)系強度來進(jìn)行語義消歧。

        例如一個詞匯 W,它對應(yīng)的語義集為R={r1,r2,…,rn},其中n≥1。設(shè) Wi是 W 的一個常用的關(guān)聯(lián)詞,它們在一起組成一個特定意義的短語,此時與 Wi關(guān)聯(lián)在一起時,W 對應(yīng)的語義為 ri(ri∈R,0<i<n),此時Wi就與 W的語義 ri之間有個關(guān)聯(lián)度,于是就可以建立起一個詞匯與詞匯語義之間的聯(lián)系強度網(wǎng)。

        2.3 結(jié)合詞義消歧的卷積神經(jīng)網(wǎng)絡(luò)分類模型

        文本針對現(xiàn)有的文本情感分類模型,在對詞向量進(jìn)行訓(xùn)練的時候,往往忽略詞匯在不同語境的詞義歧義問題,特在模型中引入詞義消歧的概念,在詞向量訓(xùn)練的同時,對詞向量結(jié)合上下文關(guān)系進(jìn)行詞義消歧,然后得到消歧后的文檔特征作為卷積神經(jīng)網(wǎng)文本情感分類模型的底層輸入數(shù)據(jù)。其模型示意圖如圖1所示:

        圖1 詞義消歧的卷積神經(jīng)網(wǎng)絡(luò)分類模型示意圖

        在向量空間模型中,自然語言信息被轉(zhuǎn)化成由字、詞組和短語等元素組成的結(jié)構(gòu)化向量,這些元素中,有些更能夠代表文本的內(nèi)容,并且對該文本類區(qū)別于其他文本的辨識貢獻(xiàn)度越高,這樣的元素可以被稱作文本的“特征項”。

        輸入層:該模型中,文本特征信息利用訓(xùn)練好的詞向量來表示,然后結(jié)合文本中的上下文信息,對當(dāng)前詞匯進(jìn)行語義消歧,利用詞義消歧后的詞來表示當(dāng)前文本的特征表示[8],詞匯在某時刻 t語義消歧后的特征表示為 xt,則有:

        則此時的文檔特征矩陣表示為:

        卷積層:利用不同大小窗口的過濾器與輸入層相連起來,假使其中一個過濾器窗口大小為 h,與它相對應(yīng)的卷積過濾器為 v∈Rhk,如果該卷積過濾器對輸入數(shù)據(jù)樣本中大小為 h的詞向量上,于是對原來的輸入樣本處理操作,產(chǎn)生一個新的特征向量,生成新特征的公式如下所示:

        其中,函數(shù) f是一個非線性函數(shù),b∈R是函數(shù)f的偏置項元素,并且 b和 v均為該卷積神經(jīng)網(wǎng)絡(luò)模型中的重要參數(shù)。此卷積過濾器作用于輸入樣本中所有可能的窗口大小為 h的相鄰此向量{w1:h,w2:h,…,wn-h+1:n}上,然后生成一個特征向量:

        其中向量 c∈Rn-h+1。

        池化層:池化層對數(shù)據(jù)特征向量 c進(jìn)行池化操作。池化操作對數(shù)據(jù)特征向量 c取最大值c?=max{c}操作,得到的這個最大值 c?就是數(shù)據(jù)特征向量 c對應(yīng)卷積過濾器的特征。卷積神經(jīng)網(wǎng)絡(luò)模型中池化層的設(shè)計思想是利用池化操作,獲得的特征向量的最大值就是與卷積濾波器中相對應(yīng)起來的最重要特征。

        3 實驗及結(jié)果分析

        3.1 實驗數(shù)據(jù)

        本文采用現(xiàn)有的數(shù)據(jù)測試集COAE2014任務(wù)4評測語料數(shù)據(jù)集對模型進(jìn)行測試,該數(shù)據(jù)集中共含有40000條測試數(shù)據(jù),其中官方公布了5000條評論的極性。利用數(shù)據(jù)測試集中提供的40000條測試數(shù)據(jù)來訓(xùn)練詞向量。

        其中數(shù)據(jù)集中的數(shù)據(jù)評論樣例如表1所示:

        3.2 模型參數(shù)

        卷積神經(jīng)網(wǎng)絡(luò)中模型有許多重要的參數(shù),這些參數(shù)對模型分類效率和準(zhǔn)確率都有十分重要的影響,例如:卷積核大小、學(xué)習(xí)速率等。本文選取Filter與Hidden_unit兩個參數(shù)作為訓(xùn)練參數(shù),F(xiàn)ilter為模型卷積層中過濾器滑動窗口的大??;Hidden_unit決定了模型中卷積過濾器的數(shù)目[9]。

        3.3 實驗結(jié)果與分析

        本文的實驗對參數(shù) Filter,給出(2,3,4)、(4,5,6)、(6,7,8)三個備選項,對參數(shù)Hidden_unit給出50和100兩個備選項,然后對參數(shù)相互組合,然后給出每種參數(shù)組合模型的分類效果,如表2所示:

        表1 評論數(shù)據(jù)例子

        表2 不同參數(shù)組合模型的準(zhǔn)確率對照表

        從實驗結(jié)果中,我們可以看出本文提到的方法,略好于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型的結(jié)果。且對實驗參數(shù)做出調(diào)整,發(fā)現(xiàn),當(dāng)參數(shù)Filter為(4,5,6)且參數(shù)Hidden_unit為100時,文本分類的準(zhǔn)確率最高。因為微博文本的長度一般在140字左右,文本句子的特征維度一般不會太高,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)模型的池化操作后,選取到的文本句子的主要特征在100左右,F(xiàn)liter的寬度決定了詞向量的長度,詞向量的長度過長,不但增加了算法的復(fù)雜度,而且還不利于特征的提取。

        4 結(jié)語

        本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)文本情感分類模型的基礎(chǔ)上,引入了詞義消歧的概念,在對文本訓(xùn)練的過程中對詞匯進(jìn)行詞義消歧,得到消歧后的文本特征向量,更能體現(xiàn)文本的原始語義特征,并以此作為輸入數(shù)據(jù),利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到了比單一的卷積神經(jīng)網(wǎng)絡(luò)模型更好的分類效果,這說明詞義消歧對文本特征的提取是有意義的,而且對分本的分類效果也有一定的提高。

        猜你喜歡
        語義分類文本
        分類算一算
        語言與語義
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        91精品91久久久久久| 国产午夜福利不卡在线观看 | 国产免费丝袜调教视频| 成人国产精品一区二区网站| 无码91 亚洲| 女同舌吻互慰一区二区| 国产高清在线视频一区二区三区| 国产午夜福利精品一区二区三区| 日韩电影一区二区三区| 自拍 另类 综合 欧美小说| 亚洲天堂色婷婷一区二区| 亚洲精选自偷拍一区二| 亚洲精品久久一区二区三区777| 国产欧美一区二区精品性色| 国内精品视频成人一区二区| av资源在线免费观看| 天天躁日日躁狠狠躁av麻豆| 又白又嫩毛又多15p| 白白色发布在线播放国产| 女同在线视频一区二区| 精品无码av一区二区三区不卡| 麻豆久久久9性大片| 国产精品亚洲片夜色在线| av在线网站一区二区| 一本色道久久亚洲综合| 亚洲av天天做在线观看| 国产精品一区二区韩国AV | 欧美三级不卡视频| 免费人成黄页网站在线观看国产| 极品尤物人妻堕落沉沦| 久久夜色精品国产噜噜亚洲av| 无码Av在线一区二区三区| 久久国产精品免费一区二区三区| 欧美激情综合色综合啪啪五月 | 精品久久久久久中文字幕| 亚洲AV手机专区久久精品| 日本免费一区二区在线看片| 久久久免费精品re6| 男人扒开女人双腿猛进女人机机里| 美女福利一区二区三区在线观看| 久久精品亚州中文字幕|