亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于結(jié)構(gòu)-語(yǔ)義圖的短文本分類(lèi)

        2019-03-12 12:27:50胡代艷
        現(xiàn)代計(jì)算機(jī) 2019年5期
        關(guān)鍵詞:語(yǔ)義概念分類(lèi)

        胡代艷

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        1 研究現(xiàn)狀

        考慮到短文本的特點(diǎn),首先,短文本沒(méi)有足夠的上下文信息也沒(méi)有足夠的統(tǒng)計(jì)信息量;其次,也由于沒(méi)有足夠的信息量,難以識(shí)別和處理短文本中的語(yǔ)義模糊。所以處理短文本分類(lèi)的方法主要著重于擴(kuò)展文本特征,現(xiàn)有的短文本分類(lèi)算法主要從兩個(gè)方面來(lái)豐富文本。第一類(lèi)是基于內(nèi)部資源的方法,通過(guò)使用規(guī)則或隱藏在當(dāng)前短文本中的統(tǒng)計(jì)信息來(lái)擴(kuò)展特征空間,S.Zhang[1]等提出了一種基于“信息路徑”的方法,利用短文本中子序列的相關(guān)性傳遞來(lái)進(jìn)行分類(lèi),該方法不需要外部知識(shí)庫(kù)的復(fù)制,但是過(guò)于依賴數(shù)據(jù)集,如果數(shù)據(jù)集中沒(méi)有相應(yīng)的信息的路徑,將會(huì)影響分類(lèi)結(jié)果,張勇[2]提出基于詞性的特征選擇方法結(jié)合LDA主題模型的方式來(lái)進(jìn)行文本分類(lèi),第二類(lèi)是基于外部資源的方法,基于外部資源的分類(lèi)方法又包含基于搜索引擎和大規(guī)模語(yǔ)料庫(kù)兩類(lèi),其中Sahami M[3]通過(guò)搜索引擎將短文本作為關(guān)鍵字進(jìn)行檢索,用搜索結(jié)果對(duì)短文本進(jìn)行擴(kuò)充,由于該方法依賴于搜索引擎的匹配規(guī)則,對(duì)分類(lèi)結(jié)果的影響較大,同時(shí)搜索過(guò)程會(huì)消耗大量的時(shí)間,實(shí)時(shí)性較差;另一種是基于大規(guī)模語(yǔ)料庫(kù),如維基百科、Probase[4],M.Shirakawa[5]提出了一種基于維基百科的語(yǔ)義相似度測(cè)量方法,它將維基百科中的實(shí)體添加到文本中作為其語(yǔ)義表示,并使用實(shí)體向量來(lái)計(jì)算語(yǔ)義相似性,Peipei Li[6]通過(guò)Probase引入更多的語(yǔ)義來(lái)彌補(bǔ)數(shù)據(jù)稀疏性,通過(guò)最大概率的概念簇來(lái)消除歧義,Wen Hua[7]利用Probase提供的語(yǔ)義知識(shí),用知識(shí)密集型方法重新定義了文本分段,詞性標(biāo)記和概念標(biāo)記。近年來(lái),也有學(xué)者對(duì)圖結(jié)構(gòu)文本表示方法進(jìn)行了嘗試和研究。如Svetlana Hensman[8]提出基于輔助詞典Verb Net和Word Net的文本概念圖表示模型。Uchida H[9]提出了用于多文檔摘要提取的文檔圖模型表示方法。Schenk?er A[10]提出了一種較為簡(jiǎn)單的基于圖模型的文檔表示方法,但是他們的模型主要建立在文本特征詞條的位置布爾關(guān)聯(lián)的基礎(chǔ)上,并沒(méi)有考慮相鄰詞間不同詞性的相互影響。

        2 基于結(jié)構(gòu)-語(yǔ)義圖的算法

        隨著科技的發(fā)展,互聯(lián)網(wǎng)上的信息越來(lái)越豐富,但是網(wǎng)上的數(shù)據(jù)主要是由自然語(yǔ)言表示的。那么如何衡量?jī)蓚€(gè)文本的相似性?例如“the President of America”和“Chief Executive”沒(méi)有相同的單詞,但是這兩者表示了相似的含義,它們均是指美國(guó)總統(tǒng),這就上升到了概念層次,不止在詞語(yǔ)層面來(lái)考慮兩者的相似性,由此本文引入了概念語(yǔ)義網(wǎng)絡(luò)Probase;又如“band for wed?ding”和“wedding band”由于詞序不同,這兩者所表達(dá)的含義也不同,前者是婚禮樂(lè)隊(duì)而后者是結(jié)婚戒指,又如“watch harrybotter”和“read harrybotter”,對(duì)于 Harrybot?ter而言,前者是電影而后者是書(shū)籍,說(shuō)明了詞與詞之間的相互影響。針對(duì)上述短文本中內(nèi)部結(jié)構(gòu)對(duì)語(yǔ)義的影響,結(jié)合外部語(yǔ)義網(wǎng)絡(luò)來(lái)提高短文本的分類(lèi)性能。本文所提出的短文本分類(lèi)算法步驟如圖1所示。

        圖1 短文本分類(lèi)算法流程圖

        2.1 基于Proobbaassee的語(yǔ)義擴(kuò)展

        Probase是由微軟開(kāi)發(fā)的概念知識(shí)庫(kù),該知識(shí)庫(kù)中的數(shù)據(jù)是通過(guò)動(dòng)態(tài)的無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法從大量的網(wǎng)頁(yè)中學(xué)習(xí)得到的,其中包含了540萬(wàn)個(gè)概念,相較于現(xiàn)有的知識(shí)庫(kù)(如Freebase約有2000個(gè)概念,CYC約包含12萬(wàn)個(gè)概念),Probase蘊(yùn)含的知識(shí)更加豐富,并且以概率的形式來(lái)表示實(shí)例和概念之間的相關(guān)性,這樣能夠更為直觀地表示事物之間的關(guān)聯(lián)度。于是本文選擇用Probase知識(shí)庫(kù)來(lái)對(duì)短文本進(jìn)行語(yǔ)義擴(kuò)展。在Probase中用概率來(lái)表示實(shí)例和概念之間的典型性,如公式(1)和(2)所示。

        本文的短文本分類(lèi)算法通過(guò)圖結(jié)構(gòu)來(lái)保留短文本中的內(nèi)部結(jié)構(gòu),同時(shí)引入Probase對(duì)短文本進(jìn)行語(yǔ)義擴(kuò)充。在短文本的組成中,名詞、形容詞、動(dòng)詞等詞性的詞語(yǔ)對(duì)文本的語(yǔ)義分析有重要作用,但是在Probase中只包含了名詞詞性的詞語(yǔ),但是為了保留其他詞性的語(yǔ)義特征,通過(guò)大量語(yǔ)料,提取名詞和動(dòng)詞以及名詞和形容詞的常用搭配生成了相應(yīng)的動(dòng)詞|形容詞-概念詞典vadj-C。所以對(duì)于一個(gè)給定的短文本,可以用特征向量Vd={ }T1,T2,…,Tm={tij|1≤i≤m,1≤j≤ni}表示,其中Ti表示文檔d中第i個(gè)句子,tij為名詞、動(dòng)詞和形容詞詞性的單詞或短語(yǔ)。

        (1)基于Probase的術(shù)語(yǔ)識(shí)別

        為了識(shí)別短文本中的術(shù)語(yǔ),首先使用斯坦福自然語(yǔ)言處理工具Stanford CoreNLP對(duì)短文本進(jìn)行語(yǔ)法分析以及去除停用詞,然后通過(guò)逆向最大匹配算法(BMM)獲取所有的術(shù)語(yǔ),并保留語(yǔ)序,如下語(yǔ)句(識(shí)別出的術(shù)語(yǔ)用下劃線標(biāo)記)。

        Apple had agreed to license certain parts of its GUI to Microsoft for use in Windows 1.0.

        接下來(lái),對(duì)于識(shí)別出來(lái)的術(shù)語(yǔ),我們需要定義的規(guī)則來(lái)區(qū)分名詞術(shù)語(yǔ)的類(lèi)型,如公式(3)所示,其中|I(t)|表示術(shù)語(yǔ)t在Probase的concept中出現(xiàn)的頻率,|C(t)|表示術(shù)語(yǔ)t在Probase的instance中出現(xiàn)的頻率,,由此短文本的特征空間可以表示為

        (2)基于概念簇的特征擴(kuò)展

        在上一個(gè)步驟中,獲取到了所有的術(shù)語(yǔ),并區(qū)分了其類(lèi)型,對(duì)于instance類(lèi)型的術(shù)語(yǔ)可以通過(guò)Probase獲取其Top10的概念生成名詞相應(yīng)的概念特征向量,對(duì)于名詞和形容詞詞性的術(shù)語(yǔ)通過(guò)詞典vadj-C獲取其Top10的概念生成相應(yīng)的概念特征向量,短文本的特征向量可表示為然后利用概念聚類(lèi)算法[11]對(duì)概念進(jìn)行聚類(lèi)生成概念簇,一個(gè)概念簇是由一個(gè)概念集合構(gòu)成的,對(duì)于一個(gè)概念簇 VCL={C1,C2,…,Cn},第 i個(gè)概念 Ci在該概念簇中的權(quán)重 wi=p(,最終獲得短文本的特征向量可表示為公式(4)。

        2.2 結(jié)構(gòu)--語(yǔ)義圖的構(gòu)建

        傳統(tǒng)的基于統(tǒng)計(jì)的文本分類(lèi)方法由于沒(méi)有保留文本本身的結(jié)構(gòu)信息,可能造成語(yǔ)義缺失。文本結(jié)構(gòu)信息如術(shù)語(yǔ)出現(xiàn)的先后順序,同個(gè)文本中句子間的聯(lián)系等。對(duì)于文本而言,不同的語(yǔ)序,不同的文字組織結(jié)構(gòu)可能會(huì)產(chǎn)生完全不同的語(yǔ)義。本文利用圖結(jié)構(gòu)來(lái)保留短文本的內(nèi)部結(jié)構(gòu)信息,一個(gè)圖結(jié)構(gòu)是由節(jié)點(diǎn)、邊、邊與邊之間的權(quán)重組成的結(jié)構(gòu)。將文本與圖結(jié)構(gòu)相對(duì)應(yīng),將文本的特征抽象為節(jié)點(diǎn),特征之間的鄰接關(guān)系或句子與句子之間的關(guān)聯(lián)關(guān)系抽象為邊,特征與特征間的語(yǔ)義相關(guān)性則為邊與邊間的權(quán)重。

        算法1:結(jié)構(gòu)-語(yǔ)義圖的構(gòu)建算法

        輸入:短文本的概念簇特征向量Vd;

        輸出:短文本di的圖結(jié)構(gòu)

        算法:

        1. 將短文本按句子劃分得到序列S={S1,S2,…,Sk};

        4. 初始化節(jié)點(diǎn)集合Vdi,邊集合Edi和權(quán)值集合Wdi;

        5. While S序列中還有未處理的句子

        6. 將句子si的特征作為節(jié)點(diǎn)添加到圖結(jié)構(gòu)中,節(jié)點(diǎn)的權(quán)值為該特征的權(quán)值wj;

        7. 將句子中的詞序關(guān)系作為邊添加到圖結(jié)構(gòu)中,如 clij和 clij+1的詞序關(guān)系由 ej,j+1表示,該邊的權(quán)值為 clij和clij+1語(yǔ)義相關(guān)度wij;

        8.End While

        上文描述了圖模型的構(gòu)建方法,并將短文本的結(jié)構(gòu)-語(yǔ)義圖存儲(chǔ)在文件中,構(gòu)建好了結(jié)構(gòu)-語(yǔ)義圖模型后,通過(guò)比較計(jì)算兩個(gè)圖結(jié)構(gòu)之間的相似度,構(gòu)造分類(lèi)器完成分類(lèi)。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)主要來(lái)自于TagMyNews,該數(shù)據(jù)集是從流行新聞網(wǎng)站(nyt.com,usatoday.com和reuters.com)的RSS提要中提取的32k英文新聞,包含了32600篇英文RSS新聞,包含了7個(gè)類(lèi)別,每篇文檔由標(biāo)題和描述組成,平均文檔長(zhǎng)度為14.9。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        3.2 實(shí)驗(yàn)分析

        本文主要以精確率和召回率作為評(píng)價(jià)指標(biāo),根據(jù)分類(lèi)器在測(cè)試集上的預(yù)測(cè)結(jié)果分為4類(lèi):

        ●TP:將正類(lèi)預(yù)測(cè)為正類(lèi)數(shù);

        ●FN:將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);

        ●FP:將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù);

        ●TN:將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù)。

        兩種評(píng)價(jià)指標(biāo)的定義如下:

        精確率:

        召回率:

        其中召回率用于衡量分類(lèi)器是否能找全該類(lèi)的樣本,精確率用于衡量分類(lèi)器的精確性,為了兼顧兩個(gè)評(píng)價(jià)指標(biāo),引入F1值:

        本次實(shí)驗(yàn)采用了與SVM算法的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖 2、3、4 所示。

        圖2 精確率對(duì)比

        圖3 召回率對(duì)比

        圖4 F1平均值比較

        通過(guò)以上的對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),基于結(jié)構(gòu)-語(yǔ)義圖的分類(lèi)器相較于基于向量空間模型的SVM算法,具有更好的性能,F(xiàn)1值有所提高。從實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的算法在短文本分類(lèi)的效果上有所提升,由此可見(jiàn),在引入外部語(yǔ)料庫(kù)的同時(shí),用圖結(jié)構(gòu)保留短文本的內(nèi)部結(jié)構(gòu)信息,充分利用了內(nèi)外部信息對(duì)短文本的特征進(jìn)行擴(kuò)充,是有助于提高短文本分類(lèi)的性能的,同時(shí)也說(shuō)明了本文提出的基于結(jié)構(gòu)-語(yǔ)義圖的短文本分類(lèi)算法的合理性。

        4 結(jié)語(yǔ)

        本文針對(duì)短文本分類(lèi),提出并設(shè)計(jì)了結(jié)構(gòu)-語(yǔ)義圖的短文本分類(lèi)框架。該框架針對(duì)短文本的特征,用圖結(jié)構(gòu)最大限度的保留了短文本的內(nèi)部結(jié)構(gòu)信息,其中考慮了不同詞性的相鄰詞對(duì)名詞語(yǔ)義的影響,同時(shí)本文引入了第三方語(yǔ)料庫(kù)Probase來(lái)擴(kuò)充短文本的特征,結(jié)合內(nèi)部結(jié)構(gòu)和外部語(yǔ)義網(wǎng)絡(luò),在保留內(nèi)部結(jié)構(gòu)的同時(shí)引入豐富的知識(shí)來(lái)提高短文本分類(lèi)準(zhǔn)確性。從實(shí)驗(yàn)結(jié)果來(lái)看,在短文本分類(lèi)的性能上有所提高,但是在圖結(jié)構(gòu)的處理上還有一些問(wèn)題,如短文本中提取出的特征點(diǎn)較少會(huì)使得圖結(jié)構(gòu)之間的重疊部分較小,因此還需在圖結(jié)構(gòu)上進(jìn)一步優(yōu)化。

        猜你喜歡
        語(yǔ)義概念分類(lèi)
        Birdie Cup Coffee豐盛里概念店
        分類(lèi)算一算
        語(yǔ)言與語(yǔ)義
        幾樣概念店
        分類(lèi)討論求坐標(biāo)
        學(xué)習(xí)集合概念『四步走』
        數(shù)據(jù)分析中的分類(lèi)討論
        聚焦集合的概念及應(yīng)用
        教你一招:數(shù)的分類(lèi)
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        久草手机视频在线观看| 手机看片福利日韩| 中文字幕一区二区三区人妻精品| 丝袜美腿久久亚洲一区| 一区二区在线视频免费蜜桃 | 少妇呻吟一区二区三区| 国产女人精品视频国产灰线| 成 人免费va视频| 亚洲AV无码精品呻吟| 精品少妇白浆一二三区| 蜜桃传媒一区二区亚洲av婷婷| 国自产精品手机在线观看视频| 国产极品美女高潮无套在线观看| 人妻少妇中文字幕久久69堂| 91九色播放在线观看| 亚洲国产成人av在线观看| 人妻无码中文字幕免费视频蜜桃| 99久久精品久久久| 激情五月天色婷婷久久| 国产av无码专区亚洲avjulia | 高清无码精品一区二区三区| 国产精品亚洲最新地址| 内射白浆一区二区在线观看| 亚洲一线二线三线写真| 美女爽好多水快进来视频| 亚洲av本道一本二本三区 | 亚洲视频一区二区免费看| 97久久精品人妻人人搡人人玩 | 亚洲av色香蕉一区二区三区| 三级4级全黄60分钟| 欧美日韩高清一本大道免费| 中文字幕有码在线人妻| 欧美四房播播| 亚洲精品中文字幕无乱码麻豆 | 免费国产在线精品一区| 日本免费人成视频播放| 亚洲在战AV极品无码| 最新中文字幕日韩精品| 青楼妓女禁脔道具调教sm| 亚洲欧美日韩国产一区二区精品| 国产一区二区杨幂在线观看性色|