亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征融合深度神經(jīng)網(wǎng)絡(luò)的作者識(shí)別系統(tǒng)設(shè)計(jì)

        2020-01-03 08:59:22郭旭
        現(xiàn)代計(jì)算機(jī) 2019年33期
        關(guān)鍵詞:風(fēng)格特征個(gè)數(shù)可視化

        郭旭

        (大連外國(guó)語大學(xué)語言智能研究中心,大連 116044)

        0 引言

        隨著人工智能時(shí)代的到來,使計(jì)算機(jī)“理解”文本的寫作風(fēng)格成為了自然語言處理領(lǐng)域的熱點(diǎn)研究方向,而如何根據(jù)寫作風(fēng)格識(shí)別出匿名文本的作者,即匿名文本的作者識(shí)別,是這一研究方向主要解決的問題。在實(shí)際應(yīng)用中,作者識(shí)別可以用于輿情分析、作者文體風(fēng)格分析和學(xué)術(shù)不端檢測(cè)等領(lǐng)域,具有重要的實(shí)際應(yīng)用價(jià)值。

        在給定一個(gè)匿名文本t和作者候選集A={a1,a2,…,an}后,匿名文本的作者識(shí)別要解決的問題是[1,2]:為匿名文本t指定一個(gè)最可能的作者a*,其中a*屬于A。當(dāng)使用作者書寫的文本表征作者時(shí),作者候選集A={T1,T2,…,Tn},其中Tx為作者ax書寫的文本集,匿名文本的作者識(shí)別轉(zhuǎn)換為:為匿名文本t指定一個(gè)最可能的文本集T*,也就是將匿名文本t分類給最可能的文本類別,屬于典型的文本分類問題。

        為了解決匿名文本的作者識(shí)別問題,文本設(shè)計(jì)完成了支持傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的作者識(shí)別系統(tǒng),該系統(tǒng)功能完備,不僅可以完成大多數(shù)主流機(jī)器學(xué)習(xí)算法和特征工程算法,還能以可視化的方式呈現(xiàn)識(shí)別結(jié)果。此外,本文采用的基于多特征融合深度神經(jīng)網(wǎng)絡(luò)的作者識(shí)別方法,可將特征工程與深度神經(jīng)網(wǎng)絡(luò)結(jié)合到一起,充分發(fā)揮兩者的優(yōu)勢(shì)。

        1 研究現(xiàn)狀

        目前,作者識(shí)別的研究方法主要有基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法兩類。

        基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法通過特征工程技術(shù)提取作者的寫作風(fēng)格特征,將一段匿名文本轉(zhuǎn)換為作者寫作風(fēng)格特征矩陣,構(gòu)建寫作風(fēng)格特征模型。如祁等人[3]使用包括句法結(jié)構(gòu)樹和依存關(guān)系在內(nèi)的多層面文體特征,將作者文體風(fēng)格轉(zhuǎn)換為多層面特征模型,針對(duì)15位作者的10895篇博客進(jìn)行識(shí)別,取得了較好的實(shí)驗(yàn)效果;李等人[4]使用復(fù)雜網(wǎng)絡(luò)理論,將文本視作一個(gè)復(fù)雜網(wǎng)絡(luò)提取路徑長(zhǎng)度等復(fù)雜網(wǎng)絡(luò)特征,并與文本統(tǒng)計(jì)特征相結(jié)合,構(gòu)建基于復(fù)雜網(wǎng)絡(luò)的特征模型,針對(duì)多名記者撰寫的25542篇新聞報(bào)道進(jìn)行識(shí)別,也取得了較好的實(shí)驗(yàn)效果。

        基于深度學(xué)習(xí)的方法通常將一句話或多句話直接作為輸入,通過深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)文本的寫作風(fēng)格特征,這樣可以最大限度的保留句子之間的特征。基于深度學(xué)習(xí)的方法往往可以獲得比傳統(tǒng)方法更高的評(píng)價(jià)指標(biāo),但由于作者的寫作風(fēng)格特征是由深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)得來的,因此深度神經(jīng)網(wǎng)絡(luò)提取的特征往往難以解釋,這在一定程度上限制了基于深度學(xué)習(xí)的方法的實(shí)際應(yīng)用效果。如Prasha等人[5]采用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別Tweet短篇幅文本的作者,準(zhǔn)確率高于傳統(tǒng)方法6個(gè)百分點(diǎn)左右;徐曉霖等人[6]采用卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)相結(jié)合的方法構(gòu)建深度神經(jīng)網(wǎng)絡(luò),針對(duì)新浪微博中的10位作者共計(jì)10000篇的微博進(jìn)行作者識(shí)別,取得了較好的實(shí)驗(yàn)效果。

        2 系統(tǒng)設(shè)計(jì)

        2. 1 系統(tǒng)組成

        作者識(shí)別系統(tǒng)的主要功能是識(shí)別匿名文本的作者,由數(shù)據(jù)集管理、文本預(yù)處理、自然語言處理、特征表示、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和可視化七個(gè)模塊組成,如圖1所示。

        圖1 作者識(shí)別系統(tǒng)模塊圖

        (1)數(shù)據(jù)集管理模塊。該模塊主要負(fù)責(zé)候選作者文本集的管理,包括增、刪、改、查候選作者文本集等功能。

        (2)文本預(yù)處理模塊。該模塊主要負(fù)責(zé)文本的預(yù)處理,包括文本清洗、文本分割、文本聯(lián)合等功能。

        (3)自然語言處理模塊。該模塊主要負(fù)責(zé)文本的基本自然語言處理,借助斯坦福自然語言處理工具包[7]和Han自然語言處理工具包[8]等開源工具包設(shè)計(jì)完成,包括分詞、詞性標(biāo)注、句法分析和依存關(guān)系分析等功能。

        (4)特征表示模塊。該模塊主要負(fù)責(zé)提取文本的寫作風(fēng)格特征,構(gòu)建文本的寫作風(fēng)格特征模型,包括功能詞特征、標(biāo)點(diǎn)符號(hào)特征和字/詞N-Gram特征等。

        (5)傳統(tǒng)機(jī)器學(xué)習(xí)模塊。該模塊主要負(fù)責(zé)傳統(tǒng)機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn),借助scikit-learn機(jī)器學(xué)習(xí)工具包設(shè)計(jì)完成,包括樸素貝葉斯、最近鄰和支持向量機(jī)等算法的實(shí)現(xiàn)。

        (6)深度學(xué)習(xí)模塊。該模塊主要負(fù)責(zé)深度學(xué)習(xí)算法的實(shí)現(xiàn),借助TensorFlow和Keras等開源工具包設(shè)計(jì)完成,包括循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、帶有注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)、Transformer[9]、BERT[10]和XLNet[11]等算法的實(shí)現(xiàn)。

        (7)可視化模塊。該模塊主要負(fù)責(zé)以可視化的形式輸出作者識(shí)別的評(píng)價(jià)指標(biāo)。借助Matplotlib工具包設(shè)計(jì)完成,包括文本集統(tǒng)計(jì)信息可視化、作者寫作風(fēng)格特征可視化、作者識(shí)別評(píng)價(jià)指標(biāo)可視化等功能。

        2. 2 系統(tǒng)流程

        本文設(shè)計(jì)的作者識(shí)別系統(tǒng),運(yùn)行流程圖如圖2所示,包括5個(gè)步驟。

        圖2 作者識(shí)別系統(tǒng)流程圖

        (1)添加文本。選擇添加待識(shí)別文本或從候選作者文本集中選擇訓(xùn)練文本。此外通過數(shù)據(jù)集管理模塊,可以管理候選作者文本集。

        (2)文本預(yù)處理。清洗文本并生成樣本。

        (3)自然語言處理。選擇需要進(jìn)行的自然語言處理,包括分詞、詞性標(biāo)注、分句、句法樹分析和依存關(guān)系分析等。

        (4)提取作者寫作風(fēng)格特征。包括字符統(tǒng)計(jì)特征、詞匯統(tǒng)計(jì)特征和句子結(jié)構(gòu)統(tǒng)計(jì)特征等。

        (5)選擇傳統(tǒng)機(jī)器學(xué)習(xí)方法或深度學(xué)習(xí)方法。如果選擇深度學(xué)習(xí)方法執(zhí)行步驟①,否則執(zhí)行步驟②。

        ①訓(xùn)練深度學(xué)習(xí)模型,并識(shí)別作者。

        ②訓(xùn)練傳統(tǒng)機(jī)器學(xué)習(xí)模型,并識(shí)別作者。

        (6)結(jié)果可視化。以可視化的形式,顯示評(píng)價(jià)指標(biāo)。

        3 實(shí)驗(yàn)結(jié)果

        本文選擇13位作者共計(jì)31部作品構(gòu)建候選作者文本集,作品包括小說、散文和網(wǎng)絡(luò)文本三種體裁,其中,同一作者書寫的網(wǎng)絡(luò)文本按一部作品計(jì)算。小說和散文刪除了首行縮進(jìn)、標(biāo)題和換行符、超鏈接等非作者原文中出現(xiàn)的特殊符號(hào),網(wǎng)絡(luò)文本刪除了轉(zhuǎn)發(fā)、@和超鏈接等內(nèi)容,以求最大限度的保留作者的寫作風(fēng)格。本文按照512字長(zhǎng),將每部作品分割為多個(gè)文本塊,每位作者隨機(jī)抽取100個(gè)文本塊,共計(jì)1300個(gè)文本塊,作為候選作者文本集。

        本文采用多特征融合深度神經(jīng)網(wǎng)絡(luò)的方法識(shí)別作者,與典型的深度神經(jīng)網(wǎng)絡(luò)方法相比較,該方法除了將完整的文本塊作為輸入外,還融合了字符統(tǒng)計(jì)特征、詞匯統(tǒng)計(jì)特征和句子結(jié)構(gòu)統(tǒng)計(jì)特征,具體如下:

        字符統(tǒng)計(jì)特征:所有字符個(gè)數(shù)、中文字符個(gè)數(shù)、數(shù)字字符個(gè)數(shù)、字母?jìng)€(gè)數(shù)、空符號(hào)個(gè)數(shù)、特殊符號(hào)個(gè)數(shù)、標(biāo)點(diǎn)符號(hào)個(gè)數(shù)、不同標(biāo)點(diǎn)符號(hào)個(gè)數(shù)。

        詞匯統(tǒng)計(jì)特征:所有詞個(gè)數(shù)、詞最大長(zhǎng)度、句子最小長(zhǎng)度、平均詞長(zhǎng)、詞長(zhǎng)方差、長(zhǎng)詞個(gè)數(shù)、短詞個(gè)數(shù)、四字詞個(gè)數(shù)、詞匯豐富度。

        句子結(jié)構(gòu)統(tǒng)計(jì)特征:句子總個(gè)數(shù)、句子最大長(zhǎng)度、句子最小長(zhǎng)度、平均長(zhǎng)度、句長(zhǎng)方差、長(zhǎng)句子個(gè)數(shù)、短句子個(gè)數(shù)。

        本文采用5折交叉驗(yàn)證的方法,對(duì)候選作者文本集進(jìn)行作者識(shí)別,平均識(shí)別準(zhǔn)確率達(dá)到了89.6%。

        4 結(jié)語

        針對(duì)匿名作品的作者識(shí)別問題,本文設(shè)計(jì)了由數(shù)據(jù)集管理、文本預(yù)處理、自然語言處理、特征表示、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和可視化七個(gè)模塊組成的作者識(shí)別系統(tǒng),該系統(tǒng)支持傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩類作者識(shí)別方法。最終,本文采用多特征融合深度神經(jīng)網(wǎng)絡(luò)的方法識(shí)別由13位作者,每位作者100個(gè)文本塊組成的候選作者文本集,獲得了89.6%的準(zhǔn)確率。

        猜你喜歡
        風(fēng)格特征個(gè)數(shù)可視化
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        傣族舞蹈中基本體態(tài)短句的風(fēng)格特征及訓(xùn)練方法
        怎樣數(shù)出小正方體的個(gè)數(shù)
        基于CGAL和OpenGL的海底地形三維可視化
        等腰三角形個(gè)數(shù)探索
        怎樣數(shù)出小木塊的個(gè)數(shù)
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        怎樣數(shù)出小正方體的個(gè)數(shù)
        淺析蒙古族民間舞蹈中“繞肩”的審美規(guī)范
        人間(2016年24期)2016-11-23 18:48:44
        国精产品一区一区三区有限在线 | yy111111少妇影院| 手机免费在线观看日韩av| 国产av剧情一区二区三区| 九色九九九老阿姨| 欧美日韩在线观看免费| 激情五月婷婷六月俺也去| 国产乱码精品一区二区三区久久| 性xxxx18免费观看视频| 欧美国产小视频| 日韩一二三四区免费观看| 亚洲人不卡另类日韩精品| 玩弄放荡人妻少妇系列视频| 一本一道波多野结衣av中文| 手机在线看片在线日韩av| 99噜噜噜在线播放| 性生交大片免费看淑女出招| 国产在线一区二区三区av| 免费视频一区二区三区美女| 性久久久久久| 国产美女在线精品免费观看网址| 蜜桃av无码免费看永久| 蜜桃av人妻精品一区二区三区 | 国产精品永久免费视频| 91尤物在线看| 91九色最新国产在线观看| 亚洲av高清在线一区二区三区| 久久99国产伦精品免费| 人妻露脸国语对白字幕| 吃奶摸下高潮60分钟免费视频| 精品国产三级在线观看| 亚洲成熟丰满熟妇高潮XXXXX| 国产自拍视频在线观看免费| 无码乱人伦一区二区亚洲一| 久久一区二区三区四区| 亚洲人成伊人成综合久久| 美女露内裤扒开腿让男人桶无遮挡| 成人欧美一区二区三区白人| 中文字幕久久熟女人妻av免费| 午夜久久久久久禁播电影| 国产乱人伦精品一区二区|