亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)中文短文本作者識別研究

        2020-07-04 13:22:12李孟林羅文華李紹鳴
        關(guān)鍵詞:短文卷積向量

        李孟林, 羅文華, 李紹鳴

        (1.中國刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系, 遼寧沈陽 110854;2.沈陽航空航天大學(xué)人機(jī)智能研究中心, 遼寧沈陽 110136)

        0 引言

        文本作者的身份識別一直以來都是法庭科學(xué)的重點(diǎn)。通常情況下,文本作者的身份識別多數(shù)以筆跡鑒定的方式在法庭呈現(xiàn)。但是隨著信息技術(shù)在日常生活中的普及,犯罪分子為了便利和逃避偵查以電子書寫方式代替手寫方式來隱藏身份,如勒索信、暴恐信、詐騙信、舉報(bào)信等,在沒有筆跡的情況下,如何判斷文本作者顯得越發(fā)迫切和重要。

        隨著互聯(lián)網(wǎng)的發(fā)展,短文本大量涌現(xiàn)。短文本通常是指長度較短,一般在160個(gè)字符以內(nèi)的電子文本,包括了微博、電子郵件、手機(jī)短信(SMS)、即時(shí)聊天記錄(微信/QQ/MSN/Skype)等。由于短文本在日常生活中的普遍使用使得短文本作為電子數(shù)據(jù)證據(jù)的案例越來越多,法庭也亟需對大量的短文本進(jìn)行作者識別。因此,基于短文本的犯罪嫌疑人寫作習(xí)慣乃至身份特征的分析成為法庭科學(xué)日益關(guān)注的熱點(diǎn)與難點(diǎn)。

        文本作者的身份識別來源于作品作者識別,國際上針對此類問題的研究已經(jīng)比較豐富,并積累了一定的成功經(jīng)驗(yàn)。Shunichi Ishihara[1]借助語言模型工具,針對英文短信,利用似然比對作者進(jìn)行判斷;Sarah R. Boutwell[2]則針對Twitter文本語料庫,為每名作者構(gòu)建統(tǒng)計(jì)模型,實(shí)現(xiàn)對文本作者的識別;Monika Nawrot[3]提出了一種混合算法,通過函數(shù)為英文電子郵件的不同特征賦以不同的權(quán)重,進(jìn)而識別出作者。

        國內(nèi)雖然對此起步較晚,但在文本作者識別方面已經(jīng)進(jìn)行了大量探索。武曉春等[4]依據(jù)文體學(xué)理論,充分利用功能詞以外的其他詞匯,提出一種新的基于詞匯語義分析的相似度評估方法。年洪東等[5]使用以詞匯為基礎(chǔ)的多種統(tǒng)計(jì)量作為識別特征對現(xiàn)代文學(xué)作品進(jìn)行了作者身份識別研究。祁瑞華等[6]探索性的建立了由詞匯特征、淺層句法特征、深層句法特征和結(jié)構(gòu)特征組成的多層面文體風(fēng)格特征模型,為網(wǎng)絡(luò)文本作者身份的自動識別提供了新的技術(shù)思路。廖志芳等[7]以HowNet為語料庫,以Standford為語法解析工具,結(jié)合中文語句語義相似性以及語法相似性,提出一種基于語法語義的短文本相似度算法。盧玲等[8]基于Word Embedding文本語義擴(kuò)展方法,通過構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取擴(kuò)展文本的特征,提高了中文新聞標(biāo)題分類準(zhǔn)確性。范亞超等[9]采用降噪自編碼器深度模型提取文本結(jié)構(gòu)特征,通過支持向量機(jī)分類器完成作者識別,準(zhǔn)確率最高達(dá)到了78.2%。米碩等[10]提出了一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的網(wǎng)絡(luò)架構(gòu),對電子郵件的作者識別取得了不錯(cuò)的效果。

        現(xiàn)有模型研究多是針對長文本,無法直接應(yīng)用于短文本中。而短文本的模型方法均是針對特定語料庫(新聞標(biāo)題、微博、電子郵件),識別結(jié)果依賴于特征的選擇。此外,中文與英文的巨大差異,西方國家主要以英文為應(yīng)用場景的研究成果在中文應(yīng)用場景下并不能很好地適用,因此研究適合于中文應(yīng)用場景的網(wǎng)絡(luò)短文本作者識別模型非常有現(xiàn)實(shí)意義。

        1 融合多屬性的作者識別系統(tǒng)

        為了克服短文本噪聲大、特征稀疏、特征提取困難等缺陷,提出融合多屬性的作者識別系統(tǒng)。該系統(tǒng)思想是通過提取主謂賓結(jié)構(gòu)特征、語氣詞特征、附屬信息特征,為文本引入更多的外部特征,將短文本做一個(gè)特征延伸。利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征提取能力強(qiáng)的特點(diǎn),提取文本序列特征,進(jìn)一步得到內(nèi)部特征和外部特征相融合的文本特征表示,并將其輸入雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)[12],發(fā)揮Bi-LSTM對序列數(shù)據(jù)進(jìn)行建模的優(yōu)勢,得到上下文關(guān)系特征的文本表示。通過注意力機(jī)制(Attention)對文本不同位置特征信息賦以不同權(quán)重,從而對短文本作者進(jìn)行有效識別。融合多屬性的作者識別系統(tǒng)架構(gòu)如圖1所示。

        圖1 融合多屬性的作者識別系統(tǒng)架構(gòu)

        1.1 預(yù)處理與特征提取

        通過對短文本內(nèi)容進(jìn)行分析,發(fā)現(xiàn)短文本中大量出現(xiàn)語氣詞和省略指代的情況,說明短文本雖然長度有限,但語言表達(dá)習(xí)慣卻因人而異。首先,有些人在表達(dá)時(shí)習(xí)慣帶上語氣詞,如“走,吃飯啦”,而有些人在表達(dá)時(shí)就不習(xí)慣使用語氣詞,如“走,吃飯”,同樣的表達(dá),即使是都使用語氣詞,也可能有所不同,比如“走,吃飯呀”。其次,受地域影響,有些人不按常規(guī)的主謂賓方式表達(dá),習(xí)慣省略某一結(jié)構(gòu),甚至出現(xiàn)倒裝,這在短文本中大量出現(xiàn),如“曉不得”“曉得不”和“不曉得”的表達(dá)。最后,除文本自身外,文本的附屬信息在一定程度上體現(xiàn)了作者的身份特征。因此,提取短文本語氣詞特征、短文本主謂賓特征、文本附屬信息特征進(jìn)行作者識別。為了提取這些特征,首先就要對短文本進(jìn)行預(yù)處理,主要包括中文分詞和詞性標(biāo)注。

        中文分詞就是對短文本按詞切分的過程,目的是為了詞性標(biāo)注。例如,“他去北京了呀”經(jīng)過中文分詞后變成“他/去/北京/了/呀”。

        詞性標(biāo)注就是對分詞后的結(jié)果按照其上下文意思標(biāo)記詞性。詞性包括名詞(n)、代詞(r)、動詞(v)、形容詞(a)、連詞(c)、助詞(u)等詞性。例句詞性標(biāo)注后的結(jié)果如圖2所示,其中“r”表示代詞,“v”表示動詞,“ns”表示名詞中的地名,“u”表示助詞。

        提取短文本語氣詞。根據(jù)自己制定的語氣詞表提取出文本中語氣詞,語氣詞表如表1所示,從表1可以發(fā)現(xiàn),“了”不在語氣詞表里,而“呀”在語氣詞表里,因此提取“呀”作為語氣詞特征:

        表1 語氣詞表

        圖2 分詞后詞性標(biāo)注的結(jié)果

        提取文本主謂賓特征。利用文獻(xiàn)[13]中使用的哈爾濱工業(yè)大學(xué)pyltp依存句法分析器提取文本的主語、謂語、賓語等文本主體結(jié)構(gòu)。依存句法分析結(jié)果如圖3所示,其中“HED”表示核心關(guān)系,指整個(gè)句子的核心(Root);“SBV”表示主謂關(guān)系,指“他”和“去”是主謂關(guān)系;“VOB”表示動賓關(guān)系,指“去”和“北京”是動賓關(guān)系;“RAD”表示右附加關(guān)系,指“了”、“呀”和“去”是右附加關(guān)系。根據(jù)該依存句法關(guān)系,可以提取出主語“他”,謂語“去”,賓語“北京”。

        最終,例句“他去北京了呀”,經(jīng)過語氣詞提取得到語氣詞“呀”,經(jīng)過依存分析提取找到主語“他”,謂語“去”,賓語“北京”,最終將其轉(zhuǎn)化為D={他,去,北京,呀}。

        提取文本附屬信息特征。短文本除了文本自身以外,通常還包含有一定附屬信息,文本的附屬信息也更能反映出作者的書寫習(xí)慣和生活習(xí)慣,例如:文本發(fā)送頻率、發(fā)送地點(diǎn)、發(fā)送時(shí)間、性別、年齡、輸入法、系統(tǒng)版本號等,這里提取文本發(fā)送頻率、發(fā)送地點(diǎn)、發(fā)送時(shí)間作為文本附屬信息特征。

        1.2 多屬性融合

        由于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層是對序列數(shù)據(jù)進(jìn)行建模,很難從短文本中學(xué)習(xí)到文本的有效特征,即使卷積神經(jīng)網(wǎng)絡(luò)自動提取特征能力很強(qiáng),面對著長度較短的短文本也是力不從心,為此將文本的語氣詞特征、主謂賓結(jié)構(gòu)特征、附屬信息特征融合進(jìn)原始文本序列,在一定程度上延長了神經(jīng)網(wǎng)絡(luò)捕獲短文本特征的時(shí)間序列長度,從而能夠讓雙向循環(huán)神經(jīng)網(wǎng)絡(luò)更充分地捕獲文本特征。

        首先,將文本分詞并提取語氣詞后的短文本語義特征放入元組P中,然后將依存分析后提取的主謂賓結(jié)構(gòu)特征放入元組D中,最后將短文本附屬信息特征放入元組C中,C可以簡單的表示為集合C={發(fā)送頻率,發(fā)送地點(diǎn),發(fā)送時(shí)間}。作為對比實(shí)驗(yàn),一方面將該3組特征作為最大熵模型對文本進(jìn)行作者識別的特征直接輸入。另一方面將提取的短文本語義特征P、主謂賓結(jié)構(gòu)特征D和短文本附屬信息特征C做一個(gè)拼接,如公式(1):

        x=P⊕D⊕C

        (1)

        其中⊕代表相鄰兩個(gè)元素的連接符,x作為神經(jīng)網(wǎng)絡(luò)的輸入文本序列。通過引入文本的外部屬性特征,增加了短文本的文本結(jié)構(gòu)長度,從而能夠讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更多的文本特征。

        1.3 作者識別模型

        在將數(shù)據(jù)特征融合的基礎(chǔ)上,借鑒文獻(xiàn)[14]提出的問句分類方法架構(gòu)圖,設(shè)置了詞向量層、卷積層、雙向長短時(shí)記憶網(wǎng)絡(luò)層、注意力機(jī)制層。如圖4所示,首先,將融合多屬性后的短文本序列以詞向量的形式來表示并輸入神經(jīng)網(wǎng)絡(luò);接下來將進(jìn)入卷積層,充分發(fā)揮卷積層特征提取能力強(qiáng)的優(yōu)勢,更好的提取句子的特征,將提取的特征和分詞后的文本放入循環(huán)神經(jīng)網(wǎng)絡(luò)層,循環(huán)神經(jīng)網(wǎng)絡(luò)能夠很好捕獲數(shù)據(jù)變化規(guī)律;接著利用注意力機(jī)制來識別文本主要特征;最后經(jīng)過分類器得出作者識別結(jié)果。

        圖4 基于Attention的CNN+Bi-LSTM模型圖

        1.3.1 詞向量層

        首先,對輸入層的中文短文本進(jìn)行分詞,并通過Word2Vec[15]將文本中的詞轉(zhuǎn)化為詞向量形式,這些詞向量蘊(yùn)含了文本的信息,將融合后的屬性信息同樣進(jìn)行向量化表示。接下來,在詞向量層加入了文本更多的特征信息,假設(shè)文本Q包含n個(gè)單詞,Q={x1,x2,…,xn},xi代表文本中的第i個(gè)詞,在文本信息后邊加入該文本對應(yīng)的發(fā)送時(shí)間、發(fā)送頻率、發(fā)送地點(diǎn)等特征信息。公式(2)所示,首先根據(jù)文本建立一個(gè)詞典Dic,初始化一個(gè)詞向量矩陣Ew來獲得詞向量,根據(jù)單詞在詞典中的位置vi,可以將詞轉(zhuǎn)變?yōu)樵~向量ei:

        ei=Ewvi

        (2)

        其中,vi是采用獨(dú)立熱編碼的形式,在模型訓(xùn)練過程中不斷更新。經(jīng)過這個(gè)步驟,文本將以embeddingsQ={e1,e2,…,en}的形式進(jìn)入下一層網(wǎng)絡(luò)。

        1.3.2 卷積層

        在經(jīng)過詞向量層后,每個(gè)文本t可以表示成如下形式,其中T為句子長度:

        t=[e1,e2,…,en]T

        (3)

        卷積過程中每次選取不同維度的卷積核提取文本中的特征,每次特征提取可以由卷積核在文本上進(jìn)行一次卷積操作,每次選取窗口大小為m的核對文本t進(jìn)行如下操作:

        ci=f(whi:i+m-1+b)

        (4)

        其中w是過濾器,hi:i+m-1是詞向量,b是一個(gè)偏置項(xiàng),f是一個(gè)非線性函數(shù),文本最后被表示為:

        c*=[c0,c1,…,cn-m]

        (5)

        1.3.3 雙向長短時(shí)記憶網(wǎng)絡(luò)層

        長短時(shí)記憶網(wǎng)絡(luò)主要由3部分構(gòu)成:(1)輸入門;(2)輸出門;(3)遺忘門。長短時(shí)記憶網(wǎng)絡(luò)通過“門”的結(jié)構(gòu)讓信息有選擇性地影響循環(huán)神經(jīng)網(wǎng)絡(luò)中每個(gè)時(shí)刻的狀態(tài),使用sigmoid函數(shù)(σ)作為激活函數(shù)的全連接神經(jīng)網(wǎng)絡(luò)層會輸出一個(gè)0到1之間的數(shù)值,描述當(dāng)前有多少信息量可以通過這個(gè)結(jié)構(gòu)。輸入門決定哪些信息加入到當(dāng)前狀態(tài)來生成新的狀態(tài)信息,遺忘門的作用是讓網(wǎng)絡(luò)“忘記”之前沒有用的信息,神經(jīng)網(wǎng)絡(luò)在得到新狀態(tài)后產(chǎn)生新的輸出是通過輸出門完成的。不妨設(shè)輸入門(it)的權(quán)重矩陣為Wxi、Whi、Wci、bi;遺忘門(ft)的權(quán)重矩陣為Wxf、Whf、Wcf、bf;輸出門(ot)的權(quán)重矩陣為Wxo、Who、Wco、bo;候選信息(gt)的權(quán)重矩陣為Wxc、Whf、Wcc、bc。在t時(shí)刻,當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入值為xt,上一時(shí)刻LSTM的輸出值為ht-1,以及上一時(shí)刻的單元狀態(tài)為ct-1,而當(dāng)前時(shí)刻LSTM輸出值是ht,bi、bf、bo、gt分是輸入門、遺忘門、輸出門以及候選信息的偏置項(xiàng),具體每個(gè)“門”的公式定義如下:

        it=σ(Wxixt+Whiht-1+Wcict-1+bi)

        (6)

        ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

        (7)

        gt=tanh(Wxcxt+Whfht-1+Wccct-1+bc)

        (8)

        ct=itgt+ftct-1

        (9)

        ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

        (10)

        ht=ottanh (ct)

        (11)

        因此,當(dāng)前結(jié)構(gòu)單元狀態(tài)是由之前單元狀態(tài)的權(quán)重和當(dāng)前單元所生成的當(dāng)前信息決定。在經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)中,狀態(tài)的傳輸是從前往后單向傳遞,只考慮到上文中的信息,而忽略了下文中的信息。Bi-LSTM由兩個(gè)單向的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合,每一時(shí)刻的輸入會提供兩個(gè)相反的循環(huán)神經(jīng)網(wǎng)絡(luò),這樣每一時(shí)刻的輸出,都考慮到上下文信息。

        1.3.4 注意力機(jī)制層

        為了更好的捕捉文本中的有效信息,抓住文本重點(diǎn)信息,本文在作者識別模型中加入了注意力機(jī)制,該注意力機(jī)制的權(quán)重矩陣通過如下公式得到:

        M=tanh (H)

        (12)

        α=softmax (wTM)

        (13)

        r=HαT

        (14)

        其中,H表示由上層Bi-LSTM網(wǎng)絡(luò)輸出向量所組成的矩陣,wT是一個(gè)參數(shù)向量。向量矩陣H通過tanh函數(shù)得到隱層表示M,M和wT通過softmax函數(shù)得到權(quán)重矩陣α。在向量矩陣H的基礎(chǔ)上乘以該權(quán)重矩陣,就得到了句子的文本的表示r。最后用于識別文本作者的向量c*表示如下:

        c*=tanh (r)

        (15)

        1.3.5 分類器

        這一層網(wǎng)絡(luò)結(jié)構(gòu),使用softmax分類器,在y中預(yù)測x所屬的作者,w是參數(shù)向量,b是偏置項(xiàng),分類器利用隱藏狀態(tài)c*作為輸入:

        p(y|x)=softmax (Wc*+b)

        (16)

        y=arg maxp(y|x)

        (17)

        損失函數(shù)如下:

        (18)

        其中,t是one-hot表示,m是作者的數(shù)量,y代表估計(jì)每個(gè)作者的概率,θ表示正則化參數(shù)。

        2 實(shí)驗(yàn)研究

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        研究采用新加坡國立大學(xué)收集的短信庫(NUS SMS Corpus),使用2015.03.09版本進(jìn)行,該版本包含有31 465條中文短信,分別歸屬于594位作者。每條短信都伴隨有相應(yīng)的附屬信息,例如:date(發(fā)送日期)、time(時(shí)間)、text(內(nèi)容)、UserID(發(fā)送人唯一識別號)、manufactuer(手機(jī)廠商)、age(年齡)、sex(性別)、city(發(fā)送短信時(shí)所在的城市)、experience(手機(jī)使用時(shí)間)、frequency(每天發(fā)送短信的數(shù)量)、inputMethod(輸入法)等。

        2.2 實(shí)驗(yàn)設(shè)置

        為使實(shí)驗(yàn)結(jié)果更具有普遍性,從實(shí)驗(yàn)數(shù)據(jù)中隨機(jī)抽取80%作為訓(xùn)練集,其余20%作為測試集,采用機(jī)器學(xué)習(xí)方法中最大熵模型作為對比模型。實(shí)驗(yàn)設(shè)置2組對照實(shí)驗(yàn)。第1組分別采用最大熵模型和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比,第2組對神經(jīng)網(wǎng)絡(luò)模型和融合后的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比。第1組設(shè)置4個(gè)模型,分別是最大熵模型、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)+長短期記憶神經(jīng)網(wǎng)絡(luò)(CNN+LSTM)、卷積神經(jīng)網(wǎng)絡(luò)+長短期記憶神經(jīng)網(wǎng)絡(luò)+注意力機(jī)制(CNN+LSTM+Attention)。第2組設(shè)置3個(gè)模型,這3個(gè)模型均是在融合多屬性情況下進(jìn)行的,分別是LSTM、CNN+LSTM、CNN+LSTM+Attention。

        本次實(shí)驗(yàn)最大熵模型選取7個(gè)特征,分別是短文本的主語、謂語、賓語、語氣詞、發(fā)送時(shí)間、發(fā)送頻率、發(fā)送地點(diǎn),最大熵模型中的參數(shù)估計(jì)使用 GIS 算法,迭代100次后結(jié)束。由于文本長度較短,本次實(shí)驗(yàn)在卷積層設(shè)置窗口大小為3,在訓(xùn)練時(shí)使用隨機(jī)梯度下降算法,batch_size大小設(shè)置為50,droupout rate 設(shè)置為 0.5,epoch大小設(shè)置為1 000,使用的詞向量是谷歌通過Word2Vec預(yù)先訓(xùn)練好的包含1 000億詞匯量的谷歌新聞?wù)Z料。

        2.3 評價(jià)指標(biāo)

        采用3個(gè)評價(jià)指標(biāo)對本次實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià),即準(zhǔn)確率(P)、召回率(R)、F1值(F1),計(jì)算公式如下:

        (19)

        (20)

        (21)

        2.4 結(jié)果分析

        相同數(shù)據(jù)集在融合多屬性前后對比實(shí)驗(yàn)的準(zhǔn)確率、召回率、F1值如表2、表3所示。

        表2 數(shù)據(jù)集在融合多屬性前各個(gè)模型實(shí)驗(yàn)的準(zhǔn)確率、召回率、F1值

        表3 數(shù)據(jù)集在融合多屬性后各個(gè)模型實(shí)驗(yàn)的準(zhǔn)確率、召回率、F1值

        (1)通過對比最大熵和Bi-LSTM模型的實(shí)驗(yàn)結(jié)果可知,結(jié)合上下文信息的Bi-LSTM模型比傳統(tǒng)的最大熵模型更優(yōu),說明深度神經(jīng)網(wǎng)絡(luò)捕獲了更深層次文本特征,F(xiàn)1值提高了3.35%。

        (2)通過對比Bi-LSTM和CNN+Bi-LSTM模型的實(shí)驗(yàn)結(jié)果可知,CNN層很大程度上獲取了短文本的內(nèi)部語義特征,F(xiàn)1值提高了30.86%。

        (3)通過對比CNN+Bi-LSTM和CNN+Bi-LSTM+Attention模型實(shí)驗(yàn)結(jié)果可知,引入注意力機(jī)制,很大程度上獲取了句子不同位置的特征信息。F1值提高了1.93%。

        (4)通過對比Bi-LSTM和融合多屬性的Bi-LSTM模型實(shí)驗(yàn)結(jié)果可知,融合多屬性的Bi-LSTM捕獲到了引入的文本外部特征,F(xiàn)1值提高了0.86%。

        (5)通過對比CNN+Bi-LSTM模型實(shí)驗(yàn)結(jié)果可知,融合多屬性的CNN+Bi-LSTM,融合多屬性的CNN+Bi-LSTM模型聚焦于文本序列深層次的語義特征。盡管F1值僅提高了0.01%,但實(shí)驗(yàn)的準(zhǔn)確率提高了0.86%。

        (6)通過對比CNN+ Bi-LSTM +Attention和融合多屬性的CNN+ Bi-LSTM +Attention模型的實(shí)驗(yàn)結(jié)果可知,通過引入外部屬性特征,文本序列融入了更多的特征信息,Attention機(jī)制的加入,讓模型更多聚焦于文本不同位置特征信息。模型的準(zhǔn)確率、召回率、F1值分別提高了1.24%、1.62%、1.43%。

        3 結(jié)語

        本文提出了融合多屬性的神經(jīng)網(wǎng)絡(luò)中文短文本作者識別方法,通過對短文本語氣詞特征、主謂賓結(jié)構(gòu)特征的提取,結(jié)合文本發(fā)送時(shí)間、發(fā)送位置、年齡、發(fā)送頻率等附屬信息特征,使用最大熵模型與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行作者識別的對比實(shí)驗(yàn),在此基礎(chǔ)上采用了融合多屬性的神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步提高了實(shí)驗(yàn)的準(zhǔn)確率,在實(shí)驗(yàn)數(shù)據(jù)集上驗(yàn)證了融合多屬性的神經(jīng)網(wǎng)絡(luò)方法的有效性。

        猜你喜歡
        短文卷積向量
        向量的分解
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        KEYS
        Keys
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        国产剧情一区二区三区在线| 午夜福利不卡无码视频| 日本中文字幕一区二区视频| 国产免费一区二区在线视频| 永久免费人禽av在线观看 | 91av精品视频| 亚洲又黄又大又爽毛片| 成人国产精品三上悠亚久久| 人妻仑乱a级毛片免费看| 天码av无码一区二区三区四区 | 国产精品公开免费视频| 久久av无码精品人妻出轨| 国产美女裸身网站免费观看视频| 国产一区二区三区白浆肉丝| 波多野结衣在线播放| 扒开双腿疯狂进出爽爽爽视频| 久久亚洲第一视频黄色| 蜜桃成熟时日本一区二区| 国色天香中文字幕在线视频| 18无码粉嫩小泬无套在线观看| 亚洲成AV人在线观看网址| 国产一区二区免费在线视频| 极品少妇xxxx精品少妇偷拍| 久久精品无码av| 日韩成人免费一级毛片| 日本不卡一区二区三区在线| 在线免费观看一区二区| 国产喷水1区2区3区咪咪爱av| 亚洲一区二区三区在线网站| 蜜桃av一区在线观看| 国产精品18久久久白浆| 毛片24种姿势无遮无拦| 人妻丰满熟妇av无码区hd| 日本岛国视频在线观看一区二区| 日本五十路人妻在线一区二区| 成人精品视频一区二区三区尤物| 亚洲红怡院| 伊人狼人激情综合影院| 免费国产在线精品一区| 77777亚洲午夜久久多人| 女人一级特黄大片国产精品|