孟旭 謝靖 李春旺
作者簡(jiǎn)介:孟旭,碩士研究生;謝靖,研究員,碩士生導(dǎo)師,通信作者,E-mail:xiej@mail.las.ac.cn;李春旺,研究館員,碩士生導(dǎo)師。
收稿日期:2023-03-16? ? ? ? 發(fā)表日期:2023-10-16? ? ? ? 本文責(zé)任編輯:劉遠(yuǎn)穎
摘要:[目的/意義]以主題特征在中文社交媒體文本作者識(shí)別中的使用研究為基本目的,利用Word2vec補(bǔ)充主題模型獲取主題特征的不足,同時(shí)進(jìn)一步制定策略對(duì)主題特征中的核心主題進(jìn)行識(shí)別和篩選,優(yōu)化主題特征的使用方法,從而提高主題特征在作者識(shí)別中的使用效果。[方法/過程]首先利用LDA主題模型抽取候選作者的學(xué)術(shù)主題和社交主題,然后利用Word2vec制定合并篩選策略進(jìn)行核心主題的識(shí)別和表示,最后結(jié)合N-gram特征和相似度計(jì)算的辦法實(shí)現(xiàn)作者識(shí)別。[結(jié)果/結(jié)論]利用核心主題特征對(duì)科研人員社交文本進(jìn)行作者識(shí)別有一定的積極作用,同時(shí)本研究提出的核心主題特征相關(guān)策略和應(yīng)用也能優(yōu)化主題特征的使用效果,將其結(jié)合文體風(fēng)格特征應(yīng)用于作者識(shí)別,最高識(shí)別率達(dá)到83%。
關(guān)鍵詞:作者身份識(shí)別;主題特征;N-gram;科研作者;社交網(wǎng)絡(luò)文本
分類號(hào):G206
引用格式:孟旭, 謝靖, 李春旺. 基于核心主題特征的作者身份識(shí)別研究[J/OL]. 知識(shí)管理論壇, 2023, 8(5): 351-364[引用日期]. http://www.kmf.ac.cn/p/357/.
近年來,有關(guān)中文社交媒體文本作者身份識(shí)別的研究一直受到關(guān)注,并取得了一些研究成果。這些研究主要實(shí)現(xiàn)不同網(wǎng)絡(luò)平臺(tái)、不同社區(qū)、不同話題中同一作者信息的識(shí)別,識(shí)別方法主要基于文體風(fēng)格特征,而利用文本主題特征的研究不多。在大數(shù)據(jù)時(shí)代,針對(duì)科研人員的人才評(píng)價(jià)等工作不僅要利用學(xué)術(shù)論文等數(shù)據(jù),還要利用科研人員相關(guān)的社交媒體信息、學(xué)術(shù)交流信息、教學(xué)信息等多類型數(shù)據(jù),這使得針對(duì)科研人員的信息集成成為新的研究課題。
本研究聚焦于中文文本作者識(shí)別領(lǐng)域研究不足的主題特征,以科研人員具有的學(xué)術(shù)文本和社交文本兩類文本為基礎(chǔ),針對(duì)其研究領(lǐng)域在一段時(shí)間內(nèi)具有穩(wěn)定性和專一性的特征,在已有的利用主題模型獲取主題特征研究的基礎(chǔ)上,利用Word2vec制定核心主題獲取策略,進(jìn)一步優(yōu)化獲取的主題特征并將其應(yīng)用于作者識(shí)別任務(wù)中。本研究重點(diǎn)證明在以科研作者作為候選作者的作者識(shí)別任務(wù)中主題特征的有效性,同時(shí)驗(yàn)證利用筆者提出的核心主題獲取策略獲取的核心主題特征能進(jìn)一步提高利用主題特征的作者識(shí)別效率。
1? 相關(guān)研究
作者識(shí)別是指以文本內(nèi)容和文本屬性為依據(jù),抽取出不同作者在文本中所體現(xiàn)的不同特征,進(jìn)而識(shí)別出文本作者[1-3]的研究,而作者特征可以從反映行文風(fēng)格的文體風(fēng)格特征和反映文本內(nèi)容的主題特征兩個(gè)方面得以體現(xiàn)。文體風(fēng)格特征表現(xiàn)了作者個(gè)人在寫作活動(dòng)中的言語(yǔ)特征,是作者個(gè)人風(fēng)格的不自覺反映,并且這些特征可以在一定程度上通過數(shù)量特征進(jìn)行刻畫[4];主題特征則是作者在文章中通過各種材料所表達(dá)的中心意思,它滲透、貫穿于文章的全部?jī)?nèi)容,體現(xiàn)著作者寫作的主要意圖[5]。
利用文體風(fēng)格特征進(jìn)行作者識(shí)別最早可追溯到1887年T. C. Mendenhall[6]對(duì)戲劇作品文體特征的研究,其研究是使用詞匯構(gòu)建詞譜并描繪特征曲線,為莎士比亞戲劇的作者歸屬爭(zhēng)議提供新的論據(jù),D. L. Hoover[7]提出使用功能詞等特殊詞匯,令使用詞匯進(jìn)行作者識(shí)別更加精確和有效;O. De Vel等[8]則將標(biāo)點(diǎn)符號(hào)等符號(hào)特征作為區(qū)分不同郵件作者的有效特征,選取的特征在聚合和多主題作者分類識(shí)別上都有很好的效果;V. Keselj等[9]提出一種通過計(jì)算和比較字符N-gram頻率識(shí)別作者的方法,研究者同時(shí)使用該方法在幾種不同語(yǔ)言中進(jìn)行作者識(shí)別驗(yàn)證,證明N-gram的語(yǔ)言無關(guān)性。國(guó)內(nèi)具有代表性的是祁瑞華團(tuán)隊(duì)[10-11]的研究,其從綜合利用文本特征進(jìn)行作者識(shí)別的角度出發(fā),從字符層面、詞匯層面、句法層面和結(jié)構(gòu)層面選取特征,建立多層面文體風(fēng)格特征模型,不僅實(shí)現(xiàn)社交文本的作者識(shí)別,多特征的選取及其在作者識(shí)別中的可行性也得到了驗(yàn)證。
綜合來看,基于文體風(fēng)格特征的作者識(shí)別研究較為成熟,而利用主題特征進(jìn)行作者識(shí)別的研究在早期很少出現(xiàn),因?yàn)橹黝}特征往往反映的是文本的內(nèi)容,而文本內(nèi)容在不同體裁、不同情景下很難做到統(tǒng)一。但是在國(guó)外,有研究證明其在作者識(shí)別領(lǐng)域的積極作用[12],最具有代表性的就是J. Savoy[13]進(jìn)行的相關(guān)研究,其利用LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)分別生成每個(gè)作者所有文檔的主題模型、待測(cè)試文檔主題模型,然后計(jì)算主題相似度來進(jìn)行作者歸屬和識(shí)別;與本研究比較相似的研究是W. Anwar等[14]提出實(shí)驗(yàn)驗(yàn)證,其利用余弦相似度和LDA方法來衡量文本文檔向量的相似度,最終達(dá)到作者識(shí)別的目的,其在構(gòu)建的包含6 000篇文章文檔的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)得到的結(jié)果表明,該方法優(yōu)于其他用于作者歸屬的算法。
基于上述研究現(xiàn)狀,筆者考慮從主題特征出發(fā)優(yōu)化中文社交文本作者識(shí)別。根據(jù)2014年Y. Nie等[15]提出的核心興趣概念,社交網(wǎng)絡(luò)的使用者圍繞的興趣存在暫時(shí)的邊際興趣和較為穩(wěn)定、在短時(shí)間內(nèi)不會(huì)改變的核心興趣,體現(xiàn)在文本中即是核心主題。核心主題一般有以下兩個(gè)特點(diǎn):
(1)核心主題一般在作者文檔里具有明顯的提及頻率,且有較大的可能區(qū)別于其他作者文本中包含的主題。
(2)核心主題一般存在作者一段時(shí)間內(nèi)的大部分文本中,而非核心主題往往會(huì)在各個(gè)作者文本里廣泛且較均勻分布[16]。
文本的作者識(shí)別對(duì)象為科研人員,而科研人員通常都有自己關(guān)注的科研領(lǐng)域,這些研究領(lǐng)域?qū)τ谀硞€(gè)候選作者而言往往在一定的時(shí)間段內(nèi)具有穩(wěn)定性和專一性[17](對(duì)比圖1與圖2),對(duì)于候選作者之間又具有可區(qū)分性和獨(dú)特性(對(duì)比圖1和圖3),符合核心主題的特點(diǎn)。同時(shí)因?yàn)槭峭蛔髡?,所以筆者認(rèn)為其在社交網(wǎng)站上發(fā)布的社交文本信息會(huì)對(duì)其科研領(lǐng)域主題有所體現(xiàn)(對(duì)比圖1與圖4)。因?yàn)楸狙芯渴菍?duì)科研人員的社交文本進(jìn)行作者識(shí)別,所以考慮利用候選作者學(xué)術(shù)文本中的領(lǐng)域主題篩選其社交文本中的主題,得到用于作者識(shí)別的核心主題。
在制定篩選策略時(shí),筆者考慮LDA主題模型的生成過程,即其在詞袋模型的基礎(chǔ)上,認(rèn)為詞匯是單獨(dú)存在的,從全局出發(fā)生成文本主題。這使得詞匯的上下文特征利用不足,且在應(yīng)用中對(duì)主題詞的研究不多。而Word2vec通過詞匯的上下文關(guān)系生成詞匯的詞向量形式,應(yīng)用于主題的表示中不僅能彌補(bǔ)LDA主題模型獲取主題的不足,同時(shí)能夠從主題詞的粒度分析對(duì)比主題之間的關(guān)系,從而篩選出與科研作者學(xué)術(shù)文本主題相似的主題,然后進(jìn)一步得到候選作者社交文本中的核心主題,進(jìn)而表示其核心主題特征?;诖耍狙芯抗P者以已有的利用LDA主題模型進(jìn)行作者識(shí)別的相關(guān)研究作為技術(shù)路線支持[13],首先驗(yàn)證主題特征在中文社交媒體文本作者識(shí)別中具有研究意義,同時(shí)從提高主題特征質(zhì)量的思路出發(fā),以提高作者識(shí)別效率為最終目的,提出使用LDA主題模型結(jié)合基于Word2vec的核心主題篩選策略構(gòu)建候選作者的核心主題識(shí)別篩選模型,最終完成科研作者的社交媒體文本的作者識(shí)別驗(yàn)證實(shí)驗(yàn)。
2? 主要技術(shù)路線
筆者提出利用主題特征進(jìn)行作者識(shí)別的方法框架,見圖5。
需要注意的是,因?yàn)楹蜻x作者的研究領(lǐng)域并不是一成不變的,所以筆者在選擇學(xué)術(shù)文本時(shí),選擇的是與待識(shí)別文本發(fā)布時(shí)間相近的一段時(shí)區(qū)內(nèi)的學(xué)術(shù)文本,同時(shí)保證時(shí)區(qū)不會(huì)過長(zhǎng)而導(dǎo)致時(shí)間因素影響識(shí)別。利用主題特征進(jìn)行作者識(shí)別主要包括以下3個(gè)主要步驟:
(1)作者主題特征抽取。分別從兩類數(shù)據(jù)源抽取兩類主題特征,利用科技論文數(shù)據(jù)抽取候選作者的科研主題特征,利用實(shí)名制社交網(wǎng)站數(shù)據(jù)抽取候選作者社交主題特征。利用LDA主題模型分別獲得作者學(xué)術(shù)文本和社交網(wǎng)絡(luò)文本的主題集合。
(2)生成作者社交文本核心主題特征。基于Word2vec制定核心主題篩選策略,利用科研主題篩選社交主題,并將科研主題的主題詞添加進(jìn)社交主題中,最終表示出候選作者社交文本內(nèi)的核心主題特征。
(3)計(jì)算待識(shí)別文本與作者的相似度。分別計(jì)算待識(shí)別文本主題特征與各個(gè)候選作者社交文本核心主題特征相似度,得到最相似的作者,將其作為文本最終的作者識(shí)別結(jié)果。
2.1? 作者主題識(shí)別與表示
對(duì)文本的作者身份識(shí)別,首選需要獲取候選作者的特征,由于LDA模型具有較好的主題抽取效果[18],所以本研究選擇采用LDA主題模型對(duì)候選作者的主題特征進(jìn)行識(shí)別和表示。
LDA模型是一種概率主題模型,其基于假設(shè):文檔是由若干個(gè)隱含主題構(gòu)成,而這些主題是由文本中若干個(gè)特定詞匯構(gòu)成,忽略文檔中的句法結(jié)構(gòu)和詞語(yǔ)出現(xiàn)的先后順序[19]。LDA主題模型由參數(shù)(α,β)確定,α反映文檔集合中隱含主題間的相對(duì)強(qiáng)弱,β刻畫所有隱含主題自身的概率分布[20],從Dirichlet分布α中取樣生成文檔—主題分布θ,從Dirichlet分布β中取樣生成主題—詞語(yǔ)分布φ。
在本研究中,將每個(gè)候選作者的文本歸為兩類文檔集,然后分別對(duì)這兩個(gè)文檔集進(jìn)行主題抽取,能夠得到每個(gè)文檔集中每篇文本的文本—主題概率分布和每個(gè)文檔集中抽取的主題—詞語(yǔ)分布。在針對(duì)主題的研究中,有研究提出主題強(qiáng)度這一概念[21],是指主題的熱門程度,在某一時(shí)刻關(guān)于某個(gè)主題的文章分布概率越高, 說明該文檔集中該主題的強(qiáng)度越高。筆者選擇文檔集中的主題強(qiáng)度來衡量某個(gè)主題能夠代表候選作者特征的程度。θkd為候選作者文本集M中文檔d中主題k的分布概率,則是主題k在M中的主題強(qiáng)度,即主題k能夠表示候選作者的程度,其計(jì)算公式如下所示:
公式(1)
基于此,可以得到作者—主題分布和主題—詞匯分布。將這兩個(gè)分布結(jié)合,可以表示出作者的主題特征,每個(gè)作者可以得到兩類主題特征,分別為科研主題特征(主題集合Hl)和社交主題特征(主題集合Hs),其計(jì)算公式如下所示:
H={(T1,P1), (T2,P2), ……, (Tk,Pk)}
公式(2)
在公式(2)中,H是主題集合,T是主題,其由主題詞和每個(gè)主題詞的權(quán)重(對(duì)主題的貢獻(xiàn)度)組成,P為主題分布概率,即主題T在候選作者文檔集中的主題強(qiáng)度,也是T能夠表示候選作者的程度,k為主題集合H中的主題個(gè)數(shù)。針對(duì)T展開可以表示為:
T=(m1*W1,m2*W2,……,mc*Wc)? 公式(3)
其中,T為主題元組,由主題詞W和其權(quán)重m乘積組成,在python中存儲(chǔ)為字符串形式,m為主題詞在主題中的分布概率,c為主題中包含的主題詞的個(gè)數(shù)。
2.2? 核心主題特征計(jì)算
該過程中需要解決的問題主要是:①如何在候選作者的社交主題特征中找到與其科研主題特征相似的主題;②如何將科研主題特征中的主題詞合并到社交主題中;③通過何種手段使主題在作者識(shí)別中起更重要的作用。Word2vec利用深度學(xué)習(xí)的思想,可以從大規(guī)模的文本數(shù)據(jù)中自動(dòng)學(xué)習(xí)數(shù)據(jù)的本質(zhì)信息[22],反應(yīng)詞匯的上下文特征,從而彌補(bǔ)利用LDA主題模型主題獲取過程中的不足,同時(shí)通過計(jì)算主題詞匯之間的相似度達(dá)到計(jì)算主題相似度的目的。在這一過程中,筆者主要利用Word2vec表示詞匯詞向量,然后基于此制定利用科研主題篩選社交主題的策略,最終得到候選作者的核心主題特征。
2.2.1? Word2vec原理
Word2vec模型在給定的語(yǔ)料庫(kù)上訓(xùn)練CBOW和Skip-Gram兩種模型,然后輸出得到所有出現(xiàn)在語(yǔ)料庫(kù)上的單詞的詞向量表示[23]?;诘玫降膯卧~詞向量,可以表示詞與詞之間的關(guān)系(如詞語(yǔ)相似性等),從而定義主題的相似度,進(jìn)而利用余弦距離計(jì)算主題集也就是作者和待識(shí)別文本主題特征的相似度,最終達(dá)到作者識(shí)別的目的。
2.2.2? 核心主題篩選與合并策略
利用候選作者科研主題對(duì)其社交主題進(jìn)行篩選與合并的具體策略可以分為以下幾個(gè)步驟:
(1)針對(duì)有的主題本身的分布概率就很低,能夠代表該文本主要內(nèi)容的概率較低的問題,為了避免主題特征的冗余,首先利用主題在主題矩陣中的分布概率對(duì)主題矩陣Hs主題特征進(jìn)行初步篩選。
(2)初篩過后,利用相似度計(jì)算找到矩陣Hs與矩陣Hl中相似的主題,將其識(shí)別出來并賦予更高的識(shí)別權(quán)重。因?yàn)閷W(xué)術(shù)文本主題集合由主題組成,主題由主題詞組成,所以此步驟中需要對(duì)3個(gè)相似度計(jì)算進(jìn)行定義:
其中,T為主題,由主題詞W組成,P為該主題在矩陣中的分布概率,m為該主題詞在主題中的分布概率,k為主題矩陣H中的主題個(gè)數(shù),z為主題中包含的主題詞的個(gè)數(shù)。
定義詞匯相似度,即利用Word2vec轉(zhuǎn)化詞匯為詞向量,進(jìn)一步計(jì)算相似度,計(jì)算公式如下所示:
Sim(W1, W2)=Word2Vec(W1,W2)? ? ? ?公式(4)
定義主題之間的相似度sim(T1,T2),計(jì)算詞匯相似度的加權(quán)平均,權(quán)重是詞匯組成主題的概率,計(jì)算公式如下所示:
公式(5)
定義主題矩陣(主題集)之間的相似度sim(Hl,Hs),計(jì)算主題相似度的加權(quán)平均,權(quán)重是該主題的分布概率,計(jì)算公式如下所示:
公式(6)
(3)合并規(guī)則。篩選合并規(guī)則的整體思想是利用上述定義的加權(quán)相似度計(jì)算的方法,找到每個(gè)社交主題特征最相似的科研主題特征,根據(jù)閾值判斷是否增加其權(quán)重將其作為識(shí)別過程中的核心主題。同時(shí)針對(duì)社交主題特征中的主題詞,同樣利用相同的方法判斷其是否相似于科研主題詞,并通過閾值判斷進(jìn)行權(quán)重重新賦值,若主題相似、主題詞不相似,則考慮將科研主題詞匯添加到社交主題中用于補(bǔ)充主題特征。具體篩選合并規(guī)則的代碼形式如下所示:
設(shè)置閾值θ1、θ2,θ1是主題相似度的衡量閾值,用來判斷兩個(gè)主題是否到了可以合并的地步;θ2是詞匯相似度的衡量閾值,用來判斷是否將該詞匯作為新詞匯加入到主題中去;Hl是作者A1的科研主題集合,Hs是其社交主題集合,Hc是最終得到核心主題集合:
def matrix_merge_rule(Hl, Hs, θ1,θ2,):
For? T1? in? Hl:
For? T2? ?in? ?Hs:
計(jì)算Sim(T1,T2)
找到與T1 最相似的主題,賦給T
If? ?Sim(T1,T)> θ1:
遍歷計(jì)算主題中兩兩主題詞計(jì)算Sim(W1,W2):
If? Sim(W1,W2)>θ2:
主題T中的W2不變,給主題詞W2賦予新的權(quán)重=γ1m1+γ2m2,其中m1、m2分別是主題詞W1和W2的權(quán)重。
Else:
將主題詞W1添加進(jìn)主題T中,主題詞的權(quán)重不變
主題T重新賦權(quán)重=ω1P1+ω2P2
Else:
保留主題T
#遍歷完Hs中的所有主題,得到新的主題矩陣Hc。
return Hc
其中γ和ω均為合并系數(shù),需要經(jīng)過優(yōu)化迭代,從而選擇最優(yōu)解。
3? 實(shí)驗(yàn)與結(jié)果分析
為了驗(yàn)證主題特征在作者識(shí)別中的意義,同時(shí)證明筆者提出的核心主題策略算法對(duì)利用主題特征進(jìn)行作者識(shí)別的提高效果,本研究的基線實(shí)驗(yàn)是利用社交網(wǎng)絡(luò)文本抽取的原始主題進(jìn)行作者識(shí)別,對(duì)比實(shí)驗(yàn)是利用學(xué)術(shù)文本抽取出的主題對(duì)社交網(wǎng)絡(luò)文本主題進(jìn)行篩選合并后的核心主題進(jìn)行作者識(shí)別;同時(shí)因?yàn)槔枚鄬哟翁卣鬟M(jìn)行作者識(shí)別任務(wù)是主要的研究發(fā)展方向,所以筆者也進(jìn)行文體風(fēng)格特征結(jié)合核心主題特征進(jìn)行作者識(shí)別與僅使用文體風(fēng)格特征進(jìn)行作者識(shí)別的對(duì)比實(shí)驗(yàn),用以驗(yàn)證核心主題特征對(duì)文體風(fēng)格特征的補(bǔ)充作用。
3.1? 數(shù)據(jù)獲取和預(yù)處理
選擇計(jì)算機(jī)領(lǐng)域的20位科研人員作為候選作者,利用爬蟲軟件分別獲取其在知網(wǎng)上發(fā)布的論文全文文本及其在科學(xué)網(wǎng)上發(fā)布的博客全文文本作為實(shí)驗(yàn)數(shù)據(jù)集,論文數(shù)據(jù)共730條,博客數(shù)據(jù)共5 980條。利用jieba工具進(jìn)行分詞處理,同時(shí)對(duì)分詞結(jié)果利用頻次和詞性等進(jìn)行篩選,去除人名、停用詞、動(dòng)詞、通用詞等影響因素,保證主題的表示更具有代表性,最后得到的學(xué)術(shù)文本的平均文本長(zhǎng)度為4 023個(gè)字符,社交文本為253個(gè)字符。隨機(jī)抽取20%的科學(xué)網(wǎng)文本作為測(cè)試集,剩余80%和全部的論文文本作為訓(xùn)練集進(jìn)行作者識(shí)別模型訓(xùn)練。候選作者文本內(nèi)容示例如表1所示:
3.2? 實(shí)驗(yàn)設(shè)置
3.2.1? 主題特征抽取
使用LDA主題模型獲取文本主題,采取開源的Gibbs為采樣工具,其參數(shù)設(shè)置如下:模型參數(shù)α、β分別設(shè)為50/T和0.1[24]。對(duì)于主題數(shù)的選擇,研究在對(duì)每個(gè)候選作者的社交網(wǎng)絡(luò)文本和學(xué)術(shù)文本進(jìn)行LDA主題抽取時(shí),首先對(duì)訓(xùn)練文本利用困惑度選擇主題T的可取值范圍。困惑度如圖6所示,其中橫坐標(biāo)為主題數(shù),縱坐標(biāo)為對(duì)應(yīng)主題數(shù)時(shí)的困惑度值。
因?yàn)椴煌膶?shí)驗(yàn)語(yǔ)料最佳的主題數(shù)是不同的,為了保證實(shí)驗(yàn)主題選擇的一致性,筆者進(jìn)一步計(jì)算在T的取值范圍上對(duì)作者的識(shí)別效果,最終選擇T=15作為主題數(shù)。表2是候選作者部分科研主題和社交主題。
對(duì)上述數(shù)據(jù)進(jìn)行簡(jiǎn)單的分析可以發(fā)現(xiàn),從社交網(wǎng)絡(luò)文本中抽取的主題T4是該作者學(xué)術(shù)文本的主要主題,也就是該作者的研究領(lǐng)域主題,即本研究定義的候選作者社交文本中的核心主題,如果給該主題賦予較高的權(quán)重,使其在作者識(shí)別中發(fā)揮更大的作用,那么作者識(shí)別的準(zhǔn)確率也有提高的空間。
3.2.2? Word2vec訓(xùn)練
筆者采用開源的Word2vec工具,將候選作者的兩類文本結(jié)合騰訊詞向量作為訓(xùn)練數(shù)據(jù),用Skip-gram模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到訓(xùn)練數(shù)據(jù)中每個(gè)詞的詞向量。表3給出Word2vec的參數(shù)含義及取值,其中cbow非0時(shí)對(duì)低頻詞敏感,size是輸出詞向量的維數(shù),即神經(jīng)網(wǎng)絡(luò)的隱藏層的單元數(shù),其取值太小會(huì)導(dǎo)致詞映射因?yàn)闆_突而影響結(jié)果,值太大則會(huì)耗內(nèi)存并使算法計(jì)算變慢,大的size需要更多的訓(xùn)練數(shù)據(jù),但是效果會(huì)更好[25]。參數(shù)值的選擇是根據(jù)已有的研究選定的[26]。表4給出按照相似度排列的詞向量訓(xùn)練結(jié)果示例。
3.2.3? 核心主題篩選策略閾值設(shè)置
通過計(jì)算候選作者學(xué)術(shù)文本主題矩陣和社交網(wǎng)絡(luò)文本主題矩陣的相似度,得到平均值0.001 8;通過計(jì)算候選作者學(xué)術(shù)文本主題和社交文本主題的相似度,得到平均值0.237 5。以此為基準(zhǔn)設(shè)置閾值和系數(shù)的優(yōu)化實(shí)驗(yàn),通過實(shí)驗(yàn)迭代,選擇θ1=0.001、θ2=0.25作為較優(yōu)閾值。而γ1、γ2、ω1和ω2的取值,本研究做了迭代實(shí)驗(yàn),結(jié)果分別如圖7和圖8所示。
所以,經(jīng)過實(shí)驗(yàn)優(yōu)化,選擇系數(shù)γ1=γ2=0.5,ω1=0.33,ω2=0.66。
3.2.4? 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)評(píng)估方法采用精確率(P)、召回率(R)和 F1測(cè)試值??梢约僭O(shè):A表示判斷為作者S且判別正確的文本個(gè)數(shù),B表示判斷為作者S但判別錯(cuò)誤的文本個(gè)數(shù),C表示判斷為不屬于作者S且判別錯(cuò)誤的文本個(gè)數(shù),D表示判斷為不屬于作者S且判別正確的文本個(gè)數(shù),則各指標(biāo)的計(jì)算公式具體如下所示:
公式(7)
公式(8)
公式(9)
3.3? 實(shí)驗(yàn)結(jié)果分析
3.3.1? 核心主題特征與主題特征的實(shí)驗(yàn)效果對(duì)比
表5展示了部分代表性作者利用主題特征和核心主題特征結(jié)合文體風(fēng)格特征進(jìn)行作者識(shí)別的結(jié)果對(duì)比。需要注意的是,因?yàn)槭褂脝我惶卣鬟M(jìn)行作者識(shí)別的效果并不理想,且應(yīng)用價(jià)值不大,所以此處識(shí)別結(jié)果是結(jié)合了文體風(fēng)格特征進(jìn)行實(shí)驗(yàn)的結(jié)果。
通過分析表5可以發(fā)現(xiàn)如下結(jié)論:
(1)綜合來看,利用核心主題特征進(jìn)行作者識(shí)別的3個(gè)衡量指標(biāo)都有所提高,這說明利用學(xué)術(shù)主題特征對(duì)社交網(wǎng)絡(luò)文本主題特征進(jìn)行篩選合并得到的核心主題特征應(yīng)用于作者識(shí)別,能一定程度提高作者識(shí)別的準(zhǔn)確率,對(duì)識(shí)別策略有一定的優(yōu)化作用。
(2)具體到候選作者,可以看到大部分的作者的識(shí)別效果得到一定的提升,但是以作者6為代表的候選作者的P指標(biāo)和F1指標(biāo)均有所下降,分析數(shù)據(jù)可以發(fā)現(xiàn),利用核心主題的方法針對(duì)在社交網(wǎng)絡(luò)中主題較為集中且有較大比例涉及到其在學(xué)術(shù)中的研究領(lǐng)域的作者更有效果;而針對(duì)在社交網(wǎng)絡(luò)文本中不涉及或者少量涉及學(xué)術(shù)領(lǐng)域的作者,該方法取得的優(yōu)化效果較小。
3.3.2? 核心主題特征對(duì)文體風(fēng)格特征的補(bǔ)充驗(yàn)證實(shí)驗(yàn)
根據(jù)已有的研究,僅使用一種特征進(jìn)行作者識(shí)別的效果是不突出的,多層次特征結(jié)合使用才是作者識(shí)別的發(fā)展方向。為了驗(yàn)證本研究的核心主題特征對(duì)于文體風(fēng)格特征有補(bǔ)充作用,對(duì)于結(jié)合其他特征進(jìn)行作者識(shí)別也有進(jìn)一步的研究前景,下面進(jìn)行核心主題特征對(duì)文體風(fēng)格特征的補(bǔ)充驗(yàn)證實(shí)驗(yàn)。
筆者選擇的文體風(fēng)格特征是N-gram特征,它可以捕捉到作者風(fēng)格的細(xì)微差別,包括由詞匯、上下文、標(biāo)點(diǎn)符號(hào)以及大小寫變動(dòng)所帶來的差別[27],表示方便且識(shí)別效率較高。筆者利用N-gram特征和主題特征兩種特征分別計(jì)算待識(shí)別文本與候選作者的相似度,然后對(duì)相似度進(jìn)行加權(quán)分析,相似度最高的作者作為最終的識(shí)別結(jié)果。加權(quán)系數(shù)經(jīng)過多次交叉實(shí)驗(yàn),在其他系數(shù)和影響因素不變的情況下,選擇文體風(fēng)格特征系數(shù)為0.82,主題特征系數(shù)為0.18時(shí)識(shí)別的文本數(shù)最多,效果最好,故以此為特征系數(shù)。另外,通過權(quán)重系數(shù)可以發(fā)現(xiàn),文體風(fēng)格特征在作者識(shí)別中的作用要優(yōu)于主題特征。
本實(shí)驗(yàn)用CountVectorizer方法,設(shè)置閾值為min_df=2,基于此構(gòu)建作者的N-gram特征向量。表6是作者2的部分N-gram特征。
表7展示了僅使用文體風(fēng)格特征識(shí)別的和結(jié)合文體風(fēng)格特征與核心主題特征識(shí)別的結(jié)果對(duì)比。
通過分析表7可以得出以下結(jié)論:
(1)從綜合結(jié)果來看,利用核心主題結(jié)合文體風(fēng)格特征作者識(shí)別的效果要優(yōu)于僅使用N-gram特征進(jìn)行識(shí)別,這說明在該實(shí)驗(yàn)集上,核心主題特征的使用對(duì)作者識(shí)別有積極作用。
(2)具體到每個(gè)候選作者,可以看到:多數(shù)作者主題特征的識(shí)別效果是積極的,這也充分論證了科研人員的領(lǐng)域主題能一定程度上成為該作者標(biāo)簽特征,這是具有個(gè)人性的特征。而針對(duì)作者5為代表的作者,其F1值降低,作者6為代表的作者,其召回率和精準(zhǔn)率均降低,則認(rèn)為主題特征未起到積極效果,筆者分析其文本認(rèn)為這與其所關(guān)注的領(lǐng)域較為寬泛,且學(xué)術(shù)領(lǐng)域與科研文本中的主題相差較大相關(guān),以至于本研究的核心主題篩選合并策略未起到較大作用,而添加主題特征作為識(shí)別特征相當(dāng)于增加了干擾項(xiàng),導(dǎo)致識(shí)別準(zhǔn)確率下降。針對(duì)這一現(xiàn)象,后續(xù)可以通過分步式結(jié)合兩種特征的方法進(jìn)行改善,如先利用主題特征進(jìn)行作者識(shí)別,給出相似的幾個(gè)候選作者,縮小候選作者數(shù)量,然后進(jìn)一步通過N-gram特征得到最相似的候選作者作為識(shí)別結(jié)果。
(3)分析不同候選作者的識(shí)別效果,發(fā)現(xiàn)訓(xùn)練語(yǔ)料的體量也會(huì)影響主題特征在作者識(shí)別上的應(yīng)用效果,在目前實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)越多,抽取出的主題特征越具有代表性,識(shí)別的準(zhǔn)確性也越高。后續(xù)針對(duì)該影響,可以繼續(xù)通過控制實(shí)驗(yàn)數(shù)據(jù)大小進(jìn)行對(duì)比實(shí)驗(yàn)。
3.3.3? 結(jié)論
通過對(duì)結(jié)果的分析可以看出,在核心主題特征對(duì)于主題特征的優(yōu)化方面,使用篩選得到的核心主題進(jìn)行作者特征表示并用于作者識(shí)別的效果優(yōu)于僅利用原始抽取出的主題特征,這有效證明:針對(duì)科研人員的社交網(wǎng)絡(luò)文本的作者識(shí)別,利用其在學(xué)術(shù)文本中所體現(xiàn)的領(lǐng)域主題對(duì)其社交網(wǎng)絡(luò)文本主題特征進(jìn)行篩選和合并,能夠進(jìn)一步優(yōu)化主題特征,篩選并給予識(shí)別作用更大的特征更高的權(quán)重,從而提高作者識(shí)別的準(zhǔn)確率,進(jìn)而優(yōu)化作者識(shí)別效果;在核心主題特征結(jié)合其他特征在作者識(shí)別中的應(yīng)用效果方面,核心主題特征能夠有效地提高僅利用N-gram特征作者識(shí)別的效果,這證明在本研究的實(shí)驗(yàn)語(yǔ)料上,核心主題特征對(duì)于結(jié)合文體風(fēng)格特征用于作者識(shí)別有一定的積極意義。
4? 總結(jié)展望
本研究重點(diǎn)探討結(jié)合學(xué)術(shù)文本對(duì)利用主題特征進(jìn)行作者識(shí)別的可行性及其優(yōu)化策略。通過實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示優(yōu)化策略是有效的,在此進(jìn)行總結(jié)并討論未來可以繼續(xù)優(yōu)化的內(nèi)容:
(1)本研究的重心在主題特征的使用優(yōu)化方向,研究發(fā)現(xiàn)利用學(xué)術(shù)文本的領(lǐng)域主題對(duì)候選作者的社交網(wǎng)絡(luò)文本主題進(jìn)行篩選得到的核心主題特征有提高利用主題特征作者識(shí)別效果的作用;筆者也嘗試結(jié)合N-gram特征和核心主題特征,同時(shí)對(duì)比僅使用N-gram特征的識(shí)別效果,結(jié)合主題特征對(duì)作者識(shí)別也有一定程度上的提升。進(jìn)一步研究可以考慮從其他文體風(fēng)格特征出發(fā),或者結(jié)合多層次文體風(fēng)格特征進(jìn)行應(yīng)用研究。
(2)本研究在對(duì)待識(shí)別文本進(jìn)行作者識(shí)別實(shí)驗(yàn)時(shí),使用LDA主題模型作為主題抽取的方法,而隨著相關(guān)研究的發(fā)展,其他主題模型或者其他主題抽取方式或許較LDA主題模型能取得不同的效果。所以針對(duì)主題獲取這一步驟,后續(xù)研究可以嘗試采用其他主題獲取方法進(jìn)一步優(yōu)化識(shí)別效果。
(3)本研究旨在提出主題特征的進(jìn)一步應(yīng)用優(yōu)化方向,并選取20位候選作者進(jìn)行實(shí)驗(yàn)驗(yàn)證,但并不能保證在大規(guī)模數(shù)據(jù)集中仍能取得相同實(shí)驗(yàn)效果。未來可以嘗試擴(kuò)大數(shù)據(jù)進(jìn)行實(shí)驗(yàn),同時(shí)考慮文本分布不均的問題進(jìn)行細(xì)化研究。
(4)本研究目前僅考察利用文本的內(nèi)容信息進(jìn)行作者識(shí)別,未來隨著網(wǎng)站文本屬性或者用戶屬性的完善,亦可以考慮借助社交網(wǎng)絡(luò)相鄰用戶的文本信息和屬性信息進(jìn)行特征抽取和核心主題選擇,會(huì)進(jìn)一步提高作者識(shí)別效果。
參考文獻(xiàn):
[1] KALGUTKAR V, KAUR R, GONZALEZ H, et al. Code authorship attribution: methods and challenges[J]. ACM computing surveys (CSUR), 2019, 52(1): 1-36.
[2] ALRABAEE S, DEBBABI M, WANG L. CPA: accurate cross-platform binary authorship characterization using LDA[J]. IEEE transactions on information forensics and security, 2020(15): 3051-3066.
[3] MAGLOGIANNIS I, ILIADIS L, PIMENIDIS E. Artificial intelligence applications and innovations[J]. IFIP advances in information and communication technology, 2020(583): 55-266.
[4] 劉穎, 肖天久. 金庸與古龍小說計(jì)量風(fēng)格學(xué)研究[J]. 清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2014, 29(5): 135-147, 179. (LIU Y, XIAO T J. A Study of the stylistics of Jin Yong and Gu Long novels[J]. Journal of Tsinghua University(philosophy and social sciences), 2014, 29(5): 135-147, 179.)
[5] 百度百科.主題[EB/OL]. [2023-04-05]. https://baike.baidu.com/item/主題/2894698. (Baidu Encyclopedia. Topic[EB/OL]. [2023-04-05]. https://baike.baidu.com/item/主題/2894698.)
[6] MENDENHALL T C. The characteristic curves of composition[J]. Science, 1887(214S): 237-246.
[7] HOOVER D L. Another perspective on vocabulary richness[J]. Computers and the humanities, 2003(37): 151-178.
[8] DE VEL O, ANDERSON A, CORNEY M, et al. Mining e-mail content for author identification forensics[J]. ACM SIGMOD record, 2001, 30(4): 55-64.
[9] KESELJ V, PENG FC, CERCONE N, et al. N-gram based author profiles for authorship attribution[EB/OL]. [2023-04-05]. https://core.ac.uk/display/24680735 .
[10] 祁瑞華, 楊德禮, 郭旭, 等.基于多層面文體特征的博客作者身份識(shí)別研究[J]. 情報(bào)學(xué)報(bào), 2015, 34(6): 628-634. (QI R H, YANG D L, GUO X, et al. Blogger identification based on multidimensional stylistic features[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(6): 628-634.)
[11] 祁瑞華, 郭旭, 劉彩虹.中文微博作者身份識(shí)別研究[J]. 情報(bào)學(xué)報(bào), 2017, 36(1): 72-78. (QI R H, GUO X, LIU C H. Authorship attribution of Chinese Microblog[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(1): 72-78.)
[12] FINN A, KUSHMERICK N. Learning to classify documents according to genre[J]. Journal of the American Society for Information Science and Technology, 2006, 57(11): 1506-1518.
[13] SAVOY J. Authorship attribution based on a probabilistic topic model[J]. Information processing & management, 2013, 49(1): 341-354.
[14] ANWAR W, BAJWA I S, CHOUDHARY M A, et al. An empirical study on forensic analysis of Urdu text using LDA-based authorship attribution[J]. IEEE access, 2019(7): 3224-3234.
[15] NIE Y, HUANG J, LI A, et al. Identifying users based on behavioral-modeling across social media sites[J]. Web technologies and applications, 2014(8709): 48-55.
[16] 孫學(xué)剛, 陳群秀, 馬亮.基于主題的Web文檔聚類研究[J]. 中文信息學(xué)報(bào), 2003(3): 21-26. (SUN X G, CHEN Q L, MA L. Study on topic-based web clustering[J]. Journal of Chinese information processing, 2003(3): 21-26.)
[17] 李湘東, 張嬌, 袁滿. 基于LDA模型的科技期刊主題演化研究[J]. 情報(bào)雜志, 2014, 33(7): 115-121. (LI X D, ZHANG J, YUAN M. On topic evolution of a scientific journal based on LDA model[J]. Journal of intelligence, 2014, 33(7): 115-121.)
[18] 陳思含.基于微博的多特征情感分析方法研究[D]. 長(zhǎng)春:吉林大學(xué), 2021. (CHEN S H. Research on multi-feature sentiment analysis method based on microblog[D]. Changchun: Jilin University, 2021.)
[19] 姚全珠, 宋志理, 彭程.基于LDA模型的文本分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(13): 150-153. (YAO Q Z, SONG Z L, PENG C. Research on text categorization based on LDA[J]. Computer engineering and applications, 2011, 47(13): 150-153.)
[20] 王振振, 何明, 杜永萍.基于LDA主題模型的文本相似度計(jì)算[J]. 計(jì)算機(jī)科學(xué), 2013, 40(12): 229-232. (WANG Z Z, HE M, DU Y P. Text similarity computing based on topic model LDA[J]. Computer science, 2013, 40(12): 229-232.)
[21] 崔凱. 基于LDA的主題演化研究與實(shí)現(xiàn)[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2010. (CUI K. The research and implementation of topic evolution based on LDA [D]. Changsha: National University of Defense Technology, 2010.)
[22] 馬思丹, 劉東蘇. 基于加權(quán)Word2vec的文本分類方法研究[J]. 情報(bào)科學(xué), 2019, 37(11): 38-42. (MA S D, LIU D S. Text classification method based on weighted Word2vec [J]. Information science, 2019, 37(11): 38-42.)
[23] 李曉, 解輝, 李立杰. 基于Word2vec的句子語(yǔ)義相似度計(jì)算研究[J]. 計(jì)算機(jī)科學(xué), 2017, 44(9): 256-260. (LI X, JIE H, LI L J. Research on sentence semantic similarity calculation based on Word2vec[J]. Computer science, 2017, 44(9): 256-260.)
[24] 唐曉波, 祝黎, 謝力. 基于主題的微博二級(jí)好友推薦模型研究[J]. 圖書情報(bào)工作, 2014, 58(9): 105-113. (TANG X B, ZHU L, XIE L. Two-level microblog friend recommendation based on topic model[J]. Library and information service, 2014, 58(9): 105-113.)
[25] 你好星期一. Word2vec參數(shù)[EB/OL]. [2022-12-13]. https://blog.csdn.net/DL_Iris/article/details/119175496. (Hello on Monday. Word2vec parameter[EB/OL]. [2022-12-13]. https://blog.csdn.net/DL_Iris/article/details/119175496.)
[26] 張謙, 高章敏, 劉嘉勇 .基于Word2vec的微博短文本分類研究[J]. 信息網(wǎng)絡(luò)安全, 2017(1): 57-62. (ZHANG Q, GAO Z M, LIU J Y. Research of Weibo short text classfication based on word2ve[J]. Netinfo security, 2017(1): 57-62.)
[27] JOHNSON A, WRIGHT D. Identifying idiolect in forensic authorship attribution: an N-gram text bite approach[J]. Language and law, 2014, 1(1): 37-69.
作者貢獻(xiàn)說明:
孟? 旭:調(diào)研及撰寫論文;
謝? 靖:提出論文修改意見及定稿;
李春旺:提出論文選題和論文技術(shù)路線。
Research on Author Attribution Based on Core Topic
Meng Xu1,2? ?Xie Jing1? ?Li Chunwang3
1National Science Library, Chinese Academy of Science, Beijing 100190
2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190
3Institute of Computing Technology, Chinese Academy of Science, Beijing 100190
Abstract: [Purpose/Significance] The basic purpose of this study is to study the use of topic characteristics in author attribution of Chinese social media texts. Word2vec is used to supplement the topic model to obtain the deficiencies of topic characteristics. At the same time, strategies are further developed to identify and screen the core topics in the topic characteristics and optimize the use of topic characteristics. So as to improve the using effect of subject features in author attribution. [Methods/Process] The research first used the LDA topic model to extract the academic topics and social topics of the candidate authors, and then used Word2vec to develop a merge screening strategy to identify and represent the core topics, and finally used N-gram features and similarity calculation to achieve author attribution. [Results/Conclusion] The experimental results show that the use of core topic characteristics has a positive effect on author attribution of social texts. Meanwhile, the strategy and application of core topic characteristics proposed in this study can also optimize the effect of the use of topic-features, and the highest recognition rate will reach 83% when it is combined with stylistic-features.
Keywords: author attribution? ? topic characteristics? ? N-gram? ? scientific research author? ? social media text