亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        作者識(shí)別研究綜述

        2022-01-09 10:22:38江銘虎
        自動(dòng)化學(xué)報(bào) 2021年11期
        關(guān)鍵詞:句法研究者文檔

        張 洋 江銘虎

        大數(shù)據(jù)時(shí)代,各種信息服務(wù)給人們的生活帶來(lái)很多便捷,人們足不出戶(hù)就能知曉天下事.然而,人們?cè)讷@取信息的同時(shí)也飽受信息泛濫的困擾.垃圾短信、虛假信息、網(wǎng)絡(luò)詐騙等嚴(yán)重影響人們的日常生活.因此,準(zhǔn)確而及時(shí)地識(shí)別垃圾信息、阻止虛假信息或低俗作品的傳播,對(duì)于維護(hù)互聯(lián)網(wǎng)生態(tài)健康以及保障人們的正常生產(chǎn)生活具有非常重要的意義.作者身份識(shí)別(Authorship identification)又簡(jiǎn)稱(chēng)作者識(shí)別,是通過(guò)分析未知文本的文體學(xué)特征或?qū)懽黠L(fēng)格,推斷作者歸屬的一類(lèi)研究.有些研究者也稱(chēng)其為作者身份歸屬(Authorship attribution),其主要思路是將文本中隱含的作者無(wú)意識(shí)的寫(xiě)作習(xí)慣通過(guò)某些可以量化的特征表現(xiàn)出來(lái),進(jìn)而凸顯作品的文體學(xué)特征或?qū)懽黠L(fēng)格,以此確定匿名文本的作者[1].

        19 世紀(jì)以前,科學(xué)研究的社會(huì)化程度較差,數(shù)學(xué)等相關(guān)工具的應(yīng)用不普及,作者識(shí)別尚處于傳統(tǒng)研究的歷史階段.在這一時(shí)期,西方研究者通過(guò)韻律節(jié)奏的變換推斷未知十四行詩(shī)的作者歸屬.其判別標(biāo)準(zhǔn)多基于研究者的主觀經(jīng)驗(yàn),而缺乏客觀參數(shù)衡量.進(jìn)入19 世紀(jì),隨著生產(chǎn)力的不斷發(fā)展,科學(xué)研究的社會(huì)化程度不斷增強(qiáng),數(shù)學(xué)等相關(guān)工具也逐漸被應(yīng)用到作者識(shí)別研究中.最早嘗試用數(shù)學(xué)工具去量化作者寫(xiě)作風(fēng)格的是Mendenhall[2],他利用詞譜和特征曲線(xiàn)對(duì)莎士比亞的戲劇等不同作品進(jìn)行作者歸屬研究,標(biāo)志著作者識(shí)別現(xiàn)代研究的開(kāi)端.Yule[3]在Mendenhall 基礎(chǔ)上進(jìn)行了改進(jìn),他利用文本句子長(zhǎng)度作為識(shí)別散文等文學(xué)作品作者的有效特征.最有影響力的早期研究是Mosteller 和Wallace[4]合作完成的,他們首次提出利用少數(shù)特殊詞出現(xiàn)的頻率以及分布作為特征,識(shí)別聯(lián)邦主義者論文的作者.Damerau[5]在分析前人方法的基礎(chǔ)上,首次提出基于功能詞(Function words)頻率的作者識(shí)別方法,有效地拓展了詞匯特征.Efron 和Thisted[6]通過(guò)作品的詞匯量推斷未知文本是否為莎士比亞所作.從此,詞匯成為作者識(shí)別以及作者風(fēng)格分析一個(gè)重要的研究方向.隨后研究者不斷嘗試新的文本特征,字符、句法、語(yǔ)義等特征均被研究者用于作者識(shí)別研究中,取得了一些進(jìn)展.20 世紀(jì)90 年代隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)應(yīng)用的發(fā)展,大量電子文本產(chǎn)生,于是便有了處理這些信息的需求.這使得作者識(shí)別在情報(bào)分析和計(jì)算機(jī)取證等領(lǐng)域的地位越來(lái)越重要.作者識(shí)別的意義主要體現(xiàn)在相關(guān)技術(shù)的應(yīng)用上.在法醫(yī)學(xué)中,作者識(shí)別技術(shù)可以對(duì)關(guān)鍵文字證據(jù)進(jìn)行識(shí)別,從而確定當(dāng)事人的身份,這對(duì)進(jìn)一步偵破案件有著重要的作用[7].在文學(xué)研究中,作者識(shí)別技術(shù)可以用來(lái)識(shí)別匿名作品的作者,或者推斷爭(zhēng)議文本的作者,給作者身份的確定帶來(lái)新思路[8].在互聯(lián)網(wǎng)領(lǐng)域,作者識(shí)別技術(shù)可以追溯垃圾郵件、謠言以及計(jì)算機(jī)病毒等非法程序源代碼的作者,對(duì)于打擊網(wǎng)絡(luò)違法行為和維護(hù)網(wǎng)絡(luò)安全具有重要的意義[9].

        作者識(shí)別是一個(gè)涉及眾多學(xué)科的交叉學(xué)科,為了簡(jiǎn)化問(wèn)題和便于研究,研究者常常提出一些假設(shè).首先,第一個(gè)假設(shè)就是,作者的寫(xiě)作風(fēng)格會(huì)受到作者自身特征的影響,比如作者的身份地位、性別、性格、年齡和受教育程度等[10].這個(gè)是作者識(shí)別研究的首要假設(shè).第二個(gè)假設(shè)就是作者的這些特征能夠從他的寫(xiě)作風(fēng)格中看出來(lái)[11].這個(gè)假設(shè)是作者識(shí)別研究中最重要的一個(gè)假設(shè).在現(xiàn)代研究中,研究者常常需要量化作者寫(xiě)作風(fēng)格.這個(gè)假設(shè)為量化作者寫(xiě)作風(fēng)格提供了理論依據(jù).然而,在一般情況下,作者的寫(xiě)作風(fēng)格并非一成不變,它會(huì)受到很多外部條件的影響,比如社會(huì)背景、時(shí)間、文本主題、傳播媒介、受眾等因素.但研究者也一致認(rèn)為作者寫(xiě)作風(fēng)格的某些特征元素始終存在,無(wú)論這些因素是什么,它們都能夠被研究者通過(guò)特定手段進(jìn)行量化.研究者所要做的是盡可能多地保持潛在的相互作用因素恒定,而并非將它們剝離出來(lái),因?yàn)檫@會(huì)損失更多的信息[12].

        作者識(shí)別領(lǐng)域有兩個(gè)大的研究方向,大多數(shù)作者識(shí)別研究都是從這兩個(gè)方向進(jìn)行的,其中一個(gè)方向是數(shù)字人文(Digital humanities)方向,而另一個(gè)方向則是計(jì)算語(yǔ)言學(xué)(Computational linguistics)方向[13].這兩個(gè)方向的研究?jī)?nèi)容并無(wú)太多差異,但在目的和側(cè)重點(diǎn)上則有顯著不同.在數(shù)字人文研究中,重點(diǎn)主要放在實(shí)際有爭(zhēng)議的作者身份或文學(xué)風(fēng)格分析的案例上;而在計(jì)算語(yǔ)言學(xué)研究中,研究者則更多地關(guān)注已知作者身份的數(shù)據(jù)集的表現(xiàn)以及確定最可靠的技術(shù)[13].計(jì)算語(yǔ)言學(xué)中更系統(tǒng)的方法允許嚴(yán)格控制與作者身份相互作用的因素,比如主題和流派,這種設(shè)置通常在有爭(zhēng)議的作者身份的情況下無(wú)法實(shí)現(xiàn).一些模擬大規(guī)模作者身份歸屬的研究,比如增加作者集合大小或減少訓(xùn)練數(shù)據(jù)大小,允許系統(tǒng)地評(píng)估在各種情況下的技術(shù)水平.以數(shù)字人文為導(dǎo)向的研究的主要優(yōu)點(diǎn)之一是注重結(jié)果的解釋以及對(duì)作者寫(xiě)作風(fēng)格的分析.這種類(lèi)型的分析目前缺乏以計(jì)算語(yǔ)言學(xué)為導(dǎo)向的研究.用一句話(huà)來(lái)概括數(shù)字人文和計(jì)算語(yǔ)言學(xué)這兩個(gè)大方向的不同點(diǎn):數(shù)字人文學(xué)科更注重可解釋性,研究者常常希望通過(guò)模型解釋作者識(shí)別結(jié)果或者分析作者風(fēng)格特點(diǎn);而計(jì)算語(yǔ)言學(xué)更關(guān)注算法本身的正確率、魯棒性、運(yùn)行效率等性能,而并非可解釋性.

        如果進(jìn)一步細(xì)分,作者身份識(shí)別任務(wù)通常有如下3 種不同的形式:閉集歸屬(Closed-set attribution)、開(kāi)集歸屬(Open-set attribution)和作者身份驗(yàn)證(Authorship verification)[14].也有研究者給出了不同的分類(lèi)標(biāo)準(zhǔn),他們把作者身份識(shí)別任務(wù)分為閉集歸屬、開(kāi)集歸屬以及作者身份概述(Authorship profiling),而把作者身份驗(yàn)證視為開(kāi)集歸屬的一種[12].一般而言,閉集歸屬指的是未知文檔的作者包含在候選作者集中的一類(lèi)問(wèn)題.這是相對(duì)比較簡(jiǎn)單的一種情況,也是學(xué)者們研究得最多的一類(lèi)問(wèn)題.而開(kāi)集歸屬則是未知文檔的作者不一定包含在候選作者集中的一類(lèi)問(wèn)題.這是比閉集歸屬更加困難的情況,在很多與互聯(lián)網(wǎng)相關(guān)的作者歸屬研究中,研究者常常會(huì)面臨龐大的候選作者集合以及未知文本不包含在候選作者集合中的情況.作者身份驗(yàn)證是確定給定的文本是否由某位作者撰寫(xiě)的任務(wù).它與開(kāi)集歸屬的主要區(qū)別在于,作者身份驗(yàn)證樣本數(shù)量少、候選作者集合單一.所有作者身份歸屬問(wèn)題都可以轉(zhuǎn)換為一組單獨(dú)的作者身份驗(yàn)證問(wèn)題[14].因此,作者身份驗(yàn)證問(wèn)題是作者識(shí)別中的基本問(wèn)題,研究有效處理此類(lèi)問(wèn)題的方法對(duì)于作者識(shí)別研究至關(guān)重要.

        本文后續(xù)章節(jié)的具體內(nèi)容如下:第1 節(jié)介紹了作者識(shí)別中的文體風(fēng)格特征,主要包括字符特征、詞匯特征、句法特征和語(yǔ)義特征在內(nèi)的多元文體特征;第2 節(jié)闡述了常見(jiàn)的作者識(shí)別方法,主要分為無(wú)監(jiān)督的方法和有監(jiān)督的方法;第3 節(jié)總結(jié)了作者識(shí)別中的一些多層面的研究,主要包括數(shù)據(jù)規(guī)模、跨域研究和特殊方法;第4 節(jié)介紹了與作者識(shí)別相關(guān)的一些評(píng)測(cè);第5 節(jié)綜述了作者識(shí)別領(lǐng)域的一些公開(kāi)數(shù)據(jù)集以及各種評(píng)價(jià)指標(biāo);第6 節(jié)指出作者識(shí)別領(lǐng)域存在的一些問(wèn)題;第7 節(jié)針對(duì)作者識(shí)別領(lǐng)域存在的問(wèn)題,分析并展望了該領(lǐng)域未來(lái)可能的發(fā)展趨勢(shì).

        1 文體風(fēng)格特征

        文體風(fēng)格是指作者在創(chuàng)作過(guò)程中表現(xiàn)出的一切行文方式的總和.作者的寫(xiě)作風(fēng)格來(lái)源于作者思想表達(dá)的方式.在表達(dá)過(guò)程中,作者會(huì)無(wú)意識(shí)地將其個(gè)性及社會(huì)背景融入進(jìn)去.雖然作者的寫(xiě)作風(fēng)格會(huì)隨著時(shí)間的推移而慢慢改變,但研究者通常都假定衡量作者寫(xiě)作風(fēng)格的特征元素始終存在,并且可以通過(guò)某種技術(shù)手段進(jìn)行量化.文體風(fēng)格特征主要分為一元文體特征和多元文體特征.一元文體特征主要包括單詞長(zhǎng)度、句子長(zhǎng)度、段落數(shù)、總詞匯量等,具有簡(jiǎn)單、便于統(tǒng)計(jì)等特點(diǎn),因此早期的作者識(shí)別采用的都是一元文體特征.然而,一元文體特征過(guò)于簡(jiǎn)單,無(wú)法進(jìn)行更深入的分析,因此研究者又提出多元文體特征.多元文體特征往往是一些簡(jiǎn)單特征的進(jìn)一步組合,研究表明多層面的文本特征能夠有效提高作者識(shí)別的準(zhǔn)確率[15].根據(jù)文體風(fēng)格特征對(duì)語(yǔ)言學(xué)計(jì)算的需求和復(fù)雜度,可以將多元文體特征分成字符特征、詞匯特征、句法特征和語(yǔ)義特征等[1].有關(guān)一元文體特征的研究在上一部分已經(jīng)簡(jiǎn)單敘述,本部分主要針對(duì)幾類(lèi)典型的多元文體特征進(jìn)行闡述.

        1.1 字符特征

        字符是指文本中使用的字母、數(shù)字、字和符號(hào).根據(jù)字符的種類(lèi)可以定義各種字符級(jí)別的度量:字母字符數(shù)、數(shù)字字符數(shù)、大寫(xiě)和小寫(xiě)字符數(shù)、字母頻率、標(biāo)點(diǎn)符號(hào)數(shù)等.這種類(lèi)型的度量很容易用于任何自然語(yǔ)言和語(yǔ)料庫(kù),并且已被證明對(duì)量化寫(xiě)作風(fēng)格非常有效[13].更高階的字符特征是基于字符組合的特征,研究者稱(chēng)其為字符n-gram.字符n-gram即為n個(gè)連續(xù)字符的組合,這種高階字符特征具有很多優(yōu)秀的性質(zhì).它可以捕捉到作者風(fēng)格的細(xì)微差別,包括由詞匯、上下文、標(biāo)點(diǎn)符號(hào)以及大小寫(xiě)變動(dòng)所帶來(lái)的差別[16].而且,字符n-gram 比單一字符抗干擾能力強(qiáng),特別適合短文以及風(fēng)格多變的網(wǎng)絡(luò)文章、電子郵件等.

        很多研究者嘗試使用字符n-gram 來(lái)進(jìn)行作者識(shí)別研究.Keselj 等[17]提出一種通過(guò)計(jì)算和比較字符n-gram 頻率識(shí)別作者的方法.該方法由1976 年的開(kāi)創(chuàng)性方法衍生,首先選擇少量頻繁出現(xiàn)的字符n-gram 構(gòu)建文檔輪廓,然后選擇包含在輪廓中的最佳n元組計(jì)算文檔的相似度.在對(duì)英語(yǔ)、希臘語(yǔ)和中文數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)中證明了該方法的有效性和語(yǔ)言獨(dú)立性.Houvardas 和Stamatatos[18]在Keselj 研究的基礎(chǔ)上做了改進(jìn),他提出了一種可變長(zhǎng)度的ngram 方法,用于選擇可變長(zhǎng)度的單詞序列.研究結(jié)果表明該方法至少與選擇最重要的n-gram 的信息增益一樣有效.

        Keselj 等的研究是作者識(shí)別領(lǐng)域中n-gram 特征與作者輪廓相結(jié)合的早期研究,最初的作者輪廓只包含單一類(lèi)型的特征,比如只包含字符n-gram或者詞匯頻率,后面也逐漸發(fā)展出包含不同類(lèi)型特征的作者輪廓.Stamatatos[19]提出一種基于特征集子空間的作者識(shí)別方法,把每個(gè)文本表示為字符ngram 的頻率向量,產(chǎn)生了具有高準(zhǔn)確率的分類(lèi)模型.這是基于字符n-gram 的集合模型,給后續(xù)研究提供了新的思路.

        除了由字符組成的n-gram 之外,一些研究者也會(huì)探究由單詞、詞性(Part of speech,POS)標(biāo)簽、標(biāo)點(diǎn)符號(hào)、詞綴等元素組成的n-gram 在作者識(shí)別中的應(yīng)用.Sapkota 等[20]研究了與不同語(yǔ)言特征相對(duì)應(yīng)的字符n-gram 子組,結(jié)果表明關(guān)于詞綴和標(biāo)點(diǎn)符號(hào)的n-gram 幾乎占據(jù)了字符n-gram 的所有功能,為將來(lái)的作者識(shí)別工作和其他分類(lèi)任務(wù)使用n-gram 提供了新的見(jiàn)解.Sari 等[21]使用連續(xù)的字符和單詞n-gram 表示研究作者身份歸屬,與使用離散特征表示的工作相比,模型可以通過(guò)神經(jīng)網(wǎng)絡(luò)與分類(lèi)層一起學(xué)習(xí)n-gram 特征的連續(xù)表示,進(jìn)而產(chǎn)生較優(yōu)的的結(jié)果.Gomez-Adorno 等[22]利用字符、單詞和POS 標(biāo)簽的n-gram去學(xué)習(xí)文檔段落向量,獲得了優(yōu)于基于單詞嵌入和基于字符n-gram 線(xiàn)性模型的結(jié)果.

        1.2 詞匯特征

        詞匯是一種語(yǔ)言里所有詞語(yǔ)和固定短語(yǔ)的總和.最初的作者識(shí)別研究就是對(duì)詞匯進(jìn)行簡(jiǎn)單地統(tǒng)計(jì)分析,這種方法簡(jiǎn)單易行,適用于任何語(yǔ)言和任何語(yǔ)料庫(kù).然而,對(duì)于某些自然語(yǔ)言,還需要一些其他輔助手段.比如,漢語(yǔ)需要首先進(jìn)行分詞,然后才能進(jìn)行詞匯的統(tǒng)計(jì)分析.某些大量使用縮寫(xiě)或首字母縮寫(xiě)的文本,應(yīng)當(dāng)加入相應(yīng)的識(shí)別規(guī)則,盡管在這一過(guò)程中可能引入相當(dāng)大的噪聲.

        詞匯的豐富程度被認(rèn)為是衡量作者寫(xiě)作風(fēng)格的一個(gè)重要因素,有些研究者提出了各種各樣函數(shù)來(lái)衡量詞匯豐富度.后續(xù)研究者更多的是通過(guò)實(shí)驗(yàn)驗(yàn)證不同組合的有效性.Burrows[23]概述了使用常用詞的相對(duì)頻率來(lái)比較書(shū)面文本和測(cè)試其可能的作者身份的方法,其中涉及的程序?yàn)閰^(qū)分超過(guò)1500 字長(zhǎng)的文本作者提供了一個(gè)簡(jiǎn)單但相對(duì)準(zhǔn)確的補(bǔ)充.Hoover[24]探討了使用詞匯豐富度進(jìn)行作者識(shí)別的效果,并測(cè)試了詞匯豐富度的適當(dāng)度量可以捕捉作者寫(xiě)作風(fēng)格或身份的假設(shè).實(shí)驗(yàn)表明,詞匯豐富度在文體和作者研究中具有邊際價(jià)值,而它對(duì)于大型文本群體是無(wú)效的,因?yàn)椴煌谋局g存在極大的可變性.Garcia 和Martin[25]根據(jù)前人在詞匯領(lǐng)域里提出的諸多參數(shù),研究它們實(shí)際表征的文本特定特征,以尋求一種可靠的表達(dá)方式來(lái)衡量作者的詞匯豐富度.實(shí)驗(yàn)證實(shí),不同參數(shù)可以互相補(bǔ)充,富文本往往通過(guò)其低功能來(lái)表征密度,反之亦然.

        然而,詞匯豐富度往往與很多因素密切相關(guān),比如文本的主題、內(nèi)容、類(lèi)別等因素.因此研究者需要進(jìn)一步考慮根據(jù)何種詞匯特征來(lái)衡量特定作者的寫(xiě)作風(fēng)格.功能詞被認(rèn)為是區(qū)分作者的有效特征之一.由于功能詞不攜帶任何語(yǔ)義信息,與文本主題無(wú)關(guān),作者很大程度上是在無(wú)意識(shí)的情況下使用它們,因此功能詞能夠捕捉不同作者的寫(xiě)作風(fēng)格.Zhao和Zobel[26]研究功能詞在新聞專(zhuān)線(xiàn)文章作者歸屬中的性能,并通過(guò)增大數(shù)據(jù)量進(jìn)一步觀察其表現(xiàn).實(shí)驗(yàn)證實(shí)基于功能詞特征的方法具有較好的可擴(kuò)展性,隨著問(wèn)題規(guī)模的增加,其性能只有適度的下降.Coyotl-Morales 等[27]通過(guò)組合功能詞和內(nèi)容詞的一組詞序列來(lái)表征文檔,并用詩(shī)歌進(jìn)行分類(lèi)實(shí)驗(yàn),得到了優(yōu)于大多數(shù)方法的結(jié)果.

        還有一種與功能詞類(lèi)似的思路,就是為特定作者定義詞匯特征集.一種簡(jiǎn)單且常見(jiàn)的方法是在語(yǔ)料庫(kù)中提取常用詞,然后再?zèng)Q定用作特征的頻繁單詞的數(shù)量.不同研究者所定義的詞匯特征集大小不同,除了他們個(gè)人對(duì)衡量作者文本風(fēng)格的因素的把握之外,所使用的分類(lèi)算法也會(huì)在很大程度上限制特征集的規(guī)模.因?yàn)楫?dāng)問(wèn)題的維度增加時(shí),許多分類(lèi)器會(huì)出現(xiàn)過(guò)擬合.并且,特征集維度增加時(shí),一些特定于內(nèi)容的單詞也會(huì)包括在該特征集中.

        Stamatatos[28]提取1000 個(gè)最常用的單詞構(gòu)建特征集,研究基于特征集子空間的分類(lèi)器集合.結(jié)果表明,使用窮舉的不相交子空間構(gòu)造的集合在兩個(gè)基準(zhǔn)語(yǔ)料庫(kù)上得到了較優(yōu)的結(jié)果.Koppel 等[29]使用250 個(gè)最常用的單詞構(gòu)建特征集,利用基于學(xué)習(xí)的方法表征兩個(gè)示例集之間的 “差異深度”,并證明了該方法以非常高的準(zhǔn)確率解決了作者身份驗(yàn)證問(wèn)題.Savoy[30]提出一種計(jì)算標(biāo)準(zhǔn)化Z分?jǐn)?shù)的技術(shù),該分?jǐn)?shù)能夠定義未知文本中的特定詞匯.與其他方法相比較,該方法優(yōu)于基于最常用詞的Delta 方法、基于詞匯和標(biāo)點(diǎn)符號(hào)的卡方距離以及基于預(yù)定義的方法.Akimushkin 等[31]引入一種通用的相似性度量來(lái)比較文本,通過(guò)考慮對(duì)應(yīng)于節(jié)點(diǎn)的單詞來(lái)增強(qiáng)復(fù)雜網(wǎng)絡(luò)中文本的表示.在3 個(gè)書(shū)集上的實(shí)驗(yàn)表明,該方法獲得了超過(guò)90 %的準(zhǔn)確率,比基于詞頻?逆文本頻率指數(shù)(Term frequency-inverse document frequency,TF-IDF)的傳統(tǒng)方法要高得多,也比不考慮節(jié)點(diǎn)標(biāo)簽的其他網(wǎng)絡(luò)方法要高.

        1.3 句法特征

        句法是句子各個(gè)組成部分排列規(guī)則的統(tǒng)稱(chēng).研究者一般認(rèn)為作者的寫(xiě)作風(fēng)格在很大程度上由其遣詞造句的模式?jīng)Q定.因此,句法特征在很長(zhǎng)一段時(shí)間內(nèi)都受到研究者的重視.句法特征分為淺層句法特征和深層句法特征.淺層句法特征是指不需要經(jīng)過(guò)句法解析就能提取的特征,比如詞匯n-gram;而深層句法特征則是必須要經(jīng)過(guò)句法解析才能提取的特征,比如依存句法.淺層句法特征多是一些詞匯特征組合,在之前的章節(jié)中已有敘述,本節(jié)著重?cái)⑹錾顚泳浞ㄌ卣?

        深層句法特征能夠表達(dá)隱含的文本結(jié)構(gòu),并且在更高維度上刻畫(huà)作者寫(xiě)作風(fēng)格.因此,與詞匯特征和淺層句法特征相比,深層句法特征被認(rèn)為是更可靠的作者指紋.Raghavan 等[32]為每個(gè)作者構(gòu)建概率上下文無(wú)關(guān)文法,并使用該文法作為分類(lèi)的語(yǔ)言模型進(jìn)行作者歸屬.該方法在幾個(gè)數(shù)據(jù)集上的性能優(yōu)于基線(xiàn)模型,并且還具有一定的擴(kuò)展性.

        句法樹(shù)是描述句子中各種不同成分之間相互關(guān)系的樹(shù)狀結(jié)構(gòu),在句法特征的研究中有著重要的應(yīng)用.常見(jiàn)的兩種句法樹(shù)是短語(yǔ)結(jié)構(gòu)樹(shù)(Constituent tree)和依存句法樹(shù)(Dependency tree),二者的主要區(qū)別在于短語(yǔ)結(jié)構(gòu)樹(shù)用來(lái)描述句子的句法結(jié)構(gòu),葉子結(jié)點(diǎn)與輸入句子中的詞語(yǔ)相關(guān)聯(lián),中間結(jié)點(diǎn)都是標(biāo)記短語(yǔ)成分;而依存樹(shù)用來(lái)表達(dá)句子中詞與詞的依存關(guān)系,其每個(gè)結(jié)點(diǎn)都是一個(gè)詞語(yǔ),詞語(yǔ)之間通過(guò)有向依存弧連接,依存弧上標(biāo)有相應(yīng)的依存關(guān)系.

        有些研究者嘗試使用短語(yǔ)結(jié)構(gòu)樹(shù)研究作者識(shí)別.Tschuggnall 和Specht[33]提出一種通過(guò)分析作者的句法來(lái)增強(qiáng)作者識(shí)別的方法.該方法先計(jì)算文本中每個(gè)句子的短語(yǔ)結(jié)構(gòu)樹(shù),再使用pq-gram 將其分成長(zhǎng)度無(wú)關(guān)的模式,然后使用最常用的pq-gram來(lái)組成作者的樣本,再利用各種距離度量和相似性得分進(jìn)行作者識(shí)別.使用三個(gè)不同且獨(dú)立的數(shù)據(jù)集進(jìn)行的評(píng)估得到了有希望的結(jié)果.Patchala 和Bhatnagar 等[34]提出了一種有效的基于模板的方法,用于組合文檔的各種句法特征以進(jìn)行作者分析.基于短語(yǔ)結(jié)構(gòu)樹(shù)的特征獨(dú)立于文檔主題,能夠反映作者固有的寫(xiě)作風(fēng)格.結(jié)果表明,使用包括解析樹(shù)子樹(shù)的模板以及其他句法特征可以提高作者識(shí)別正確率.Zhang 等[35]提出一種將句子的短語(yǔ)結(jié)構(gòu)樹(shù)編碼為可學(xué)習(xí)的分布式表示形式的方法.該方法為句子中的每個(gè)單詞構(gòu)造一個(gè)嵌入向量,在對(duì)應(yīng)于該單詞的句法樹(shù)中對(duì)路徑進(jìn)行編碼.此方法在五個(gè)數(shù)據(jù)集上獲得了更高的準(zhǔn)確率.

        Sidorov 帶領(lǐng)的研究團(tuán)隊(duì)提出句法n-gram 的概念.傳統(tǒng)的n-gram 是文本中若干同類(lèi)元素的順序組合,這些元素可以是字符、單詞、POS 標(biāo)簽等.而句法n-gram 則是句法樹(shù)中若干同類(lèi)元素在句法路徑上的順序組合.換句話(huà)說(shuō),句法n-gram 是根據(jù)句法樹(shù)中的路徑構(gòu)造的n-gram,而不是在文本的表面表示中獲取的.從本質(zhì)上來(lái)說(shuō),傳統(tǒng)的n-gram 是對(duì)文本局部信息的描述;而句法n-gram 則是對(duì)句法樹(shù)或句法結(jié)構(gòu)局部信息的描述.因此,與傳統(tǒng)ngram 相比,句法n-gram 將句法知識(shí)引入機(jī)器學(xué)習(xí)方法中.

        Sidorov 等[36]利用基于句法關(guān)系(Syntactic relation,SR)標(biāo)簽的句法n-gram 特征搭配支持向量機(jī)(Support vector machine,SVM)、樸素貝葉斯(Naive Bayes,NB)和樹(shù)分類(lèi)器J48 進(jìn)行作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,與多種傳統(tǒng)的n-gram 相比,基于SR 標(biāo)簽的句法n-gram 獲得了更好的結(jié)果.并且在絕大多數(shù)情況下,SVM 要優(yōu)于NB 和J48.句法ngram 把特征組合的思想從鏈?zhǔn)浇Y(jié)構(gòu)拓展到樹(shù)形結(jié)構(gòu)上,擴(kuò)展了n-gram 特征的維度.同時(shí)為研究者提供了一種衡量句法樹(shù)相似程度的思路,研究者可以通過(guò)衡量句法樹(shù)之間的距離間接判斷不同文本的相似程度.

        受此思想的影響,學(xué)者們進(jìn)一步探究了不同的句法n-gram 特征在作者識(shí)別中的應(yīng)用.Posadas-Duran 等[37]提出了一種基于完整的句法n-gram 作為風(fēng)格標(biāo)記的作者身份歸屬方法.該方法利用SR標(biāo)簽、POS 標(biāo)簽以及詞根的句法n-gram 等特征刻畫(huà)作者的寫(xiě)作風(fēng)格,并利用SVM 進(jìn)行分類(lèi).實(shí)驗(yàn)結(jié)果表明,完整的句法n-gram 是比字符n-gram 更有效的識(shí)別作者的特征,使用該方法可以在較小的樣本集中獲得更準(zhǔn)確的結(jié)果.在另外兩篇文章中,Posadas-Duran 等又把多種基于句法的n-gram 特征用于PAN 2015 作者身份驗(yàn)證任務(wù)[38]和作者身份概述任務(wù)[39]上.結(jié)果表明,在作者身份驗(yàn)證任務(wù)中,荷蘭語(yǔ)獲得了較低的分?jǐn)?shù),而英語(yǔ)和西班牙語(yǔ)獲得了適中的分?jǐn)?shù);而在作者身份概述任務(wù)中,在預(yù)測(cè)個(gè)人特征時(shí),將句法n-gram 與其他特定的推文特征結(jié)合使用可以獲得良好的結(jié)果;但在預(yù)測(cè)年齡和性別特征時(shí),它們的使用則并不成功.

        1.4 語(yǔ)義特征

        語(yǔ)義特征是根據(jù)文本語(yǔ)言所蘊(yùn)含的意義而提取的特征.由于語(yǔ)義特征與文本的內(nèi)容和主題相關(guān)性強(qiáng),并不容易借助它捕捉作者自然流露出的寫(xiě)作風(fēng)格,因此語(yǔ)義特征在作者識(shí)別領(lǐng)域內(nèi)的應(yīng)用較少.應(yīng)用語(yǔ)義特征進(jìn)行作者識(shí)別的研究者往往也會(huì)把語(yǔ)義特征和字符、詞匯、句法等特征結(jié)合起來(lái)使用,以提高作者識(shí)別的準(zhǔn)確率.

        Gamon[40]提出了一些特征集和分類(lèi)方法,并使用了一種能夠生成語(yǔ)義依賴(lài)圖的工具,實(shí)驗(yàn)結(jié)果表明深度語(yǔ)言分析特征可以在更常用的淺層特征上實(shí)現(xiàn)顯著的誤差減少.武曉春等[41]依據(jù)文體學(xué)理論,利用HowNet 知識(shí)庫(kù),提出一種基于詞匯語(yǔ)義分析的相似度評(píng)估方法,利用功能詞以外的其他詞匯,達(dá)到了較好的作者識(shí)別效果.Argamon 等[42]基于確定的詞或短語(yǔ)的各種語(yǔ)義功能,提出一種詞匯特征用于文體分類(lèi).實(shí)驗(yàn)證明,這些特征對(duì)于確定作者身份和國(guó)籍的分類(lèi)任務(wù)具有重要作用.Hedegaard和Simonsen[43]使用基于框架語(yǔ)義的分類(lèi)器研究作者身份歸屬,并測(cè)試它們對(duì)翻譯文本的適用性.結(jié)果表明,對(duì)于翻譯文本而言,框架是有用的,并且頻繁詞和框架的組合方法可以勝過(guò)僅基于傳統(tǒng)標(biāo)記的方法.而對(duì)于未翻譯文本,頻繁詞和n-gram 則是首選.

        1.5 對(duì)比分析

        本節(jié)從特征細(xì)分、獲取難易度、應(yīng)用廣泛度等其他方面來(lái)比較不同的文本特征.表1 給出了這些方面的比較.作者識(shí)別與文本分類(lèi)、情感分析、關(guān)系抽取等自然語(yǔ)言處理任務(wù)均屬于文本理解范疇,而它們所關(guān)注的文本知識(shí)類(lèi)型不同.Daelemans 區(qū)分了可以從文本中提取的三種知識(shí)類(lèi)型:客觀知識(shí)、主觀知識(shí)和元知識(shí).客觀知識(shí)主要是回答誰(shuí)、什么、什么地方、什么時(shí)候等問(wèn)題的知識(shí);主觀知識(shí)是回答誰(shuí)對(duì)什么有何看法等問(wèn)題的知識(shí);而元知識(shí)是除了內(nèi)容本身以外,能從文本中提取到的關(guān)于作者個(gè)人信息或者個(gè)人寫(xiě)作風(fēng)格等方面的知識(shí)[44].按照這個(gè)分類(lèi)標(biāo)準(zhǔn),文本分類(lèi)和關(guān)系抽取提取的是客觀知識(shí),情感分析提取的是主觀知識(shí),而作者識(shí)別提取的是元知識(shí).因此,研究者傾向于選擇與文本內(nèi)容無(wú)關(guān)的特征來(lái)進(jìn)行作者識(shí)別,而其他自然語(yǔ)言處理任務(wù)通常與文本內(nèi)容相關(guān).具體來(lái)說(shuō),文本分類(lèi)需要根據(jù)文本內(nèi)容將文本分配給一個(gè)或多個(gè)類(lèi),因此文本分類(lèi)的特征通常是文檔中的單詞[45];情感分析需要識(shí)別文本中帶有意見(jiàn)和情感的句子,因此情感分析的特征常常是評(píng)論性短語(yǔ)或單詞[46];關(guān)系抽取是從文本中識(shí)別實(shí)體并對(duì)這些實(shí)體進(jìn)行關(guān)系分類(lèi)的任務(wù),它的特征通常是單詞、字符串以及各種關(guān)系短語(yǔ)[47]

        表1 文體風(fēng)格特征對(duì)比表Table 1 Comparative table of stylometry

        2 作者識(shí)別方法

        一般情況下,作者識(shí)別的過(guò)程可以分為兩個(gè)步驟,第一個(gè)步驟就是提取能夠衡量特定作者寫(xiě)作風(fēng)格的文本特征集,第二個(gè)步驟就是建立由特征集預(yù)測(cè)作者歸屬的模型.研究者通常稱(chēng)第一個(gè)步驟為作者風(fēng)格分析(Authorship style analysis),第二個(gè)步驟為作者身份建模(Authorship modeling).有些時(shí)候,作者身份建模也指由文本建立預(yù)測(cè)作者歸屬模型的過(guò)程.圖1 展示了一般的作者識(shí)別流程:將已知作者的文本經(jīng)過(guò)特征提取器生成特征向量,這些特征向量結(jié)合特定的作者分類(lèi)算法經(jīng)過(guò)訓(xùn)練得到作者識(shí)別模型,該模型可以識(shí)別未知作者的文本.將未知作者的文本也通過(guò)一個(gè)特征提取器得到特征向量,再利用之前生成的作者識(shí)別模型分類(lèi)這些向量,即可得到作者識(shí)別結(jié)果.在這里,已知文本經(jīng)過(guò)的特征提取器與未知文本經(jīng)過(guò)的特征提取器對(duì)應(yīng)同一個(gè)特征集.該流程幾乎涵蓋了絕大多數(shù)作者識(shí)別研究,可以說(shuō)通過(guò)建立特征集來(lái)識(shí)別作者的研究都可以用該流程來(lái)描述.后面會(huì)敘述一些不通過(guò)構(gòu)建特征集實(shí)現(xiàn)作者識(shí)別的特殊方法,這些方法不能用該流程表述.

        圖1 作者識(shí)別流程圖Fig.1 Flow diagram of authorship identification

        在傳統(tǒng)的作者識(shí)別研究中,作者身份建模主要依靠相關(guān)專(zhuān)家的經(jīng)驗(yàn).隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展與進(jìn)步,研究者提出了很多建模方法.從大的層面來(lái)分,作者身份建模主要分為基于輪廓的建模(Profilebased modeling) 和基于實(shí)例的建模(Instancebased modeling).二者都是基于訓(xùn)練文本構(gòu)建作者歸屬模型的過(guò)程,不同的是在基于輪廓的建模中,每位作者的所有文本會(huì)被累計(jì)處理,即它們會(huì)在一個(gè)大文檔中連接,然后提取單個(gè)表示作為作者的輪廓;而在基于實(shí)例的建模中,每位作者的所有文本將單獨(dú)處理,每個(gè)文本樣本都有自己的表示[14].通常情況下,基于實(shí)例的建模要與機(jī)器學(xué)習(xí)算法相結(jié)合,每個(gè)類(lèi)常常需要多個(gè)實(shí)例.因此,當(dāng)每個(gè)作者有多個(gè)文本可用或者可以將長(zhǎng)文本拆分成多個(gè)樣本時(shí),基于實(shí)例的建模會(huì)更有效.另一方面,當(dāng)每個(gè)作者僅有較短或有限的文本樣本時(shí),基于輪廓的建模會(huì)更有效[48].

        除此之外,還可以根據(jù)使用的數(shù)據(jù)是否有標(biāo)注而把作者識(shí)別方法分為無(wú)監(jiān)督的方法(Unsupervised method)和有監(jiān)督的方法(Supervised method).其中,無(wú)監(jiān)督的方法使用的是無(wú)標(biāo)注的數(shù)據(jù),比如聚類(lèi)、主題建模等;而有監(jiān)督的方法使用的則是有標(biāo)注的數(shù)據(jù),比如樸素貝葉斯、支持向量機(jī)、決策樹(shù)、k近鄰方法、神經(jīng)網(wǎng)絡(luò)等.有監(jiān)督的方法還可以進(jìn)一步細(xì)分為生成方法和判別方法.首先學(xué)習(xí)聯(lián)合概率分布,進(jìn)而求得條件概率分布的方法是生成方法,對(duì)應(yīng)的模型是生成模型;直接學(xué)習(xí)條件概率分布或決策函數(shù)的方法為判別方法,對(duì)應(yīng)的模型是判別模型[49].樸素貝葉斯屬于生成方法,而支持向量機(jī)、決策樹(shù)、k近鄰方法、神經(jīng)網(wǎng)絡(luò)等屬于判別方法.本節(jié)采用這種分類(lèi)方式論述作者識(shí)別方法.

        2.1 無(wú)監(jiān)督的方法

        無(wú)監(jiān)督的方法是從無(wú)標(biāo)注的數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)規(guī)律或內(nèi)在結(jié)構(gòu)的方法,它的基本思想是對(duì)給定數(shù)據(jù)進(jìn)行某種 “壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu),假定損失最小的壓縮得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)[49].無(wú)監(jiān)督的方法不借助先驗(yàn)的類(lèi)別知識(shí),機(jī)器自己尋找數(shù)據(jù)中的規(guī)律.與有監(jiān)督的方法相比,無(wú)監(jiān)督的方法通常需要更多的訓(xùn)練數(shù)據(jù)才能發(fā)現(xiàn)其規(guī)律.在作者識(shí)別領(lǐng)域,研究者大多基于標(biāo)記的文本進(jìn)行研究,因此多選用有監(jiān)督的方法,無(wú)監(jiān)督的方法很少,本部分主要介紹聚類(lèi)和主題建模等方法.

        2.1.1 聚類(lèi)方法

        聚類(lèi)是根據(jù)樣本的相似程度將其劃分為若干子集的數(shù)據(jù)分析方法.這些子集被稱(chēng)為 “類(lèi)”或 “簇”,它們通常是不相交的.與分類(lèi)算法不同的是,聚類(lèi)算法不借助事先定義的類(lèi)別,而讓機(jī)器自己進(jìn)行劃分,使得每一類(lèi)或簇中的樣本相似,而不同類(lèi)或簇中的樣本相異.聚類(lèi)主要包括k均值聚類(lèi)、層次聚類(lèi)、高斯混合聚類(lèi)等方法.有些研究者利用聚類(lèi)來(lái)研究作者識(shí)別.

        Jin 和Jiang[50]使用基于標(biāo)點(diǎn)符號(hào)特征的文本聚類(lèi)方法研究現(xiàn)代作家的身份識(shí)別問(wèn)題.該方法融合了句子節(jié)奏特征的信息,同時(shí)具有低維的特性.實(shí)驗(yàn)結(jié)果表明,Kullback-Leibler 散度優(yōu)于歐氏距離和余弦距離,Ward 層次聚類(lèi)優(yōu)于k均值聚類(lèi).基于Kullback-Leibler 散度的Ward 層次聚類(lèi)可以達(dá)到96 %的準(zhǔn)確率.Hacohen-Kerner 和Margaliot[51]使用最頻繁詞(含功能詞)、最頻繁過(guò)濾詞(不含功能詞)和方差值最高的詞以及k均值聚類(lèi)和期望最大化算法研究猶太文本的作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,最頻繁詞(含功能詞)是效果最好的單詞列表,期望最大化算法優(yōu)于k均值聚類(lèi),最佳結(jié)果獲得98 %的精度,并且改善率超過(guò)40 %.Fifield 等[52]提出一種利用多個(gè)聚類(lèi)組合識(shí)別文本作者的方法,并展示了其在具有多種風(fēng)格的文本上的應(yīng)用.該方法重復(fù)進(jìn)行m次聚類(lèi),每次都使用相對(duì)于上次偏移的片段,在群集內(nèi)重新分配標(biāo)簽,以使群集盡可能一致,把m個(gè)重新標(biāo)記的聚類(lèi)的平均值作為結(jié)果.所提出的方法在少量作者的情況下表現(xiàn)出較低的一致性,有待后續(xù)改進(jìn).

        Mansoorizadeh 等[53]選擇單詞n-gram、詞性標(biāo)簽n-gram、句長(zhǎng)、標(biāo)點(diǎn)符號(hào)n-gram 等作為特征,組合不同的特征構(gòu)成特征空間,并將其用于文檔聚類(lèi).實(shí)驗(yàn)結(jié)果表明,所提出的方法精度較低,問(wèn)題可能出在群集編號(hào)選擇或特征空間上.因此,未來(lái)的工作可以使用更復(fù)雜的聚類(lèi)方法以及更優(yōu)的群集參數(shù)選擇方法.Bagnall[54]使用多頭循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)作者身份聚類(lèi),該方法使用由多個(gè)語(yǔ)言模型共享的循環(huán)狀態(tài),以相對(duì)熵的形式生成分?jǐn)?shù),將神經(jīng)網(wǎng)絡(luò)的輸出轉(zhuǎn)換為聚類(lèi)決策.實(shí)驗(yàn)結(jié)果表明,所提出的方法時(shí)間成本較高,在一些困難問(wèn)題上似乎表現(xiàn)良好,但很難與其他方法進(jìn)行比較.Agarwal 等[55]將文檔表示為對(duì)應(yīng)于每個(gè)單詞的嵌入向量的TF-IDF 加權(quán)總和,并使用層次聚類(lèi)進(jìn)行作者歸屬.結(jié)果表明,所提出的方法在作者聚類(lèi)和作者身份鏈接排名任務(wù)上具有良好的性能,超過(guò)PAN 2017 作者聚類(lèi)任務(wù)的最佳結(jié)果.

        2.1.2 主題建模方法

        主題建模(Topic modeling)是通過(guò)對(duì)語(yǔ)料進(jìn)行分析,學(xué)習(xí)、識(shí)別和提取文檔主題的過(guò)程.在文本信息處理領(lǐng)域,傳統(tǒng)方法是以單詞向量表示文本內(nèi)容,以單詞向量空間中的度量衡量文本之間的相似度;而主題建模的基本思想是以主題向量表示文本內(nèi)容,以主題向量空間中的度量更準(zhǔn)確地衡量文本之間的相似度[49].本部分主要介紹潛在語(yǔ)義分析(Latent semantic analysis,LSA)和潛在狄利克雷分配(Latent Dirichlet allocation,LDA)等主題建模方法以及它們?cè)谧髡咦R(shí)別中的應(yīng)用.

        1) LSA

        LSA 將文本集合表示為單詞?文本矩陣,通過(guò)對(duì)其進(jìn)行奇異值分解,把單詞和文本映射到一個(gè)低維的語(yǔ)義空間,從而實(shí)現(xiàn)對(duì)單詞和文本更本質(zhì)的表達(dá).有的研究者把LSA 用于作者識(shí)別研究.Nakov[56]使用LSA 來(lái)研究德國(guó)文學(xué)作品,并驗(yàn)證該方法能否區(qū)分作者以及自動(dòng)發(fā)現(xiàn)散文和詩(shī)歌.結(jié)果表明,在一般情況下,使用LSA 可以區(qū)分所選的德國(guó)作者,但對(duì)于某些作者來(lái)說(shuō)似乎很難.同時(shí),實(shí)驗(yàn)結(jié)果為自動(dòng)發(fā)現(xiàn)散文和詩(shī)歌的假設(shè)提供了有力的支持.Satyam 等[57]在基于字符n-gram 的統(tǒng)計(jì)模型上應(yīng)用LSA,以獲得文檔對(duì)之間的相似性,并使用文檔相似性的統(tǒng)計(jì)分析來(lái)確定閾值.該方法運(yùn)行時(shí)間很短,整體性能與大多數(shù)其他方法相當(dāng),在英文小說(shuō)文本中達(dá)到了最好的效果,而在西班牙文和希臘文中效果欠佳.

        2) LDA

        LDA 是基于貝葉斯理論的主題模型,它假設(shè)每個(gè)文檔都可以表示為潛在主題的概率分布,并且所有文檔的主題分布都具有相同的狄利克雷優(yōu)先級(jí);同時(shí)每個(gè)潛在主題可以表示為單詞的概率分布,并且主題的單詞分布也具有相同的狄利克雷優(yōu)先級(jí)[58].有的研究者使用LDA 研究作者識(shí)別.Seroussi 等[59]利用LDA 對(duì)文本和作者進(jìn)行建模,并使用基于LDA表示形式的文本距離對(duì)測(cè)試文本進(jìn)行分類(lèi).實(shí)驗(yàn)結(jié)果表明,當(dāng)訓(xùn)練文本足夠多且存在有效作者時(shí),該方法的準(zhǔn)確率超過(guò)基準(zhǔn)方法,而運(yùn)行時(shí)間大大降低.Savoy[60]利用LDA 把每個(gè)文檔建模為主題分布的混合,每個(gè)主題指定單詞的分布,根據(jù)爭(zhēng)議文本距離確定可能的作者歸屬.實(shí)驗(yàn)結(jié)果表明,基于LDA的分類(lèi)方案優(yōu)于基于Delta 規(guī)則的分類(lèi)方案,同時(shí),基于LDA 的方案在考慮更多術(shù)語(yǔ)時(shí)可以提供更好的有效性.Anwar 等[61]使用LDA 與n-gram 結(jié)合的方法生成烏爾都語(yǔ)語(yǔ)料庫(kù)的降維主題表示,并使用該主題表示與改進(jìn)的平方根余弦距離度量對(duì)測(cè)試文檔進(jìn)行分類(lèi).結(jié)果表明,所提出的方法具有很高的精度,在由6000 個(gè)文檔組成的數(shù)據(jù)集上達(dá)到了92 %的F1 測(cè)量值.

        2.2 有監(jiān)督的方法

        有監(jiān)督的方法是從標(biāo)注的數(shù)據(jù)中學(xué)習(xí)模型預(yù)測(cè)的方法,其中標(biāo)注數(shù)據(jù)表示輸入和輸出的對(duì)應(yīng)關(guān)系,預(yù)測(cè)模型對(duì)給定的輸入產(chǎn)生相應(yīng)的輸出,因此從本質(zhì)上來(lái)說(shuō),有監(jiān)督的方法學(xué)習(xí)的是輸入到輸出映射的統(tǒng)計(jì)規(guī)律[49].與無(wú)監(jiān)督的方法相比,有監(jiān)督的方法可以利用先驗(yàn)的類(lèi)別知識(shí),因此準(zhǔn)確率通常較高,這使其成為作者識(shí)別研究中的主流方法.有監(jiān)督的方法可以按照模型類(lèi)型進(jìn)一步細(xì)分,比如可以分為概率模型與非概率模型、線(xiàn)性模型與非線(xiàn)性模型、參數(shù)化模型與非參數(shù)化模型、生成模型與判別模型等.本小節(jié)把有監(jiān)督的方法分為生成方法和判別方法,并著重介紹一些作者識(shí)別中常用的方法.

        2.2.1 生成方法

        生成方法是先學(xué)習(xí)聯(lián)合概率分布,進(jìn)而求得條件概率分布的方法,在監(jiān)督學(xué)習(xí)中,概率模型是生成模型[49].本部分主要介紹樸素貝葉斯方法.

        樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法[49].具體來(lái)說(shuō),它是在類(lèi)條件概率密度和先驗(yàn)概率已知的情況下,通過(guò)貝葉斯公式比較樣本屬于兩類(lèi)的后驗(yàn)概率,將類(lèi)別歸為后驗(yàn)概率較大的一類(lèi),這樣可以使總體錯(cuò)誤率最小[62].有些學(xué)者利用樸素貝葉斯研究作者身份識(shí)別.Zhao 和Zobel[63]選取55 位作者的634 篇文章,采用功能詞和POS 標(biāo)簽作為特征,使用樸素貝葉斯方法進(jìn)行作者識(shí)別.結(jié)果表明,以功能詞為特征的分類(lèi)效果高于POS 標(biāo)簽以及二者混合的結(jié)果.同時(shí)也證實(shí),作者具有可識(shí)別的寫(xiě)作風(fēng)格,并且簡(jiǎn)單的標(biāo)記就足以識(shí)別特定的作者.Boutwell[64]使用樸素貝葉斯分類(lèi)器,利用基于字符n-gram 的特征構(gòu)建作者集統(tǒng)計(jì)模型識(shí)別短信的作者歸屬.研究表明,把推文或者短信息聚在一起容易提取文本特征,更有利于作者識(shí)別.在最差的情況下,連接多個(gè)文本到一個(gè)文檔比起單獨(dú)檢測(cè)準(zhǔn)確率提高了50 %.Altheneyan和Menai[65]使用簡(jiǎn)單樸素貝葉斯、多項(xiàng)式樸素貝葉斯、多變量伯努利樸素貝葉斯和多變量泊松樸素貝葉斯等4 種方法研究阿拉伯文本的作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,多變量伯努利樸素貝葉斯達(dá)到了最高的準(zhǔn)確率97.43 %,它與多項(xiàng)式樸素貝葉斯適合用來(lái)研究作者身份歸屬.Howedi 和Mohd[66]選擇字符ngram 和單詞n-gram 作為文本特征,使用樸素貝葉斯分類(lèi)器進(jìn)行阿拉伯文本的作者識(shí)別,并與支持向量機(jī)進(jìn)行對(duì)比.實(shí)驗(yàn)結(jié)果表明,樸素貝葉斯整體優(yōu)于支持向量機(jī),基于單詞1-gram 的樸素貝葉斯達(dá)到了最高的準(zhǔn)確率96.67 %.

        2.2.2 判別方法

        判別方法是直接學(xué)習(xí)條件概率分布或決策函數(shù)的方法,在監(jiān)督學(xué)習(xí)中,非概率模型是判別模型[49].本部分主要介紹支持向量機(jī)、決策樹(shù)、k近鄰方法、神經(jīng)網(wǎng)絡(luò)等判別方法.

        1)支持向量機(jī)

        支持向量機(jī)的基本原理是找到一個(gè)最優(yōu)的分類(lèi)面,使得兩類(lèi)中距離這個(gè)分類(lèi)面最近的點(diǎn)和分類(lèi)面之間的距離最大[67].Diederich 等[68]利用支持向量機(jī)對(duì)德國(guó)報(bào)紙文本進(jìn)行作者歸屬,實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)在識(shí)別任務(wù)中始終具有良好的性能,不需要特征選擇,并且可以處理文本所有單詞的頻率向量.Schwartz 等[69]利用支持向量機(jī)研究微小信息在推特語(yǔ)料上的作者識(shí)別.結(jié)果表明,微小信息能夠取得好的識(shí)別效果,單個(gè)推文的作者可以在一系列短文本作者識(shí)別任務(wù)中被準(zhǔn)確識(shí)別.Mikros 和Perifanos[70]提取多級(jí)n-gram 輪廓,利用多類(lèi)支持向量分類(lèi)算法進(jìn)行分類(lèi),并使用10 次交叉驗(yàn)證和500 條實(shí)際推文的外部數(shù)據(jù)集評(píng)估分類(lèi)性能.結(jié)果表明,與單個(gè)n-gram 特征組相比,該方法獲得了更好的準(zhǔn)確性.Li 等[71]采用支持向量機(jī)方法研究了Facebook 的短社交網(wǎng)絡(luò)帖子的作者身份驗(yàn)證問(wèn)題.測(cè)試結(jié)果顯示,樣本大小、特征和用戶(hù)書(shū)寫(xiě)風(fēng)格對(duì)作者身份驗(yàn)證有較大影響,帶有線(xiàn)性?xún)?nèi)核的支持向量機(jī)方法可以達(dá)到79.6 %的準(zhǔn)確率,超過(guò)k近鄰方法.Martin-del-Campo-Rodriguez 等[72]結(jié)合傳統(tǒng)字符n-gram 引入標(biāo)點(diǎn)符號(hào)n-gram 作為文檔特征表示,從不同文本特征開(kāi)始對(duì)多個(gè)SVM 進(jìn)行訓(xùn)練,并用所有SVM 結(jié)果的平均值作為基準(zhǔn)確定作者歸屬.在針對(duì)開(kāi)集跨域作者識(shí)別的PAN 2019 競(jìng)賽中,此方法獲得了0.642 的F1 分?jǐn)?shù).Soler-Company 和Wanner[73]使用面向表面的、句法依賴(lài)的以及包含話(huà)語(yǔ)結(jié)構(gòu)特征的188 個(gè)特征構(gòu)建特征集,并利用帶內(nèi)核的支持向量機(jī)進(jìn)行作者識(shí)別.結(jié)果表明,句法依賴(lài)和話(huà)語(yǔ)特征的使用可以使總特征數(shù)量減少到小于200 個(gè),而識(shí)別結(jié)果仍然能達(dá)到較高水平.

        2)決策樹(shù)

        決策樹(shù)(Decision tree,DT)是機(jī)器學(xué)習(xí)中廣泛研究的方法之一,它是一種以實(shí)例為基礎(chǔ)的逼近離散函數(shù)的歸納學(xué)習(xí)方法[74].決策樹(shù)本質(zhì)上是從訓(xùn)練數(shù)據(jù)集中歸納出一組分類(lèi)規(guī)則,它的模型是非參數(shù)的、無(wú)分布的,并且對(duì)于異常值和不相關(guān)屬性具有魯棒性[75].有些研究者利用決策樹(shù)分類(lèi)方法研究文本作者識(shí)別.Frery 等[76]采用基于文本的幾種表示和優(yōu)化決策樹(shù)的機(jī)器學(xué)習(xí)方法進(jìn)行PAN 2014 作者身份識(shí)別任務(wù).該方法綜合性能排名第二,實(shí)驗(yàn)表明,構(gòu)建有效的屬性會(huì)大大提高算法在某些語(yǔ)料庫(kù)上的準(zhǔn)確性.Digamberrao 和Prasad[77]使用序貫最小優(yōu)化與基于規(guī)則的決策樹(shù)相結(jié)合,在五位作者撰寫(xiě)的馬拉地語(yǔ)文章中進(jìn)行作者識(shí)別,并基于不同標(biāo)準(zhǔn)評(píng)估了該方法的性能.結(jié)果表明,雖然在訓(xùn)練集減小時(shí)精度會(huì)降低,但該方法可以適用于英語(yǔ)、馬拉地語(yǔ)、孟加拉語(yǔ)等多種語(yǔ)言.也有的研究者利用隨機(jī)森林(Random forest,RF)研究作者身份歸屬問(wèn)題.隨機(jī)森林是包含多棵決策樹(shù)的分類(lèi)器,它通過(guò)集成學(xué)習(xí)把若干棵決策樹(shù)的輸出集合起來(lái),綜合評(píng)定產(chǎn)生最終輸出.因此,隨機(jī)森林在處理缺少變量的不均勻數(shù)據(jù)集時(shí)表現(xiàn)會(huì)非常好,它往往比決策樹(shù)具有更低的分類(lèi)誤差和更好的F分?jǐn)?shù).Maitra 等[78]利用隨機(jī)森林分類(lèi)器根據(jù)基于單詞和風(fēng)格的特征對(duì)未知文檔進(jìn)行分類(lèi),得到了較優(yōu)的結(jié)果.

        3)k近鄰方法

        k近鄰(k-nearest neighbor,KNN)算法的目標(biāo)是將對(duì)象分類(lèi)為由機(jī)器學(xué)習(xí)創(chuàng)建的樣本組的預(yù)定義類(lèi)之一,具體來(lái)說(shuō),算法基于某種距離度量找出訓(xùn)練樣本中與測(cè)試樣本最接近的k個(gè)樣本,然后再基于這k個(gè)訓(xùn)練樣本進(jìn)行預(yù)測(cè).通常而言,會(huì)根據(jù)k個(gè)樣本中的大多數(shù)樣本的類(lèi)別來(lái)預(yù)測(cè)結(jié)果.該算法不需要使用訓(xùn)練數(shù)據(jù)來(lái)執(zhí)行分類(lèi),可以在測(cè)試階段使用訓(xùn)練數(shù)據(jù)[79].有些研究者采用k近鄰方法進(jìn)行作者識(shí)別研究.Halvani 等[80]利用基于k近鄰的方法研究PAN 2013 作者識(shí)別任務(wù).該方法利用k近鄰分類(lèi)器計(jì)算真實(shí)作者的訓(xùn)練文檔與未知文檔之間的風(fēng)格偏差分?jǐn)?shù),根據(jù)分?jǐn)?shù)以及給定的閾值確定作者歸屬.該方法具有語(yǔ)言獨(dú)立、運(yùn)行時(shí)間短、易于擴(kuò)展和修改等優(yōu)點(diǎn),在PAN 2013 作者識(shí)別任務(wù)上得到了80 %的總體準(zhǔn)確率,在個(gè)人數(shù)據(jù)集上的準(zhǔn)確率是77.50 %.Anwar 等[81]利用LDA 模型在文本ngram 上生成文檔的主題表示,然后使用余弦相似度和KNN 分類(lèi)器進(jìn)行分類(lèi).在不使用任何標(biāo)簽的情況下,即可在英語(yǔ)和烏爾都語(yǔ)新聞?wù)Z料中獲得令人滿(mǎn)意的結(jié)果.Sarwar 等[82]基于詞匯、句法和結(jié)構(gòu)等特征,使用概率k近鄰分類(lèi)器研究泰語(yǔ)文檔的作者識(shí)別.實(shí)驗(yàn)結(jié)果表明,將所有特征類(lèi)別組合在一起可以提高作者識(shí)別過(guò)程的準(zhǔn)確率.

        4)神經(jīng)網(wǎng)絡(luò)

        神經(jīng)網(wǎng)絡(luò)(Neural networks,NN)是簡(jiǎn)單處理元件、單元或節(jié)點(diǎn)的互連系統(tǒng),其網(wǎng)絡(luò)的處理能力體現(xiàn)在通過(guò)適應(yīng)或?qū)W習(xí)一組訓(xùn)練模式的過(guò)程中獲得的單元間連接強(qiáng)度或權(quán)重上[83].針對(duì)一些實(shí)際情況復(fù)雜、背景知識(shí)不清楚、規(guī)則不明確的問(wèn)題,神經(jīng)網(wǎng)絡(luò)算法具有很強(qiáng)的處理能力.有些學(xué)者利用神經(jīng)網(wǎng)絡(luò)方法研究文本作者識(shí)別.Bagnall[84]使用循環(huán)神經(jīng)網(wǎng)絡(luò)同時(shí)對(duì)幾個(gè)作者的語(yǔ)言進(jìn)行建模,每個(gè)作者的文本由依賴(lài)于共享循環(huán)狀態(tài)的單獨(dú)輸出表示.實(shí)驗(yàn)結(jié)果表明,循環(huán)神經(jīng)網(wǎng)絡(luò)可以成為作者身份識(shí)別中的有用工具.該方法更多地基于信息理論而不是傳統(tǒng)的聚類(lèi),并且能夠避免特征選擇和過(guò)擬合的泥潭.Ruder 等[85]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行大規(guī)模作者身份歸屬,以處理特征級(jí)別信號(hào)并進(jìn)行快速預(yù)測(cè).該方法結(jié)合了字符和單詞通道,利用了文本風(fēng)格和主題信息,獲得了較優(yōu)的結(jié)果.Qian 等[86]使用門(mén)控循環(huán)單元、長(zhǎng)短期記憶網(wǎng)絡(luò)和孿生網(wǎng)絡(luò)等三種深度學(xué)習(xí)模型識(shí)別作者身份,并使用孿生網(wǎng)絡(luò)驗(yàn)證作者身份.結(jié)果表明,文檔級(jí)別的門(mén)控循環(huán)單元在作者身份識(shí)別方面表現(xiàn)最好,孿生網(wǎng)絡(luò)在作者身份驗(yàn)證上達(dá)到很高的準(zhǔn)確率.Shrestha 等[87]使用基于字符ngram 的卷積神經(jīng)網(wǎng)絡(luò)對(duì)推文進(jìn)行作者識(shí)別,并通過(guò)估計(jì)輸入文本片段在預(yù)測(cè)分類(lèi)中的重要性來(lái)提高模型的可解釋性.實(shí)驗(yàn)結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)在推文的作者識(shí)別方面具有很好的性能,使用字符ngram 而不僅僅是字符序列也可以提高作者識(shí)別的性能.Jafariakinabad 等[88]引入句法循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)編碼層次結(jié)構(gòu)中文檔的句法模式.該模型首先從詞性標(biāo)簽序列中學(xué)習(xí)句子的句法表示.隨后,使用循環(huán)神經(jīng)網(wǎng)絡(luò)將句子的句法表示聚合成文檔表示.實(shí)驗(yàn)結(jié)果表明,句法循環(huán)神經(jīng)網(wǎng)絡(luò)在精度方面優(yōu)于具有相同架構(gòu)的詞匯模型.

        2.3 對(duì)比分析

        識(shí)別方法在自然語(yǔ)言處理任務(wù)中具有通用性.換句話(huà)說(shuō),本節(jié)所述的方法可以應(yīng)用到文本分類(lèi)、情感分析、關(guān)系抽取等其他自然語(yǔ)言處理任務(wù)中.本小節(jié)對(duì)比分析無(wú)監(jiān)督的方法和有監(jiān)督的方法.其中,表2 給出了無(wú)監(jiān)督方法之間的對(duì)比,表3 給出了有監(jiān)督方法之間的對(duì)比[49].

        表2 無(wú)監(jiān)督方法對(duì)比表Table 2 Comparative table of unsupervised method

        表3 有監(jiān)督方法對(duì)比表Table 3 Comparative table of supervised method

        3 多層面研究

        從19 世紀(jì)后期研究者開(kāi)始使用統(tǒng)計(jì)等數(shù)學(xué)工具研究作者識(shí)別以來(lái),作者識(shí)別已經(jīng)經(jīng)過(guò)一百多年的發(fā)展.在漫長(zhǎng)的發(fā)展過(guò)程中,作者識(shí)別研究呈現(xiàn)出兩個(gè)明顯的趨勢(shì):文本特征豐富化以及方法和思想多元化.文體特征從最初的一元單一特征逐漸發(fā)展為多元混合特征,分類(lèi)方法也從簡(jiǎn)單數(shù)學(xué)公式的應(yīng)用而逐漸發(fā)展出復(fù)雜的神經(jīng)網(wǎng)絡(luò).研究者越來(lái)越傾向于多特征組合的研究方式,比如Khomytska 和Teslyuk[89]使用不同音素特征搭配統(tǒng)計(jì)模型進(jìn)行作者識(shí)別,Grabchak 等[90]提出基于廣義Simpson 索引的輪廓來(lái)判斷兩個(gè)樣本是否由同一作者所撰寫(xiě).Srinivasan 和Nalini[91]選擇句法、結(jié)構(gòu)和n-gram 作為特征,使用4 種不同的機(jī)器學(xué)習(xí)分類(lèi)器研究亞馬遜評(píng)論的作者識(shí)別.針對(duì)目前作者識(shí)別領(lǐng)域的發(fā)展?fàn)顩r,下面主要從數(shù)據(jù)規(guī)模、跨域研究、特殊方法等三個(gè)方面闡述作者識(shí)別的多層面研究.

        3.1 數(shù)據(jù)規(guī)模

        作者識(shí)別的研究結(jié)果常常受到數(shù)據(jù)集規(guī)?;蜃髡邤?shù)量的影響.研究者提出的方法在小數(shù)據(jù)集以及少數(shù)幾個(gè)作者的情況下表現(xiàn)良好,而一旦擴(kuò)大數(shù)據(jù)集規(guī)模或者增加作者數(shù)量,其執(zhí)行結(jié)果往往不確定.換句話(huà)說(shuō),利用小數(shù)據(jù)集以及少數(shù)作者驗(yàn)證方法的研究者可能高估了其方法的準(zhǔn)確性,甚至高估了他們所選擇的文本特征的重要程度[92].鑒于此,一些研究者專(zhuān)門(mén)研究數(shù)據(jù)集大小以及作者數(shù)量對(duì)作者識(shí)別實(shí)驗(yàn)結(jié)果的影響.

        Luyckx 和Daelemans[93]在一個(gè)有145 位作者的語(yǔ)料庫(kù)上針對(duì)特征選擇進(jìn)行研究,實(shí)驗(yàn)結(jié)果表明,當(dāng)增加作者數(shù)量時(shí),系統(tǒng)性能顯著下降.功能詞和句法特征的組合可以使系統(tǒng)性能顯著提高,部分作者高估了他們方法的準(zhǔn)確率以及所選特征的重要性.Eder[94]使用基于k近鄰的Delta 方法研究文本尺寸對(duì)作者歸屬的影響,以希望找到可以用于作者歸屬的文本樣本的最小尺寸.實(shí)驗(yàn)結(jié)果表明,對(duì)于現(xiàn)代英語(yǔ),最小穩(wěn)定樣本為5000 個(gè)單詞,使用2500詞的樣本幾乎不能提供可靠的作者識(shí)別結(jié)果.Koppel 等[95]使用訓(xùn)練文本的各種子集進(jìn)行實(shí)驗(yàn),以研究大數(shù)據(jù)集和大作者集上的作者歸屬問(wèn)題,同時(shí)確定樣本尺寸對(duì)候選作者數(shù)量、每個(gè)候選作者的已知文本量以及未知文本長(zhǎng)度的影響.結(jié)果表明,基于相似性的方法以及多個(gè)隨機(jī)特征集可以在大數(shù)據(jù)集和大作者集上實(shí)現(xiàn)較高的精度.Luyckx 和Daelemans[96]系統(tǒng)地研究了作者集規(guī)模和數(shù)據(jù)集規(guī)模對(duì)作者識(shí)別性能和特征選擇的影響.實(shí)驗(yàn)結(jié)果表明,在小數(shù)據(jù)集上實(shí)現(xiàn)95 %準(zhǔn)確率的方法無(wú)法在大數(shù)據(jù)集上達(dá)到相同或者類(lèi)似的性能,并且隨著作者數(shù)量的增加,方法的準(zhǔn)確率降低到不具有實(shí)際意義的程度.在大多數(shù)情況下,字符n-gram 的識(shí)別結(jié)果要優(yōu)于其他文本特征.

        3.2 跨域研究

        作者識(shí)別研究常常關(guān)注特定作者在無(wú)意識(shí)的情況下表現(xiàn)出的寫(xiě)作風(fēng)格,這種風(fēng)格往往與文章的內(nèi)容無(wú)關(guān).然而,一個(gè)不可否認(rèn)的事實(shí)是,文章的類(lèi)型、主題甚至所用的語(yǔ)言會(huì)在更高維度上影響作者的表達(dá)方式.換句話(huà)說(shuō),同一位作者在不同類(lèi)型或者不同主題的文本中可能表現(xiàn)出不同的行文風(fēng)格.因此,一些研究者在跨主題作者識(shí)別方面進(jìn)行研究,希望發(fā)現(xiàn)更一般的規(guī)律.Stamatatos[97]研究字符ngram 在跨類(lèi)型和跨主題條件下的作者識(shí)別,并與基于單詞的方法進(jìn)行比較.結(jié)果表明,當(dāng)訓(xùn)練和測(cè)試語(yǔ)料庫(kù)之間存在顯著差異時(shí),字符n-gram 能夠更好地捕獲文本的風(fēng)格屬性.Markov 等[98]提出一個(gè)改進(jìn)的跨主題作者歸屬算法,以研究字符ngram 在跨主題作者歸屬中的性能.結(jié)果表明,通過(guò)執(zhí)行簡(jiǎn)單的預(yù)處理步驟和適當(dāng)調(diào)整特征數(shù)量,可以顯著提高字符n-gram 在跨主題條件下的性能.高頻閾值能夠有效排除與主題特定信息相關(guān)聯(lián)的最不頻繁的n-gram,進(jìn)而提高準(zhǔn)確率.Rahgouy 等[99]基于文檔不同表示形式的模型組合研究跨領(lǐng)域的作者識(shí)別.該方法使用文檔的TF-IDF、Word2Vec 和ngram 表示來(lái)訓(xùn)練三種類(lèi)型的模型并使用整體進(jìn)行預(yù)測(cè).文中還使用臨時(shí)網(wǎng)格搜索對(duì)模型和集合參數(shù)進(jìn)行調(diào)整,以達(dá)到最優(yōu)效果.實(shí)驗(yàn)結(jié)果表明,該方法非常有能力區(qū)分不同作者.

        以上這幾篇文章是n-gram 特征與文本主題相結(jié)合的研究.可以看出,在跨主題的研究中,n-gram特征仍然能夠充分捕捉文本特征,進(jìn)而獲得較好的識(shí)別結(jié)果.也有研究者選擇詞匯或者多種混合特征研究跨主題的作者識(shí)別.Mikros 和Argiri[100]創(chuàng)建了由兩位作者在兩個(gè)不同主題中撰寫(xiě)的200 篇現(xiàn)代希臘新聞專(zhuān)線(xiàn)文章組成的特殊語(yǔ)料庫(kù),研究了作者身份歸屬中一些廣泛使用的風(fēng)格變量的主題中性特征,以探討文本主題對(duì)作者歸屬的影響.實(shí)驗(yàn)結(jié)果表明,大多數(shù)變量與文本主題具有很大的相關(guān)性,在作者分析中應(yīng)該謹(jǐn)慎使用.Sari 等[101]對(duì)4 個(gè)數(shù)據(jù)集進(jìn)行分析,以探討不同類(lèi)型的特征如何通過(guò)影響主題或風(fēng)格影響作者歸屬的準(zhǔn)確性.隨后他們將分析得出的結(jié)論應(yīng)用到作者識(shí)別方法上,在4 個(gè)數(shù)據(jù)集中的兩個(gè)數(shù)據(jù)集上,得到了更好的結(jié)果.有些研究者會(huì)借助主題模型進(jìn)行研究.Seroussi 等[102]對(duì)比分析了SVM、LDA、作者感知主題模型以及不連貫的作者文檔主題模型等4 種作者識(shí)別模型,發(fā)現(xiàn)作者感知主題模型勝過(guò)LDA,而該文提出的不連貫的作者文檔主題模型勝過(guò)以上3 種方法.Seroussi 等又在另一篇文章[103]中進(jìn)一步發(fā)展并完善了該方法.Yang 等[104]提出了主題漂移模型,用來(lái)描述個(gè)人作者的興趣和寫(xiě)作風(fēng)格的變化.與之前的作者歸屬方法不同的是,該模型對(duì)時(shí)間信息和單詞順序敏感,因而能從文本中獲取更多的信息.實(shí)驗(yàn)結(jié)果表明,與其他模型相比,該方法獲得了更高的準(zhǔn)確率.

        一些學(xué)者研究跨語(yǔ)言下的作者識(shí)別.Halvani等[105]提出一種作者驗(yàn)證方法,該方法為每種語(yǔ)言提供一個(gè)通用閾值,用于接受或拒絕所謂的文檔作者身份.在荷蘭語(yǔ)、英語(yǔ)、希臘語(yǔ)、西班牙語(yǔ)和德語(yǔ)等5 種語(yǔ)言16 種類(lèi)型和混合主題上的28 個(gè)語(yǔ)料庫(kù)上的實(shí)驗(yàn)獲得了接近75 %的中位數(shù)準(zhǔn)確率.由于該方法不涉及自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)庫(kù),它可以靈活地?cái)U(kuò)展到新語(yǔ)言或者新類(lèi)型上.Bacciu 等[106]利用基于字符、單詞、詞干和失真文本的n-gram 作為文本特征,并使用組合的單分類(lèi)器對(duì)不同語(yǔ)種的文檔進(jìn)行識(shí)別.實(shí)驗(yàn)結(jié)果表明,所提出的方法在幾乎所有問(wèn)題中都優(yōu)于基線(xiàn)模型.使用此模型,在PAN 2019 作者識(shí)別競(jìng)賽中獲得了0.68 的F1 分?jǐn)?shù).

        也有研究者利用文本失真掩蓋主題相關(guān)信息的方法進(jìn)行作者識(shí)別.Stamatatos[107]提出一種基于文本失真來(lái)壓縮主題相關(guān)信息的方法.該方法將輸入文本轉(zhuǎn)換為適當(dāng)?shù)男问?并保持與作者個(gè)人風(fēng)格相關(guān)的文本結(jié)構(gòu),同時(shí)掩蓋與主題信息相對(duì)應(yīng)的最不頻繁的單詞的出現(xiàn).實(shí)驗(yàn)結(jié)果表明,與其他作者身份歸屬方法相結(jié)合時(shí),該方法可以顯著提高其在閉集歸屬和作者身份驗(yàn)證中跨主題條件下的效果.而在另一篇文章中,Stamatatos[108]再次利用基于文本失真的方法掩蓋與主題相關(guān)的信息,通過(guò)將輸入文本轉(zhuǎn)換為更加主題中立的形式,盡量多地保持與作者個(gè)人風(fēng)格相關(guān)聯(lián)的文本結(jié)構(gòu).使用包含細(xì)粒度主題和類(lèi)型的受控語(yǔ)料庫(kù)將文本失真方法用于跨領(lǐng)域的作者識(shí)別任務(wù)上.實(shí)驗(yàn)結(jié)果表明,在跨主題的作者身份歸屬中,該方法顯著提高了作者識(shí)別的性能;而在跨類(lèi)型的作者身份歸屬中,該方法僅增強(qiáng)了一類(lèi)方法的性能.在以上二者結(jié)合的作者身份歸屬中,結(jié)果與跨類(lèi)型實(shí)驗(yàn)相近,這表明類(lèi)型是作者身份歸屬中比主題更重要的因素.

        3.3 特殊方法

        作者識(shí)別的交叉特點(diǎn)使得其他領(lǐng)域的思想和方法能夠應(yīng)用到該領(lǐng)域的研究中來(lái),從而產(chǎn)生一些比較特殊的研究方法.一般的作者識(shí)別研究會(huì)選擇某個(gè)或者某些文本特征來(lái)刻畫(huà)作者的行文風(fēng)格,本部分介紹兩種特殊的方法——壓縮方法和頻率混沌游戲表示方法,它們不借助文本特征就能實(shí)現(xiàn)作者識(shí)別.

        1)壓縮方法

        壓縮方法是作者識(shí)別領(lǐng)域中的一種比較特殊的方法.一般情況下,作者識(shí)別研究需要根據(jù)文本特征確定作者歸屬.而壓縮方法避免了定義特征,甚至在有些情況下僅依賴(lài)壓縮算法、相異度度量和閾值就能完成整個(gè)識(shí)別過(guò)程.利用壓縮方法進(jìn)行作者識(shí)別的一般步驟為:使用壓縮算法構(gòu)建處理文檔的模型或字典,經(jīng)過(guò)多次壓縮產(chǎn)生較高的壓縮率,利用壓縮率衡量訓(xùn)練文本和新文檔之間的交叉熵,新文檔則被分配給訓(xùn)練文本中使交叉熵最小的類(lèi)[109].壓縮方法的思想可以簡(jiǎn)述為,如果在一個(gè)文檔中可以顯著地壓縮另一個(gè)文檔,那么這兩個(gè)文檔被認(rèn)為是接近的.換句話(huà)說(shuō),如果兩個(gè)文檔很相似,則可以用一個(gè)文檔來(lái)更簡(jiǎn)潔地描述另一個(gè)文檔.壓縮方法不使用關(guān)于數(shù)據(jù)的任何特征或背景知識(shí),因而其無(wú)參數(shù)、簡(jiǎn)單易用,可以避免由于人為選擇特征而引入的噪聲以及信息丟失等問(wèn)題[110].

        一些學(xué)者利用壓縮方法來(lái)研究文本的作者識(shí)別.Cerra 等[111]使用快速壓縮距離(Fast compression distance,FCD)研究基于壓縮的相似性度量在文本作者分析方面的表現(xiàn).FCD 能夠捕獲字典中單詞的重復(fù)組合,描述文本規(guī)則,以及比較任何兩個(gè)文檔之間的共享信息.實(shí)驗(yàn)結(jié)果表明,該方法具有普適性,可以在英語(yǔ)、意大利語(yǔ)、希臘語(yǔ)、西班牙語(yǔ)和德語(yǔ)文檔中直接使用.相對(duì)于傳統(tǒng)的基于壓縮的方法,FCD 計(jì)算復(fù)雜性低,而準(zhǔn)確率更高.Halvani 等[112]提出一種基于壓縮模型的簡(jiǎn)單且高效的作者身份驗(yàn)證方法.實(shí)驗(yàn)結(jié)果表明,部分匹配預(yù)測(cè)勝過(guò)所有其他測(cè)試壓縮機(jī),基于壓縮的余弦測(cè)量產(chǎn)生了最高的結(jié)果,在針對(duì)所有訓(xùn)練語(yǔ)料庫(kù)測(cè)試的5個(gè)壓縮機(jī)中表現(xiàn)穩(wěn)定.基于壓縮模型的方法超過(guò)基于支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)的許多方法,并且可以很容易地應(yīng)用到其他語(yǔ)言上.

        2)頻率混沌游戲表示方法

        混沌游戲表示是一種從核苷酸序列創(chuàng)建圖像的方法,它被用來(lái)從大量文本文檔中制作圖像.Lichtblau 等用經(jīng)過(guò)特殊處理過(guò)的圖像特征代替?zhèn)鹘y(tǒng)的文本風(fēng)格特征進(jìn)行作者識(shí)別.從結(jié)果上來(lái)看,這種特征可以成為作者識(shí)別領(lǐng)域新的分類(lèi)特征,為后續(xù)作者識(shí)別研究提供了一種新思路.具體來(lái)說(shuō),Lichtblau 和Stoean[113]使用頻率混沌游戲表示從文本產(chǎn)生灰度圖像,然后用圖像訓(xùn)練機(jī)器學(xué)習(xí)分類(lèi)器,利用所學(xué)的模型識(shí)別這些灰度圖像,以區(qū)分不同文本的作者.實(shí)驗(yàn)結(jié)果表明,該方法在英語(yǔ)和葡萄牙語(yǔ)語(yǔ)料庫(kù)上獲得了令人信服的結(jié)果.聯(lián)邦主義文檔和葡萄牙語(yǔ)數(shù)據(jù)集上的驗(yàn)證結(jié)果與文獻(xiàn)中的最佳結(jié)果相當(dāng).此外,該方法對(duì)少于1000 字符的文本也有較好的識(shí)別結(jié)果,因此可以用于識(shí)別匿名電子郵件或博客文本的作者.而在另一篇文章中,Lichtblau 和Stoean[114]再次利用混沌游戲表示將文本轉(zhuǎn)換為圖像,再將圖像壓成向量,通過(guò)奇異值分解進(jìn)一步減小尺寸.再用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)與每個(gè)作者相關(guān)的特征,并建立模型對(duì)樣本進(jìn)行分類(lèi).實(shí)驗(yàn)結(jié)果表明,在3個(gè)基準(zhǔn)數(shù)據(jù)集上,所提出的方法明顯優(yōu)于頻率混沌游戲表示的線(xiàn)性回歸方法.與其他成熟的作者識(shí)別方法相比,該方法可以獲得更好或者相似的結(jié)果.

        4 相關(guān)評(píng)測(cè)介紹

        隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文本大量增加,作者識(shí)別的研究重點(diǎn)逐漸從傳統(tǒng)文學(xué)作品轉(zhuǎn)向人們接觸更多的網(wǎng)絡(luò)文本.評(píng)測(cè)是采用統(tǒng)一數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行測(cè)試和評(píng)價(jià)的活動(dòng).由于數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)都是統(tǒng)一的,其結(jié)果對(duì)衡量算法的真實(shí)性能具有很強(qiáng)的說(shuō)服力.最近幾年,越來(lái)越多的研究者開(kāi)始參與到網(wǎng)絡(luò)評(píng)測(cè)中,進(jìn)而產(chǎn)生了一些持續(xù)多年的、受到學(xué)者們廣泛關(guān)注的評(píng)測(cè).這些評(píng)測(cè)因其高質(zhì)量的數(shù)據(jù)、評(píng)價(jià)和算法總結(jié)而在相關(guān)領(lǐng)域的影響較大.本節(jié)主要介紹作者身份驗(yàn)證、作者身份概述、作者身份混淆等與作者識(shí)別相關(guān)的評(píng)測(cè),以期望為作者識(shí)別的研究帶來(lái)新的方法和思想.

        4.1 作者身份驗(yàn)證評(píng)測(cè)

        作者身份驗(yàn)證又簡(jiǎn)稱(chēng)作者驗(yàn)證,是數(shù)字文本取證研究的一個(gè)分支,旨在確定兩個(gè)文檔是否由同一作者撰寫(xiě).評(píng)估論壇實(shí)驗(yàn)室大會(huì)(Conference and Labs of the Evaluation Forum,CLEF) 在2013~2015、2020 年組織過(guò)作者身份驗(yàn)證評(píng)測(cè),本小節(jié)主要關(guān)注2020 年的評(píng)測(cè).在2020 年的評(píng)測(cè)中,有10 個(gè)團(tuán)隊(duì)提交了13 個(gè)系統(tǒng),下面介紹其中性能最優(yōu)的幾個(gè).

        Boenninghoff 等[115]提出一種將神經(jīng)特征提取與統(tǒng)計(jì)建模相結(jié)合的方法,該方法采用具有孿生網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)框架生成特征,然后在概率線(xiàn)性判別分析層執(zhí)行貝葉斯因子評(píng)分,以衡量?jī)蓚€(gè)文檔之間的相似性.評(píng)測(cè)結(jié)果表明,所提出的方法在小型數(shù)據(jù)集和大型數(shù)據(jù)集上均取得了優(yōu)異的總體性能評(píng)分.Halvani 等[116]選擇標(biāo)點(diǎn)符號(hào)、功能詞、縮寫(xiě)詞、過(guò)渡短語(yǔ)等與主題無(wú)關(guān)的項(xiàng)作為文本特征,并使用基于曼哈頓度量的距離函數(shù)以及基于相等錯(cuò)誤率的閾值處理程序作為分類(lèi)器.結(jié)果表明,該方法具有出色的性能,在所有提交的方法中排名第三.Kipnis[117]提出一種無(wú)監(jiān)督的分類(lèi)方法,該方法利用兩個(gè)文檔之間的單詞二項(xiàng)式分配模型逐個(gè)計(jì)算單詞的p值,并使用較高的批評(píng)度將它們組合為一個(gè)分?jǐn)?shù)統(tǒng)計(jì).通過(guò)評(píng)估與文檔對(duì)相關(guān)的高級(jí)批評(píng)的經(jīng)驗(yàn)分布,將產(chǎn)生的分?jǐn)?shù)轉(zhuǎn)換為相似性得分.該方法比較簡(jiǎn)單,在跨域作者身份驗(yàn)證中取得了有競(jìng)爭(zhēng)力的結(jié)果.

        4.2 作者身份概述評(píng)測(cè)

        作者身份概述又簡(jiǎn)稱(chēng)作者概述,是通過(guò)對(duì)文本的分析來(lái)找出其作者盡可能多的個(gè)人信息的任務(wù),包括但不限于年齡、性別、母語(yǔ)、教育水平、社會(huì)地位等,它在取證、市場(chǎng)營(yíng)銷(xiāo)和網(wǎng)絡(luò)安全方面有著廣泛的應(yīng)用[118].與作者識(shí)別類(lèi)似,作者概述也需要對(duì)作者風(fēng)格進(jìn)行分析.因此,作者識(shí)別上的風(fēng)格分析方法可以應(yīng)用到作者概述上.最近幾年,作者概述發(fā)展非常迅速,這得益于作者分析方法的大量提出以及各種網(wǎng)絡(luò)評(píng)測(cè)的開(kāi)展,特別是CLEF 和信息檢索評(píng)估論壇(Forum for Information Retrieval Evaluation,FIRE)組織的評(píng)測(cè).CLEF 在2013~2020 年連續(xù)8 年組織了作者概述評(píng)測(cè),而FIRE 則在2018~ 2019 年組織了相關(guān)的評(píng)測(cè).由于相關(guān)研究眾多,無(wú)法一一列舉,本小節(jié)只介紹最近4 年評(píng)測(cè)中排名相對(duì)靠前的作者概述方法.

        CLEF 在2017 年組織了確定推特作者的性別和語(yǔ)言種類(lèi)的評(píng)測(cè),有3 種方法獲得了整體最佳結(jié)果,它們之間沒(méi)有顯著的差異[119],分別是Basile 等使用字符和TF-IDFn-gram 組合訓(xùn)練支持向量機(jī),Martinc 等[120]使用字符、單詞和詞性n-gram 組合訓(xùn)練邏輯回歸分類(lèi)器以及Tellez 等[121]使用表情符號(hào)、情感、字符流和每個(gè)變體的單詞列表訓(xùn)練支持向量機(jī)來(lái)完成任務(wù).CLEF 在2018 年組織了根據(jù)推特的文本或圖像確定作者性別的評(píng)測(cè).3 個(gè)最佳結(jié)果分別來(lái)自:Takahashi 等[122]利用單詞嵌入和循環(huán)神經(jīng)網(wǎng)絡(luò)識(shí)別文本,同時(shí)利用基于ImageNet 的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像;Daneshvar 和Inkpen[123]基于單詞和字符n-gram 組合訓(xùn)練支持向量機(jī);Tellez 等[124]使用不同類(lèi)型的n-gram 訓(xùn)練支持向量機(jī),同時(shí)結(jié)合使用DAISY 特征描述符的視覺(jué)詞袋模型進(jìn)行分類(lèi).總體而言,傳統(tǒng)方法仍然保持競(jìng)爭(zhēng)力,而一些基于深度學(xué)習(xí)的新方法正在獲得優(yōu)勢(shì)[125].CLEF 在2019 年組織了判斷給定推特的作者是人還是機(jī)器(如果是人的話(huà),確定其性別)以及根據(jù)名人的推特,確定其主人的年齡、名望、性別和職業(yè)的評(píng)測(cè).在第一個(gè)任務(wù)中,性能最高的4 個(gè)團(tuán)隊(duì)均使用了單詞和字符n-gram 與支持向量機(jī)的組合.評(píng)測(cè)結(jié)果表明,傳統(tǒng)方法比深度學(xué)習(xí)方法獲得了更高的準(zhǔn)確率,深度學(xué)習(xí)方法首次出現(xiàn)在排名中,具體來(lái)說(shuō)是卷積神經(jīng)網(wǎng)絡(luò),排在第11 位[126].至于第二個(gè)任務(wù),CLEF 在2020 年也組織過(guò).這兩年一共收到研究者提交的10 種方法,其中2019 年的最佳方法和2020 年的最佳方法分別是:Radivchev 等[127]選擇單詞2-gram 作為特征,用TF-IDF 進(jìn)行向量化,然后使用邏輯回歸和支持向量機(jī)進(jìn)行分類(lèi);Hodge和Price[128]選擇POS 標(biāo)簽、停用詞數(shù)、命名實(shí)體類(lèi)型等特征并使用邏輯回歸、隨機(jī)森林和支持向量機(jī)進(jìn)行分類(lèi).

        FIRE 在2018 年組織了識(shí)別烏爾都語(yǔ)和英語(yǔ)文本作者的性別和年齡的評(píng)測(cè),2019 年組織了確定阿拉伯語(yǔ)推特用戶(hù)的年齡、性別和語(yǔ)言種類(lèi)以及兩種不同類(lèi)型的阿拉伯語(yǔ)欺騙檢測(cè)的評(píng)測(cè).這里主要關(guān)注阿拉伯語(yǔ)推特的作者概述.Siagian 和Aritsugi[129]選擇單詞n-gram、字符n-gram、二者的組合以及功能詞作為特征,并使用支持向量機(jī)進(jìn)行分類(lèi).該方法性能優(yōu)越,在性別、年齡和語(yǔ)言類(lèi)別等三個(gè)方面的綜合排名中位列第一.Nayel[130]利用基于ngram 的詞袋模型提取文本特征,并使用線(xiàn)性分類(lèi)器、支持向量機(jī)和多層感知器進(jìn)行分類(lèi).結(jié)果表明,在絕大多數(shù)情況下,線(xiàn)性分類(lèi)器獲得了最高的準(zhǔn)確率.這說(shuō)明與作者身份相比,其性別、年齡和語(yǔ)言類(lèi)別等信息通常隱藏在更低維度的文本特征中.Sharmila 等[131]分別使用單詞和字符的n-gram 以及單詞嵌入,經(jīng)過(guò)TF-IDF 加權(quán),再使用支持向量機(jī)和fastText 進(jìn)行分類(lèi).該方法具有較好的性能,在欺騙檢測(cè)中排名第二,而在作者概述中排名第三.與傳統(tǒng)模型相比,加權(quán)嵌入獲得的準(zhǔn)確性較低,其原因可能是給定數(shù)據(jù)集中的某些單詞在預(yù)訓(xùn)練模型中不存在.

        4.3 作者身份混淆評(píng)測(cè)

        作者身份混淆 (Authorship obfuscation)又簡(jiǎn)稱(chēng)作者混淆,是作者識(shí)別的對(duì)抗性任務(wù),其目的是使基于作者寫(xiě)作風(fēng)格的身份識(shí)別變得不可能或至少難以進(jìn)行[132].由于作者識(shí)別和作者混淆互為對(duì)抗任務(wù),因此對(duì)于其中一項(xiàng)任務(wù)而言,某種方法的成功與否取決于其對(duì)另一項(xiàng)任務(wù)中最有效方法的 “免疫力”[133].與作者識(shí)別相比,作者混淆很少受到研究者的關(guān)注,造成這種情況的原因很可能是作者混淆需要釋義作為子任務(wù),從而給研究者進(jìn)入該領(lǐng)域帶來(lái)很大的障礙[133].從評(píng)價(jià)標(biāo)準(zhǔn)上來(lái)看,作者混淆比作者識(shí)別更復(fù)雜.作者識(shí)別一般通過(guò)準(zhǔn)確率等指標(biāo)評(píng)估算法的優(yōu)劣,而作者混淆除了要評(píng)估安全性以外,還需要對(duì)合理性和完整性進(jìn)行評(píng)估,甚至很多時(shí)候需要人工進(jìn)行審核.2016~ 2018 年,CLEF 連續(xù)組織了作者混淆評(píng)測(cè)任務(wù),產(chǎn)生了7 種混淆方法,促進(jìn)了該領(lǐng)域的研究進(jìn)展.本部分主要介紹一些比較成功的方法,以期望能為作者識(shí)別提供一些可以借鑒的思路.

        Mihaylova 等[134]對(duì)文本中可以表明作者身份的不同特征(句長(zhǎng)、標(biāo)點(diǎn)、停用詞、詞性等)進(jìn)行評(píng)估,然后使用多種基于規(guī)則和隨機(jī)的文本操作,將目標(biāo)文本的這些特征的度量調(diào)整到平均水平,同時(shí)保持文本的含義和完整性.此外,他們還嘗試將隨機(jī)噪聲添加到文本中.使用該方法的混淆器獲得了當(dāng)年的最佳性能,在2016~ 2018 提交的7 種混淆器中排名第二,與第一名評(píng)分很接近.該方法的成功說(shuō)明基于簡(jiǎn)單特征捕獲作者寫(xiě)作風(fēng)格的識(shí)別方法容易被混淆器擊敗,要想對(duì)抗這種混淆方法,必須考慮不容易改變的、更深層次的文本特征.Mansoorizadeh 等[135]從WordNet 上獲得同義詞來(lái)替換原始文本中的200 個(gè)最常見(jiàn)單詞.他們通過(guò)詞義和語(yǔ)義兩個(gè)方面來(lái)衡量原始詞和被替換詞的相似度,以便選擇最佳同義詞,每個(gè)句子最多替換一個(gè)同義詞.從整體上來(lái)說(shuō),該方法專(zhuān)注于改變文檔的詞頻特征,較少的改動(dòng)能夠保證很高的文本質(zhì)量,同時(shí)可以使基于詞匯特征的作者識(shí)別方法失效.Keswani 等[136]采用基于往返翻譯的方法,將英語(yǔ)譯為中間語(yǔ)言,再將中間語(yǔ)言譯回英語(yǔ),以此來(lái)實(shí)現(xiàn)作者混淆.在翻譯的過(guò)程中,由于翻譯模型的差異以及翻譯過(guò)程中的各種懲罰,詞匯、平均句長(zhǎng)以及語(yǔ)言結(jié)構(gòu)都會(huì)發(fā)生變化.雖然該方法在評(píng)測(cè)中表現(xiàn)一般,但是仍然具有相當(dāng)?shù)臐摿?結(jié)合成熟的商業(yè)引擎能夠保證在較高文本質(zhì)量的前提下達(dá)到混淆作者的目的.

        Castro-Castro 等[137]提出一種在無(wú)監(jiān)督的情況下執(zhí)行句子轉(zhuǎn)換的方法,同時(shí)使用字典和語(yǔ)義資源以及句法簡(jiǎn)化規(guī)則進(jìn)行句法和語(yǔ)義更改.具體操作是根據(jù)字典或更長(zhǎng)的版本替換縮略語(yǔ),使用FreeLing 替換同義詞,并通過(guò)省略括號(hào)中的部分、語(yǔ)篇標(biāo)記以及并列成分來(lái)縮短句子.該方法獲得了很高的混淆性能,在CLEF 連續(xù)組織的評(píng)測(cè)中排名第一.Kocher 和Savoy[138]的方法基于20 條規(guī)則,這些規(guī)則將緊縮詞與普通單詞互換、替換了一些形容詞和連詞,還通過(guò)重復(fù)拼寫(xiě)來(lái)引入錯(cuò)誤.總體來(lái)說(shuō),該方法基于搜索和替換,通過(guò)改變頻率特征以欺騙識(shí)別器,在保證原始文本質(zhì)量的前提下,可以達(dá)到一定的混淆度.Rahgouy 等[139]從作者已知的文檔中學(xué)習(xí)作者指紋,然后利用相關(guān)統(tǒng)計(jì)信息有針對(duì)性地對(duì)原始文本進(jìn)行定向轉(zhuǎn)換和變形.該方法主要改變句子長(zhǎng)度、緊縮詞和一般單詞的使用,并根據(jù)與原始單詞的相似性、單詞出現(xiàn)的可能性以及句子變體的單詞移動(dòng)距離對(duì)可能的替換術(shù)語(yǔ)進(jìn)行評(píng)分.對(duì)混淆文本進(jìn)行的自動(dòng)和手動(dòng)評(píng)估顯示了該方法的有效性.

        5 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        5.1 數(shù)據(jù)集

        語(yǔ)料,即語(yǔ)言材料,是若干語(yǔ)言樣本的統(tǒng)稱(chēng).在計(jì)算語(yǔ)言學(xué)中,語(yǔ)料通常指研究者搜集的大規(guī)模語(yǔ)言實(shí)例.語(yǔ)料經(jīng)過(guò)進(jìn)一步集合和加工可以形成語(yǔ)料庫(kù),換句話(huà)說(shuō),語(yǔ)料庫(kù)是大量經(jīng)過(guò)整理的、具有既定格式和標(biāo)準(zhǔn)的語(yǔ)料集合.國(guó)內(nèi)的作者識(shí)別起步較晚,研究者數(shù)量少,研究相對(duì)落后.目前,在作者識(shí)別領(lǐng)域,尚無(wú)公開(kāi)的漢語(yǔ)數(shù)據(jù)集.國(guó)外的作者識(shí)別研究起步較早,最近幾年發(fā)展較快,有一些公開(kāi)的數(shù)據(jù)集.下面簡(jiǎn)單介紹這些公開(kāi)的數(shù)據(jù)集.

        1) IMDb62 數(shù)據(jù)集1https://umlt.infotech.monash.edu/?page_id=266

        包含互聯(lián)網(wǎng)電影資料庫(kù)中62 位超級(jí)用戶(hù)的62000 條電影評(píng)論和17550 個(gè)留言板帖子,其中每個(gè)用戶(hù)撰寫(xiě)了1000 條電影評(píng)論以及不同數(shù)量的留言板帖子.

        2)博客數(shù)據(jù)集2http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

        包含19320 位作者的681288 篇博客文章,總共超過(guò)1.4 億個(gè)單詞,平均每人35 篇文章和7250個(gè)單詞.

        3)判決數(shù)據(jù)集3https://umlt.infotech.monash.edu/?page_id=152

        包含Dixon、McTiernan 和Rich 等三名澳大利亞高等法院法官的判決,其中有來(lái)自Dixon 的902個(gè)文檔,來(lái)自McTiernan 的253 個(gè)文檔和來(lái)自Rich 的187 個(gè)文檔.

        4)電子郵件數(shù)據(jù)集4https://www.cs.cmu.edu/~./enron/

        包含大約150 個(gè)用戶(hù)的50 萬(wàn)封電子郵件,其中大多數(shù)用戶(hù)都是Enron 的高級(jí)管理人員.

        5) CCAT10 數(shù)據(jù)集5https://drive.google.com/drive/folders/1hlIWVSt0dfy8fz8d4w RzZItl-LCo5BH1?usp=sharing

        路透社語(yǔ)料庫(kù)第1 卷的子集,包含10 位作者的新聞專(zhuān)線(xiàn)報(bào)道,其中每位作者有100 篇文檔,總共1000 篇文檔.

        6) CCAT50 數(shù)據(jù)集6https://archive.ics.uci.edu/ml/datasets/Reuter_50_50

        路透社語(yǔ)料庫(kù)第1 卷的子集,包含50 位作者的新聞專(zhuān)線(xiàn)報(bào)道,其中每位作者有100 篇文檔,總共5000 篇文檔.

        7) PAN 數(shù)據(jù)集7https://pan.webis.de

        包含各種有關(guān)數(shù)字文本取證和文體學(xué)評(píng)測(cè)任務(wù)的數(shù)據(jù)集.

        5.2 評(píng)價(jià)指標(biāo)

        評(píng)價(jià)指標(biāo)(Evaluation index)是衡量作者識(shí)別分類(lèi)器或作者識(shí)別模型性能優(yōu)劣的評(píng)價(jià)標(biāo)準(zhǔn).評(píng)價(jià)指標(biāo)在自然語(yǔ)言處理任務(wù)中具有通用性.換句話(huà)說(shuō),用于作者識(shí)別的評(píng)價(jià)指標(biāo)也可以用于文本分類(lèi)、情感分析等其他自然語(yǔ)言處理任務(wù).評(píng)價(jià)指標(biāo)分為很多種,比如正確率(Accuracy)、查全率(Recall)、查準(zhǔn)率(Precision)、F測(cè)量值(F-measure)、宏平均(Macro-average)、微平均(Micro-average)、受試者工作特征(Receiver operating characteristic,ROC) 曲線(xiàn)下的面積(Area under ROC curve,AUC)等.下面逐一來(lái)介紹這些評(píng)價(jià)指標(biāo).

        正確率,也稱(chēng)為準(zhǔn)確率或者精度,是最常用的評(píng)價(jià)指標(biāo),它被定義為測(cè)試集中正確預(yù)測(cè)的樣本數(shù)量占整個(gè)測(cè)試集的百分比.正確率A的公式表示為:

        其中TP、FP、TN和FN分別代表真正類(lèi)(True positive)、假正類(lèi)(False positive)、真負(fù)類(lèi)(True negative)和假負(fù)類(lèi)(False negative).為了進(jìn)一步細(xì)化分類(lèi)器在某個(gè)特定類(lèi)別上的分類(lèi)性能,查全率、查準(zhǔn)率等評(píng)價(jià)指標(biāo)被應(yīng)用于作者識(shí)別研究中.一般而言,查全率(又稱(chēng)為召回率)被定義為某一特定類(lèi)別中預(yù)測(cè)正確的樣本數(shù)量占該類(lèi)別樣本數(shù)量的百分比,而查準(zhǔn)率則被定義為某一特定類(lèi)別中預(yù)測(cè)正確的樣本數(shù)量占實(shí)際預(yù)測(cè)為該類(lèi)別樣本數(shù)量的百分比.查全率R和查準(zhǔn)率P的公式表示為:

        查全率和查準(zhǔn)率是從不同的角度衡量分類(lèi)器性能的,為了綜合二者的整體效果,學(xué)者提出F1 測(cè)量值.F1 測(cè)量值被定義為查全率和查準(zhǔn)率的調(diào)和平均值,用公式表示為:

        查全率、查準(zhǔn)率和F1 測(cè)量值在正確率的基礎(chǔ)上進(jìn)一步細(xì)化了評(píng)價(jià)標(biāo)準(zhǔn).然而,這3 個(gè)評(píng)價(jià)指標(biāo)只能針對(duì)特定的類(lèi)別.為了克服這一缺點(diǎn),學(xué)者們提出宏平均和微平均指標(biāo).這兩個(gè)指標(biāo)可以給出平均意義下的查全率、查準(zhǔn)率或者F1 測(cè)量值,能夠反映分類(lèi)器對(duì)不同類(lèi)別的整體分辨能力.宏平均和微平均的差別在于,宏平均先分別計(jì)算不同混淆矩陣的查全率和查準(zhǔn)率,然后通過(guò)取平均的方式得到宏查全率和宏查準(zhǔn)率,再根據(jù)宏查全率和宏查準(zhǔn)率計(jì)算出宏F1 測(cè)量值;而微平均先針對(duì)所有混淆矩陣求平均,然后再計(jì)算微查全率、微查準(zhǔn)率和微F1 測(cè)量值.

        與查全率、查準(zhǔn)率和F1 測(cè)量值相比,宏平均和微平均在綜合不同類(lèi)別預(yù)測(cè)結(jié)果的基礎(chǔ)上給出分類(lèi)器的整體性能評(píng)價(jià).由于其計(jì)算比較復(fù)雜,因此在作者識(shí)別研究中應(yīng)用得并不多.作者識(shí)別研究需要根據(jù)語(yǔ)料的特點(diǎn)選擇相應(yīng)的分類(lèi)算法和評(píng)價(jià)指標(biāo).通常情況下,研究者所選擇的語(yǔ)料,其每個(gè)類(lèi)別的樣本數(shù)量相等,或者即便不相等也差別不大.此時(shí),選擇宏平均或者微平均得到的結(jié)果差異并不大.但是,有些時(shí)候研究者需要利用一些不同類(lèi)別樣本數(shù)量差距較大的語(yǔ)料進(jìn)行作者識(shí)別研究.此時(shí),選擇宏平均還是微平均得到的結(jié)果差異較大,用它們就不容易反映分類(lèi)器的整體性能了.為了克服由于樣本數(shù)量差異帶來(lái)的影響,研究者提出AUC 指標(biāo).ROC 曲線(xiàn)是以假正類(lèi)率為橫坐標(biāo),真正類(lèi)率為縱坐標(biāo)的曲線(xiàn),它反映了不同閾值對(duì)分類(lèi)器泛化性能的影響[67].ROC 曲線(xiàn)下的面積即為AUC,該指標(biāo)同時(shí)考慮了分類(lèi)器對(duì)正類(lèi)和負(fù)類(lèi)的分類(lèi)能力,因此在樣本不平衡的情況下,仍然能夠?qū)Ψ诸?lèi)器的性能進(jìn)行合理的評(píng)價(jià).

        6 存在的問(wèn)題

        計(jì)算機(jī)的出現(xiàn)和廣泛應(yīng)用使得作者識(shí)別在最近幾十年中快速發(fā)展.到目前為止,作者識(shí)別已經(jīng)發(fā)展成為一個(gè)涉及眾多學(xué)科的交叉學(xué)科.多學(xué)科交叉使得作者識(shí)別研究能夠借鑒其他學(xué)科優(yōu)秀的方法和思想.與其他自然語(yǔ)言處理任務(wù)相比,作者識(shí)別缺少一些應(yīng)用場(chǎng)景,從事作者識(shí)別的研究者數(shù)量相對(duì)較少,相應(yīng)的研究多基于理論探究.目前的作者識(shí)別主要面臨一個(gè)寬領(lǐng)域、缺乏應(yīng)用、小眾研究的局面.在這個(gè)大背景下,作者識(shí)別研究主要存在以下幾個(gè)方面的問(wèn)題.

        1)數(shù)據(jù)集的差異使得不同研究之間很難橫向比較.在計(jì)算語(yǔ)言學(xué)領(lǐng)域的研究中,基準(zhǔn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)是評(píng)估和分析算法性能的關(guān)鍵.然而,在作者識(shí)別領(lǐng)域缺乏基準(zhǔn)數(shù)據(jù)集.除了一些競(jìng)賽會(huì)采用統(tǒng)一的數(shù)據(jù)集外,其他研究很少基于統(tǒng)一數(shù)據(jù)集,多數(shù)研究者會(huì)選擇自己感興趣的數(shù)據(jù)集完成研究.數(shù)據(jù)集的差異會(huì)導(dǎo)致很多問(wèn)題,常見(jiàn)的是其他的研究者無(wú)法重復(fù)論文的工作,更無(wú)法在原有的基礎(chǔ)上進(jìn)行改進(jìn).很多研究者都強(qiáng)調(diào)自己的方法更先進(jìn),而由于無(wú)法排除數(shù)據(jù)集差異所帶來(lái)的影響,算法的實(shí)際改進(jìn)效果無(wú)法確定.

        2)實(shí)驗(yàn)結(jié)果通常受很多因素的影響,而多數(shù)文章未對(duì)這些因素進(jìn)行詳細(xì)敘述.作者識(shí)別領(lǐng)域的實(shí)驗(yàn)會(huì)同時(shí)受到多種因素的影響,比如語(yǔ)料的選擇、預(yù)處理、特征提取、分類(lèi)算法的選擇及參數(shù)設(shè)置等.目前該領(lǐng)域的一種常見(jiàn)情況是,研究者對(duì)實(shí)驗(yàn)設(shè)計(jì)的描述不夠清晰.有的是對(duì)新提出的分類(lèi)算法描述不清,更多的則是缺乏分類(lèi)算法之外的實(shí)驗(yàn)細(xì)節(jié).這樣在不公布代碼的情況下,其他研究者很難了解具體的實(shí)驗(yàn)方案.算法描述不清晰或者其他實(shí)驗(yàn)細(xì)節(jié)的缺乏會(huì)導(dǎo)致已有的工作很難被復(fù)現(xiàn)或評(píng)價(jià).

        3)目前的大多數(shù)研究都側(cè)重于對(duì)結(jié)果進(jìn)行定量評(píng)估,而缺乏對(duì)文本特征的進(jìn)一步分析.文體風(fēng)格是一個(gè)很復(fù)雜的組合,理論上可能有數(shù)千個(gè)特征組成.研究特定的作者識(shí)別問(wèn)題意味著只能選擇有限數(shù)量的文本特征.對(duì)文本特征的分析有利于研究者從龐大的特征組合中選出最有效的特征,進(jìn)而提高作者識(shí)別的正確率.反之,則不利于特征的篩選,正確率的提升可能僅依賴(lài)算法的改進(jìn).從另一個(gè)角度來(lái)講,文本特征直接和可解釋性相關(guān),而可解釋性又和法醫(yī)學(xué)、文體學(xué)、心理學(xué)上的一些應(yīng)用相關(guān).只進(jìn)行結(jié)果評(píng)估而不詳細(xì)討論用于識(shí)別作者的文本特征,既不利于作者識(shí)別研究的改進(jìn),也不利于相關(guān)應(yīng)用的發(fā)展.

        7 未來(lái)發(fā)展趨勢(shì)

        作者識(shí)別研究經(jīng)歷了由 “文體學(xué)知識(shí)”到 “規(guī)則和統(tǒng)計(jì)”再到 “機(jī)器學(xué)習(xí)”的發(fā)展過(guò)程,其主要的推動(dòng)力來(lái)源于計(jì)算機(jī)技術(shù)的發(fā)展.目前,借助計(jì)算機(jī)強(qiáng)大的算力,研究者可以處理大規(guī)模文本,作者識(shí)別進(jìn)入快速發(fā)展的時(shí)期.從現(xiàn)有狀況來(lái)看,作者識(shí)別研究主要有以下幾個(gè)可能的發(fā)展趨勢(shì).

        1)作者識(shí)別研究體系的建立和完善.作者識(shí)別研究雖然已經(jīng)取得了很多成果,但從整體上來(lái)看,該領(lǐng)域內(nèi)的研究比較分散、缺乏對(duì)比、尚未形成體系.主要表現(xiàn)在以下兩個(gè)方面:一是該領(lǐng)域缺乏基準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集的差異使得不同研究之間很難橫向比較;二是該領(lǐng)域的很多學(xué)者不斷嘗試提出新方法,很少有人去檢驗(yàn)或者規(guī)范舊方法,而這個(gè)是建立完整學(xué)科體系所必不可少的工作.因此,未來(lái)首要的工作就是建立并推廣使用基準(zhǔn)數(shù)據(jù)集,進(jìn)一步完善評(píng)測(cè)標(biāo)準(zhǔn),使得同類(lèi)型的研究能夠放在一起進(jìn)行比較.然后再逐漸細(xì)化研究分支,檢驗(yàn)并規(guī)范已有方法,通過(guò)公布成熟算法框架等方式使得該領(lǐng)域的研究進(jìn)一步規(guī)范化和體系化.

        2)開(kāi)發(fā)針對(duì)網(wǎng)絡(luò)文本和大數(shù)據(jù)的作者識(shí)別模型.隨著互聯(lián)網(wǎng)的不斷發(fā)展和計(jì)算機(jī)的廣泛應(yīng)用,數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),海量網(wǎng)絡(luò)文本給作者識(shí)別研究帶來(lái)一系列新的挑戰(zhàn).與傳統(tǒng)的文學(xué)作品相比,網(wǎng)絡(luò)文本通常具有創(chuàng)作周期短、文本短小、內(nèi)容隨意性強(qiáng)等特點(diǎn).這些特點(diǎn)意味著作者在創(chuàng)作文本時(shí)往往注重讀寫(xiě)效率,而忽略語(yǔ)句的準(zhǔn)確性甚至語(yǔ)法規(guī)則.因此,網(wǎng)絡(luò)文本的作者寫(xiě)作風(fēng)格更難把握,研究者們必須針對(duì)網(wǎng)絡(luò)文本的具體特點(diǎn)尋找新的文本特征.

        除此之外,文本和潛在作者數(shù)量巨大也是需要解決的另一個(gè)難題.由于互聯(lián)網(wǎng)人數(shù)眾多,未知文本所面臨的潛在作者集合巨大,這給作者識(shí)別帶來(lái)很大難度.現(xiàn)有的作者識(shí)別方法大多適用于較小規(guī)模的數(shù)據(jù)集和少數(shù)幾個(gè)候選作者的情況.如果增大數(shù)據(jù)集規(guī)?;蛘邼撛谧髡邤?shù)量,這些方法的準(zhǔn)確率會(huì)大幅度下降.因此,研究者亟待開(kāi)發(fā)新的作者識(shí)別技術(shù),以應(yīng)對(duì)文本集合或作者集合過(guò)大等問(wèn)題.

        3)對(duì)文本風(fēng)格進(jìn)行更深入的分析,拓展跨學(xué)科應(yīng)用.現(xiàn)階段研究者主要依靠機(jī)器學(xué)習(xí)提升模型的性能,而忽視針對(duì)文本風(fēng)格的進(jìn)一步分析,這一點(diǎn)在上一節(jié)也提到過(guò).計(jì)算機(jī)的發(fā)展加速了不同學(xué)科之間的交叉融合,很多學(xué)科都嘗試?yán)糜?jì)算機(jī)技術(shù)改進(jìn)本學(xué)科的研究模式.在這一大背景下,作者識(shí)別研究實(shí)際上承擔(dān)著連接計(jì)算機(jī)科學(xué)與文體學(xué)、認(rèn)知心理學(xué)等學(xué)科的橋梁作用.因此,對(duì)文本風(fēng)格進(jìn)行更深入的分析,或者說(shuō)對(duì)可解釋性進(jìn)一步探究,有助于發(fā)展一些跨學(xué)科應(yīng)用,同時(shí)也會(huì)為相關(guān)領(lǐng)域提供很好的方法和思路.由于可解釋性問(wèn)題一直都是作者識(shí)別中的一個(gè)難題,因此該方向會(huì)在多學(xué)科交叉融合的基礎(chǔ)上面臨更多的挑戰(zhàn).

        猜你喜歡
        句法研究者文檔
        句法與句意(外一篇)
        有人一聲不吭向你扔了個(gè)文檔
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        高等教育中的學(xué)生成為研究者及其啟示
        研究者稱(chēng),經(jīng)CRISPR技術(shù)編輯過(guò)的雙胞胎已出生。科學(xué)將如何回應(yīng)?
        句法二題
        研究者調(diào)查數(shù)據(jù)統(tǒng)計(jì)
        中華手工(2018年6期)2018-07-17 10:37:42
        詩(shī)詞聯(lián)句句法梳理
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        日本久久久| 欧洲成人一区二区三区| 岳好紧好湿夹太紧了好爽矜持| 精品高潮呻吟99av无码视频| 亚洲中文字幕女同一区二区三区| 侵犯了美丽丰满人妻中文字幕| 欧美激情一区二区三区成人| 真实单亲乱l仑对白视频| 国产午夜视频免费观看| 亚洲av天堂一区二区| 国产一区二区三区小说| 亚洲av无码精品色午夜果冻不卡| 亚洲精品aⅴ无码精品丝袜足| 久久综合视频网站| 国产在线观看免费观看| 婷婷开心深爱五月天播播| 99久久精品费精品国产一区二区| 亚洲欧美日韩国产综合久| 精品日韩一区二区三区av| 亚洲精品久久激情国产片| 中文字幕无码家庭乱欲| 国产亚洲成年网址在线观看| 海外华人在线免费观看| 亚欧免费无码aⅴ在线观看| 欧美成aⅴ人高清免费| 亚洲男女视频一区二区| 男人的天堂av高清在线| 特黄a级毛片免费视频| 午夜在线观看有码无码| av天堂手机免费在线| 免费观看的av毛片的网站| 国产精品无码久久久一区蜜臀 | 亚洲av无码男人的天堂在线| 被暴雨淋湿爆乳少妇正在播放| 91九色视频在线国产| 色天使综合婷婷国产日韩av | 免费va国产高清不卡大片| 亚州中文热码在线视频| 亚洲精品www久久久| 国产精品白浆一区二区免费看 | 亚洲av无码一区二区三区人妖|