“語言指紋”在情報分析中的應(yīng)用研究
--基于CIA、FBI、ANSP的情報分析案例

2023-12-23 03:46:28吳尹清

情報雜志 2023年12期

吳尹清

(國防科技大學(xué)國際關(guān)系學(xué)院南京 210039)

0 引言

情報分析是“情報工作的中心環(huán)節(jié)”[1]。隨著20世紀(jì)上半葉以來情報分析的科學(xué)化轉(zhuǎn)向,心理學(xué)、歷史學(xué)等多學(xué)科的知識相繼進(jìn)入情報分析的工具箱[2],但作為科學(xué)的現(xiàn)代語言學(xué)在情報分析中的潛力目前尚未被充分認(rèn)識和探究。

作為非結(jié)構(gòu)化數(shù)據(jù)的人類自然語言產(chǎn)出是情報分析的主要對象。現(xiàn)代語言學(xué)作為系統(tǒng)研究自然語言規(guī)律的學(xué)科,自發(fā)產(chǎn)生了解讀自然語言產(chǎn)出背后事實線索的豐富理論工具,為情報分析方法創(chuàng)新提供了潛在的理論富礦。語言指紋則是這座富礦中最具潛力的語言學(xué)工具?，F(xiàn)代語言學(xué)研究表明,特定個體的自然語言產(chǎn)出在內(nèi)外部多種因素綜合影響下會呈現(xiàn)具有辨識性的語言指紋特征[3-5]。情報分析人員有可能通過分析目標(biāo)文本或話語的語言指紋特征來獲知關(guān)于作者或說話人的信息,與其他情報要素進(jìn)行交叉驗證,從而準(zhǔn)確解讀事實。從理論層面構(gòu)建與論證基于語言指紋的情報分析方法,有助于情報分析應(yīng)用性理論創(chuàng)新,深化對現(xiàn)代語言學(xué)融入情報分析的學(xué)理認(rèn)識、拓展情報分析的理論視野與實踐手段。

1 文獻(xiàn)綜述

1.1 語言指紋分析的現(xiàn)代語言學(xué)理論與應(yīng)用研究

“語言指紋”是一個探討已久的語言學(xué)概念,即個體的語言使用(包括文本和話語)具有獨(dú)特性,這種獨(dú)特性體現(xiàn)于個體使用語言時各種獨(dú)特的選擇傾向或偏好。盡管原則上個體有做出任何語言選擇的可能,但內(nèi)外部多種因素綜合影響下長期形成的語言使用習(xí)慣仍會使其穩(wěn)定地做出具有傾向性的選擇[3-5]。這一系列獨(dú)特的選擇傾向或偏好就是“語言指紋”(又稱“個人語型”或“個人言語風(fēng)格”),而語言指紋分析(linguistic fingerprinting)就是通過識別、解讀語篇中的各種語言指紋特征,以發(fā)現(xiàn)語篇產(chǎn)出者的“語言指紋”。語言指紋分析的邏輯基礎(chǔ)是:類似于人的指紋存留于其觸摸的物體表面,語言指紋體現(xiàn)于個體所產(chǎn)出的語篇中。

自然語言文本或話語中任何反映個體語言使用獨(dú)特性的特征都屬于語言指紋特征。語言指紋分析的知識來源于語言學(xué)的多個分支,包括(計量)文體學(xué)、社會語言學(xué)(sociolinguistics)、中介語理論(interlanguage)、二語習(xí)得、翻譯研究、語篇結(jié)構(gòu)分析、司法語言學(xué)(forensic linguistics)、作者分析(authorship analysis)等領(lǐng)域的知識。

語言指紋分析的應(yīng)用價值除了系統(tǒng)性地描寫刻畫個人言語風(fēng)格特征之外,還在于通過發(fā)現(xiàn)特定語篇中語言使用的獨(dú)特性從而解讀出語篇與個體身份的相關(guān)性,這給予了語言指紋分析在語言學(xué)之外的應(yīng)用價值。文獻(xiàn)回顧發(fā)現(xiàn),對語言指紋分析應(yīng)用于解決實際問題有較多探討的學(xué)科為文學(xué)[6]、歷史學(xué)[7]、司法鑒定[8]、剽竊檢測[9]等,這些多學(xué)科應(yīng)用先例從側(cè)面顯示了語言指紋分析應(yīng)用于情報分析的可能與潛力。

1.2 情報學(xué)領(lǐng)域相關(guān)研究

在情報分析實踐中,語言指紋分析發(fā)揮了不可或缺的作用,為分析人員提供了獨(dú)特的參考維度或者關(guān)鍵的突破線索[4,10-12]。在情報分析理論方面,由于語言指紋分析所依靠的知識較為零散,難以總結(jié),情報學(xué)領(lǐng)域未將語言指紋分析整體作為一種情報分析方法進(jìn)行研究。這種實踐先行與理論缺位的錯位現(xiàn)象導(dǎo)致目前的情報分析理論不能有效地描述此類實踐,相關(guān)情報分析實踐也不能得到理論的有效引領(lǐng),制約了情報分析理論和實踐的發(fā)展。因此有必要在理論層面通過跨學(xué)科視角研究基于語言指紋的情報分析方法,創(chuàng)新基于現(xiàn)代語言學(xué)的情報分析理論,為情報分析實踐提供依據(jù)和參考。

本文運(yùn)用案例研究和文獻(xiàn)分析法,以“語言指紋”為核心概念,從特征與個體身份相關(guān)性(基于語言學(xué)理論)、分析流程(融合案例研究)、適用特征、應(yīng)用場景、方法論基礎(chǔ)、局限性等維度進(jìn)行分析,提出并論證基于語言指紋的情報分析方法。

2 語言指紋分析法的分析流程與方法論基礎(chǔ)

2.1 語言指紋分析法的流程步驟

語言指紋分析法的分析流程概括為“語料獲取、特征提取、特征分析、提出假設(shè)、交叉驗證、生成判斷”等6個主要步驟(見圖1),符合普適性的情報分析流程[13]。

圖1 語言指紋分析流程

2.2 語言指紋分析法的方法論基礎(chǔ)

語言指紋分析法的方法論基礎(chǔ)為實證主義,主要體現(xiàn)在:該方法所依靠的語言學(xué)理論基礎(chǔ)是在遵循現(xiàn)代科學(xué)范式的研究中形成的、是基于對大量語言事實的觀察提出假設(shè)并經(jīng)過實證研究反復(fù)修正、檢驗的,具有高度科學(xué)化的特點,也是科學(xué)歸納法的產(chǎn)物;該方法的具體分析過程符合“客觀觀察、歸納、驗證”的實證主義科學(xué)發(fā)現(xiàn)路徑,也基本符合“問題生成、問題分解、資料搜集、資料甄別、假說生成、上報結(jié)論”的實證主義情報分析過程;該方法的理論基礎(chǔ)形成與應(yīng)用過程都注重數(shù)據(jù)驅(qū)動與定量分析;該方法重視假設(shè)驗證的過程和持續(xù)性,例如基于語言指紋分析得出關(guān)鍵假設(shè)后的交叉驗證步驟就是對各種假設(shè)、信息、事實進(jìn)行持續(xù)性的對比印證。雖然方法論基礎(chǔ)為實證主義,但該方法在操作步驟和實踐運(yùn)用中可結(jié)合基于證偽主義的結(jié)構(gòu)化分析技巧來避免基于語言指紋的單一維度判斷主導(dǎo)情報分析結(jié)論,幫助克服認(rèn)知偏見。該方法運(yùn)用的邏輯思維中最重要的是溯因思維和相關(guān)性思維,在“提出假設(shè)”步驟中必須運(yùn)用語言學(xué)知識通過語言指紋特征反推或回溯該特征產(chǎn)生的原因(如地域變體與出生地),當(dāng)某些語言指紋特征與語篇產(chǎn)出者的身份信息之間并非為具有可解釋性的因果關(guān)系而僅為模式化的現(xiàn)象間相關(guān)性關(guān)系時(如寫作風(fēng)格與作者身份),則需運(yùn)用相關(guān)性思維進(jìn)行推理,在分析過程中運(yùn)用的思維方式還有對比、綜合、歸納。

3 三種語言指紋分析法的案例研究

情報分析方法是信息轉(zhuǎn)化為情報的關(guān)鍵,是解讀事實的工具[14]。對相關(guān)關(guān)系的判斷是所有情報分析工作的基礎(chǔ)[14]。因此,某種情報分析方法是否具備科學(xué)性的關(guān)鍵在于它能否幫助分析人員在情報分析所要求的準(zhǔn)確程度下判斷某類現(xiàn)象與事實的相關(guān)關(guān)系。本文重點分析寫作風(fēng)格分析法、社會語言學(xué)分析法、中介語分析法三類語言指紋分析方法的語言學(xué)理論觀點及其在情報分析中的流程。

3.1 寫作風(fēng)格分析法

3.1.1 特征與個體身份相關(guān)性分析

寫作風(fēng)格分析法的理論基礎(chǔ)主要來自于(計量)文體學(xué)/風(fēng)格學(xué),其基礎(chǔ)理論假設(shè)是:個人或特定群體的寫作風(fēng)格是存在的,這種風(fēng)格來自于作者在寫作過程中的無意識習(xí)慣,并可通過一系列文本特征體現(xiàn)或者計量[15]。最能表達(dá)寫作風(fēng)格、語言指紋、作者身份三者相關(guān)性的寫作風(fēng)格經(jīng)典定義如:“風(fēng)格即本人”[16],文體學(xué)實證研究也表明,寫作風(fēng)格可通過特定文本特征得到體現(xiàn)和描述,并成為識別作者身份的線索和證據(jù)。早期實證研究主要關(guān)注詞匯特征與作者身份的關(guān)聯(lián)。如費(fèi)德里克·莫斯特勒(Federick Mosteller)等[7]將包括部分功能詞在內(nèi)的少數(shù)特殊詞分布頻率作為寫作風(fēng)格特征,運(yùn)用于聯(lián)邦黨人文集作者身份的識別,證實了該特征的有效性。后期隨著文體學(xué)與作者分析研究的發(fā)展,更復(fù)雜的數(shù)學(xué)統(tǒng)計工具得以運(yùn)用,字符、句法、語義等更多新特征進(jìn)入寫作風(fēng)格特征的范疇,并在實證研究中確立了其與作者身份的相關(guān)性,研究范圍也不再局限于經(jīng)典規(guī)范文本,在更為雜亂的非規(guī)范文本(如電子化網(wǎng)絡(luò)文本)中也證明了寫作風(fēng)格特征與作者身份的相關(guān)性。文體學(xué)領(lǐng)域的理論與實證研究成果證明了寫作風(fēng)格特征與文本作者身份的相關(guān)性,揭示了寫作風(fēng)格分析作為情報分析方法的潛力與價值。

3.1.2 分析流程

論證某種情報分析方法還在于考察其能否在情報分析實踐中具備操作可行性以及通過合理有序的分析過程準(zhǔn)確地解讀事實、消解不確定性。還原、回溯情報分析案例可幫助回答這些問題[13]。

寫作風(fēng)格分析法主要是通過發(fā)現(xiàn)并分析文本中的獨(dú)特寫作風(fēng)格特征來判斷文本作者的身份。本節(jié)通過對FBI在著名的“校航炸彈客”(UNAbomber)匿名連環(huán)爆炸案中的情報分析案例研究,介紹寫作風(fēng)格分析法?！靶：秸◤椏汀卑讣前l(fā)生于1978-1995年的著名獨(dú)狼式恐怖襲擊案件[4,10],其策劃者的行為特殊性,給FBI等執(zhí)法機(jī)構(gòu)的偵破工作造成了嚴(yán)重困難,FBI采用寫作風(fēng)格分析法獲得了偵破該案件的關(guān)鍵情報。

a.語料獲取。必須準(zhǔn)確獲取目標(biāo)匿名文本及用于對比的、已知作者為嫌疑目標(biāo)的文本,為便于發(fā)現(xiàn)豐富的寫作風(fēng)格特征,兩類文本的規(guī)模越大越好?！靶：秸◤椏汀卑讣?匿名炸彈客所寫的新盧德主義宣傳文本已通過報紙主動公開,美國聯(lián)邦調(diào)查局(FBI)則設(shè)法獲取了當(dāng)時眾多調(diào)查對象之一的西奧多·卡辛斯基(Theodore Kaczynski)在20世紀(jì)60年代至90年代所寫的共178篇文本,包括他于1966完成的博士學(xué)位論文、在加州大學(xué)伯克利分校任教期間的教學(xué)筆記、1966-1994年間的私人信件等,并將這些文本與14篇“校航炸彈客”以化名公開發(fā)布的文本進(jìn)行人工對比綜合分析[4,10]。

b.特征提取?？梢圆捎米詣映槿》椒?也可采用人工觀察方法進(jìn)行特征提取。前者是利用程序自動抽取該語料庫的字符、詞匯、句法等層面的寫作風(fēng)格特征。后者是分析人員先閱讀文本,人工選取兩類文本中某些寫作風(fēng)格特征。FBI為“校航炸彈客”案件成立的跨部門情報分析工作組的多個組員通過反復(fù)研讀兩類文本(合計規(guī)模約20萬詞),依靠人工觀察選取兩類文本共有的寫作風(fēng)格特征:特殊短語、概念指稱習(xí)慣(指稱精確度高、修改所有指稱模糊的人稱代詞)、高復(fù)用率的句法結(jié)構(gòu)、高度嚴(yán)謹(jǐn)?shù)倪壿嫳磉_(dá)、語法錯誤修正痕跡及習(xí)慣(力求更正每個位置錯誤的標(biāo)點符號)、所遵循的編輯風(fēng)格指南(遵循英式拼寫原則,如"analyse、skilful、wilfully、instalment")、罕見句法結(jié)構(gòu)(英語不定式結(jié)構(gòu)中間嵌入單詞,如"to all go、to voluntarily change"、"to+just+VP"結(jié)構(gòu):"to just turn、to just dump、to just sort of look、to just shove、to just go down")[4,10]。

c.特征分析。對比兩類文本寫作風(fēng)格特征種類、數(shù)量、分布的相似度及一致性,可人工對比也可依靠統(tǒng)計學(xué)習(xí)模型自動處理。FBI情報分析人員使用人工對比方式,發(fā)現(xiàn)選取的所有7類特征在兩類文本中的數(shù)量、分布在統(tǒng)計學(xué)意義上一致,比如"to+just+VP"結(jié)構(gòu)在規(guī)模為15萬詞的炸彈客文本中共出現(xiàn)20次,在規(guī)模為4.32萬詞的卡辛斯基文本中出現(xiàn)6次,經(jīng)過統(tǒng)計校驗證實兩類文本中的出現(xiàn)頻次無顯著差異[4,10]。

d.提出假設(shè)?；趯Ρ确治龅玫疥P(guān)于匿名目標(biāo)文本是否由高價值目標(biāo)所寫的假設(shè),盡管由寫作風(fēng)格分析得出的相關(guān)性判斷可能非常接近事實,但它僅是基于語言指紋維度推理得出的相關(guān)性判斷,且這一相關(guān)性判斷是“概然性”的,因此它仍是分析過程中得到的一種假設(shè),其準(zhǔn)確性還需要經(jīng)過后續(xù)的驗證得到證實,尚不能就此形成情報結(jié)論。FBI的分析人員基于特征對比得出了“所有炸彈客文本作者均為卡辛斯基”的假設(shè)[4,10]。

e.交叉驗證。結(jié)合其他假設(shè)或事實對根據(jù)語言指紋分析得出的關(guān)鍵假設(shè)進(jìn)行驗證,觀察它們之間是否相互印證或排斥。在這一分析步驟中,分析人員可運(yùn)用基于批判性思維與證偽主義方法論的競爭性假設(shè)法等結(jié)構(gòu)化分析技巧來幫助克服認(rèn)知偏見[13,17],交叉驗證各個假設(shè)與事實。FBI經(jīng)過調(diào)查掌握的其他事實:卡辛斯基智商極高,情商很低;本科畢業(yè)于哈佛大學(xué),擁有密歇根大學(xué)的數(shù)學(xué)專業(yè)博士學(xué)位,曾任教于加州大學(xué)伯克利分校,擅長學(xué)術(shù)寫作與嚴(yán)密的邏輯推理;與人相處有困難,離群索居,缺乏親密關(guān)系,與親屬關(guān)系冷漠,從未談過戀愛;自愿長期居住在叢林中,痛恨現(xiàn)代工業(yè)文明與科技進(jìn)步,拒絕使用現(xiàn)代通訊設(shè)備。FBI將掌握的事實、假設(shè)進(jìn)行了反復(fù)的交叉驗證,發(fā)現(xiàn)它們之間相互印證[4,10]。

f.生成判斷。依據(jù)交叉驗證的結(jié)果,形成正式的情報產(chǎn)品。FBI將分析工作組的結(jié)論撰寫為文件,正式上報美國司法部,將卡辛斯基列為“校航炸彈客”的頭號嫌疑犯,最終將其抓獲[4,10]。

3.1.3 特征總結(jié)與適用場景

適用于情報分析的寫作風(fēng)格特征分為兩類:一類是可基于文本進(jìn)行自動抽取的計量風(fēng)格特征,主要包括:a.字符特征:標(biāo)點符號頻數(shù)、空格數(shù)、縮進(jìn)符數(shù)、特殊符號數(shù)量、段落間分隔符數(shù)、數(shù)字字符數(shù)、字母頻數(shù)分布、每段總字符數(shù)等;b.詞匯特征:功能詞分布頻率、一次頻詞(hapax legomenon)列表、詞匯豐富度、詞數(shù)、平均詞長等;c.句法特征:句長、句子數(shù)、詞性標(biāo)記n元列表、句法標(biāo)記n元列表、平均整句長、平均小句長等[18]。另一類是只能依靠人工觀察提取的特征,主要包括:換行習(xí)慣(是否使用換行、換行的習(xí)慣位置等)、空格使用習(xí)慣(是否使用空格、空格的習(xí)慣使用位置等)、標(biāo)點符號使用偏好(如小句末尾處多用逗號還是句號)、概念指稱方式、罕見詞匯、短語、句法結(jié)構(gòu)、對不同語種的使用偏好、文本格式、所遵循的編輯風(fēng)格指南(editorial style guide)等。

寫作風(fēng)格分析作為語言學(xué)理論應(yīng)用于情報分析,應(yīng)用場景發(fā)生切換:原生應(yīng)用場景是服務(wù)于語言本體研究、文學(xué)與史學(xué)研究等,關(guān)注經(jīng)典文本與著名作家身份之間的相關(guān)性,注重新特征發(fā)現(xiàn)與有效性實證研究;在情報分析中的應(yīng)用場景則是服務(wù)于政治、軍事、反恐、刑偵情報分析,關(guān)注匿名文本(無論是否為規(guī)范文本或電子/紙質(zhì)文本)與嫌疑目標(biāo)之間的相關(guān)性,更注重整體思維過程的有序性、與其他情報要素的一致性、結(jié)論的確定性。

3.2 社會語言學(xué)分析法

3.2.1 特征與個體身份相關(guān)性分析

社會語言學(xué)是由語言學(xué)、社會學(xué)、人類學(xué)交叉形成的邊緣學(xué)科,是現(xiàn)代語言學(xué)的重要分支之一,其核心研究對象是語言在使用中的各種變異(變化和差異)和社會環(huán)境之間的相互關(guān)系。語言變異具體表現(xiàn)為在語言使用中各種類型的語言變體,即擁有相同社會身份、處于相同社會環(huán)境的人較穩(wěn)定、普遍地使用的某種語言表現(xiàn)形式。社會語言學(xué)的核心理論假設(shè)認(rèn)為,由于語言的社會屬性,語言使用必然在各種社會因素的影響下產(chǎn)生普遍且持續(xù)的變異。社會語言學(xué)研究將社會身份、社會環(huán)境視作影響語言變異的相關(guān)性變量,致力于發(fā)現(xiàn)、追蹤、描述語言使用中的變異表現(xiàn)(變體)及其與社會身份、環(huán)境的關(guān)系。語言變體可以是語種、方言、語法、短語、詞匯、語音等各層級的變異。社會語言學(xué)的變異主義語言觀及實證研究揭示了語言變體與語言使用者社會身份的關(guān)聯(lián):①說話人的社會階層(職業(yè)、受教育程度、收入)與特定語言變體的相關(guān)性:如威廉·拉波夫(William Labov)[19]運(yùn)用定量研究方法,調(diào)查紐約市高中低三個檔次的百貨公司雇員中發(fā)英語卷舌音“r”的習(xí)慣,發(fā)現(xiàn)百貨公司越高檔,雇員發(fā)“r”音的頻率越高,他還抽樣調(diào)查了紐約市四個社會階層(根據(jù)職業(yè)、受教育程度、家庭收入劃分)發(fā)英語齒間摩擦音“th”和“dh”的情況,量化分析發(fā)現(xiàn)階層越高的調(diào)查對象將“th”和“dh”發(fā)成標(biāo)準(zhǔn)音[θ]和[]的頻率越高,階層越低的調(diào)查對象使用非標(biāo)準(zhǔn)變體(把齒間摩擦音發(fā)成閉塞音[t]或[d])的頻率越高;②地域因素與特定語言變體的相關(guān)性[20];③代際/年齡因素與特定語言變體的相關(guān)性[21];④職業(yè)身份與特定語言變體的相關(guān)性[22-23];⑤社會網(wǎng)絡(luò)地位等級與特定語言變體的相關(guān)性[24]。社會語言學(xué)為情報分析人員通過各種語言變體解讀其背后的語言使用者真實身份提供了思維工具,語言變體可成為用于情報分析的語言指紋特征,社會語言學(xué)分析具備了成為情報分析方法的潛力與價值。

3.2.2 分析流程

社會語言學(xué)分析法主要是通過發(fā)現(xiàn)并分析文本或話語中具有社會身份意義的特征來判斷作者或說話人的身份。本節(jié)基于對韓國國家情報部門安全企劃部(ANSP)在著名的大韓航空KAL858航班爆炸案中的情報分析實踐案例研究,介紹社會語言學(xué)分析法。該案件是發(fā)生于1987年的恐怖襲擊事件,大韓航空KAL858航班在從阿布扎比前往漢城的飛行途中發(fā)生空中爆炸,115名機(jī)組人員和乘客全部遇難。ANSP在調(diào)查事故原因的過程中依靠社會語言學(xué)分析法獲取了偵破該案件的關(guān)鍵情報。

a.語料獲取。社會語言學(xué)研究在口語中發(fā)現(xiàn)的語言變體顯著多于書面語,因此社會語言學(xué)分析法雖可用于分析書面文本,但口語暴露的社會語言學(xué)特征及目標(biāo)對象社會身份信息通常相較書面語豐富得多,最好能通過錄音或者面談等方式獲取目標(biāo)對象的口語材料,書面語文本可作為輔證或無法獲取口語材料的情況下再考慮。當(dāng)時有作案嫌疑的女子“峰谷真由美”已被引渡至韓國,ANSP通過當(dāng)面問訊并錄音的方式獲取口語材料[11]。

b.特征提取?；谏鐣Z言學(xué)知識,人工識別口語材料中的語言變體?！胺骞日嬗擅馈痹趩栍嵵兄v日語、漢語和英語,ANSP的語言分析專家發(fā)現(xiàn)了“峰谷真由美”口語材料中的地域變體,語音地域變體如她的漢語帶有中國南方口音,絲毫不帶中國東北口音,詞匯地域變體如她多次說“粟米”而從不說“苞米”[11]。

c.特征分析?；谡Z言變體與社會身份的相關(guān)性知識反向推出特征背后的社會身份,如社會階層(職業(yè)、受教育程度、收入)、年齡、地域(出生地、曾居住地)、社會關(guān)系網(wǎng)絡(luò)、民族/種族等,并對比得到的各種社會身份信息是否相互矛盾。ANSP基于語音和詞匯地域變體反推“峰谷真由美”的曾住地在中國南方地區(qū),如廣東、港澳地區(qū)等,且她未在東北地區(qū)出生或長期居住過[11]。

d.提出假設(shè)。若對比分析不相互矛盾,則得到關(guān)于目標(biāo)對象社會身份的假設(shè),作為進(jìn)一步分析的基礎(chǔ)。ANSP基于對比分析得出“‘峰谷真由美’長期曾住地在廣東或港澳地區(qū),但未在東北地區(qū)乃至中國北方出生或長期居住過”的假設(shè)[11]。

e.交叉驗證。ANSP掌握的其他關(guān)鍵信息:“峰谷真由美”是該女子在其所持日本護(hù)照上的名字;KAL858航班從巴格達(dá)起飛經(jīng)阿布扎比中轉(zhuǎn),“峰谷真由美”在巴格達(dá)登機(jī),但在阿布扎比中轉(zhuǎn)時下機(jī)離開;日本政府通報“峰谷真由美”所持日本護(hù)照為假護(hù)照;“峰谷真由美”聲稱自己是出生在黑龍江省的中國人,名叫白萃惠,因為家庭變故逃難到了澳門,又經(jīng)澳門到了日本,被日本人收養(yǎng),所以自己取了一個日本名;“峰谷真由美”的漢語和日語說得很好,但表現(xiàn)得完全不懂朝鮮語,且對日本汽車品牌等生活細(xì)節(jié)不了解;朝鮮試圖與韓國合辦即將到來的1988年漢城奧運(yùn)會,但談判破裂,朝鮮公開抵制漢城奧運(yùn)會。ANSP分析人員發(fā)現(xiàn)這些信息與假設(shè)之間存在矛盾,經(jīng)過交叉驗證得出“‘峰谷真由美’曾在廣東或港澳地區(qū)長住,但并未出生在黑龍江,且不是中國人或日本人,非常有可能是朝鮮人”的結(jié)論[11]。

f.生成判斷。ANSP基于該結(jié)論形成情報,指導(dǎo)下一步的問訊工作,加快突破“峰谷真由美”的心理防線,最終“峰谷真由美”的供述符合ANSP的結(jié)論[11]。

3.2.3 特征總結(jié)與適用場景

適用于情報分析的社會語言學(xué)特征主要是能反映說話人或作者的社會階層(職業(yè)、受教育程度、收入)、社會關(guān)系網(wǎng)絡(luò)、地域(出生地、曾住地)、年齡、民族/種族等社會身份信息的語音、詞匯、短語、語法各層次語言變體,除了前文討論的特征,還包括用詞與語法的(非)規(guī)范程度、對不同語體的掌握熟練程度、疑問語氣、不確定性陳述、禮貌用語、會話中的話輪轉(zhuǎn)換方式及話題控制程度等。

社會語言學(xué)分析的原生應(yīng)用場景是服務(wù)于語言變異描寫、語言規(guī)劃與保護(hù)、商業(yè)廣告策略、法律實踐等,在情報分析中的應(yīng)用場景則是服務(wù)于政治、軍事、反恐、刑偵情報分析,關(guān)注目標(biāo)人物口語中的社會語言學(xué)特征與其社會身份之間的相關(guān)性。

3.3 中介語分析法

3.3.1 特征與個體身份相關(guān)性分析

中介語理論是興起于20世紀(jì)60年代末的二語習(xí)得理論,其理論框架后來也被借鑒到翻譯學(xué)習(xí)者研究中,因此本文將語言學(xué)習(xí)者的外語和翻譯產(chǎn)出都納入中介語分析法的分析對象。中介語是指語言學(xué)習(xí)者在學(xué)習(xí)過程中構(gòu)建的介于母語和目的語(即外語)之間的一套特殊的過渡性/中間態(tài)語言系統(tǒng),中介語因同時受到母語和目的語遷移效應(yīng)的影響而產(chǎn)生相應(yīng)的關(guān)聯(lián)性特征,它伴隨學(xué)習(xí)過程不斷變化,逐漸向準(zhǔn)確的目的語形式靠近[25]。中介語理論認(rèn)為,學(xué)習(xí)者的外語/翻譯能力也是動態(tài)、發(fā)展、階段性的,當(dāng)他們處于不同學(xué)習(xí)階段時,其外語/翻譯過渡性系統(tǒng)也表現(xiàn)出不同的中介語特征,而外語使用偏誤和翻譯錯誤作為最重要的中介語特征,與語言學(xué)習(xí)者的語言習(xí)得狀態(tài)(母語和外語是何語種)、外語/翻譯水平(外語/翻譯學(xué)習(xí)階段)存在相關(guān)性,相關(guān)實證研究也證實了這種相關(guān)性:a.外語使用偏誤與母語語種的相關(guān)性:母語負(fù)遷移(negative transfer)效應(yīng)是中介語形成的重要根源[25],母語負(fù)遷移導(dǎo)致的外語使用偏誤是識別外語使用者母語語種的高辨識度特征。中介語研究近年已發(fā)展出名為“母語影響識別”(Native Language Influence Detection)的跨學(xué)科領(lǐng)域,專注于通過抽取和量化分析外語使用偏誤來識別外語使用者的母語,其中也產(chǎn)生了情報分析應(yīng)用導(dǎo)向的實證研究成果,例如通過分析網(wǎng)絡(luò)匿名通訊文本的外語使用偏誤發(fā)現(xiàn)其作者(網(wǎng)絡(luò)匿名犯罪者)的母語語種及與之相關(guān)的身份信息[26]。例如安德烈·M.巴特爾(Andrea M. Batel)等[27]基于母語為西班牙語、英語為外語的作者產(chǎn)出的英語網(wǎng)絡(luò)通訊文本,通過外語使用偏誤分析出文本作者的母語為西語,且成功區(qū)分出作者母語為墨西哥西語或歐陸西語的兩類英語文本。b.外語使用偏誤與外語水平、外語使用識別的相關(guān)性:外語使用偏誤除了本身作為外語使用的標(biāo)志性特征,還與外語水平相關(guān)[28-29]。c.翻譯錯誤與翻譯水平、母語語種、譯文識別的相關(guān)性:翻譯錯誤本身是譯文識別的標(biāo)志性特征,同時受母語影響的典型翻譯錯誤也可用于分析翻譯學(xué)習(xí)者的母語語種[30];翻譯錯誤分布模式可用于判斷學(xué)習(xí)者的翻譯水平[31]。

語言習(xí)得狀態(tài)、外語/翻譯水平本身就是構(gòu)成個體身份的重要維度[32],因此與之相關(guān)的中介語特征可揭示語言使用者的真實身份,成為可用于情報分析的語言指紋特征。

3.3.2 分析流程

中介語分析法主要是通過發(fā)現(xiàn)并分析文本或話語中能夠反映說話人或作者的外語/翻譯水平或語言習(xí)得狀態(tài)的中介語特征來判斷作者或說話人的身份。本節(jié)基于美國中央情報局(CIA)對蘇聯(lián)共產(chǎn)黨中央政治局的情報分析實踐案例研究,介紹中介語分析法。1947年8月,正值美蘇冷戰(zhàn)初期,CIA依靠中介語分析法獲取了關(guān)于蘇共政治局內(nèi)部政治動向的情報。

a.語料獲取。文本和口語都會暴露較多中介語特征,因此獲取目標(biāo)對象的外語/翻譯文本、或外語口語材料、口譯產(chǎn)出均可,語料規(guī)模越大越好,獲取時未必需要了解目標(biāo)對象是否在使用外語/翻譯,盡可能多地獲取目標(biāo)對象產(chǎn)出的語料即可。當(dāng)時CIA的報告與評估處意外獲得了一份來源不明、作者身份不明的英文備忘錄[12]。

b.特征提取?；谧陨淼耐庹Z/翻譯知識,人工識別語料中的外語使用偏誤或翻譯錯誤。CIA報告與評估處的分析人員提取了備忘錄中的英文拼寫、短語搭配錯誤作為中介語特征[12]。

c.特征分析?；谥薪檎Z理論知識,通過外語使用偏誤或翻譯錯誤反向推出作者、譯者、說話人的語言/翻譯水平、語言習(xí)得狀態(tài)。CIA的分析人員根據(jù)上述錯誤發(fā)現(xiàn)備忘錄“是基于法語思維用英語寫成的,或是直接從法語翻譯成英語的”[12]。

d.提出假設(shè)。若對比分析不相互矛盾,得到關(guān)于目標(biāo)對象語言/翻譯水平、語言習(xí)得狀態(tài)的假設(shè),作為進(jìn)一步分析的基礎(chǔ)。CIA基于分析得出“英文備忘錄并非母語寫作產(chǎn)出,而是外語寫作或翻譯產(chǎn)出,作者/譯者的法語水平很高,法語是其接近母語水平的高水平外語或就是其母語,作者/譯者的英語水平較低,是其低水平外語”[12]的假設(shè)。

e.交叉驗證。CIA報告與評估處掌握的其他信息與假設(shè):備忘錄內(nèi)容僅顯示其作者是某個蘇聯(lián)衛(wèi)星國的駐蘇聯(lián)大使,并不清楚具體是哪位;當(dāng)時的蘇聯(lián)衛(wèi)星國中,只有羅馬尼亞和匈牙利國民的法語水平普遍很高,這兩國的外交官也都有很高的法語水平,其他蘇聯(lián)衛(wèi)星國則不存在該情況;該備忘錄的來源、交出動機(jī)和時間均不明;備忘錄主要內(nèi)容為蘇共政治局的內(nèi)部談話與尖銳斗爭情況,蘇聯(lián)衛(wèi)星國駐蘇大使不可能親自參與該層級的活動,泄密源頭必定另有其人,能夠獲知如此高層級情況的人員主動泄密的可能性較低;作者在備忘錄的按語中寫到:“原文件被從保險柜取出,通過特制微縮相機(jī)拍照后再放回柜中”“自己處心積慮地為該文件的人力情報來源保密”,這進(jìn)一步說明該備忘錄的主要內(nèi)容是基于另一份文件編寫整理而來,且作者/譯者是通過人力情報渠道得到該文件的,該文件很可能是蘇共政治局的會議記錄,獲得該文件的人力情報渠道在備忘錄中也有表述。CIA的分析人員發(fā)現(xiàn)這些事實、假設(shè)之間存在一定矛盾,經(jīng)過競爭性假設(shè)分析得出“該英文備忘錄的作者/譯者是羅馬尼亞或匈牙利駐蘇大使,該備忘錄具備真實性,不是假情報,備忘錄中關(guān)于蘇共政治局內(nèi)部政治動向的信息應(yīng)該得到接受”的結(jié)論[12]。

f.生成判斷。CIA報告與評估處基于該結(jié)論形成情報產(chǎn)品并上報。

3.3.3 特征總結(jié)與適用場景

適用于情報分析的中介語特征包括語音、拼寫、詞匯、短語、句法-語義、語用等各層級的外語使用偏誤或翻譯錯誤。語音、拼寫錯誤通常多見于低水平學(xué)習(xí)者的產(chǎn)出中。其中詞匯層級的偏誤是最常見的特征,如選詞錯誤、選詞不準(zhǔn)(如用抽象度過高的詞匯指代具象度較高的下位概念)。其次是短語搭配偏誤,外語/翻譯學(xué)習(xí)者經(jīng)常會產(chǎn)出語法上正確但母語者完全不能接受或覺得生硬的短語搭配,或者短語搭配使用的變化過少以及固定、準(zhǔn)固定、半自由詞組的使用太少。句法-語義偏誤如動詞論元結(jié)構(gòu)(argument structure)錯誤或句法結(jié)構(gòu)過于簡單。語用偏誤常見于口語運(yùn)用中,非母語者由于對目的語文化不熟悉,在使用外語進(jìn)行真實交際時通常不能很好地適配各種交際情景、自如地隨語域變化切換說話方式。

中介語分析的原生應(yīng)用場景是服務(wù)于外語教學(xué)、二語習(xí)得研究、翻譯教學(xué)、翻譯質(zhì)量評估、翻譯認(rèn)知過程研究等,在情報分析中的應(yīng)用場景則是用于識別偽裝成本地母語者或未表明其真實語言習(xí)得狀態(tài)的目標(biāo)人物,服務(wù)于政治、反恐、網(wǎng)絡(luò)匿名犯罪情報分析以及反情報,主要關(guān)注目標(biāo)人物外語寫作、外語口語、口筆譯產(chǎn)出的中介語特征與其語言習(xí)得狀態(tài)、外語/翻譯水平之間的相關(guān)性。

4 結(jié) 論

4.1 語言指紋分析的局限性

a.概然性問題。語言學(xué)研究證實了語言指紋特征與語篇產(chǎn)出者身份的強(qiáng)相關(guān)性,為分析人員利用語言指紋特征回溯作者或說話人身份提供了基礎(chǔ),但兩者間的語言學(xué)關(guān)聯(lián)并不是具有完全確定性的對應(yīng)關(guān)系,而是在可接受的置信水平下的概然性聯(lián)系,況且情報分析現(xiàn)實場景中各種復(fù)雜因素對語言指紋特征表現(xiàn)的影響更是可能超出語言學(xué)的認(rèn)知范圍,因此分析人員不能完全受限于基于科學(xué)發(fā)現(xiàn)范式的實證主義方法論思維[2],一是要認(rèn)識到語言指紋分析在本質(zhì)上是基于一定置信水平的合理判斷,不確定性始終存在;二是要盡量擴(kuò)大觀察語料的規(guī)模,以便發(fā)現(xiàn)復(fù)現(xiàn)率較高、模式化的特征;三是要重視交叉驗證過程,進(jìn)一步消減不確定性和認(rèn)知偏見。

b.欺詐問題。情報分析與科學(xué)研究的本質(zhì)差別在于情報分析需經(jīng)常面對目標(biāo)對象的欺詐、拒止等復(fù)雜的對抗性行為[2],作為具體方法的語言指紋分析同樣也不例外,目標(biāo)對象完全有可能使用欺詐策略,在文本或話語中刻意隱藏或扭曲語言指紋特征,顯著降低語言指紋分析的準(zhǔn)確性,讓分析者難以通過語言指紋分析獲得有價值的情報。此類現(xiàn)象稱為“語言指紋隱匿”[33],情報分析領(lǐng)域需對“語言指紋隱匿”的具體策略、行為共性、識別方法等進(jìn)行研究,情報分析人員在方法應(yīng)用中則需警惕和識別目標(biāo)對象的欺詐行為,特別是目標(biāo)對象呈現(xiàn)的語言指紋特征相互矛盾時,需注意使用多個信息源對假設(shè)推論進(jìn)行驗證。

c.機(jī)器文本泛濫風(fēng)險。語言指紋分析方法的科學(xué)性、可行性、有效性均建立在其所觀測的語料是人類自然語言產(chǎn)出的前提上,否則語言指紋特征與個體身份之間的相關(guān)性將不復(fù)存在。隨著以ChatGPT為代表的自然語言生成大模型在未來的深入應(yīng)用,情報分析將面臨由于大模型生成的機(jī)器文本泛濫而造成的數(shù)據(jù)污染現(xiàn)象,情報分析所處理的文本數(shù)據(jù)中,機(jī)器文本占比將越來越高,且語言大模型在信息類(informative)等中低難度類型文本的寫作、翻譯方面的水平與人類原創(chuàng)寫作、翻譯文本差距不大,嚴(yán)格區(qū)分人類與機(jī)器文本難度不小。在這種前景下,基于語言指紋的情報分析方法無疑將受到?jīng)_擊,尤其是對網(wǎng)絡(luò)匿名電子文本的語言指紋分析。情報學(xué)和語言學(xué)未來需加強(qiáng)對ChatGPT等大模型文本的特征規(guī)律研究,提出針對性的識別與區(qū)分方法,以應(yīng)對其對情報分析造成的風(fēng)險。

4.2 未來展望

本文運(yùn)用案例研究法,研究基于語言指紋的情報分析案例,介紹了語言指紋在情報分析中的應(yīng)用方法。語言指紋分析法以語言指紋特征與個體身份的關(guān)聯(lián)性為理論基礎(chǔ),為情報分析提供了新方法和工具,也拓寬了語言學(xué)的應(yīng)用場景,有助于形成語言學(xué)與情報學(xué)的跨學(xué)科研究。語言指紋特征集合是非封閉、多維度的,可用于情報分析的語言指紋特征不一定局限于本文所研究的特征。另外,雖然筆跡也有辨識性,但不屬于語言學(xué)關(guān)注對象,不是本文所說的“語言指紋特征”,故不做討論。后續(xù)研究可考慮探討聲紋、語篇結(jié)構(gòu)、隱喻使用偏好、情感表達(dá)偏好、極致表達(dá)偏好[34]等特征的應(yīng)用可行性。為便于語言指紋分析法的應(yīng)用,一是情報機(jī)構(gòu)需加強(qiáng)相關(guān)情報分析力量建設(shè),大型或高級別的情報機(jī)構(gòu)可考慮在情報分析單位中成立專門的或涵蓋語言分析業(yè)務(wù)的小組、處室,或提前設(shè)立臨時工作機(jī)制,以應(yīng)對情報分析工作中的語言分析需求,二是學(xué)界需加強(qiáng)外語、語言學(xué)等學(xué)科背景的情報分析人才培養(yǎng)及情報學(xué)與語言學(xué)的交叉研究。

致謝:感謝張薇主編、高金虎教授對本文的指導(dǎo)!

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

“語言指紋”在情報分析中的應(yīng)用研究--基于CIA、FBI、ANSP的情報分析案例

0 引 言