吳尹清
(國防科技大學國際關(guān)系學院 南京 210039)
情報分析是“情報工作的中心環(huán)節(jié)”[1]。隨著20世紀上半葉以來情報分析的科學化轉(zhuǎn)向,心理學、歷史學等多學科的知識相繼進入情報分析的工具箱[2],但作為科學的現(xiàn)代語言學在情報分析中的潛力目前尚未被充分認識和探究。
作為非結(jié)構(gòu)化數(shù)據(jù)的人類自然語言產(chǎn)出是情報分析的主要對象?,F(xiàn)代語言學作為系統(tǒng)研究自然語言規(guī)律的學科,自發(fā)產(chǎn)生了解讀自然語言產(chǎn)出背后事實線索的豐富理論工具,為情報分析方法創(chuàng)新提供了潛在的理論富礦。語言指紋則是這座富礦中最具潛力的語言學工具?,F(xiàn)代語言學研究表明,特定個體的自然語言產(chǎn)出在內(nèi)外部多種因素綜合影響下會呈現(xiàn)具有辨識性的語言指紋特征[3-5]。情報分析人員有可能通過分析目標文本或話語的語言指紋特征來獲知關(guān)于作者或說話人的信息,與其他情報要素進行交叉驗證,從而準確解讀事實。從理論層面構(gòu)建與論證基于語言指紋的情報分析方法,有助于情報分析應(yīng)用性理論創(chuàng)新,深化對現(xiàn)代語言學融入情報分析的學理認識、拓展情報分析的理論視野與實踐手段。
“語言指紋”是一個探討已久的語言學概念,即個體的語言使用(包括文本和話語)具有獨特性,這種獨特性體現(xiàn)于個體使用語言時各種獨特的選擇傾向或偏好。盡管原則上個體有做出任何語言選擇的可能,但內(nèi)外部多種因素綜合影響下長期形成的語言使用習慣仍會使其穩(wěn)定地做出具有傾向性的選擇[3-5]。這一系列獨特的選擇傾向或偏好就是“語言指紋”(又稱“個人語型”或“個人言語風格”),而語言指紋分析(linguistic fingerprinting)就是通過識別、解讀語篇中的各種語言指紋特征,以發(fā)現(xiàn)語篇產(chǎn)出者的“語言指紋”。語言指紋分析的邏輯基礎(chǔ)是:類似于人的指紋存留于其觸摸的物體表面,語言指紋體現(xiàn)于個體所產(chǎn)出的語篇中。
自然語言文本或話語中任何反映個體語言使用獨特性的特征都屬于語言指紋特征。語言指紋分析的知識來源于語言學的多個分支,包括(計量)文體學、社會語言學(sociolinguistics)、中介語理論(interlanguage)、二語習得、翻譯研究、語篇結(jié)構(gòu)分析、司法語言學(forensic linguistics)、作者分析(authorship analysis)等領(lǐng)域的知識。
語言指紋分析的應(yīng)用價值除了系統(tǒng)性地描寫刻畫個人言語風格特征之外,還在于通過發(fā)現(xiàn)特定語篇中語言使用的獨特性從而解讀出語篇與個體身份的相關(guān)性,這給予了語言指紋分析在語言學之外的應(yīng)用價值。文獻回顧發(fā)現(xiàn),對語言指紋分析應(yīng)用于解決實際問題有較多探討的學科為文學[6]、歷史學[7]、司法鑒定[8]、剽竊檢測[9]等,這些多學科應(yīng)用先例從側(cè)面顯示了語言指紋分析應(yīng)用于情報分析的可能與潛力。
在情報分析實踐中,語言指紋分析發(fā)揮了不可或缺的作用,為分析人員提供了獨特的參考維度或者關(guān)鍵的突破線索[4,10-12]。在情報分析理論方面,由于語言指紋分析所依靠的知識較為零散,難以總結(jié),情報學領(lǐng)域未將語言指紋分析整體作為一種情報分析方法進行研究。這種實踐先行與理論缺位的錯位現(xiàn)象導致目前的情報分析理論不能有效地描述此類實踐,相關(guān)情報分析實踐也不能得到理論的有效引領(lǐng),制約了情報分析理論和實踐的發(fā)展。因此有必要在理論層面通過跨學科視角研究基于語言指紋的情報分析方法,創(chuàng)新基于現(xiàn)代語言學的情報分析理論,為情報分析實踐提供依據(jù)和參考。
本文運用案例研究和文獻分析法,以“語言指紋”為核心概念,從特征與個體身份相關(guān)性(基于語言學理論)、分析流程(融合案例研究)、適用特征、應(yīng)用場景、方法論基礎(chǔ)、局限性等維度進行分析,提出并論證基于語言指紋的情報分析方法。
語言指紋分析法的分析流程概括為“語料獲取、特征提取、特征分析、提出假設(shè)、交叉驗證、生成判斷”等6個主要步驟(見圖1),符合普適性的情報分析流程[13]。
圖1 語言指紋分析流程
語言指紋分析法的方法論基礎(chǔ)為實證主義,主要體現(xiàn)在:該方法所依靠的語言學理論基礎(chǔ)是在遵循現(xiàn)代科學范式的研究中形成的、是基于對大量語言事實的觀察提出假設(shè)并經(jīng)過實證研究反復(fù)修正、檢驗的,具有高度科學化的特點,也是科學歸納法的產(chǎn)物;該方法的具體分析過程符合“客觀觀察、歸納、驗證”的實證主義科學發(fā)現(xiàn)路徑,也基本符合“問題生成、問題分解、資料搜集、資料甄別、假說生成、上報結(jié)論”的實證主義情報分析過程;該方法的理論基礎(chǔ)形成與應(yīng)用過程都注重數(shù)據(jù)驅(qū)動與定量分析;該方法重視假設(shè)驗證的過程和持續(xù)性,例如基于語言指紋分析得出關(guān)鍵假設(shè)后的交叉驗證步驟就是對各種假設(shè)、信息、事實進行持續(xù)性的對比印證。雖然方法論基礎(chǔ)為實證主義,但該方法在操作步驟和實踐運用中可結(jié)合基于證偽主義的結(jié)構(gòu)化分析技巧來避免基于語言指紋的單一維度判斷主導情報分析結(jié)論,幫助克服認知偏見。該方法運用的邏輯思維中最重要的是溯因思維和相關(guān)性思維,在“提出假設(shè)”步驟中必須運用語言學知識通過語言指紋特征反推或回溯該特征產(chǎn)生的原因(如地域變體與出生地),當某些語言指紋特征與語篇產(chǎn)出者的身份信息之間并非為具有可解釋性的因果關(guān)系而僅為模式化的現(xiàn)象間相關(guān)性關(guān)系時(如寫作風格與作者身份),則需運用相關(guān)性思維進行推理,在分析過程中運用的思維方式還有對比、綜合、歸納。
情報分析方法是信息轉(zhuǎn)化為情報的關(guān)鍵,是解讀事實的工具[14]。對相關(guān)關(guān)系的判斷是所有情報分析工作的基礎(chǔ)[14]。因此,某種情報分析方法是否具備科學性的關(guān)鍵在于它能否幫助分析人員在情報分析所要求的準確程度下判斷某類現(xiàn)象與事實的相關(guān)關(guān)系。本文重點分析寫作風格分析法、社會語言學分析法、中介語分析法三類語言指紋分析方法的語言學理論觀點及其在情報分析中的流程。
3.1.1 特征與個體身份相關(guān)性分析
寫作風格分析法的理論基礎(chǔ)主要來自于(計量)文體學/風格學,其基礎(chǔ)理論假設(shè)是:個人或特定群體的寫作風格是存在的,這種風格來自于作者在寫作過程中的無意識習慣,并可通過一系列文本特征體現(xiàn)或者計量[15]。最能表達寫作風格、語言指紋、作者身份三者相關(guān)性的寫作風格經(jīng)典定義如:“風格即本人”[16],文體學實證研究也表明,寫作風格可通過特定文本特征得到體現(xiàn)和描述,并成為識別作者身份的線索和證據(jù)。早期實證研究主要關(guān)注詞匯特征與作者身份的關(guān)聯(lián)。如費德里克·莫斯特勒(Federick Mosteller)等[7]將包括部分功能詞在內(nèi)的少數(shù)特殊詞分布頻率作為寫作風格特征,運用于聯(lián)邦黨人文集作者身份的識別,證實了該特征的有效性。后期隨著文體學與作者分析研究的發(fā)展,更復(fù)雜的數(shù)學統(tǒng)計工具得以運用,字符、句法、語義等更多新特征進入寫作風格特征的范疇,并在實證研究中確立了其與作者身份的相關(guān)性,研究范圍也不再局限于經(jīng)典規(guī)范文本,在更為雜亂的非規(guī)范文本(如電子化網(wǎng)絡(luò)文本)中也證明了寫作風格特征與作者身份的相關(guān)性。文體學領(lǐng)域的理論與實證研究成果證明了寫作風格特征與文本作者身份的相關(guān)性,揭示了寫作風格分析作為情報分析方法的潛力與價值。
3.1.2 分析流程
論證某種情報分析方法還在于考察其能否在情報分析實踐中具備操作可行性以及通過合理有序的分析過程準確地解讀事實、消解不確定性。還原、回溯情報分析案例可幫助回答這些問題[13]。
寫作風格分析法主要是通過發(fā)現(xiàn)并分析文本中的獨特寫作風格特征來判斷文本作者的身份。本節(jié)通過對FBI在著名的“校航炸彈客”(UNAbomber)匿名連環(huán)爆炸案中的情報分析案例研究,介紹寫作風格分析法?!靶:秸◤椏汀卑讣前l(fā)生于1978-1995年的著名獨狼式恐怖襲擊案件[4,10],其策劃者的行為特殊性,給FBI等執(zhí)法機構(gòu)的偵破工作造成了嚴重困難,FBI采用寫作風格分析法獲得了偵破該案件的關(guān)鍵情報。
a.語料獲取。必須準確獲取目標匿名文本及用于對比的、已知作者為嫌疑目標的文本,為便于發(fā)現(xiàn)豐富的寫作風格特征,兩類文本的規(guī)模越大越好?!靶:秸◤椏汀卑讣?匿名炸彈客所寫的新盧德主義宣傳文本已通過報紙主動公開,美國聯(lián)邦調(diào)查局(FBI)則設(shè)法獲取了當時眾多調(diào)查對象之一的西奧多·卡辛斯基(Theodore Kaczynski)在20世紀60年代至90年代所寫的共178篇文本,包括他于1966完成的博士學位論文、在加州大學伯克利分校任教期間的教學筆記、1966-1994年間的私人信件等,并將這些文本與14篇“校航炸彈客”以化名公開發(fā)布的文本進行人工對比綜合分析[4,10]。
b.特征提取。可以采用自動抽取方法,也可采用人工觀察方法進行特征提取。前者是利用程序自動抽取該語料庫的字符、詞匯、句法等層面的寫作風格特征。后者是分析人員先閱讀文本,人工選取兩類文本中某些寫作風格特征。FBI為“校航炸彈客”案件成立的跨部門情報分析工作組的多個組員通過反復(fù)研讀兩類文本(合計規(guī)模約20萬詞),依靠人工觀察選取兩類文本共有的寫作風格特征:特殊短語、概念指稱習慣(指稱精確度高、修改所有指稱模糊的人稱代詞)、高復(fù)用率的句法結(jié)構(gòu)、高度嚴謹?shù)倪壿嫳磉_、語法錯誤修正痕跡及習慣(力求更正每個位置錯誤的標點符號)、所遵循的編輯風格指南(遵循英式拼寫原則,如"analyse、skilful、wilfully、instalment")、罕見句法結(jié)構(gòu)(英語不定式結(jié)構(gòu)中間嵌入單詞,如"to all go、to voluntarily change"、"to+just+VP"結(jié)構(gòu):"to just turn、to just dump、to just sort of look、to just shove、to just go down")[4,10]。
c.特征分析。對比兩類文本寫作風格特征種類、數(shù)量、分布的相似度及一致性,可人工對比也可依靠統(tǒng)計學習模型自動處理。FBI情報分析人員使用人工對比方式,發(fā)現(xiàn)選取的所有7類特征在兩類文本中的數(shù)量、分布在統(tǒng)計學意義上一致,比如"to+just+VP"結(jié)構(gòu)在規(guī)模為15萬詞的炸彈客文本中共出現(xiàn)20次,在規(guī)模為4.32萬詞的卡辛斯基文本中出現(xiàn)6次,經(jīng)過統(tǒng)計校驗證實兩類文本中的出現(xiàn)頻次無顯著差異[4,10]。
d.提出假設(shè)?;趯Ρ确治龅玫疥P(guān)于匿名目標文本是否由高價值目標所寫的假設(shè),盡管由寫作風格分析得出的相關(guān)性判斷可能非常接近事實,但它僅是基于語言指紋維度推理得出的相關(guān)性判斷,且這一相關(guān)性判斷是“概然性”的,因此它仍是分析過程中得到的一種假設(shè),其準確性還需要經(jīng)過后續(xù)的驗證得到證實,尚不能就此形成情報結(jié)論。FBI的分析人員基于特征對比得出了“所有炸彈客文本作者均為卡辛斯基”的假設(shè)[4,10]。
e.交叉驗證。結(jié)合其他假設(shè)或事實對根據(jù)語言指紋分析得出的關(guān)鍵假設(shè)進行驗證,觀察它們之間是否相互印證或排斥。在這一分析步驟中,分析人員可運用基于批判性思維與證偽主義方法論的競爭性假設(shè)法等結(jié)構(gòu)化分析技巧來幫助克服認知偏見[13,17],交叉驗證各個假設(shè)與事實。FBI經(jīng)過調(diào)查掌握的其他事實:卡辛斯基智商極高,情商很低;本科畢業(yè)于哈佛大學,擁有密歇根大學的數(shù)學專業(yè)博士學位,曾任教于加州大學伯克利分校,擅長學術(shù)寫作與嚴密的邏輯推理;與人相處有困難,離群索居,缺乏親密關(guān)系,與親屬關(guān)系冷漠,從未談過戀愛;自愿長期居住在叢林中,痛恨現(xiàn)代工業(yè)文明與科技進步,拒絕使用現(xiàn)代通訊設(shè)備。FBI將掌握的事實、假設(shè)進行了反復(fù)的交叉驗證,發(fā)現(xiàn)它們之間相互印證[4,10]。
f.生成判斷。依據(jù)交叉驗證的結(jié)果,形成正式的情報產(chǎn)品。FBI將分析工作組的結(jié)論撰寫為文件,正式上報美國司法部,將卡辛斯基列為“校航炸彈客”的頭號嫌疑犯,最終將其抓獲[4,10]。
3.1.3 特征總結(jié)與適用場景
適用于情報分析的寫作風格特征分為兩類:一類是可基于文本進行自動抽取的計量風格特征,主要包括:a.字符特征:標點符號頻數(shù)、空格數(shù)、縮進符數(shù)、特殊符號數(shù)量、段落間分隔符數(shù)、數(shù)字字符數(shù)、字母頻數(shù)分布、每段總字符數(shù)等;b.詞匯特征:功能詞分布頻率、一次頻詞(hapax legomenon)列表、詞匯豐富度、詞數(shù)、平均詞長等;c.句法特征:句長、句子數(shù)、詞性標記n元列表、句法標記n元列表、平均整句長、平均小句長等[18]。另一類是只能依靠人工觀察提取的特征,主要包括:換行習慣(是否使用換行、換行的習慣位置等)、空格使用習慣(是否使用空格、空格的習慣使用位置等)、標點符號使用偏好(如小句末尾處多用逗號還是句號)、概念指稱方式、罕見詞匯、短語、句法結(jié)構(gòu)、對不同語種的使用偏好、文本格式、所遵循的編輯風格指南(editorial style guide)等。
寫作風格分析作為語言學理論應(yīng)用于情報分析,應(yīng)用場景發(fā)生切換:原生應(yīng)用場景是服務(wù)于語言本體研究、文學與史學研究等,關(guān)注經(jīng)典文本與著名作家身份之間的相關(guān)性,注重新特征發(fā)現(xiàn)與有效性實證研究;在情報分析中的應(yīng)用場景則是服務(wù)于政治、軍事、反恐、刑偵情報分析,關(guān)注匿名文本(無論是否為規(guī)范文本或電子/紙質(zhì)文本)與嫌疑目標之間的相關(guān)性,更注重整體思維過程的有序性、與其他情報要素的一致性、結(jié)論的確定性。
3.2.1 特征與個體身份相關(guān)性分析
社會語言學是由語言學、社會學、人類學交叉形成的邊緣學科,是現(xiàn)代語言學的重要分支之一,其核心研究對象是語言在使用中的各種變異(變化和差異)和社會環(huán)境之間的相互關(guān)系。語言變異具體表現(xiàn)為在語言使用中各種類型的語言變體,即擁有相同社會身份、處于相同社會環(huán)境的人較穩(wěn)定、普遍地使用的某種語言表現(xiàn)形式。社會語言學的核心理論假設(shè)認為,由于語言的社會屬性,語言使用必然在各種社會因素的影響下產(chǎn)生普遍且持續(xù)的變異。社會語言學研究將社會身份、社會環(huán)境視作影響語言變異的相關(guān)性變量,致力于發(fā)現(xiàn)、追蹤、描述語言使用中的變異表現(xiàn)(變體)及其與社會身份、環(huán)境的關(guān)系。語言變體可以是語種、方言、語法、短語、詞匯、語音等各層級的變異。社會語言學的變異主義語言觀及實證研究揭示了語言變體與語言使用者社會身份的關(guān)聯(lián):①說話人的社會階層(職業(yè)、受教育程度、收入)與特定語言變體的相關(guān)性:如威廉·拉波夫(William Labov)[19]運用定量研究方法,調(diào)查紐約市高中低三個檔次的百貨公司雇員中發(fā)英語卷舌音“r”的習慣,發(fā)現(xiàn)百貨公司越高檔,雇員發(fā)“r”音的頻率越高,他還抽樣調(diào)查了紐約市四個社會階層(根據(jù)職業(yè)、受教育程度、家庭收入劃分)發(fā)英語齒間摩擦音“th”和“dh”的情況,量化分析發(fā)現(xiàn)階層越高的調(diào)查對象將“th”和“dh”發(fā)成標準音[θ]和[]的頻率越高,階層越低的調(diào)查對象使用非標準變體(把齒間摩擦音發(fā)成閉塞音[t]或[d])的頻率越高;②地域因素與特定語言變體的相關(guān)性[20];③代際/年齡因素與特定語言變體的相關(guān)性[21];④職業(yè)身份與特定語言變體的相關(guān)性[22-23];⑤社會網(wǎng)絡(luò)地位等級與特定語言變體的相關(guān)性[24]。社會語言學為情報分析人員通過各種語言變體解讀其背后的語言使用者真實身份提供了思維工具,語言變體可成為用于情報分析的語言指紋特征,社會語言學分析具備了成為情報分析方法的潛力與價值。
3.2.2 分析流程
社會語言學分析法主要是通過發(fā)現(xiàn)并分析文本或話語中具有社會身份意義的特征來判斷作者或說話人的身份。本節(jié)基于對韓國國家情報部門安全企劃部(ANSP)在著名的大韓航空KAL858航班爆炸案中的情報分析實踐案例研究,介紹社會語言學分析法。該案件是發(fā)生于1987年的恐怖襲擊事件,大韓航空KAL858航班在從阿布扎比前往漢城的飛行途中發(fā)生空中爆炸,115名機組人員和乘客全部遇難。ANSP在調(diào)查事故原因的過程中依靠社會語言學分析法獲取了偵破該案件的關(guān)鍵情報。
a.語料獲取。社會語言學研究在口語中發(fā)現(xiàn)的語言變體顯著多于書面語,因此社會語言學分析法雖可用于分析書面文本,但口語暴露的社會語言學特征及目標對象社會身份信息通常相較書面語豐富得多,最好能通過錄音或者面談等方式獲取目標對象的口語材料,書面語文本可作為輔證或無法獲取口語材料的情況下再考慮。當時有作案嫌疑的女子“峰谷真由美”已被引渡至韓國,ANSP通過當面問訊并錄音的方式獲取口語材料[11]。
b.特征提取。基于社會語言學知識,人工識別口語材料中的語言變體。“峰谷真由美”在問訊中講日語、漢語和英語,ANSP的語言分析專家發(fā)現(xiàn)了“峰谷真由美”口語材料中的地域變體,語音地域變體如她的漢語帶有中國南方口音,絲毫不帶中國東北口音,詞匯地域變體如她多次說“粟米”而從不說“苞米”[11]。
c.特征分析?;谡Z言變體與社會身份的相關(guān)性知識反向推出特征背后的社會身份,如社會階層(職業(yè)、受教育程度、收入)、年齡、地域(出生地、曾居住地)、社會關(guān)系網(wǎng)絡(luò)、民族/種族等,并對比得到的各種社會身份信息是否相互矛盾。ANSP基于語音和詞匯地域變體反推“峰谷真由美”的曾住地在中國南方地區(qū),如廣東、港澳地區(qū)等,且她未在東北地區(qū)出生或長期居住過[11]。
d.提出假設(shè)。若對比分析不相互矛盾,則得到關(guān)于目標對象社會身份的假設(shè),作為進一步分析的基礎(chǔ)。ANSP基于對比分析得出“‘峰谷真由美’長期曾住地在廣東或港澳地區(qū),但未在東北地區(qū)乃至中國北方出生或長期居住過”的假設(shè)[11]。
e.交叉驗證。ANSP掌握的其他關(guān)鍵信息:“峰谷真由美”是該女子在其所持日本護照上的名字;KAL858航班從巴格達起飛經(jīng)阿布扎比中轉(zhuǎn),“峰谷真由美”在巴格達登機,但在阿布扎比中轉(zhuǎn)時下機離開;日本政府通報“峰谷真由美”所持日本護照為假護照;“峰谷真由美”聲稱自己是出生在黑龍江省的中國人,名叫白萃惠,因為家庭變故逃難到了澳門,又經(jīng)澳門到了日本,被日本人收養(yǎng),所以自己取了一個日本名;“峰谷真由美”的漢語和日語說得很好,但表現(xiàn)得完全不懂朝鮮語,且對日本汽車品牌等生活細節(jié)不了解;朝鮮試圖與韓國合辦即將到來的1988年漢城奧運會,但談判破裂,朝鮮公開抵制漢城奧運會。ANSP分析人員發(fā)現(xiàn)這些信息與假設(shè)之間存在矛盾,經(jīng)過交叉驗證得出“‘峰谷真由美’曾在廣東或港澳地區(qū)長住,但并未出生在黑龍江,且不是中國人或日本人,非常有可能是朝鮮人”的結(jié)論[11]。
f.生成判斷。ANSP基于該結(jié)論形成情報,指導下一步的問訊工作,加快突破“峰谷真由美”的心理防線,最終“峰谷真由美”的供述符合ANSP的結(jié)論[11]。
3.2.3 特征總結(jié)與適用場景
適用于情報分析的社會語言學特征主要是能反映說話人或作者的社會階層(職業(yè)、受教育程度、收入)、社會關(guān)系網(wǎng)絡(luò)、地域(出生地、曾住地)、年齡、民族/種族等社會身份信息的語音、詞匯、短語、語法各層次語言變體,除了前文討論的特征,還包括用詞與語法的(非)規(guī)范程度、對不同語體的掌握熟練程度、疑問語氣、不確定性陳述、禮貌用語、會話中的話輪轉(zhuǎn)換方式及話題控制程度等。
社會語言學分析的原生應(yīng)用場景是服務(wù)于語言變異描寫、語言規(guī)劃與保護、商業(yè)廣告策略、法律實踐等,在情報分析中的應(yīng)用場景則是服務(wù)于政治、軍事、反恐、刑偵情報分析,關(guān)注目標人物口語中的社會語言學特征與其社會身份之間的相關(guān)性。
3.3.1 特征與個體身份相關(guān)性分析
中介語理論是興起于20世紀60年代末的二語習得理論,其理論框架后來也被借鑒到翻譯學習者研究中,因此本文將語言學習者的外語和翻譯產(chǎn)出都納入中介語分析法的分析對象。中介語是指語言學習者在學習過程中構(gòu)建的介于母語和目的語(即外語)之間的一套特殊的過渡性/中間態(tài)語言系統(tǒng),中介語因同時受到母語和目的語遷移效應(yīng)的影響而產(chǎn)生相應(yīng)的關(guān)聯(lián)性特征,它伴隨學習過程不斷變化,逐漸向準確的目的語形式靠近[25]。中介語理論認為,學習者的外語/翻譯能力也是動態(tài)、發(fā)展、階段性的,當他們處于不同學習階段時,其外語/翻譯過渡性系統(tǒng)也表現(xiàn)出不同的中介語特征,而外語使用偏誤和翻譯錯誤作為最重要的中介語特征,與語言學習者的語言習得狀態(tài)(母語和外語是何語種)、外語/翻譯水平(外語/翻譯學習階段)存在相關(guān)性,相關(guān)實證研究也證實了這種相關(guān)性:a.外語使用偏誤與母語語種的相關(guān)性:母語負遷移(negative transfer)效應(yīng)是中介語形成的重要根源[25],母語負遷移導致的外語使用偏誤是識別外語使用者母語語種的高辨識度特征。中介語研究近年已發(fā)展出名為“母語影響識別”(Native Language Influence Detection)的跨學科領(lǐng)域,專注于通過抽取和量化分析外語使用偏誤來識別外語使用者的母語,其中也產(chǎn)生了情報分析應(yīng)用導向的實證研究成果,例如通過分析網(wǎng)絡(luò)匿名通訊文本的外語使用偏誤發(fā)現(xiàn)其作者(網(wǎng)絡(luò)匿名犯罪者)的母語語種及與之相關(guān)的身份信息[26]。例如安德烈·M.巴特爾(Andrea M. Batel)等[27]基于母語為西班牙語、英語為外語的作者產(chǎn)出的英語網(wǎng)絡(luò)通訊文本,通過外語使用偏誤分析出文本作者的母語為西語,且成功區(qū)分出作者母語為墨西哥西語或歐陸西語的兩類英語文本。b.外語使用偏誤與外語水平、外語使用識別的相關(guān)性:外語使用偏誤除了本身作為外語使用的標志性特征,還與外語水平相關(guān)[28-29]。c.翻譯錯誤與翻譯水平、母語語種、譯文識別的相關(guān)性:翻譯錯誤本身是譯文識別的標志性特征,同時受母語影響的典型翻譯錯誤也可用于分析翻譯學習者的母語語種[30];翻譯錯誤分布模式可用于判斷學習者的翻譯水平[31]。
語言習得狀態(tài)、外語/翻譯水平本身就是構(gòu)成個體身份的重要維度[32],因此與之相關(guān)的中介語特征可揭示語言使用者的真實身份,成為可用于情報分析的語言指紋特征。
3.3.2 分析流程
中介語分析法主要是通過發(fā)現(xiàn)并分析文本或話語中能夠反映說話人或作者的外語/翻譯水平或語言習得狀態(tài)的中介語特征來判斷作者或說話人的身份。本節(jié)基于美國中央情報局(CIA)對蘇聯(lián)共產(chǎn)黨中央政治局的情報分析實踐案例研究,介紹中介語分析法。1947年8月,正值美蘇冷戰(zhàn)初期,CIA依靠中介語分析法獲取了關(guān)于蘇共政治局內(nèi)部政治動向的情報。
a.語料獲取。文本和口語都會暴露較多中介語特征,因此獲取目標對象的外語/翻譯文本、或外語口語材料、口譯產(chǎn)出均可,語料規(guī)模越大越好,獲取時未必需要了解目標對象是否在使用外語/翻譯,盡可能多地獲取目標對象產(chǎn)出的語料即可。當時CIA的報告與評估處意外獲得了一份來源不明、作者身份不明的英文備忘錄[12]。
b.特征提取?;谧陨淼耐庹Z/翻譯知識,人工識別語料中的外語使用偏誤或翻譯錯誤。CIA報告與評估處的分析人員提取了備忘錄中的英文拼寫、短語搭配錯誤作為中介語特征[12]。
c.特征分析?;谥薪檎Z理論知識,通過外語使用偏誤或翻譯錯誤反向推出作者、譯者、說話人的語言/翻譯水平、語言習得狀態(tài)。CIA的分析人員根據(jù)上述錯誤發(fā)現(xiàn)備忘錄“是基于法語思維用英語寫成的,或是直接從法語翻譯成英語的”[12]。
d.提出假設(shè)。若對比分析不相互矛盾,得到關(guān)于目標對象語言/翻譯水平、語言習得狀態(tài)的假設(shè),作為進一步分析的基礎(chǔ)。CIA基于分析得出“英文備忘錄并非母語寫作產(chǎn)出,而是外語寫作或翻譯產(chǎn)出,作者/譯者的法語水平很高,法語是其接近母語水平的高水平外語或就是其母語,作者/譯者的英語水平較低,是其低水平外語”[12]的假設(shè)。
e.交叉驗證。CIA報告與評估處掌握的其他信息與假設(shè):備忘錄內(nèi)容僅顯示其作者是某個蘇聯(lián)衛(wèi)星國的駐蘇聯(lián)大使,并不清楚具體是哪位;當時的蘇聯(lián)衛(wèi)星國中,只有羅馬尼亞和匈牙利國民的法語水平普遍很高,這兩國的外交官也都有很高的法語水平,其他蘇聯(lián)衛(wèi)星國則不存在該情況;該備忘錄的來源、交出動機和時間均不明;備忘錄主要內(nèi)容為蘇共政治局的內(nèi)部談話與尖銳斗爭情況,蘇聯(lián)衛(wèi)星國駐蘇大使不可能親自參與該層級的活動,泄密源頭必定另有其人,能夠獲知如此高層級情況的人員主動泄密的可能性較低;作者在備忘錄的按語中寫到:“原文件被從保險柜取出,通過特制微縮相機拍照后再放回柜中”“自己處心積慮地為該文件的人力情報來源保密”,這進一步說明該備忘錄的主要內(nèi)容是基于另一份文件編寫整理而來,且作者/譯者是通過人力情報渠道得到該文件的,該文件很可能是蘇共政治局的會議記錄,獲得該文件的人力情報渠道在備忘錄中也有表述。CIA的分析人員發(fā)現(xiàn)這些事實、假設(shè)之間存在一定矛盾,經(jīng)過競爭性假設(shè)分析得出“該英文備忘錄的作者/譯者是羅馬尼亞或匈牙利駐蘇大使,該備忘錄具備真實性,不是假情報,備忘錄中關(guān)于蘇共政治局內(nèi)部政治動向的信息應(yīng)該得到接受”的結(jié)論[12]。
f.生成判斷。CIA報告與評估處基于該結(jié)論形成情報產(chǎn)品并上報。
3.3.3 特征總結(jié)與適用場景
適用于情報分析的中介語特征包括語音、拼寫、詞匯、短語、句法-語義、語用等各層級的外語使用偏誤或翻譯錯誤。語音、拼寫錯誤通常多見于低水平學習者的產(chǎn)出中。其中詞匯層級的偏誤是最常見的特征,如選詞錯誤、選詞不準(如用抽象度過高的詞匯指代具象度較高的下位概念)。其次是短語搭配偏誤,外語/翻譯學習者經(jīng)常會產(chǎn)出語法上正確但母語者完全不能接受或覺得生硬的短語搭配,或者短語搭配使用的變化過少以及固定、準固定、半自由詞組的使用太少。句法-語義偏誤如動詞論元結(jié)構(gòu)(argument structure)錯誤或句法結(jié)構(gòu)過于簡單。語用偏誤常見于口語運用中,非母語者由于對目的語文化不熟悉,在使用外語進行真實交際時通常不能很好地適配各種交際情景、自如地隨語域變化切換說話方式。
中介語分析的原生應(yīng)用場景是服務(wù)于外語教學、二語習得研究、翻譯教學、翻譯質(zhì)量評估、翻譯認知過程研究等,在情報分析中的應(yīng)用場景則是用于識別偽裝成本地母語者或未表明其真實語言習得狀態(tài)的目標人物,服務(wù)于政治、反恐、網(wǎng)絡(luò)匿名犯罪情報分析以及反情報,主要關(guān)注目標人物外語寫作、外語口語、口筆譯產(chǎn)出的中介語特征與其語言習得狀態(tài)、外語/翻譯水平之間的相關(guān)性。
a.概然性問題。語言學研究證實了語言指紋特征與語篇產(chǎn)出者身份的強相關(guān)性,為分析人員利用語言指紋特征回溯作者或說話人身份提供了基礎(chǔ),但兩者間的語言學關(guān)聯(lián)并不是具有完全確定性的對應(yīng)關(guān)系,而是在可接受的置信水平下的概然性聯(lián)系,況且情報分析現(xiàn)實場景中各種復(fù)雜因素對語言指紋特征表現(xiàn)的影響更是可能超出語言學的認知范圍,因此分析人員不能完全受限于基于科學發(fā)現(xiàn)范式的實證主義方法論思維[2],一是要認識到語言指紋分析在本質(zhì)上是基于一定置信水平的合理判斷,不確定性始終存在;二是要盡量擴大觀察語料的規(guī)模,以便發(fā)現(xiàn)復(fù)現(xiàn)率較高、模式化的特征;三是要重視交叉驗證過程,進一步消減不確定性和認知偏見。
b.欺詐問題。情報分析與科學研究的本質(zhì)差別在于情報分析需經(jīng)常面對目標對象的欺詐、拒止等復(fù)雜的對抗性行為[2],作為具體方法的語言指紋分析同樣也不例外,目標對象完全有可能使用欺詐策略,在文本或話語中刻意隱藏或扭曲語言指紋特征,顯著降低語言指紋分析的準確性,讓分析者難以通過語言指紋分析獲得有價值的情報。此類現(xiàn)象稱為“語言指紋隱匿”[33],情報分析領(lǐng)域需對“語言指紋隱匿”的具體策略、行為共性、識別方法等進行研究,情報分析人員在方法應(yīng)用中則需警惕和識別目標對象的欺詐行為,特別是目標對象呈現(xiàn)的語言指紋特征相互矛盾時,需注意使用多個信息源對假設(shè)推論進行驗證。
c.機器文本泛濫風險。語言指紋分析方法的科學性、可行性、有效性均建立在其所觀測的語料是人類自然語言產(chǎn)出的前提上,否則語言指紋特征與個體身份之間的相關(guān)性將不復(fù)存在。隨著以ChatGPT為代表的自然語言生成大模型在未來的深入應(yīng)用,情報分析將面臨由于大模型生成的機器文本泛濫而造成的數(shù)據(jù)污染現(xiàn)象,情報分析所處理的文本數(shù)據(jù)中,機器文本占比將越來越高,且語言大模型在信息類(informative)等中低難度類型文本的寫作、翻譯方面的水平與人類原創(chuàng)寫作、翻譯文本差距不大,嚴格區(qū)分人類與機器文本難度不小。在這種前景下,基于語言指紋的情報分析方法無疑將受到?jīng)_擊,尤其是對網(wǎng)絡(luò)匿名電子文本的語言指紋分析。情報學和語言學未來需加強對ChatGPT等大模型文本的特征規(guī)律研究,提出針對性的識別與區(qū)分方法,以應(yīng)對其對情報分析造成的風險。
本文運用案例研究法,研究基于語言指紋的情報分析案例,介紹了語言指紋在情報分析中的應(yīng)用方法。語言指紋分析法以語言指紋特征與個體身份的關(guān)聯(lián)性為理論基礎(chǔ),為情報分析提供了新方法和工具,也拓寬了語言學的應(yīng)用場景,有助于形成語言學與情報學的跨學科研究。語言指紋特征集合是非封閉、多維度的,可用于情報分析的語言指紋特征不一定局限于本文所研究的特征。另外,雖然筆跡也有辨識性,但不屬于語言學關(guān)注對象,不是本文所說的“語言指紋特征”,故不做討論。后續(xù)研究可考慮探討聲紋、語篇結(jié)構(gòu)、隱喻使用偏好、情感表達偏好、極致表達偏好[34]等特征的應(yīng)用可行性。為便于語言指紋分析法的應(yīng)用,一是情報機構(gòu)需加強相關(guān)情報分析力量建設(shè),大型或高級別的情報機構(gòu)可考慮在情報分析單位中成立專門的或涵蓋語言分析業(yè)務(wù)的小組、處室,或提前設(shè)立臨時工作機制,以應(yīng)對情報分析工作中的語言分析需求,二是學界需加強外語、語言學等學科背景的情報分析人才培養(yǎng)及情報學與語言學的交叉研究。
致謝:感謝張薇主編、高金虎教授對本文的指導!