季 鐸 劉 皓
(1 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系 遼寧 沈陽(yáng) 110035;2 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)信息中心 遼寧 沈陽(yáng) 110035)
基于WEB的警務(wù)多語(yǔ)言語(yǔ)料庫(kù)的構(gòu)建
季 鐸1劉 皓2
(1 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系 遼寧 沈陽(yáng) 110035;2 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)信息中心 遼寧 沈陽(yáng) 110035)
針對(duì)多語(yǔ)種警務(wù)語(yǔ)料庫(kù)在構(gòu)建過(guò)程中遇到的資源分散和人工整理難的突出問(wèn)題,提出了一種基于Web數(shù)據(jù)獲取的多語(yǔ)種警務(wù)語(yǔ)料庫(kù)的構(gòu)建方法,該方法采用了頻繁序列模式和文本分析技術(shù)實(shí)現(xiàn)了對(duì)網(wǎng)頁(yè)中多語(yǔ)種語(yǔ)料庫(kù)的自動(dòng)抽取。經(jīng)實(shí)驗(yàn)證明,該方法可進(jìn)行多語(yǔ)言數(shù)據(jù)的自動(dòng)采集,在少量人工參與的前提下,實(shí)現(xiàn)了多語(yǔ)言數(shù)據(jù)的大規(guī)模采集和處理。
Web信息 挖掘語(yǔ)料庫(kù) 構(gòu)建 警務(wù)語(yǔ)料庫(kù)
隨著對(duì)外開(kāi)放的不斷深入,外國(guó)人來(lái)華旅游、從事商務(wù)、定居等現(xiàn)象日益增多。與此同時(shí),公安工作中與外國(guó)人交流的情況也越來(lái)越頻繁,小到外國(guó)人迷路尋求幫助,大到公安機(jī)關(guān)在行政管理和刑事管轄工作中,涉及外籍人員、組織、駐外機(jī)構(gòu)等有關(guān)事務(wù)的管理,涉外警務(wù)的比重在不斷增加。但不同的母語(yǔ),造成雙方溝通存在障礙。因此開(kāi)展面向警務(wù)活動(dòng)的多語(yǔ)言處理技術(shù)的研究迫在眉睫。
縱觀國(guó)內(nèi)外的研究,警務(wù)相關(guān)的大數(shù)據(jù)正在被不斷應(yīng)用于情報(bào)獲取的實(shí)戰(zhàn)應(yīng)用中[1],但專業(yè)面向多語(yǔ)言警務(wù)活動(dòng)的語(yǔ)料庫(kù)資源鮮有報(bào)道。也正是由于相關(guān)基礎(chǔ)資源的缺乏,使得涉及警務(wù)文本的處理技術(shù)只能利用傳統(tǒng)數(shù)據(jù)和模型,極大影響了相關(guān)技術(shù)的性能,導(dǎo)致部分技術(shù)無(wú)法真正在警務(wù)工作中發(fā)揮作用。
本文通過(guò)構(gòu)建Web的警用多語(yǔ)言語(yǔ)料庫(kù),不僅可以為公安民警在與外國(guó)人的交流中提供翻譯幫助,保障緊急情況下的語(yǔ)言溝通順暢,也可以為后期面向多語(yǔ)言網(wǎng)絡(luò)輿情的分析和發(fā)現(xiàn)等提供基礎(chǔ)保障。
大規(guī)模真實(shí)文本的處理需求日益迫切,基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究受到越來(lái)越廣泛的重視。特別是隨著互聯(lián)網(wǎng)等信息技術(shù)的不斷發(fā)展,采用網(wǎng)絡(luò)及自然語(yǔ)言等多學(xué)科技術(shù)對(duì)語(yǔ)料庫(kù)進(jìn)行收集、存儲(chǔ)、轉(zhuǎn)換及標(biāo)記等研究已是未來(lái)信息技術(shù)發(fā)展的重要內(nèi)容[2]。本文建立了一個(gè)基于Web的警用多語(yǔ)言語(yǔ)料庫(kù),解決相關(guān)警用系統(tǒng)缺乏多語(yǔ)言語(yǔ)料庫(kù)的問(wèn)題。其建設(shè)流程為:
(1)網(wǎng)頁(yè)的解析和處理:Web頁(yè)面作為半結(jié)構(gòu)化文本[3]1,由HTML語(yǔ)言標(biāo)簽和文本內(nèi)容組成,語(yǔ)料庫(kù)需要解析頁(yè)面內(nèi)容,在此過(guò)程中采用DOM(Document Object Model)樹(shù)思想,將半結(jié)構(gòu)化的HTML構(gòu)建成DOM樹(shù),其葉子節(jié)點(diǎn)為HTML中的內(nèi)容。通過(guò)DOM樹(shù),網(wǎng)頁(yè)的頁(yè)面內(nèi)容被分為多個(gè)片段,抽取這些片段,頁(yè)面HTML源文件將被解析為除去標(biāo)簽以外的頁(yè)面內(nèi)容,并且這些內(nèi)容用指定分割符,分割為多行,為后期的句對(duì)挖掘提供基礎(chǔ)。
(2)雙語(yǔ)句對(duì)的獲?。夯陬l繁序列模式對(duì)已經(jīng)判定為雙語(yǔ)網(wǎng)頁(yè)的頁(yè)面進(jìn)行雙語(yǔ)資源的挖掘。即把特征選擇得到的FSP放入規(guī)則庫(kù),將網(wǎng)頁(yè)DOM樹(shù)的葉子節(jié)點(diǎn)內(nèi)容按照文本元素形式化為模式片段,若某模式片段與規(guī)則庫(kù)中的規(guī)則相同,則提取該葉子節(jié)點(diǎn)中的內(nèi)容為雙語(yǔ)資源[4]1。
(3)多語(yǔ)句對(duì)的自動(dòng)關(guān)聯(lián):相對(duì)于中、英、日等互聯(lián)網(wǎng)信息豐富的語(yǔ)言,維、蒙等小語(yǔ)種語(yǔ)料資源稀有,且很難直接獲得小語(yǔ)種到中文的翻譯資源。本文提出一種基于英語(yǔ)為中間語(yǔ)的多語(yǔ)言句對(duì)自動(dòng)對(duì)齊的技術(shù),利用英語(yǔ)句子的相似度計(jì)算,自動(dòng)建立句對(duì)間的對(duì)齊關(guān)系,并最終構(gòu)建多文種的語(yǔ)料庫(kù),為機(jī)器翻譯、跨語(yǔ)言檢索等警用系統(tǒng)提供資源保障。
基于Web的警用多語(yǔ)言語(yǔ)料庫(kù)構(gòu)建技術(shù)利用多語(yǔ)言關(guān)鍵詞尋找符合要求的雙語(yǔ)頁(yè)面,將翻譯片段在網(wǎng)頁(yè)中的模式形式化為規(guī)則并添加進(jìn)規(guī)則庫(kù),利用模式匹配的方法尋找頁(yè)面中的其他雙語(yǔ)資源,并使用機(jī)器學(xué)習(xí)的方法不斷學(xué)習(xí)新規(guī)則,對(duì)規(guī)則庫(kù)進(jìn)行擴(kuò)充,最后以英語(yǔ)為媒介實(shí)現(xiàn)多語(yǔ)言語(yǔ)料庫(kù)的構(gòu)建,其總體流程如圖1所示。
圖1 多語(yǔ)言語(yǔ)料庫(kù)構(gòu)建基本流程
根據(jù)W3C DOM規(guī)范,HTML DOM是一種與瀏覽器、平臺(tái)語(yǔ)言無(wú)關(guān)的接口,可以訪問(wèn)頁(yè)面其他的標(biāo)準(zhǔn)組件。它將網(wǎng)頁(yè)中的各個(gè)元素都看作一個(gè)對(duì)象,從而使網(wǎng)頁(yè)中的各個(gè)元素可以被計(jì)算機(jī)語(yǔ)言所獲取[3]5。通過(guò)解析器將網(wǎng)頁(yè)文檔進(jìn)行結(jié)構(gòu)解析,生成該文檔的結(jié)構(gòu)化的對(duì)象樹(shù)(DOM樹(shù)),并存儲(chǔ)于內(nèi)存中。將HTML文檔轉(zhuǎn)化為DOM樹(shù)結(jié)構(gòu)如圖2所示,葉子節(jié)點(diǎn)的內(nèi)容即是我們需要的文本內(nèi)容。
圖2 HTML文檔轉(zhuǎn)化為DOM樹(shù)結(jié)構(gòu)
我們利用DOM樹(shù)來(lái)提取頻繁序列模式的過(guò)程如下:
Step1 將HTML文檔轉(zhuǎn)化為DOM樹(shù)的結(jié)構(gòu)。
Step2 把DOM樹(shù)中葉子節(jié)點(diǎn)中的內(nèi)容形式化。
Step3 如果形式化后的模式串長(zhǎng)度小于規(guī)定的長(zhǎng)度(依據(jù)具體實(shí)驗(yàn)結(jié)果選?。?,則把這個(gè)模式化列為考察的模式串。
Step4 考察每個(gè)模式串在HTML中的情況。如果該模式串的支持度大于閾值,則將該模式串加入到頻繁模式序列中。
定義本文中的頻繁序列模式:分析DOM樹(shù)(一篇網(wǎng)頁(yè))中的所有葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)中的內(nèi)容通過(guò)算法轉(zhuǎn)化為對(duì)應(yīng)的模式串,如果該模式串在本網(wǎng)頁(yè)中的出現(xiàn)次數(shù)超過(guò)我們?cè)O(shè)定的閾值(依據(jù)具體實(shí)驗(yàn)結(jié)果選?。瑒t認(rèn)為該模式串為頻繁序列模式,該模式可作為判斷一篇網(wǎng)頁(yè)是否是雙語(yǔ)網(wǎng)頁(yè)的特征。
使用數(shù)據(jù)挖掘中“頻繁序列模式”的概念[4]4,在DOM樹(shù)中對(duì)任意葉子節(jié)點(diǎn)的文本內(nèi)容看作序列設(shè)定閾值Tr,若在序列S中出現(xiàn)的次數(shù)超過(guò)閾值,則認(rèn)為S為頻繁序列模式。
在模式串獲取的過(guò)程種,取不同的文本元素,如制表格式符號(hào)、數(shù)字及特殊符號(hào)、中文字符集、英文字符集等。葉子節(jié)點(diǎn)中的對(duì)應(yīng)的文本元素序列在網(wǎng)頁(yè)中的支持度大于閾值,即為頻繁序列模式。例如模式“1傘(かさ)【名】 傘”即形式化為“N J(SJ)S【C】SC”。
提取出頻繁模式作為特征后,采用TF-IDF的特征權(quán)重計(jì)算方法:
tfi(d)表示特征ti在文本d中出現(xiàn)的頻率,N為文本集中的總文本數(shù),ni為出現(xiàn)特征ti的文本總數(shù)。
通過(guò)基于Web的數(shù)據(jù)獲取方法,本文于2016年4月20日到4月30日進(jìn)行網(wǎng)絡(luò)的數(shù)據(jù)的挖掘,總計(jì)獲取中英維3種語(yǔ)言的數(shù)據(jù)13200條,后經(jīng)人工過(guò)濾去重,最終保留5000句多語(yǔ)句對(duì),并按公安工作分為交通違章、制假販假、強(qiáng)制執(zhí)行、戶籍護(hù)照、報(bào)警求助、接待外警、案件調(diào)查、涉毒涉賭、突發(fā)事件9類。
基于該警務(wù)語(yǔ)料庫(kù),構(gòu)建了警用的語(yǔ)言的應(yīng)用系統(tǒng),并利用計(jì)算機(jī)語(yǔ)音語(yǔ)言處理技術(shù)設(shè)計(jì)了一款人機(jī)交互的APP軟件,在移動(dòng)終端中進(jìn)行應(yīng)用測(cè)試。該軟件系統(tǒng)無(wú)需手工輸入,直接語(yǔ)音輸入。
軟件以公安實(shí)際業(yè)務(wù)需求為開(kāi)發(fā)目標(biāo),并重點(diǎn)針對(duì)該領(lǐng)域進(jìn)行了多項(xiàng)技術(shù)優(yōu)化,實(shí)現(xiàn)了基于語(yǔ)音處理技術(shù)的輸入和輸出、基于自動(dòng)翻譯技術(shù)的文本翻譯以及基于語(yǔ)料庫(kù)的例句匹配等功能,具體功能如圖3所示。
圖3 系統(tǒng)主要功能
利用和借鑒開(kāi)源平臺(tái)搭建系統(tǒng),語(yǔ)音識(shí)別技術(shù)采用科大訊飛語(yǔ)音識(shí)別包,智能翻譯系統(tǒng)利用百度翻譯云平臺(tái),并應(yīng)用apicloud開(kāi)源編譯平臺(tái)和html5語(yǔ)言開(kāi)發(fā)。系統(tǒng)界面如圖4所示。
圖4 警務(wù)語(yǔ)料庫(kù)翻譯軟件界面
本文利用Web信息挖掘方法自動(dòng)構(gòu)建了多語(yǔ)言的警務(wù)語(yǔ)料庫(kù),包括交通違章、制假販假、強(qiáng)制執(zhí)行、戶籍護(hù)照、報(bào)警求助、接待外警、案件調(diào)查、涉毒涉賭、突發(fā)事件等應(yīng)用情景,涉及語(yǔ)種包括中、英、維3種語(yǔ)言,基本滿足了公安工作的實(shí)際需求。
未來(lái),我們將在語(yǔ)料庫(kù)的數(shù)據(jù)量和應(yīng)用廣度上繼續(xù)豐富語(yǔ)料庫(kù)內(nèi)容,并重點(diǎn)對(duì)東南亞地區(qū)語(yǔ)種進(jìn)行深入研究,為解決我國(guó)一路一帶經(jīng)濟(jì)發(fā)展中遇到的公共信息安全問(wèn)題提供更多的數(shù)據(jù)支持。
[1]張姝,趙鐵軍,楊沐昀,李生.面向事件的多語(yǔ)平行語(yǔ)料庫(kù)構(gòu)建研究[J].計(jì)算機(jī)應(yīng)用研究,2005(11):23-24.
[2]羅陽(yáng),季鐸,張桂平,等.面向單一雙語(yǔ)網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[J].中文信息學(xué)報(bào),2011(1):111-112.
[3]潘慶紅.基于Web標(biāo)準(zhǔn)的精品課程教學(xué)網(wǎng)站技術(shù)架構(gòu)研究[J].當(dāng)代教育論壇(綜合研究),2011(12):116-117.
[4]劉碩.大數(shù)據(jù)環(huán)境下的公安情報(bào)服務(wù)基本模式探析[J].中國(guó)刑警學(xué)院院報(bào),2015(3):29-32.
TP391.2
A
2095-7939(2017)05-0118-03
10.14060/j.issn.2095-7939.2017.05.024
2017-05-19
2015年中央高校青年項(xiàng)目。
季鐸(1981-),男,遼寧葫蘆島人,中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系副教授,主要從事網(wǎng)絡(luò)輿情監(jiān)控與自然語(yǔ)言處理研究。
(責(zé)任編輯:于 萍)