亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于WEB的警務(wù)多語(yǔ)言語(yǔ)料庫(kù)的構(gòu)建

        2017-11-03 08:27:29
        關(guān)鍵詞:警務(wù)語(yǔ)料庫(kù)網(wǎng)頁(yè)

        季 鐸 劉 皓

        (1 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系 遼寧 沈陽(yáng) 110035;2 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)信息中心 遼寧 沈陽(yáng) 110035)

        基于WEB的警務(wù)多語(yǔ)言語(yǔ)料庫(kù)的構(gòu)建

        季 鐸1劉 皓2

        (1 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系 遼寧 沈陽(yáng) 110035;2 中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)信息中心 遼寧 沈陽(yáng) 110035)

        針對(duì)多語(yǔ)種警務(wù)語(yǔ)料庫(kù)在構(gòu)建過(guò)程中遇到的資源分散和人工整理難的突出問(wèn)題,提出了一種基于Web數(shù)據(jù)獲取的多語(yǔ)種警務(wù)語(yǔ)料庫(kù)的構(gòu)建方法,該方法采用了頻繁序列模式和文本分析技術(shù)實(shí)現(xiàn)了對(duì)網(wǎng)頁(yè)中多語(yǔ)種語(yǔ)料庫(kù)的自動(dòng)抽取。經(jīng)實(shí)驗(yàn)證明,該方法可進(jìn)行多語(yǔ)言數(shù)據(jù)的自動(dòng)采集,在少量人工參與的前提下,實(shí)現(xiàn)了多語(yǔ)言數(shù)據(jù)的大規(guī)模采集和處理。

        Web信息 挖掘語(yǔ)料庫(kù) 構(gòu)建 警務(wù)語(yǔ)料庫(kù)

        隨著對(duì)外開(kāi)放的不斷深入,外國(guó)人來(lái)華旅游、從事商務(wù)、定居等現(xiàn)象日益增多。與此同時(shí),公安工作中與外國(guó)人交流的情況也越來(lái)越頻繁,小到外國(guó)人迷路尋求幫助,大到公安機(jī)關(guān)在行政管理和刑事管轄工作中,涉及外籍人員、組織、駐外機(jī)構(gòu)等有關(guān)事務(wù)的管理,涉外警務(wù)的比重在不斷增加。但不同的母語(yǔ),造成雙方溝通存在障礙。因此開(kāi)展面向警務(wù)活動(dòng)的多語(yǔ)言處理技術(shù)的研究迫在眉睫。

        縱觀國(guó)內(nèi)外的研究,警務(wù)相關(guān)的大數(shù)據(jù)正在被不斷應(yīng)用于情報(bào)獲取的實(shí)戰(zhàn)應(yīng)用中[1],但專業(yè)面向多語(yǔ)言警務(wù)活動(dòng)的語(yǔ)料庫(kù)資源鮮有報(bào)道。也正是由于相關(guān)基礎(chǔ)資源的缺乏,使得涉及警務(wù)文本的處理技術(shù)只能利用傳統(tǒng)數(shù)據(jù)和模型,極大影響了相關(guān)技術(shù)的性能,導(dǎo)致部分技術(shù)無(wú)法真正在警務(wù)工作中發(fā)揮作用。

        本文通過(guò)構(gòu)建Web的警用多語(yǔ)言語(yǔ)料庫(kù),不僅可以為公安民警在與外國(guó)人的交流中提供翻譯幫助,保障緊急情況下的語(yǔ)言溝通順暢,也可以為后期面向多語(yǔ)言網(wǎng)絡(luò)輿情的分析和發(fā)現(xiàn)等提供基礎(chǔ)保障。

        1 WEB語(yǔ)言語(yǔ)料庫(kù)構(gòu)建流程

        大規(guī)模真實(shí)文本的處理需求日益迫切,基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究受到越來(lái)越廣泛的重視。特別是隨著互聯(lián)網(wǎng)等信息技術(shù)的不斷發(fā)展,采用網(wǎng)絡(luò)及自然語(yǔ)言等多學(xué)科技術(shù)對(duì)語(yǔ)料庫(kù)進(jìn)行收集、存儲(chǔ)、轉(zhuǎn)換及標(biāo)記等研究已是未來(lái)信息技術(shù)發(fā)展的重要內(nèi)容[2]。本文建立了一個(gè)基于Web的警用多語(yǔ)言語(yǔ)料庫(kù),解決相關(guān)警用系統(tǒng)缺乏多語(yǔ)言語(yǔ)料庫(kù)的問(wèn)題。其建設(shè)流程為:

        (1)網(wǎng)頁(yè)的解析和處理:Web頁(yè)面作為半結(jié)構(gòu)化文本[3]1,由HTML語(yǔ)言標(biāo)簽和文本內(nèi)容組成,語(yǔ)料庫(kù)需要解析頁(yè)面內(nèi)容,在此過(guò)程中采用DOM(Document Object Model)樹(shù)思想,將半結(jié)構(gòu)化的HTML構(gòu)建成DOM樹(shù),其葉子節(jié)點(diǎn)為HTML中的內(nèi)容。通過(guò)DOM樹(shù),網(wǎng)頁(yè)的頁(yè)面內(nèi)容被分為多個(gè)片段,抽取這些片段,頁(yè)面HTML源文件將被解析為除去標(biāo)簽以外的頁(yè)面內(nèi)容,并且這些內(nèi)容用指定分割符,分割為多行,為后期的句對(duì)挖掘提供基礎(chǔ)。

        (2)雙語(yǔ)句對(duì)的獲?。夯陬l繁序列模式對(duì)已經(jīng)判定為雙語(yǔ)網(wǎng)頁(yè)的頁(yè)面進(jìn)行雙語(yǔ)資源的挖掘。即把特征選擇得到的FSP放入規(guī)則庫(kù),將網(wǎng)頁(yè)DOM樹(shù)的葉子節(jié)點(diǎn)內(nèi)容按照文本元素形式化為模式片段,若某模式片段與規(guī)則庫(kù)中的規(guī)則相同,則提取該葉子節(jié)點(diǎn)中的內(nèi)容為雙語(yǔ)資源[4]1。

        (3)多語(yǔ)句對(duì)的自動(dòng)關(guān)聯(lián):相對(duì)于中、英、日等互聯(lián)網(wǎng)信息豐富的語(yǔ)言,維、蒙等小語(yǔ)種語(yǔ)料資源稀有,且很難直接獲得小語(yǔ)種到中文的翻譯資源。本文提出一種基于英語(yǔ)為中間語(yǔ)的多語(yǔ)言句對(duì)自動(dòng)對(duì)齊的技術(shù),利用英語(yǔ)句子的相似度計(jì)算,自動(dòng)建立句對(duì)間的對(duì)齊關(guān)系,并最終構(gòu)建多文種的語(yǔ)料庫(kù),為機(jī)器翻譯、跨語(yǔ)言檢索等警用系統(tǒng)提供資源保障。

        基于Web的警用多語(yǔ)言語(yǔ)料庫(kù)構(gòu)建技術(shù)利用多語(yǔ)言關(guān)鍵詞尋找符合要求的雙語(yǔ)頁(yè)面,將翻譯片段在網(wǎng)頁(yè)中的模式形式化為規(guī)則并添加進(jìn)規(guī)則庫(kù),利用模式匹配的方法尋找頁(yè)面中的其他雙語(yǔ)資源,并使用機(jī)器學(xué)習(xí)的方法不斷學(xué)習(xí)新規(guī)則,對(duì)規(guī)則庫(kù)進(jìn)行擴(kuò)充,最后以英語(yǔ)為媒介實(shí)現(xiàn)多語(yǔ)言語(yǔ)料庫(kù)的構(gòu)建,其總體流程如圖1所示。

        圖1 多語(yǔ)言語(yǔ)料庫(kù)構(gòu)建基本流程

        2 語(yǔ)言語(yǔ)料庫(kù)構(gòu)建的關(guān)鍵技術(shù)實(shí)現(xiàn)

        2.1 DOM樹(shù)和頻繁模式序列提取

        根據(jù)W3C DOM規(guī)范,HTML DOM是一種與瀏覽器、平臺(tái)語(yǔ)言無(wú)關(guān)的接口,可以訪問(wèn)頁(yè)面其他的標(biāo)準(zhǔn)組件。它將網(wǎng)頁(yè)中的各個(gè)元素都看作一個(gè)對(duì)象,從而使網(wǎng)頁(yè)中的各個(gè)元素可以被計(jì)算機(jī)語(yǔ)言所獲取[3]5。通過(guò)解析器將網(wǎng)頁(yè)文檔進(jìn)行結(jié)構(gòu)解析,生成該文檔的結(jié)構(gòu)化的對(duì)象樹(shù)(DOM樹(shù)),并存儲(chǔ)于內(nèi)存中。將HTML文檔轉(zhuǎn)化為DOM樹(shù)結(jié)構(gòu)如圖2所示,葉子節(jié)點(diǎn)的內(nèi)容即是我們需要的文本內(nèi)容。

        圖2 HTML文檔轉(zhuǎn)化為DOM樹(shù)結(jié)構(gòu)

        我們利用DOM樹(shù)來(lái)提取頻繁序列模式的過(guò)程如下:

        Step1 將HTML文檔轉(zhuǎn)化為DOM樹(shù)的結(jié)構(gòu)。

        Step2 把DOM樹(shù)中葉子節(jié)點(diǎn)中的內(nèi)容形式化。

        Step3 如果形式化后的模式串長(zhǎng)度小于規(guī)定的長(zhǎng)度(依據(jù)具體實(shí)驗(yàn)結(jié)果選?。?,則把這個(gè)模式化列為考察的模式串。

        Step4 考察每個(gè)模式串在HTML中的情況。如果該模式串的支持度大于閾值,則將該模式串加入到頻繁模式序列中。

        定義本文中的頻繁序列模式:分析DOM樹(shù)(一篇網(wǎng)頁(yè))中的所有葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)中的內(nèi)容通過(guò)算法轉(zhuǎn)化為對(duì)應(yīng)的模式串,如果該模式串在本網(wǎng)頁(yè)中的出現(xiàn)次數(shù)超過(guò)我們?cè)O(shè)定的閾值(依據(jù)具體實(shí)驗(yàn)結(jié)果選?。瑒t認(rèn)為該模式串為頻繁序列模式,該模式可作為判斷一篇網(wǎng)頁(yè)是否是雙語(yǔ)網(wǎng)頁(yè)的特征。

        2.2 頻繁序列模式的挖掘

        使用數(shù)據(jù)挖掘中“頻繁序列模式”的概念[4]4,在DOM樹(shù)中對(duì)任意葉子節(jié)點(diǎn)的文本內(nèi)容看作序列設(shè)定閾值Tr,若在序列S中出現(xiàn)的次數(shù)超過(guò)閾值,則認(rèn)為S為頻繁序列模式。

        在模式串獲取的過(guò)程種,取不同的文本元素,如制表格式符號(hào)、數(shù)字及特殊符號(hào)、中文字符集、英文字符集等。葉子節(jié)點(diǎn)中的對(duì)應(yīng)的文本元素序列在網(wǎng)頁(yè)中的支持度大于閾值,即為頻繁序列模式。例如模式“1傘(かさ)【名】 傘”即形式化為“N J(SJ)S【C】SC”。

        提取出頻繁模式作為特征后,采用TF-IDF的特征權(quán)重計(jì)算方法:

        tfi(d)表示特征ti在文本d中出現(xiàn)的頻率,N為文本集中的總文本數(shù),ni為出現(xiàn)特征ti的文本總數(shù)。

        3 警務(wù)多語(yǔ)言語(yǔ)料庫(kù)的應(yīng)用系統(tǒng)

        通過(guò)基于Web的數(shù)據(jù)獲取方法,本文于2016年4月20日到4月30日進(jìn)行網(wǎng)絡(luò)的數(shù)據(jù)的挖掘,總計(jì)獲取中英維3種語(yǔ)言的數(shù)據(jù)13200條,后經(jīng)人工過(guò)濾去重,最終保留5000句多語(yǔ)句對(duì),并按公安工作分為交通違章、制假販假、強(qiáng)制執(zhí)行、戶籍護(hù)照、報(bào)警求助、接待外警、案件調(diào)查、涉毒涉賭、突發(fā)事件9類。

        基于該警務(wù)語(yǔ)料庫(kù),構(gòu)建了警用的語(yǔ)言的應(yīng)用系統(tǒng),并利用計(jì)算機(jī)語(yǔ)音語(yǔ)言處理技術(shù)設(shè)計(jì)了一款人機(jī)交互的APP軟件,在移動(dòng)終端中進(jìn)行應(yīng)用測(cè)試。該軟件系統(tǒng)無(wú)需手工輸入,直接語(yǔ)音輸入。

        軟件以公安實(shí)際業(yè)務(wù)需求為開(kāi)發(fā)目標(biāo),并重點(diǎn)針對(duì)該領(lǐng)域進(jìn)行了多項(xiàng)技術(shù)優(yōu)化,實(shí)現(xiàn)了基于語(yǔ)音處理技術(shù)的輸入和輸出、基于自動(dòng)翻譯技術(shù)的文本翻譯以及基于語(yǔ)料庫(kù)的例句匹配等功能,具體功能如圖3所示。

        圖3 系統(tǒng)主要功能

        利用和借鑒開(kāi)源平臺(tái)搭建系統(tǒng),語(yǔ)音識(shí)別技術(shù)采用科大訊飛語(yǔ)音識(shí)別包,智能翻譯系統(tǒng)利用百度翻譯云平臺(tái),并應(yīng)用apicloud開(kāi)源編譯平臺(tái)和html5語(yǔ)言開(kāi)發(fā)。系統(tǒng)界面如圖4所示。

        圖4 警務(wù)語(yǔ)料庫(kù)翻譯軟件界面

        4 總結(jié)與展望

        本文利用Web信息挖掘方法自動(dòng)構(gòu)建了多語(yǔ)言的警務(wù)語(yǔ)料庫(kù),包括交通違章、制假販假、強(qiáng)制執(zhí)行、戶籍護(hù)照、報(bào)警求助、接待外警、案件調(diào)查、涉毒涉賭、突發(fā)事件等應(yīng)用情景,涉及語(yǔ)種包括中、英、維3種語(yǔ)言,基本滿足了公安工作的實(shí)際需求。

        未來(lái),我們將在語(yǔ)料庫(kù)的數(shù)據(jù)量和應(yīng)用廣度上繼續(xù)豐富語(yǔ)料庫(kù)內(nèi)容,并重點(diǎn)對(duì)東南亞地區(qū)語(yǔ)種進(jìn)行深入研究,為解決我國(guó)一路一帶經(jīng)濟(jì)發(fā)展中遇到的公共信息安全問(wèn)題提供更多的數(shù)據(jù)支持。

        [1]張姝,趙鐵軍,楊沐昀,李生.面向事件的多語(yǔ)平行語(yǔ)料庫(kù)構(gòu)建研究[J].計(jì)算機(jī)應(yīng)用研究,2005(11):23-24.

        [2]羅陽(yáng),季鐸,張桂平,等.面向單一雙語(yǔ)網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[J].中文信息學(xué)報(bào),2011(1):111-112.

        [3]潘慶紅.基于Web標(biāo)準(zhǔn)的精品課程教學(xué)網(wǎng)站技術(shù)架構(gòu)研究[J].當(dāng)代教育論壇(綜合研究),2011(12):116-117.

        [4]劉碩.大數(shù)據(jù)環(huán)境下的公安情報(bào)服務(wù)基本模式探析[J].中國(guó)刑警學(xué)院院報(bào),2015(3):29-32.

        TP391.2

        A

        2095-7939(2017)05-0118-03

        10.14060/j.issn.2095-7939.2017.05.024

        2017-05-19

        2015年中央高校青年項(xiàng)目。

        季鐸(1981-),男,遼寧葫蘆島人,中國(guó)刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系副教授,主要從事網(wǎng)絡(luò)輿情監(jiān)控與自然語(yǔ)言處理研究。

        (責(zé)任編輯:于 萍)

        猜你喜歡
        警務(wù)語(yǔ)料庫(kù)網(wǎng)頁(yè)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        HIV感染的警務(wù)預(yù)防與處置
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        警務(wù)實(shí)戰(zhàn)訓(xùn)練教學(xué)中開(kāi)設(shè)
        警用直升機(jī)的作用及在我國(guó)警務(wù)實(shí)戰(zhàn)中的應(yīng)用
        警務(wù)專用手機(jī)ZD-P1
        日韩国产一区二区三区在线观看| 玩中年熟妇让你爽视频| 性色av浪潮av色欲av| 日韩精品无码一区二区中文字幕 | 国产爆乳美女娇喘呻吟久久| 蜜桃av噜噜噜一区二区三区| 国产三级精品av在线| 公与淑婷厨房猛烈进出| 亚洲av天天做在线观看| 国产香蕉尹人综合在线观| 中文字幕偷拍亚洲九色| 一区二区三区观看视频在线| 丰满少妇被猛烈进入高清播放| 久久99精品国产麻豆不卡| 黄色成人网站免费无码av| 日韩AV无码乱伦丝袜一区| 午夜精品男人天堂av| 小妖精又紧又湿高潮h视频69 | 人妻精品视频一区二区三区| 北条麻妃国产九九九精品视频| 欧美白人最猛性xxxxx| 亚洲中文字幕无线乱码va| 女优av一区二区在线观看| 中文字幕日韩人妻在线视频| 狠狠色噜噜狠狠狠狠色综合久| 天堂最新在线官网av| 美女把内衣内裤脱了给男人舔| 国产黄色av一区二区三区| 成l人在线观看线路1| 亚洲AV无码成人品爱| 蜜桃在线观看免费高清| 日本av一级片免费看| 99爱在线精品免费观看| 亚洲av无码片在线播放| 一区二区三区精彩视频在线观看| 91久久国产香蕉视频| 亚洲精品久久| 久久精品无码一区二区三区蜜费| 精品国产一区二区三区毛片| 一本色道久久亚洲加勒比| 国产精品r级最新在线观看|