再吐娜木·阿巴白克力++侯存義++米爾阿迪力江·麥麥提++張立新
摘要:主要是為了給維吾爾語、哈薩克語及柯爾克孜語在自然語言處理、語音識別、語音合成、機器翻譯、信息檢索、維吾爾語智能信息監(jiān)控以及維吾爾語輿情分析等研究領域提供語料作為目的。在軟件的設計和實現(xiàn)過程中參考維吾爾語、哈薩克語和柯爾克孜語的語法規(guī)則以及語言特征,同時引入此三種語言的國際編碼,除此根據(jù)該網(wǎng)頁的特征來分析網(wǎng)頁的結(jié)構進行判斷文本而研發(fā)了從網(wǎng)上抓取維哈柯多語種純文本的數(shù)據(jù)采集器。最后實現(xiàn)了為少數(shù)民族自然語言處理研究搭建語料庫準備大規(guī)模語料。
關鍵詞:多語種;自然語言處理;.NET;數(shù)據(jù)抓??;語言特征;語料庫
中圖分類號:TP311 文獻標志碼: A 文章編號:1009-3044(2015)11-0023-03
Design and Implementation of Uyghur Kazak Kirghiz Multi-lingual Online Data Capturing System Based on .NET
Zaytuna Ababakri1, HOU Cun-yi1, Miradeljan Mamat2, ZHANG Li-xin1
(1.Modern Education Technology Center,Urumqi Vocational University,Urumqi 830002, China; 2.Colleges of Information Science and Engineering,Xinjiang University,Urumqi 830046, China)
Abstract: Mainly as a purpose of in order to provide data for Uyghur Kazak Kirghiz languages in some research fields such as NLP, Speech recognition, Speech synthesis, Machine translation, Information retrieval, Uyghur Intelligent Monitoring as well as the Uyghur Public Opinion Analysis. In the process of design and implementation of software, referred to the syntax rules of Uyghur Kazak Kirghiz languages. Introducing these three languages International coding, In addition to according to current webpages features to analyze structure of webpage and judging the text to development data collector Uyghur Kazak Kirghiz multilingual pure text from web. Finally achieved for minority NLP research to build corpora prepared a large corpus.
Key words: multilingual; NLP; .NET; data capture; language feature; Corpus
隨著互聯(lián)網(wǎng)的廣泛普及和計算機技術的不斷發(fā)展,社會也逐漸進入到了一個由物聯(lián)網(wǎng)發(fā)展主導的智能化、數(shù)字化階段。如何用一種自然、便捷的方式與計算機進行交流是目前信息化時代當中的迫切需求之一。近年來少數(shù)民族信息處理技術的快速發(fā)展,對新疆的政治、經(jīng)濟、文化、教育領域的發(fā)展發(fā)揮了一定的推動作用,但還是存在著一些問題和較大的差距。新疆是以維吾爾、哈薩克、柯爾克孜族為主的多民族聚集的少數(shù)民族自治區(qū),截至2007年底,全疆總?cè)丝跒?095.19 萬人,其中少數(shù)民族占60.68%。在新疆1271.78 萬少數(shù)民族人口中,維吾爾族965 萬人,哈薩克族148 萬人,柯爾克孜族17 萬人,三個民族總?cè)丝谡既丝诳倲?shù)的一半以上[1]。盡管在維吾爾、哈薩克、柯爾克孜(以下簡稱“維哈柯”)自然語言處理中搭建語料庫、詞干庫、詞綴庫等作為前期的基礎層工作,但在整個研究過程中處于核心的地位并且是必不可少的部分。然而為維哈柯詞法分析、語法分析、句法分析、文本分析、詞干提取、詞性標注、維吾爾語機器翻譯以及語音處理(維吾爾語語音識別和語音合成)準備語料是比較耗時間,成本高的工作。因此為了節(jié)省時間,降低成本,本文開發(fā)并設計了基于維哈柯的多語種網(wǎng)上文本采集處理器的開發(fā)迫在眉睫。下面給出自然語言處理技術范圍如圖1所示。
1 關鍵技術
維哈柯文都是以阿拉伯文為基礎演化而來的拼音文字,語言文字相近,雖然手寫方式很相似,但在一些細節(jié)上存在很大的區(qū)別。維吾爾語包含32個字母,其中8個元音,24個輔音。哈薩克語包含33個字母,其中9個元音,24個輔音。而柯爾克孜語是包含30個字母和一個合體字母。本系統(tǒng)主要是對頁面的語法進行分析從而消除網(wǎng)頁噪聲以及維哈柯文的編碼標準兩種問題[2]。
圖1 自然語言技術應用范圍
1.1 去除網(wǎng)頁噪聲
目前大部分網(wǎng)站所使用的開發(fā)語言與其所對應的腳本都不相同。不管是維哈柯文網(wǎng)站,還是英文、漢文網(wǎng)站都有相同的網(wǎng)頁布局特征,消除網(wǎng)頁中的各種噪聲是系統(tǒng)需要解決的關鍵問題之一。若用ASP.net 來開發(fā)本網(wǎng)站的腳本是c#,而由VB.net開發(fā)的網(wǎng)站腳本語言是VB或者是VBScript。由于每個腳本語言都有各種腳本標記[3],因此為了實現(xiàn)抓取當前網(wǎng)頁的純文本信息,首先必須消除那些PHP, JavaScript, HTML, CSS等標記語言中的多余的標記符號。所以本文所開發(fā)的系統(tǒng)主要是根據(jù)以上各個腳本文件的特征,包括常見特征標記以及根據(jù)標記文法結(jié)構來消除網(wǎng)頁中的噪聲[4]。
1.2 判斷維哈柯文
將各種腳本的標記符號消除而得到純文本后,判斷得到的文本是否是維哈柯文子是一個關鍵的問題[5-6]。為了解決此問題本文調(diào)用了維哈柯文國家標準編碼范圍,也就是說根據(jù)每種語言文字所具有的國家統(tǒng)一的標準Unicode編碼來消除非維哈柯文字。因為個別維哈柯文網(wǎng)站首頁最下面有一些漢文網(wǎng)站會作為友情鏈接而被列出來,所以僅通過消除網(wǎng)頁中的噪聲而直接獲取文本時,也會同時抓取漢文、英文或者是數(shù)字等內(nèi)容。因此系統(tǒng)還要對所采集出來的文本再進行非維哈柯文信息的過濾,從而只保留文本中的維哈柯文字信息[7]。
2系統(tǒng)設計與實現(xiàn)
2.1 系統(tǒng)設計過程
本文系統(tǒng)的主要設計流程如下,系統(tǒng)工作流程如圖2所示。
首先判斷數(shù)據(jù)域(數(shù)據(jù)采集結(jié)果顯示區(qū)域)是否有網(wǎng)址輸入(如圖3所示),如果沒有網(wǎng)址輸入則會彈出提示“輸入網(wǎng)址”等信息,若已輸入網(wǎng)址,系統(tǒng)會對所輸入網(wǎng)址的格式進行判斷,這一功能主要是根據(jù)正則表達式來對網(wǎng)址格式的正確與否進行檢查。若格式有誤則提示“輸入正確網(wǎng)址”直到輸入網(wǎng)址的格式正確為止。此后,若輸入網(wǎng)址正確,系統(tǒng)會根據(jù)網(wǎng)站特征和當前網(wǎng)頁中所顯示的文字(維哈克文)特征來搜集當前網(wǎng)頁上的文本內(nèi)容如圖4所示。此處所說的網(wǎng)頁特征是指當前網(wǎng)站的開發(fā)語言的特征,也就是網(wǎng)頁的腳本標記特征;而語言特征并不是指語法規(guī)則或者是詞法、文法、句法上的規(guī)則,而是在國際標準Unicode編碼上的特征。最后系統(tǒng)將采集出來的結(jié)果按*.txt或者是*.doc格式導出保存。
圖2 多語種數(shù)據(jù)采集系統(tǒng)流程圖
圖3 判斷輸入正確網(wǎng)址
圖4 數(shù)據(jù)采集
2.2 實現(xiàn)過程
因為所采集到頁面的語法分析是基于HTML( Hypertext Markup Language)協(xié)議的,所以在消除網(wǎng)頁噪聲以獲取網(wǎng)頁正文文本內(nèi)容之前,必須事先了解 HTML的語法結(jié)構。HTML標準就是利用 SGML 定義了一些標記,主要用于描述文本的顯示方式[8]。HTML的語法中主要包括四部分內(nèi)容:實體(Entity),元素(Element),屬性(Attribute),以及注釋(Comment)。由于網(wǎng)頁是基于HTML的超文本文檔,因此它包括純文本和標記等。純文本是不包含在標記中的字符串,它通過標記的定義體現(xiàn)出不同的字體、字型、顏色等因素,同時標記定義了網(wǎng)頁的顯示屬性[9]。本文的系統(tǒng)根據(jù)少數(shù)民族語言(維哈柯語)的特征,并通過HTML有些常見特征標記(如表1所示)以及根據(jù)標記文法構造對網(wǎng)上的多語種數(shù)據(jù)進行采集。
表1 HTML 文件的特點
[序號\&特點\&1\&所有 HTML 語句都是<>…結(jié)構,<>表示開始標記,表示結(jié)束標記。\&2\&有的語句只有開始標記<>,沒有結(jié)束標記,如
。 \&3\&所有語句的標記名稱不分大小寫。\&4\&注釋語句是<!-- … -->結(jié)構。 \&5\&轉(zhuǎn)義字符的形式為“&#nnnn”或“&xxx”。 \&6\&所有語句都可以循環(huán)嵌套\&]
在維吾爾語語音識別,語音合成以及維漢雙向統(tǒng)計機器翻譯中所使用的生語料和平行語料都是由此系統(tǒng)而得到的。系統(tǒng)對比較熱門的維吾爾文門戶網(wǎng)站、訪問量較多的論壇以及累計各種文學資料的網(wǎng)站列表(如表2所示)進行數(shù)據(jù)采集。此過程當中有些網(wǎng)站的各個網(wǎng)頁上的文字在后臺中或者是在前臺評論方式進行輸入時,各種不同的網(wǎng)站有可能用各種不規(guī)范的輸入法來輸入文本的話,通過該軟件來采集當前網(wǎng)頁上的數(shù)據(jù)時就將整個文本采集下來,而不會判斷是否是標準的字體。
采用上述方法,當采用本系統(tǒng)來抓取維哈柯文本信息時,消除網(wǎng)頁噪聲以及根據(jù)編碼范圍從相當大的容器,也就是整個純文本中選擇維哈柯文,而不會把中文或者是英文或者是數(shù)字等文本信息也采集出來。如圖5所示,有些維哈柯門戶網(wǎng)站中也會存在多種語言文字混合在一起出現(xiàn)的情況也有,也就某塊兒文本,某段文本或者是某行中維文、漢文、英文、數(shù)字同時出現(xiàn),在此情況下就只能根據(jù)維哈柯文的特征來抓取維哈柯文字,并且過濾其他種語言文本信息。
表2 實驗數(shù)據(jù)采集參考網(wǎng)站列表
圖5 過濾其他文字光采集維(哈/柯)純文本
除了某塊兒文本中的漢文、英文、數(shù)字、特殊符號以及圖片等信息外,純漢文或者是純英文網(wǎng)頁,系統(tǒng)不抓取任何信息。雖然在此網(wǎng)頁中能夠抓取純文本,不過根據(jù)編碼范圍來過濾時系統(tǒng)不返回任何文本信息。這是因為漢文和英文跟維哈柯文的國家標準Unicode編碼范圍不同,因此系統(tǒng)很容易識別到非維哈柯文文本。
3 結(jié)束語
本文主要根據(jù)網(wǎng)頁結(jié)構以及對頁面進行語法分析來消除當前頁面的網(wǎng)頁噪聲,然后對采集好的純文本進行篩選操作,過濾非維哈柯文內(nèi)容而獲取維哈柯純文本為維吾爾語的語音識別,語音合成以及維漢雙向統(tǒng)計機器翻譯準備語料庫時提供所需要的生語料。但是此系統(tǒng)只能采集當前網(wǎng)頁的文本,若將系統(tǒng)進一步優(yōu)化,使其能夠采集網(wǎng)頁子鏈接下的文本信息,那么會更加節(jié)省工作量以及時間。除此之外,如果系統(tǒng)對藏文和蒙文等其他少數(shù)民族語言的文本信息也能采集的話,將會給更多的少數(shù)民族研究者、學者提供一個較好的平臺。
參考文獻:
[1] 陳英. 維哈柯語言文字軟件開發(fā)及產(chǎn)業(yè)化專項介紹[J]. 信息技術與標準化, 2011(6): 4-6.
[2] 紀希禹. 數(shù)據(jù)挖掘技術的應用實例[M]. 北京: 機械工業(yè)出版社,2009.
[3] 明日科技. C# 技術大全 [M]. 北京: 人民郵電出版社, 2011: 650-652.
[4] 謝丹夏. WEB上的數(shù)據(jù)挖掘技術和工具設計[J]. 計算機工程與應用, 2001(6): 85-87.
[5] 吳俊森. 維哈柯多語種搜索引擎倒排索引模塊的實現(xiàn)[D]. 烏魯木齊: 新疆大學, 2007.
[6] 吐爾洪·吾司曼,維尼拉·木沙江.維哈柯多語種搜索引擎中索引器的研究[J]. 新疆大學學報: 自然科學版, 20112(28): 132-135.
[7] 吐爾地·托合提, 維尼拉·木沙江, 艾斯卡爾·艾木都拉. 維哈柯多文中全文搜索引擎的設計與實現(xiàn)[J]. 計算機應用與軟件, 2009, 6(26): 96-98.
[8] 于靜, 李森. 基于WEB信息抽取的主動服務技術研究[J]. 計算機系統(tǒng)應用, 2008(1): 54-60.
[9] 袁園, 王永平. WEB數(shù)據(jù)挖掘技術綜述[J]. 科技信息, 2007(27): 65-67.