原偉
摘要:網絡語料庫是大數據時代語料庫發(fā)展的重要方向,GICR作為俄語大型動態(tài)網絡語料庫的最重要代表之一具有較高的研究價值與借鑒意義。通過對GICR語料庫總體設計、語料采集方法、處理手段和標注體系的分析述評,深入討論了該語料庫的在語言信息處理及語言學研究領域的應用研究,論述了該語料庫的特點與獨特優(yōu)勢,對俄語網絡語料庫研究的深入開展奠定了初步基礎。
關鍵詞: 網絡語料庫;俄語;GICR
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)04-0212-04
A Survey of Building and Using General Internet Corpus of Russian
YUAN Wei1,2
(1.Shanghai International Studies University, Shangha 200083, China; 2.Information Engineering University, Luoyang 471003, China)
Abstract: In the era of large data Web as corpus is an important research direction of corpus linguistics. As one of the most important representatives of Russian web corpora General Internet Corpus of Russian (GIRC) has a significant research value. This paper discusses the main methods of GIRC for texts collection, cleaning, organization and annotation,discusses the characteristics and unique advantages of GIRC, analyses its applications in linguistic studies and natural language processing.
Key words: Web as corpus; Russian; GIRC
1 概述
隨著大數據概念逐漸與語料庫研究相融合,該領域的研究方法與范式已經產生了巨大變化。傳統(tǒng)語料庫的構建通常是需要消耗大量人工的緩慢進程,而這已無法適應學科發(fā)展對超大規(guī)模語料庫的迫切需求,學者們紛紛將目光轉向擁有海量語言數據的互聯網。Kilgarriff[1]首次提出網絡語料庫(Web as corpus,WaC)的概念,討論了基于網絡數據驅動的語料庫研究問題。2000年初名為WaCky!的學術團體成立,2006至2009年間構建了一系列網絡語料庫(deWaC, frWaC, itWaC, ukWaC),每個都包含了10-20億詞[2]。2011年啟動的COW(COrpora from the Web)項目構建了面向英、德、法、荷、西和瑞典語的網絡語料庫,至2014年多數語料分庫規(guī)模已經逼近100億詞[3]。在CLARIN項目框架內面向南斯拉夫語言的構建了一系列網絡語料庫(bsWaC, hrWaC, slWaC, srWaC),規(guī)模從4億到20億詞不等[4]。與此同時,俄語網絡語料庫也得到了新發(fā)展,規(guī)模較大的如Aranea項目框架內構建的網絡語料庫包含近15種語言,其中俄語分庫根據來源網頁域名分為三個分庫(Russicum Russicum、Russicum Externum和Russicum)每個分庫按照語料規(guī)模都有Maius(大型)和Minus(小型)版本,如Russicum的大、小型語料分庫分別包含8.5和0.9億俄文詞[5];TenTen多語種網絡語料庫項目中每個語種分庫都超過10億詞,俄語分庫ruTenTen是最大的分庫之一[6];Russian Web corpora通過500個檢索詞借助搜索引擎獲取語料,總規(guī)模約1.47億詞[7]等。
一直以來,俄語國家語料庫(НКРЯ)成為大部分學者研究俄語的標準配置,然而該語料庫中當代俄語的現時數據占比較少,因此并不十分適應面向現代俄語的語言共時研究。上述網絡語料庫的構建成果是有目共睹,一定程度上豐富了研究者的語料選擇,但都不同程度上存在缺陷,如上述Aranea、ruTenTen語料庫旨在面向多個語種,缺乏對俄語的定制性標注與研究。除此之外,包括I-RU在內,這三個語料庫規(guī)??捎^但都缺乏元數據信息不易用于語言學研究,其他小型語料庫通常數據規(guī)模較小而不易把握面向特定俄語使用群體的語言現象,總體來說,鮮有專門面向現代俄語語言學研究、面向特定俄語使用人群的大規(guī)模語料庫,正是在這樣的背景下,ГИКРЯ語料庫應運而生。
2 GICR語料庫的構建
2.1 概述
GICR(General Internet Corpus of Russian), GICR; Генеральный Интернет-корпус русского языка;本文譯:俄語網絡語料總庫)由俄羅斯國立人文大學于2012年開始籌建[8],是一個面向當代俄語語言學研究的新型網絡文本語料庫。該語料庫構建目的是為面向當代俄語的語言學研究提供可靠數據支撐和技術工具,其語料從互聯網俄文網站自動采集,來源包括新聞、社交網絡、博客、論壇和網絡雜志等,網頁文本抽取、篩選清理和標注過程均采用自動化的方式進行,語料標注十分詳盡,不僅包含詞法和句法標注信息,還包含了大量面向文本的元數據標注信息,如作者的性別、年齡、職業(yè)、文本體裁、主題和地域變體等。該庫最終構建目標是1000億詞,2016年該語料庫的規(guī)模已經超過200億詞,已經遠超俄語國家語料庫(50億詞)。該語料庫項目由俄羅斯國立人文大學和莫斯科物理技術學院計算語言學教研室承擔主要研究工作,參與研究的還有莫斯科國立大學、英國利茲大學以及ABBYY公司的諸多專家學者。GICR語料庫項目得到了俄羅斯聯邦科技和教育部、俄羅斯國立人文大學戰(zhàn)略發(fā)展項目以及ABBYY公司的支持。GICR的主要優(yōu)勢在于:語料獲取、處理和更新實現了完全自動化且規(guī)模巨大,僅針對俄語一門語言構建,語料構成以最鮮活現代俄語語料為主,專門面向語言學研究進行了詳盡的語法標注,同時面向社會語言學研究標注了語料的元信息。以下是語料庫的基本構成(表1):
表1 ГИКРЯ語料庫語料構成(2016年)
[語料來源 詞數(億詞) 文件數(個) Журнальный Зал(網絡雜志圖書館) 3.13 56547 Риа, Регнум, Лента ру, Росбалт(網絡新聞) 8.51 2964897 Живой Журнал(論壇及博客平臺) 81.1 73229158 Блоги Mail.ru(博客平臺) 7.07 9882120 ВКонтакте(社交網絡) 98.2 193770717 總計 198.01 279903439 ]
2.2 語料采集與處理
ГИКРЯ語料庫采集語料所使用的工具以Nutch為基礎定制開發(fā)。Nutch是一個構建在Java平臺上的開源網頁采集及搜索引擎項目,包括了網頁爬蟲(Crawler)和查詢器(Searcher)兩部分組成。網絡爬蟲的功能是從網絡上抓取網頁、獲取網頁內容并為這些網頁建立索引,查詢器的功能是利用這些索引檢索用戶的查找關鍵詞來產生查找結果。GICR網頁爬取策略不使用網頁排名,而是爬取所有可獲得網頁,但僅保留網頁中面向人類閱讀的部分,不收錄面向搜索引擎編撰的相關信息。GICR更注重精度而非召回率,因為目前俄語互聯網資源的文本數量是GICR最終構建目標的100倍左右。
GICR語料庫對所獲取的網頁文本,進行了垃圾信息清理工作,清理的對象包括網頁輔助信息、廣告、動態(tài)新聞條、郵件、自動生成的文本等,同時進行重復文本刪除,這樣以來能夠減少后期語料入庫時的工作量。通常來說,網頁樣板代碼的清除算法基于是否知曉網頁結構。GICR對于已知網頁結構的博客平臺、內容管理系統(tǒng)或論壇平臺,通過分析網頁源碼中帶有已知Xpath節(jié)點的DOM結構抽取文本,同樣也可以把主體文本與評論文本區(qū)分開來;對于不知道其數據結構的網頁,使用基于混合策略、獲取連續(xù)字符塊的算法抽取網頁正文。
GICR語料庫構建時,不僅借助Nutch從爬取網頁并從中抽取文本正文,同樣也抽取文本的元信息,包括文本作者的用戶名(網名)、年齡、性別、出生地、受教育程度、常住地等,這些注冊信息通常以結構化的文本表示。獲取這些元信息,主要是能夠借此高效地獲取文本創(chuàng)作(使用)者的相關信息,如用戶注冊信息、消息發(fā)布數量等,將用戶與用戶語料緊密關聯起來,這樣對分析特定人群的語言使用情況十分有效,能夠很好的用于社會語言學研究。獲取語料的主要算法基于假設:對于某一用戶來說,掌握的相關語料越多,對其年齡、性別等信息的判斷與分類就越準確。
2.3 語料標注
GICR語料的標注是通過計算機軟件自動進行的,包括詞法標注和元信息標注兩個部分。首先,詞法標注使用的工具是由Сергей Шаров開發(fā)的TnT-Russian軟件,包括語料的形態(tài)標注和詞形還原。在形態(tài)標注方面,所使用的機器詞典不僅使用TnT-Russian自帶詞庫,同時也融合了mystem的詞形庫,總共包含超過700萬俄語詞形。在詞形還原方面,不僅使用了TnT-Russian原有工具,針對未收錄詞(新詞)的處理,采用了Cstlemma模型(Github開源項目),同時根據GICR的自身特點對TnT-Russian工具進行了定制拓展開發(fā)。除此之外,自主研制的標記解析器(Токенизатор)能對所有標點符號及使用連詞符組成的搭配進行自動識別。GICR語料庫詞法標注規(guī)范及語料標注示例參見表2。
其次,語料元信息標注。GICR的語料元信息標注是指對從社交網絡、論壇、網絡雜志等網址獲取的網頁,獲取其關于文本本身的信息以作者信息并加以標注。文本本身的信息包括文本來源、作者、發(fā)布時間、網絡體裁(博客、微博、論壇文章)等;作者信息包括用戶ID、網名、注冊時間、性別、年齡、地區(qū)(IP地址)、職業(yè)、興趣、文本發(fā)布數量、評論數量等。自動處理等起點是獲取文本作者的準確信息,并將其以標準化形式表示出來。有些信息可以從IP地址(服務器地址用于地區(qū)定位)和網址URL中獲得,但往往這類元信息都是不完整的,首先并不是所有的網站都完整提供上述信息,其次IP地址在某些情況下也能夠被錯誤引導等。GICR項目使用頁面上可以獲取的文本信息為機器學習提供資源,不斷改進特定網站的結構信息獲取算法,效果較好。
3 GICR的研究與應用
GICR作為一個規(guī)模巨大的網絡俄語語料庫,其構建過程本身就是一個科學命題。首先,GICR的語料獲取、標注和分類的整個過程都是通過軟件工具自動完成的,為了保證語料處理的準確性和可靠性,就必須在獲取了原始語料之后,嚴格考察和研究自動標注和詞形還原的方法,確保語料加工的成熟度,以便用于后期的應用與拓展。其次,從網絡獲取的語料,數據噪聲大且無明晰分類,未分類語料對于語言特征研究、變體研究、社會語言學研究都存在障礙,因此語料自動分類問題也是需要研究的課題。針對上述問題,俄羅斯學界已經開展了比較深入的研究,部分研究成果得到了較好地推廣和應用,基于GICR的多方面研究也在順利開展。
第一,基于GICR語料庫的詞性標注與詞形還原研究。為了處理大規(guī)模未標注互聯網語料,文獻[9]討論了在不使用任何語言知識的情況下,使用機器學習及純統(tǒng)計方法處理俄文語料的粒度切分、詞形還原和自動標注問題。在隨后的研究中,基于研究了形態(tài)自動消歧問題,測試了GICR語料詞法自動標注工具及標準的可信度和有效程度。文獻[10]在GICR項目框架內開發(fā)的面向社交網絡文本的語料自動形態(tài)分析和詞形還原工具,并在人工標注的200萬詞現代社交網絡語料庫上進行效果測試。文獻[11]認為對俄語標準語的自動形態(tài)分析和詞形還原工具對于社交媒體的文本處理精度不夠,原因是存在大量書寫變體和錯誤書寫,使用GICR作為數據基礎語料修正了算法,提升了詞形還原和形態(tài)分析的水平。
第二,基于GICR語料庫的文本分類研究。文獻[12]研究了GICR語料庫中文本自動分類問題,初始以少量文本特征參數為基礎,通過迭代的機器學習算法構建分類框架,建立主體后用于后期的文本聚類;文獻[13]使用多維度分析手段對GICR語料庫的多樣化文本分類進行了研究,以此方法尋找分類依據以及分類的維度特征,使用軟件工具識別出的一系列語言特征,研究結構表明語言特征緯度對理解與處理俄語網絡語料的分類問題作用很大;文獻[14]研究了網絡語料的自動區(qū)域識別與分類問題,使用了GICR的Живой Журнал子庫,從文本特征詞匯、文本作者結構信息中抽取的地域信息,通過機器學習訓練特征集建立語料與地區(qū)的關聯。
第三,基于GICR語料庫的社會語言學研究。文獻[15]基于對GICR語料庫的研究,認為面向大多數語言學和詞匯學研究來說,對語料庫進行明晰的體裁及社會語言學劃分是十分必要的,而不應該將基于少量數據的語言現象研究結果簡單地推廣到整個語言。在此基礎上,他們使用GICR語料庫開展文本元信息抽取研究,對文本作者信息進行了抽取,研究了不同性別、不同地區(qū)的語言使用差異,包括不同性別作者在語句、搭配和成語使用方面的差異。
第四,基于GICR語料庫的俄文拼寫檢查與自動糾錯研究。在“Dialogue Evaluation”項目框架內開展的俄文自動拼寫糾正評測——SpellRuEval主要是面向社交網絡文本的拼寫檢查與自動糾正研究,使用GICR的Живой Журнал子庫作為實驗測試集。七個隊伍參加了評測,測試效果最好的隊伍使用了基于詞匯距離和語音相似度的候選詞查詢,隨后借助N元語法模型進行排序后輸出結果。文獻[16]采用了一種基于混合方法的俄文拼寫檢查和自動糾正策略,綜合使用了黑名單、錯誤詞典、詞向量模型、N元語法模型和三重錯誤檢測的方法,同樣使用了GICR作為測試數據集。
第五,其他研究。文獻[17]基于GICR語料庫對俄語固定搭配進行了研究,借助語料庫手段可以拓展固定搭配詞典,量化評估了固定搭配使用時對共時特點以及歷時形成特征。文獻[18]使用三個大型:俄語國家語料庫、GICR和包含詞句法關系和共現信息的語料庫(CoSyCo)研究了形容詞“гордий”在現代新聞文本中的使用問題,研究結果表明包含了清晰語料類型劃分和文本來源信息的語料庫對于詞匯研究更加有利。
4 結束語
網絡語料庫是大數據時代語料庫語言學研究和發(fā)展的必然產物,GICR語料庫的出現正是這一趨勢的有力證明。隨著該語料庫在語料規(guī)模、組織結構、標注精度、檢索方法等方面的不斷進步,必將越來越廣泛地運用到現代俄語語言學研究、翻譯研究、社會語言學研究等諸多領域,成為俄語語言現象量化研究、語言信息自動處理的重要數據支撐和依據,未來研究潛力與應用前景十分廣闊。
參考文獻:
[1] Kilgarriff, A.&G. Grefenstette. Web as corpus[A]. Proceedings of Corpus Linguistics 2001. Corpus Linguistics[C]. Readings in a Widening Discipline, 2001.
[2] Baroni, M., S.Bernardini, A.Ferraresiet al. The WaCky wide web: a collection of very large linguistically processed web-crawled corpora [J]. Language resources and evaluation, 2009(43).
[3] Sch?fer, R. & F.Bildhauer Building Large Corpora from the Web Using a New Efficient Tool Chain[A] LREC-2012[C]. 2012.
[4] Ljube?i?, N. &T.Erjavec. hrWaC and slWaC: Compiling web corpora for Croatian and Slovene[A]. International Conference on Text, Speech and Dialogue[C]. Springer Berlin Heidelberg, 2011.
[5] Benko,V. Aranea: Yet another family of (comparable) web corpora[A]. International Conference on Text, Speech, and Dialogue[C]. Springer International Publishing, 2014.
[6] Jakubí?ek, M., A.Kilgarriff, V.Ková?et al. The tenten corpus family[A].7th International Corpus Linguistics Conference CL[C]. 2013.
[7] Sharoff, S. Creating general-purpose corpora using automated search engine queries[J]. WaCky Working Papers on the Web As Corpus Gedit, 2006.
[8] Беликов, В., П.Селегей, А.Шаров. Пролегомены к проекту Генерального интернет-корпуса русского языка (ГИКРЯ)[A]. Компьютерная лингвистика и интеллекту- альные технологии: По материалам ежегодной Международной конференции ?Диалог?[C], Бекасово, 2012.
[9] Sharoff, S.&J.Nivre. The proper place of men and machines in language technology: Processing {Russian} without any linguistic knowledge[A]. In Dialogue, Russian International Conference on Computational Linguistics[C] Bekasovo, 2011.
[10] Селегей, В., О.Шаврина, П.Селегейet al.Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Москва, 2016.
[11] ШавринаО.&А.Сорокин.Моделирование расширенной лемматизации для русского языка на основе морфологического парсера TnT-Russian[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Бекасово, 2015.
[12] Sorokin, A., V.Baytin, E.Galinskayaet al. SpellRuEval: the First Competition on Automatic Spelling Correction for Russian[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”[C]. Moscow, 2016.
[13] Katinskaya, A. &S.Sharoff. Applying Multi-dimensional Analysis to a Russian Webcorpus: Searching for Evidence of Genres[A]. In Proc. of the Workshop on Balto-Slavic Natural Language Processing associated with the International Conference RANLP[C]. Hissar: Bulgaria, 2015.
[14] Сорокин, А.Автоматическая региональная классификация на основе словаря региональной лексики: пробное исследование[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Бекасово, 2015.
[15] Беликов, И., Ю. Копылов, Ч. Пиперскиetal. Корпус как язык: от масштабируемости к дифференциальной полноте[A].Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C].Бекасово, 2013 (12).
[16] Dereza,V., A.Kayutenko, A.Marakasovaet al. A Complex Approach to Spellchecking and Autocorrection for Russian[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” [C],Moscow, 2016.
[17] Захаров, П.Сочетаемость через призму корпусов[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C], Бекасово, 2015.
[18] Lukashevich, Y., S.Klyshinsky&M.Kobozeva. Lexical Research in Russian: are Modern Corpora Flexible Enough?[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” [C]. Moscow, 2016.