亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        日語(yǔ)文本語(yǔ)料庫(kù)的開發(fā)與利用

        2016-01-06 20:46耿治萌鐘春琳劉玉琴
        關(guān)鍵詞:數(shù)據(jù)分析

        耿治萌+鐘春琳+劉玉琴

        摘 ? 要:大連理工大學(xué)軟件學(xué)院日語(yǔ)實(shí)驗(yàn)室創(chuàng)建的日語(yǔ)文本語(yǔ)料庫(kù)JTCH(Japanese Text Corpus Handler)利用sen日語(yǔ)分詞技術(shù),以NHK、朝日新聞為主要文章數(shù)據(jù)來(lái)源,通過(guò)一系列搜索算法,對(duì)文章進(jìn)行句子分析、數(shù)據(jù)分析和統(tǒng)計(jì)處理。為日語(yǔ)學(xué)習(xí)、教學(xué)以及科研提供了具有例句查找、數(shù)據(jù)統(tǒng)計(jì)和語(yǔ)句分析等多種功能的學(xué)習(xí)平臺(tái)。

        關(guān)鍵詞:文本語(yǔ)料庫(kù);數(shù)據(jù)分析;日語(yǔ)分詞;日語(yǔ)搜索

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2015)01-0058-03

        一、引言

        隨著日語(yǔ)學(xué)習(xí)者的增多以及ICT(Information Communication Technology )技術(shù)的飛速發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)對(duì)外語(yǔ)學(xué)習(xí)的輔助作用受到高度重視。傳統(tǒng)的依靠人工積累進(jìn)行例句分析,已經(jīng)不能滿足學(xué)習(xí)者對(duì)句子的質(zhì)與量的要求,其準(zhǔn)確性及真實(shí)性無(wú)法得到保障。

        語(yǔ)料庫(kù)是指在隨機(jī)采樣基礎(chǔ)上收集的有代表性的真實(shí)語(yǔ)言材料的集合,是語(yǔ)言運(yùn)用的樣本(楊慧中,2002)。如果樣本具有代表性,采樣具有隨機(jī)性,且樣本的量又足夠大,則可以認(rèn)為,樣本就是總體的真實(shí)代表;樣本具有總體的統(tǒng)計(jì)特征,研究真正實(shí)際使用的語(yǔ)言材料更能體現(xiàn)日本文化和了解標(biāo)準(zhǔn)日本語(yǔ)。日語(yǔ)本族語(yǔ)料庫(kù)具有代表性的是日本國(guó)立研究所(http://nlb.ninjal.ac.jp/)。其中包含句子104,805,763條,涵蓋了經(jīng)濟(jì)、文化、政治等多個(gè)方面,有各類書籍;提供前后搭配詞頻統(tǒng)計(jì)的查詢方法。雖然數(shù)據(jù)庫(kù)數(shù)據(jù)龐大,但是因?yàn)楣δ茌^少,造成數(shù)據(jù)并沒有被充分利用;現(xiàn)代日語(yǔ)書面語(yǔ)均衡語(yǔ)料庫(kù)(BCCWJ)的目標(biāo)是構(gòu)筑一個(gè)均衡語(yǔ)料庫(kù),為使用者提供覆蓋面廣、代表性強(qiáng)、數(shù)量充足、能夠全面反映現(xiàn)代日語(yǔ)書面語(yǔ)使用狀況的語(yǔ)言樣本(毛文偉,2011)。BCCWJ包含17萬(wàn)余本各類日本書籍(文學(xué)類書籍偏多),提供了兩款網(wǎng)上檢索工具,分別為“少納言”和“中納言”。前者不需注冊(cè),但僅提供了字符串檢索功能;后者功能更加齊備,不過(guò)需要用戶注冊(cè)?!爸屑{言”提供三種語(yǔ)料檢索方式,分別有短單位、長(zhǎng)單位和以無(wú)長(zhǎng)度限制字符串為單位。但是,由于BCCWJ功能較少,不能為日語(yǔ)學(xué)習(xí)者提供更高的查詢要求。

        綜上,目前日本文本語(yǔ)料庫(kù)的建設(shè)與應(yīng)用,僅有日本本土的日本國(guó)立研究所和日本中納言(https://chunagon.ninjal.ac.jp)。由于地域原因以及文化差異,中國(guó)的日語(yǔ)學(xué)習(xí)者在使用過(guò)程中總是無(wú)法得心應(yīng)手。

        大連理工大學(xué)軟件學(xué)院日語(yǔ)實(shí)驗(yàn)室創(chuàng)建的日語(yǔ)文本語(yǔ)料庫(kù)( 以下簡(jiǎn)稱JTCH ),作為日語(yǔ)學(xué)習(xí)、教學(xué)以及日語(yǔ)研究的平臺(tái),提供各種搜索模式,輔助日語(yǔ)學(xué)習(xí)者通過(guò)大量的、原汁原味的日語(yǔ)例句習(xí)得日語(yǔ)語(yǔ)法、詞匯,并通過(guò)各種統(tǒng)計(jì)功能了解日語(yǔ)語(yǔ)言的邏輯思維模式。

        JTCH加載和存儲(chǔ)NHK和朝日新聞的文章(2012-2014),包括32萬(wàn)個(gè)例句、4萬(wàn)篇文章的解析。

        二、日語(yǔ)文本語(yǔ)料庫(kù)建設(shè)

        1.系統(tǒng)概述

        (1)文本語(yǔ)料庫(kù)創(chuàng)建模塊

        網(wǎng)絡(luò)爬蟲將NHK各地的新聞按照地域,將朝日新聞按照類別下載到本地?cái)?shù)據(jù)庫(kù),同時(shí)自動(dòng)生成標(biāo)簽、分句。

        (2)功能模塊

        主要提供單一查詢(單一精確詞匯查詢、模糊查詢、多詞查詢)、搭配查詢(指定位置、前后搭配、前后詞性)兩大模塊查詢。此外還有句子分析和接續(xù)詞統(tǒng)計(jì)模塊。詳見圖1 。

        單一查詢中單一精確詞匯查詢是指用戶輸入關(guān)鍵詞是什么,便查詢出含有該關(guān)鍵詞的句子。例如「ある」: 28日午後2時(shí)半ごろ、愛知県犬山市の日本モンキーパークの遊園地にある「スカイダンボ」という空中ゴンドラの1臺(tái)が、地上から5mほどの高さで突然動(dòng)かなくなり、後続のゴンドラも次々に停まりました。

        模糊查詢是指根據(jù)關(guān)鍵詞,用戶自己選擇關(guān)鍵詞的活用類型,或者全部活用,查詢出含有該關(guān)鍵詞所有活用的句子。例如「ある」則查詢出包含ある所有變型使用例句。

        多詞查詢是特別針對(duì)一些一種詞有多種寫法的情況,從而根據(jù)用戶輸入多個(gè)關(guān)鍵詞,查詢出含有每個(gè)關(guān)鍵詞的句子,例如「茶||お茶」。

        搭配查詢中的指定位置是指用戶自己限定關(guān)鍵詞的前三或者后三個(gè)詞匯位置的詞語(yǔ)或者詞性,來(lái)滿足更高的搜索要求。例如「食べる」我們可以指定該關(guān)鍵詞前兩個(gè)位置為名詞,從而得到“リンゴを食べていいです”等例句。

        前后搭配和前后詞性是指用戶僅限定某個(gè)詞語(yǔ)或者詞性在關(guān)鍵詞的前邊或者后邊,而不去關(guān)注在前幾后幾,從而查出想要的結(jié)果。例如「食べる」我們限定它前邊有「リンゴ」,則所有關(guān)于「食べる」前邊帶有「リンゴ」的句子都會(huì)出現(xiàn)。如:①戀なんて卒業(yè)毒リンゴ 食べてみたい。②リンゴをおいしそうに食べている。③リンゴを食べていいです。

        詞頻統(tǒng)計(jì)是指根據(jù)用戶輸入的關(guān)鍵詞,我們經(jīng)過(guò)算法分析接續(xù)詞的出現(xiàn)頻率最高的前10個(gè)詞匯,例如「ある」「ある」+「た」出現(xiàn)的次數(shù)最多,為14次;「ある」+「よう」頻率為10次,依次類推,顯示排名前10的結(jié)果。

        2.開發(fā)相關(guān)技術(shù)

        (1)創(chuàng)建,處理模塊

        為了使數(shù)據(jù)庫(kù)管理更加方便,以Mysql數(shù)據(jù)庫(kù)作為數(shù)據(jù)管理工具,基于Navicat for mysql的輔助以日本信賴度很高的NHK(http://www.nhk.or.jp/lnews/)和朝日新聞(http://www.asahi.com)為數(shù)據(jù)來(lái)源。因?yàn)檫@兩個(gè)主流網(wǎng)站包含的數(shù)據(jù)量龐大(每天每個(gè)網(wǎng)站更新200篇文章左右),并且具有實(shí)時(shí)性和準(zhǔn)確性。

        創(chuàng)建語(yǔ)料庫(kù)利用了java的多線程編程;httpclient、jsoup、ibatis實(shí)現(xiàn)了網(wǎng)站到j(luò)ava代碼到數(shù)據(jù)庫(kù)的連接。具體創(chuàng)建過(guò)程如下:

        ①通過(guò)httpclient的API調(diào)用實(shí)現(xiàn)主頁(yè)加載,對(duì)加載獲得的主頁(yè)進(jìn)行分析,獲取關(guān)于文章的URL。

        ②通過(guò)URL,再次訪問網(wǎng)絡(luò),將加載每篇文章,這里我們使用線程池技術(shù)避免了大量的資源占用,同時(shí)減輕CPU的負(fù)擔(dān)。

        ③通過(guò)jsoup提供的解析功能對(duì)得到的每一個(gè)文章頁(yè)面進(jìn)行解析。得到我們希望得到的相關(guān)數(shù)據(jù),例如文章title、content、url、type、author等信息。這些信息我們用article的類進(jìn)行封裝。

        ④使用iBATIS工具進(jìn)一步處理。將數(shù)據(jù)庫(kù)中的id設(shè)置為自增長(zhǎng)型,將文章分解為一個(gè)個(gè)的sentence存到數(shù)據(jù)庫(kù)中,每個(gè)sentence中都保留了文章的id和在文章中的位置。

        ⑤文章分類問題

        語(yǔ)料庫(kù)的類別在對(duì)語(yǔ)料庫(kù)的研究中也起著關(guān)鍵性的作用,我們對(duì)朝日新聞和NHK的文章分類如下。朝日新聞:スポーツ、社會(huì)、國(guó)際、経済、政治、サイエンス、カルチャー、教育テック&サイエンス 等;NHK由于主要使各個(gè)地方的新聞匯聚在一起,所以它是按照地域分類的,由于地方較多,不一一列舉,我們選擇在搜索的時(shí)候?qū)⒌赜蛘故窘o讀者,以方便了解地域文化和地域差異。

        ⑥定時(shí)器

        每天晚上12點(diǎn)網(wǎng)絡(luò)爬蟲開始工作,下載數(shù)據(jù)。

        (2)各檢索模塊功能實(shí)現(xiàn)

        為了提高搜索速度,第一版文本語(yǔ)料庫(kù)采用的是Lucene作為一個(gè)全文檢索引擎,雖然lucene檢索引擎具有很多優(yōu)點(diǎn),但是由于要和數(shù)據(jù)庫(kù)進(jìn)行連接,數(shù)據(jù)庫(kù)是在傳統(tǒng)硬盤中進(jìn)行存儲(chǔ),硬盤檢索速度和內(nèi)存檢索速度相比,仍然有著幾千倍的速度差,所以我們考慮將數(shù)據(jù)讀入內(nèi)存來(lái)提高檢索速度。傳統(tǒng)的數(shù)據(jù)庫(kù)只是用來(lái)進(jìn)行文本存儲(chǔ),更新和備份使用。

        通過(guò)序列化形式將文章和句子加載到內(nèi)存中,直接在內(nèi)存中對(duì)文章和句子進(jìn)行檢索,檢索并不是每一條挨著查找,而是創(chuàng)建合適的索引,在我們的文本語(yǔ)料庫(kù)中選擇以每個(gè)日語(yǔ)詞匯的基本型為key,value表示詞匯出現(xiàn)句子的id,在檢索時(shí)首先通過(guò)對(duì)索引的檢索,來(lái)減少檢索次數(shù),提高速率。

        依靠sen工具將一個(gè)句子分成發(fā)音、原型、分詞以及變形,實(shí)現(xiàn)對(duì)日語(yǔ)句子或者文章進(jìn)行分析。首先把句子的每個(gè)詞分解出來(lái),然后對(duì)每個(gè)詞進(jìn)行詞性(屬于哪一類詞、哪種變形等)、基本型、發(fā)音、平假名寫法、在句子中的位置等做出解析,同時(shí)也能統(tǒng)計(jì)出句子長(zhǎng)度。

        日語(yǔ)文本語(yǔ)料庫(kù)正是在sen工具包(簡(jiǎn)稱sen)的基礎(chǔ)上,通過(guò)對(duì)sen的二次開發(fā),實(shí)現(xiàn)對(duì)日語(yǔ)文本語(yǔ)料庫(kù)進(jìn)行分析和查詢。

        在大量數(shù)據(jù)的基礎(chǔ)上,通過(guò)sen進(jìn)行數(shù)據(jù)解析,然后對(duì)數(shù)據(jù)再分析,從而查詢到需要的結(jié)果。

        (3)句子分析和語(yǔ)料分析

        通過(guò)sen分詞技術(shù)對(duì)用戶輸入的語(yǔ)料(短語(yǔ)、句子、文章)進(jìn)行詞法、語(yǔ)法、詞頻等方面的分析和統(tǒng)計(jì)。詞頻統(tǒng)計(jì)是針對(duì)關(guān)鍵詞的各種后續(xù)搭配出現(xiàn)的頻率及數(shù)目進(jìn)行統(tǒng)計(jì),并顯示具體例句。算法主要是利用排序算法和sen本身帶有的數(shù)據(jù)統(tǒng)計(jì)功能。

        (4)界面部分功能展示(見圖2)

        三、今后的課題

        我們所開發(fā)的文本語(yǔ)料庫(kù)還只是日語(yǔ)語(yǔ)料庫(kù)中的冰山一角,伴隨算法的進(jìn)一步完善,如何使查詢速度有更大的提高,面對(duì)將來(lái)可能的數(shù)千萬(wàn)計(jì)的數(shù)據(jù)又該如何處理,這些都將是我們今后研究的課題。

        (1)召集一些有想法有能力并且熱衷于研究的學(xué)生參與到我們的項(xiàng)目中,增加和完善文本語(yǔ)料庫(kù)的功能,美化界面,簡(jiǎn)化操作。

        (2)增加語(yǔ)料庫(kù)內(nèi)容的豐富性,使語(yǔ)料包含更多的信息。

        (3)對(duì)語(yǔ)料庫(kù)數(shù)據(jù)進(jìn)行整體分析,而不是局限于某個(gè)詞語(yǔ),從而分析出日本當(dāng)前關(guān)注點(diǎn)在哪里,了解日本各方面的發(fā)展趨勢(shì)。

        (4)在學(xué)習(xí)和研究的過(guò)程中,及時(shí)對(duì)使用者的使用情況進(jìn)行反饋,不斷改進(jìn)系統(tǒng)的不足,使系統(tǒng)愈加完善,盡可能滿足用戶的使用。

        四、結(jié)束語(yǔ)

        系統(tǒng)開發(fā)的過(guò)程是艱難而又充滿挑戰(zhàn)的,經(jīng)過(guò)7個(gè)月的研究開發(fā),目前文本語(yǔ)料庫(kù)已經(jīng)基本成型,需求分析的所有功能基本實(shí)現(xiàn),并且在算法優(yōu)化、數(shù)據(jù)穩(wěn)定以及網(wǎng)絡(luò)支持方面都有較好的突破。

        良好的平臺(tái)設(shè)計(jì)和技術(shù)支持,為更大數(shù)據(jù)量的語(yǔ)料提供了堅(jiān)實(shí)的基礎(chǔ)。截至發(fā)稿日,日語(yǔ)語(yǔ)料庫(kù)已有文章41026篇,語(yǔ)料庫(kù)的語(yǔ)料容量大、代表性強(qiáng),為日語(yǔ)學(xué)習(xí)者提供了強(qiáng)有力的支持。

        參考文獻(xiàn):

        [1]楊慧中.語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論[M].上海:上海外語(yǔ)教育出版社,2002.

        [2]譚晶華,毛文偉.中國(guó)日語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)CLJC建設(shè)及應(yīng)用綜述[J].日語(yǔ)學(xué)習(xí)與研究,2011(4):23-29.

        (編輯:王天鵬)

        猜你喜歡
        數(shù)據(jù)分析
        基于matlab曲線擬合的數(shù)據(jù)預(yù)測(cè)分析
        佛山某給水管線控制測(cè)量探討
        SPSS在環(huán)境地球化學(xué)中的應(yīng)用
        淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
        成人片黄网站色大片免费观看app 亚洲av无码专区亚洲av | 精品久久久久久无码中文字幕| 国产精品欧美一区二区三区不卡| 色伦专区97中文字幕| 欧美日韩不卡中文字幕在线| 日韩内射美女人妻一区二区三区 | 精品久久有码中文字幕| 欧美亚洲日本国产综合在线美利坚| 高潮迭起av乳颜射后入| 国产日产高清欧美一区| 色窝综合网| 国产偷国产偷亚洲高清| 加勒比精品视频在线播放| 99在线精品免费视频| 四虎影视免费观看高清视频| 国产小毛片| 国产日韩AV无码免费一区二区| 乳乱中文字幕熟女熟妇| 亚洲一区精品无码| 欧美一区二区三区久久综| 亚洲av无码成人精品区在线观看| 中文字幕久久久久久精| 日韩精品国产一区在线| 美女脱掉内裤扒开下面让人插| 国产成人精品优优av| 亚洲精品无码久久久久牙蜜区| japanesehd中国产在线看| 亚洲人成影院在线高清| 亚洲一区二区三区毛片| 色婷婷精品久久二区二区蜜臀av| 无码一区二区三区中文字幕| 三年片免费观看大全国语| 中文字幕不卡在线播放| 久久av一区二区三区下| 午夜影院免费观看小视频 | 亚洲精品久久久av无码专区| 97se亚洲国产综合自在线| 国产亚洲欧美在线播放网站| 少妇深夜吞精一区二区| 久久精品免费中文字幕| 99精品人妻少妇一区二区|