亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        瀕危語言與漢語平行語料庫動態(tài)構建技術研究

        2018-09-26 07:07:54于重重張青川尹蔚彬孫沁瑤
        計算機應用與軟件 2018年9期
        關鍵詞:文本語言

        于重重 曹 帥 張青川 尹蔚彬 孫沁瑤 劉 暢

        1(北京工商大學計算機與信息工程學院 北京 100048)2(中國社會科學院民族學與人類學研究所 北京 100081)

        0 引 言

        瀕危語言,顧名思義,就是有瀕臨消失的危險的語言[1]。瀕危語言是不可再生的非物質(zhì)文化資源,搶救和保存瀕危語言資料的核心任務是對這些正在流失、不可復得的語言資料及其蘊含的文化信息進行全方位的語言記錄、語料處理和語言信息保存。作為低資源語言[2-4],瀕危語言很多沒有文字,以口語的形式存在,長篇自然話語的記錄極為有限,能找到的錄音人有限,不足以反映一種語言的基本面貌。同時,自然口語的人工標注、轉(zhuǎn)錄、對應通用語言的翻譯工作量巨大。從機器翻譯的角度上去分析,建立比較好的語言模型,離不開豐富語料庫的支持[5]。因此,如何建立瀕危語言的跨語言平行語料庫是研究人員們面臨的又一重要課題。呂蘇語作為一種瀕危語言,目前只有雅礱和尼亞格楚江沿岸的大約7 000人使用[6]。本文以呂蘇語作為研究對象,為了建立呂蘇語與漢語的跨語言平行語料庫,首先使用jieba分詞對呂蘇語語料進行分詞處理;然后基于TF-IDF技術來提取呂蘇語語料的關鍵詞,再以提取的關鍵詞作為橋梁,在新浪博客靜態(tài)網(wǎng)頁下爬蟲獲取大量的漢語擴展文本;最后通過基于最小哈希的Jaccard相似度來計算并比較呂蘇語語料與漢語擴展文本之間的相似度,將相似度較高的漢語擴展文本作為呂蘇語的漢語擴展語料,實現(xiàn)呂蘇語與漢語雙語平行語料庫的動態(tài)構建技術,為機器翻譯奠定良好的基礎。

        1 語料擴展方案

        呂蘇語屬于漢藏語系,是藏語的一個分支。目前只有族群內(nèi)部的口語交流,沒有文字傳播。因此,為了保存呂蘇語,必須要借助懂得漢語與呂蘇語兩種語言的母語人進行漢語的轉(zhuǎn)譯。通過機器翻譯建立呂蘇語與漢語之間的語言模型將會大大減少母語人的人工轉(zhuǎn)譯工作。要實現(xiàn)這一目標,首先需要構建呂蘇語與漢語雙語平行語料庫。

        本文針對呂蘇語口語的漢語標注語料進行擴展。包含15個呂蘇語的故事文本,總計25 746個單詞,6 257個句子。目前的語料對于訓練一個精確度較高的語言模型來說,是遠遠不夠的。所以將呂蘇語作為原始語料來獲取與之相對應的漢語跨語言平行語料,簡稱漢語擴展語料,這一過程將有效擴展呂蘇語語料庫,為呂蘇語語言模型的建立做充分的準備。

        如圖1所示,呂蘇語的漢語擴展語料獲取可分為四個步驟。

        圖1 呂蘇語-漢語擴展語料獲取步驟

        其次,提取呂蘇語語料的關鍵詞。本文以提取出來的呂蘇語核心詞表作為用戶自定義詞典,先用jieba算法對呂蘇語語料進行分詞處理,然后用TF-IDF算法來實現(xiàn)每篇呂蘇語語料的關鍵詞抽取。平均每篇文檔提取10個關鍵詞,則提取的關鍵詞總數(shù)為150個。結(jié)果表明,提取的關鍵詞中包含一定數(shù)量的虛詞,為了解決這一問題,每篇文檔提取20個關鍵詞,然后去掉其中的虛詞,余下150詞。這樣不但保證了關鍵詞的數(shù)量,而且確保了關鍵詞的質(zhì)量。

        然后,爬蟲獲取大量漢語擴展文本。以提取的150個呂蘇語關鍵詞匯作為漢語語料爬蟲的種子詞匯,通過靜態(tài)網(wǎng)頁爬蟲的方式從新浪博客上爬取N篇漢語擴展文本,N的計算公式如下:

        (1)

        式中:n是平均每篇呂蘇語故事提取的關鍵詞數(shù),m是每篇呂蘇語故事對應的k個關鍵詞組合下爬取的漢語擴展文本篇數(shù),l是呂蘇語故事總數(shù)。本文中n和m均取10,l取15。

        最后,比較每篇呂蘇語語料與其相對應的漢語擴展語料的相似度。分別將呂蘇語語料與爬取的漢語擴展語料進行基于最小哈希的Jaccard相似度計算,得到與每篇呂蘇語語料相對應的漢語擴展語料的相似度值。如果呂蘇語語料所對應的前五個相似度的值均在0.7~1.0之間,則將由此得到的前五篇漢語擴展語料作為最終呂蘇語的漢語雙語平行語料;如果呂蘇語語料所對應的前五個相似度的最低值在0.5~0.7之間,則返回到爬蟲環(huán)節(jié),繼續(xù)獲取語料;如果呂蘇語語料所對應的前五個相似度的最低值在0~0.5之間,則返回到關鍵詞獲取環(huán)節(jié)。

        2 關鍵技術

        本文中用到的主要方法有:在提取呂蘇語語料的關鍵詞時用到了基于jieba算法的中文文本分詞技術、TF-IDF關鍵詞抽取算法;在比較呂蘇語語料與漢語擴展語料的相似度時用到了基于最小哈希簽名的Jaccard相似度改進算法。

        2.1 基于jieba的語料分詞

        目前,針對漢語分詞的方法包括三種[7-9]:基于知識理解的分詞方法、基于字典及詞庫匹配的分詞方法和基于詞頻度統(tǒng)計的分詞方法。本文使用的jieba分詞[10]是一種基于詞頻度統(tǒng)計的全切分分詞方法。jieba分詞采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合,對于未登錄詞,采用了基于漢字成詞能力的隱馬爾可夫模型,使用了維特比算法。

        如圖2所示,基于jieba方法的呂蘇語語料的分詞過程主要包括三個方面:首先對呂蘇語語料進行預處理,然后基于自定義詞典的詞圖掃描方式以及動態(tài)規(guī)劃算法建立模型,找到基于詞頻的最大切分組合,最后將分詞結(jié)果輸出。

        177 3D 打印輔助微創(chuàng)接骨板內(nèi)固定術(MIPO)改善脛骨旋轉(zhuǎn)不良的前瞻性隨機對照研究 張 磊,房 雷,陳 曉,史 萌,周 琳,徐盛明,蘇佳燦

        圖2 基于jieba方法的呂蘇語語料的分詞過程

        2.2 基于TF-IDF的語料關鍵詞提取

        基于TF-IDF的關鍵詞抽取算法[11,12]是一種主流的關鍵詞推薦方法。它利用候選關鍵詞的統(tǒng)計性質(zhì)對其進行排序,然后選取若干個排序最靠前的候選詞作為關鍵詞。

        本文中對呂蘇語語料及其漢語擴展語料進行關鍵詞提取時不僅考慮到了漢語的語言特性,而且考慮到呂蘇語的語言特性:在漢語特性中,如果以“的”、“了”、“是”等這些詞為關鍵詞獲取擴展語料,無疑是對結(jié)果毫無幫助,因此需要將這些停止詞進行過濾;在呂蘇語語特性中,像“拉菇薩”、“千子山”、“什巴”等這些少見的詞如果在某篇文章中多次出現(xiàn),就可將其作為反映某篇呂蘇語語料主題的關鍵詞。與此同時,在提取關鍵詞時用自定義詞典代替jieba分詞算法中的固有詞典,有效地保留了呂蘇語語料中的特有關鍵詞。

        基于TF-IDF的呂蘇語語料的關鍵詞提取步驟如圖3所示。

        圖3 基于TF-IDF的呂蘇語語料關鍵詞提取過程

        本文中對于每一篇呂蘇語語料,選擇其中具有代表性的20個特征詞作為關鍵詞的候選詞匯,然后去掉其中無意義的虛詞,剩余的候選詞匯作為呂蘇語語料的關鍵詞。

        2.3 基于最小哈希的Jaccard相似度計算

        為了識別字面上相似的文檔,最有效的方法是將文檔表示成短字符串集合,然后進行相似度比較。傳統(tǒng)意義上最常用的方法是Broder提出的Shingling算法[13]。Shingling算法的原理是假定一篇文檔就是一個字符串,則文檔的k-shingle定義為其中任意長度為k的子串,于是每篇文檔可以表示成文檔中出現(xiàn)一次或者多次的k-shingle集合。一般來講,對于少量語料相似度的計算,采用基于Shingling的Jaccard算法相對來說比較簡單,容易實現(xiàn);如果要比較相似度的語料數(shù)量較大,則會產(chǎn)生大量的shingling集合,導致計算的速度降低。

        Jaccard相似度計算方法用來測量多個集合在共同屬性上的重疊度[14]。假設給定兩個集合A和B,則A、B的Jaccard相似度記為sim(A,B)。sim(A,B)計算過程如式2所示:

        (2)

        本文中待處理的呂蘇語語料和漢語擴展語料的數(shù)量較多,故不將子字符串直接用成shingle,而是采用基于最小哈希的Jaccard相似度算法來計算呂蘇語語料與漢語擴展語料之間的相似度值。基于最小哈希的Jaccard相似度算法原理是:通過某個哈希函數(shù)將長度為k的子字符串映射為桶編號,然后將映射之后的桶編號看成最終的shingle集合來進行Jaccard相似度計算。采用基于最小哈希的Jaccard算法不僅使數(shù)據(jù)得到了壓縮,而且大幅度提升了程序運行的速度。具體計算過程如圖4所示。

        圖4 基于最小哈希的Jaccard相似度計算流程

        本文中基于最小哈希的Jaccard相似度計算過程如下:

        1) 將呂蘇語語料和漢語擴展語料中的每個故事表示成一個以k個字符為單位的k-shingle集合。假如某句子內(nèi)容是“我的名字叫次仁翁嘉”,如果k設為2,那么該句子對應的k-shingle集合就是‘我的’,‘名字’,…,‘次仁’,‘翁嘉’等兩個字組合的集合。

        2) 統(tǒng)計呂蘇語語料和漢語擴展語料中每個故事對應的k-shingle集合中的元素,形成特征矩陣Ma×b。Ma×b矩陣的列對應每個呂蘇語及漢語擴展故事中的k-shingle集合,行對應所有呂蘇語語料及漢語擴展語料中的元素。如果行r對應的元素屬于列c對應的集合,那么矩陣第r行第c列的元素為1,否則為0。

        3) 構建簽名矩陣。首先定義哈希函數(shù),然后建立基于特征矩陣Ma×b的簽名矩陣。簽名矩陣的列數(shù)與Ma×b的列數(shù),其行數(shù)為哈希函數(shù)的個數(shù)n。令SIG(i,c)為簽名矩陣中第i個哈希函數(shù)在第c列上的元素。SIG(i,c)的計算過程如圖5所示。

        SIG(i,c):簽名矩陣中第i個哈希函數(shù)在c第列上的元素輸入: ? 哈希函數(shù)的個數(shù) ? 特征矩陣的維數(shù)初始化:將所有的i和c初始化為∞輸出:哈希簽名矩陣SIG(i,c)函數(shù):1. Loop for i=1,2,…,n2. 計算行r對應的hi(r)3. End Loop for n4. Loop for c=1,2,…,b5. IfM(r,c)=16. SIG(i,c)=min(SIG(i,c),hi(r));i=1,…,n7. End Loop for b

        圖5SIG(i,c)算法流程

        4) 使用Jaccard相似度計算公式來計算最小哈希下每篇呂蘇語語料與其對應的漢語擴展語料之間的相似度值。事實上,兩個集合經(jīng)過最小哈希簽名計算之后得到的兩個最小哈希值相等的概率等于這兩個集合的Jaccard相似度[15]。因此,本文中最終獲得的相似度值直接作為呂蘇語語料與其對應的漢語擴展語料之間的相似度值。

        3 實驗與分析

        3.1 實驗數(shù)據(jù)

        本文使用的呂蘇語語料來源于呂蘇語口語的漢語標注語料,其中包含15個呂蘇語的故事文本,總計25 746個單詞、6 257個句子。通過對呂蘇語語料進行jieba分詞、TF-IDF關鍵詞提取以及靜態(tài)網(wǎng)頁爬蟲初步獲取呂蘇語的漢語擴展語料308篇。

        呂蘇語語料與初步獲取的漢語擴展語料數(shù)量比為1∶20,詞語數(shù)量比為2∶3。可以發(fā)現(xiàn),初步獲取的漢語擴展語料在數(shù)量上對呂蘇語語料起到了很好的擴展作用。為了獲取與呂蘇語語料內(nèi)容更加相似的漢語擴展語料,本文中設置了基于最小哈希的Jaccard相似度計算實驗。該實驗以15篇呂蘇語語料和初步獲取的308篇漢語擴展語料做為基本研究對象,通過計算呂蘇語語料與初步獲取的漢語擴展語料之間的相似度值,多次提取關鍵詞以及爬蟲獲取數(shù)據(jù),將相似度值為0.7及以上的前五篇漢語擴展語料作為最終呂蘇語的漢語平行語料。

        3.2 實驗結(jié)果

        本文中的所有算法均采用python編程在PC機下實現(xiàn)。為了確定該方法對瀕危語言的語料擴展是否準確有效,在實驗之前使用了大量的跨語言平行語料作為測試用例,編制了專門的測試程序,糾正了測試結(jié)果。測試環(huán)境為:計算機CPU為2.50 GHz,內(nèi)存8.00 GB;操作平臺是Windows 10;編程環(huán)境是Python2.7。

        通過實驗,獲取呂蘇語的漢語擴展語料共計75篇,其中包含的句子總數(shù)為4 231句,句子的平均長度為30詞。為了驗證相似性,本文對呂蘇語語料及其漢語擴展語料分別進行了核心詞以及文本之間的相似度計算實驗。部分實驗結(jié)果如表1所示。

        表1 實驗結(jié)果比較

        結(jié)果表明,通過jieba分詞、TF-IDF關鍵詞提取、靜態(tài)網(wǎng)頁爬蟲以及基于最小哈希的Jaccard相似度計算四個過程獲取的漢語擴展語料在字面上與呂蘇語語料之間存在較高的相似度。與此同時,通過閱讀呂蘇語語料及其漢語擴展語料發(fā)現(xiàn)二者語義都涉及到類似的生活場景。

        4 結(jié) 語

        本文以呂蘇語作為研究對象,應用了基于jieba算法的中文語料分詞技術、TF-IDF的關鍵詞提取技術、靜態(tài)網(wǎng)頁爬蟲技術以及基于最小哈希的Jaccard相似度算法獲取了呂蘇語的漢語擴展語料。該擴展語料不僅使得呂蘇語語料庫在數(shù)量上得到了很好的擴展,而且呂蘇語的漢語擴展語料與呂蘇語語料在內(nèi)容上具有較高的相似度,為下一步呂蘇語語言模型的建立奠定了良好的基礎。

        通過對呂蘇語的漢語擴展語料的獲取,實現(xiàn)了瀕危語言與漢語雙語平行語料庫的動態(tài)構建技術。此技術不僅為自動語音識別技術提供了良好的保障,而且對瀕危語言非物質(zhì)文化遺產(chǎn)的保存起到了至關重要的作用。在未來的研究當中,一方面會將語義作為文本相似性比較中的影響因素之一,目的是獲取語義相似度較高的擴展語料;另一方面改進相似度的計算方法,實現(xiàn)多個文本之間字面上、語義上相似度的全面比較。

        猜你喜歡
        文本語言
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        多向度交往對語言磨蝕的補正之道
        累積動態(tài)分析下的同聲傳譯語言壓縮
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        我有我語言
        欧美日韩中文字幕久久伊人| 亚洲欧洲成人精品香蕉网| 国产在线av一区二区| 国产成人精品日本亚洲i8| 精品乱码一区内射人妻无码| 国产真人无码作爱视频免费| 韩日美无码精品无码| 亚洲综合无码| 国产不卡一区二区av| 亚洲国产综合精品中久| 99re6在线视频精品免费下载| 国产婷婷色一区二区三区| 人人狠狠综合久久亚洲| 亚洲欧美日韩中文v在线| 大胸美女吃奶爽死视频| 日韩av在线不卡一二三区| 一区二区激情偷拍老牛视频av| 日本视频一区二区三区观看| 欧美激情一区二区三区| 男女裸交无遮挡啪啪激情试看| 亚洲中文字幕无码专区| 精品久久久久一区二区国产| 三级全黄的视频在线观看| 国产一区二区三区免费av| 亚洲欧美日韩另类精品一区| aaa级久久久精品无码片| 一区二区三区日本大片| 亚洲a级视频在线播放| 久久精品国产91精品亚洲| 伊甸园亚洲av久久精品| 嫩草影院未满十八岁禁止入内| 精品国产日韩无 影视| 久久免费看的少妇一级特黄片| 国产午夜精品一区二区三区| 国精产品一品二品国在线| 第九色区Aⅴ天堂| 成人av蜜桃在线观看| 在线视频观看免费视频18| 午夜国产一区二区三区精品不卡| 亚洲狠狠久久五月婷婷| 国产精品亚洲av三区亚洲|