亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漢盲對(duì)照語料庫和深度學(xué)習(xí)的漢盲自動(dòng)轉(zhuǎn)換

        2019-05-24 06:41:32王向東唐李真崔曉娟錢躍良
        中文信息學(xué)報(bào) 2019年4期
        關(guān)鍵詞:盲文分詞語料

        蔡 佳,王向東,唐李真,崔曉娟,劉 宏,錢躍良

        (1.中國科學(xué)院 計(jì)算技術(shù)研究所 移動(dòng)計(jì)算與新型終端北京市重點(diǎn)實(shí)驗(yàn)室,北京 100190;2.中國科學(xué)院大學(xué),北京 100049;3.中國盲文出版社,北京 100142)

        0 引言

        盲文是盲人閱讀和獲取信息的重要方式。它是一種觸覺符號(hào)系統(tǒng),印刷在紙張或顯示在點(diǎn)顯器上,通過觸摸進(jìn)行閱讀。盲文的基本單位稱作“方”,一方包含6個(gè)點(diǎn)位,通過設(shè)置每個(gè)點(diǎn)位是否有點(diǎn)共可形成64種組合,這些組合構(gòu)成了最基本的盲文符號(hào)。圖1(a)給出了一個(gè)盲文符號(hào)的示例。

        為了生成盲文內(nèi)容,需將普通人使用的文字內(nèi)容轉(zhuǎn)換為盲文。不同語言對(duì)應(yīng)的盲文是不同的。對(duì)于字母文字,其對(duì)應(yīng)的盲文往往直接定義了從字母到盲文符號(hào)的唯一映射,因此轉(zhuǎn)換相對(duì)簡單。當(dāng)前,英語、葡萄牙語、丹麥語、西班牙語、印地語等語言的文本到其相應(yīng)的盲文文本的自動(dòng)轉(zhuǎn)換,都已有可用的計(jì)算機(jī)系統(tǒng)[1-5]。而在漢語中,由于不可能將漢字唯一映射到盲文符號(hào),漢語盲文被定義為一種拼音文字,并且還定義了分詞連寫和標(biāo)調(diào)等規(guī)則。漢語盲文的這些特點(diǎn)為漢盲轉(zhuǎn)換,即漢字到盲文的轉(zhuǎn)換帶來了很大困難?,F(xiàn)有的漢盲自動(dòng)轉(zhuǎn)換系統(tǒng)準(zhǔn)確率較低,難以實(shí)用。在盲文出版、盲人教育等行業(yè)中,目前仍主要采用人工進(jìn)行漢盲轉(zhuǎn)換,效率低、成本高,導(dǎo)致盲文讀物匱乏、盲人獲取信息困難,嚴(yán)重限制了盲人在信息社會(huì)的發(fā)展。

        漢語盲文有3種相近的方案,分別稱為現(xiàn)行盲文、雙拼盲文[6-7]和通用盲文[8],其中現(xiàn)行盲文使用最廣,當(dāng)前占據(jù)主導(dǎo)地位,雙拼盲文使用較少,通用盲文是對(duì)現(xiàn)行盲文的改進(jìn)和規(guī)范,目前正在進(jìn)行推廣。漢語盲文一般用2~3方表示一個(gè)漢字,其中一方表示聲母,一方表示韻母,現(xiàn)行盲文和通用盲文中有些情況需要再增加一方表示聲調(diào)。圖1(b)給出了一個(gè)盲文詞(“中國”)的現(xiàn)行盲文表示。漢語盲文與漢字文本最大的區(qū)別在于盲文的“分詞連寫”規(guī)則,即要求詞與詞之間用空方分隔。但盲文分詞與常用的漢語分詞不同,為減少單音節(jié)詞可能帶來的歧義,許多漢語中的短語在盲文中需要連寫,例如,“王老師”“大紅花”“不能”等都需要連寫。針對(duì)分詞連寫,中國盲文標(biāo)準(zhǔn)中給出了100多條基于詞法、語法和語義的細(xì)則,如“‘不’與動(dòng)詞、能愿動(dòng)詞、形容詞、介詞、單音節(jié)程度副詞均應(yīng)連寫”[6]。另一方面,為減少同音字造成的歧義,盲文還制定了標(biāo)調(diào)規(guī)則。雙拼盲文和通用盲文中幾乎每個(gè)字都可確定聲調(diào)。而在現(xiàn)行盲文中,為節(jié)省閱讀時(shí)間和印刷成本,規(guī)定只對(duì)易混淆的詞語、生疏詞語、古漢語實(shí)詞、非常用的單音節(jié)詞等標(biāo)調(diào)。一般認(rèn)為現(xiàn)行盲文的標(biāo)調(diào)率大約在5%。

        可以看出,漢盲轉(zhuǎn)換的關(guān)鍵在于分詞和標(biāo)調(diào)。當(dāng)前研究大多集中在分詞方面,主要遵循兩種思路。一是按照盲文分詞連寫本身的邏輯,首先對(duì)文本進(jìn)行漢語分詞,然后使用預(yù)定義的規(guī)則對(duì)漢語分詞結(jié)果進(jìn)行調(diào)整,將漢語詞串轉(zhuǎn)換為盲文詞串[9-13]。當(dāng)前大多數(shù)研究都基于這一思路,例如,黃河燕等[9]最先提出和采用了基于SC文法的規(guī)則;李宏喬等[13]定義了183條形式化連寫規(guī)則,其中包含41條準(zhǔn)短語性規(guī)則;朱小燕團(tuán)隊(duì)[10-12]嘗試融合語義知識(shí)和語言模型以進(jìn)一步提高盲文分詞的準(zhǔn)確率。但是,盲文分詞連寫涉及主觀性很強(qiáng)的語法和語義規(guī)則,計(jì)算機(jī)定義和處理都很困難,導(dǎo)致這種方法的性能存在瓶頸,難以進(jìn)一步提升。第二種思路是從盲文語料中提取出現(xiàn)過的連寫組合,建立分詞連寫庫,然后基于分詞連寫庫進(jìn)行文本分詞[14]或?qū)h語分詞結(jié)果進(jìn)行后處理。但是,盲文將漢語中的許多短語連寫,所形成的連寫組合是無限的,無法通過分詞連寫庫窮舉。因此這一方法性能有限,目前主要和第一種方法結(jié)合,作為一種補(bǔ)充式的后處理操作使用[14-15]。

        圖1 盲文示例注:(a)為一個(gè)盲文符號(hào)示例,對(duì)應(yīng)英語盲文中的字母D或漢語盲文中的聲母d;(b)為“中國”的現(xiàn)行盲文表示。

        最近幾年,中科院計(jì)算所的Wang等[16]提出了基于機(jī)器學(xué)習(xí)的盲文直接分詞框架,不再基于漢語分詞結(jié)果進(jìn)行后處理,而是利用訓(xùn)練好的盲文分詞模型直接對(duì)盲文串進(jìn)行分詞。這種方法采用機(jī)器學(xué)習(xí)模型隱含地刻畫盲文分詞連寫規(guī)范,避免了計(jì)算機(jī)直接處理復(fù)雜的語法和語義規(guī)則,實(shí)驗(yàn)結(jié)果表明,此方法可大大提升漢盲轉(zhuǎn)換的準(zhǔn)確率。但這一方法也存在不足: 一方面,該方法基于感知機(jī)模型,而近年來,深度學(xué)習(xí)技術(shù)在很多領(lǐng)域已逐步替代感知機(jī)和統(tǒng)計(jì)機(jī)器學(xué)習(xí)等傳統(tǒng)方法;另一方面,模型訓(xùn)練基于盲文語料,而盲文只表示漢字的讀音(且大多數(shù)不加聲調(diào)),導(dǎo)致可能因同音產(chǎn)生歧義,進(jìn)而影響最終的分詞結(jié)果。如果采用按照盲文規(guī)則分詞的漢字文本作為訓(xùn)練語料,則可以避免上述問題。

        要得到按照盲文規(guī)則分詞的漢字文本語料,相當(dāng)于將漢字文本及與其對(duì)應(yīng)的盲文文本進(jìn)行詞語級(jí)對(duì)齊,即需要建設(shè)一個(gè)詞語級(jí)對(duì)照的漢盲語料庫。目前尚無可用的此類語料庫。2014年,國家社科基金啟動(dòng)了重大項(xiàng)目“漢語盲文語料庫建設(shè)研究”,計(jì)劃建成約1 000萬方的漢語盲文語料庫,保持“盲文—拼音—漢字”的對(duì)照形式。該項(xiàng)目在語料庫構(gòu)建中采用信息技術(shù)進(jìn)行處理,但人工校對(duì)工作量仍然極大,語料庫目前仍在建設(shè)中[17]。

        在盲文自動(dòng)標(biāo)調(diào)方面,由于現(xiàn)行盲文的標(biāo)調(diào)規(guī)則極為主觀,計(jì)算機(jī)難以有效判定生僻詞和易混淆詞,因此已有系統(tǒng)大多只支持全標(biāo)調(diào)或不標(biāo)調(diào)等簡單模式。Wang等[16]提出了一種基于n-gram語法的標(biāo)調(diào)方法,采用機(jī)器學(xué)習(xí)模型從盲文語料中自動(dòng)學(xué)習(xí)標(biāo)調(diào)規(guī)律,取得了較好的效果。

        本文提出了一種基于漢盲對(duì)照語料庫和深度學(xué)習(xí)的漢盲自動(dòng)轉(zhuǎn)換方法,首次將深度學(xué)習(xí)技術(shù)引入該領(lǐng)域,采用按照盲文規(guī)則分詞的漢字文本訓(xùn)練雙向LSTM模型,從而實(shí)現(xiàn)高準(zhǔn)確度的盲文分詞。為支持模型訓(xùn)練,本文提出了從不精確對(duì)照的漢字和盲文文本中自動(dòng)匹配抽取語料的方法,利用126種盲文書籍構(gòu)建了規(guī)模為27萬句、234萬字、448萬方的篇章、句子、詞語多級(jí)對(duì)照的漢盲語料庫。實(shí)驗(yàn)結(jié)果表明,本文提出的基于漢盲對(duì)照語料庫和深度學(xué)習(xí)的漢盲轉(zhuǎn)換方法準(zhǔn)確率,明顯優(yōu)于基于純盲文語料庫和傳統(tǒng)機(jī)器學(xué)習(xí)模型的方法。

        1 漢盲對(duì)照語料庫

        1.1 語料庫設(shè)計(jì)

        在進(jìn)行語料庫設(shè)計(jì)時(shí),首先根據(jù)當(dāng)前已有的盲文語料的問題及漢盲轉(zhuǎn)換系統(tǒng)的應(yīng)用特點(diǎn),明確了語料庫需要滿足的若干需求,具體包括規(guī)模、內(nèi)容、形式三個(gè)方面。

        ① 規(guī)模: 為支持機(jī)器學(xué)習(xí)算法,特別是當(dāng)前主流的基于深度神經(jīng)網(wǎng)絡(luò)的模型,語料庫應(yīng)具有較大規(guī)模,預(yù)期首期建成20萬句以上。

        ② 內(nèi)容: 針對(duì)當(dāng)前漢盲轉(zhuǎn)換系統(tǒng)的需求,語料內(nèi)容涉及的領(lǐng)域應(yīng)兼顧通用性與若干重點(diǎn)領(lǐng)域。為保證通用性,內(nèi)容應(yīng)覆蓋多個(gè)領(lǐng)域,文本來自多個(gè)作者的多種書籍;另一方面,對(duì)于盲文出版較為集中的特定領(lǐng)域,如中醫(yī)推拿按摩等,應(yīng)給予重點(diǎn)關(guān)注。語料庫應(yīng)盡可能地按領(lǐng)域劃分為子語料庫。

        ③ 形式: 為生成按照盲文規(guī)則分詞的漢字文本,語料庫應(yīng)在漢字和盲文文本之間實(shí)現(xiàn)篇章、句子、詞語等的多級(jí)對(duì)照。語料應(yīng)采用計(jì)算機(jī)方便讀取的編碼和存儲(chǔ)格式。

        根據(jù)上述需求,在內(nèi)容方面,選用了中國盲文出版社編輯的126種書籍,劃分為通用與文學(xué)、科學(xué)、醫(yī)學(xué)三個(gè)子類,具體情況如表1所示。之所以將通用與文學(xué)并列為一類,一是由于兩類別的內(nèi)容較為相似,二是因?yàn)閮深悇e的書籍種數(shù)較少,作為兩類略嫌不足。

        表1 語料庫領(lǐng)域子類劃分

        在編碼方面,盲文領(lǐng)域一直存在多種計(jì)算機(jī)內(nèi)編碼,常用的有Unicode盲文編碼、ASCII編碼及使用Unicode擴(kuò)展域的自定義編碼等。本文構(gòu)建的語料庫中盲文符號(hào)采用ASCII編碼,這是由于ASCII編碼更為簡單,相對(duì)于Unicode等多字節(jié)編碼更節(jié)省存儲(chǔ)空間,且無需安裝任何插件或字體即具備一定的可讀性。另一方面,由于只需簡單的字節(jié)映射,ASCII編碼可方便地轉(zhuǎn)換為其他編碼。

        在存儲(chǔ)格式方面,為了簡單、方便,語料庫設(shè)計(jì)為直接采用txt文件存儲(chǔ)。為每個(gè)類別構(gòu)建兩個(gè)文件夾,每個(gè)文件夾中分別是每一篇文章對(duì)應(yīng)的漢字和盲文txt文件,文件中每個(gè)句子占一行,漢字和盲文句子都按盲文規(guī)則分詞。同名的漢字和盲文txt文件對(duì)應(yīng)相同的篇章,對(duì)應(yīng)篇章中相同行的文本對(duì)應(yīng)同一句子,對(duì)應(yīng)句子中相同位置的詞對(duì)應(yīng)同一詞語(或含按盲文分詞連寫規(guī)則連寫的詞串)。這樣,就以最簡單的方式實(shí)現(xiàn)了漢字和盲文文本之間的篇章、句子和詞語級(jí)對(duì)照。文件夾目錄參見圖2,txt文件中的內(nèi)容如圖3所示。

        圖2 漢盲語料庫存儲(chǔ)目錄示意圖

        圖3 對(duì)應(yīng)的漢字與盲文txt文件內(nèi)容示例

        1.2 語料庫構(gòu)建

        本文中,語料庫構(gòu)建主要采用自動(dòng)方式,從內(nèi)容相同的漢字和盲文書籍文件中自動(dòng)對(duì)齊并抽取文本從而形成語料庫。每本盲文書籍存儲(chǔ)為一個(gè)陽光盲文編輯軟件所用的bdo文件,每本漢字書籍存儲(chǔ)為一個(gè)Microsoft Word文件。

        語料庫構(gòu)建的主要難點(diǎn)在于實(shí)現(xiàn)漢字和盲文文本的句子級(jí)和詞語級(jí)對(duì)應(yīng),原因有以下幾點(diǎn): 第一,漢字和盲文的內(nèi)容并不完全對(duì)應(yīng)。為了便于盲人理解,盲文編輯會(huì)對(duì)內(nèi)容進(jìn)行適當(dāng)?shù)男薷?,比如文本增刪、段落拆分和合并等。第二,盲文會(huì)增加目錄、頁碼等內(nèi)容,且都作為文本,不能通過特定的格式標(biāo)記去除。第三,bdo文件中合并了一些非標(biāo)準(zhǔn)的格式標(biāo)記,有可能和文本內(nèi)容混淆。因此,很難通過計(jì)算機(jī)自動(dòng)化處理實(shí)現(xiàn)所有句子和詞語的完全對(duì)應(yīng),只能抽取能夠?qū)?yīng)成功的部分、丟棄匹配失敗的部分。由于本文目標(biāo)是構(gòu)建訓(xùn)練機(jī)器學(xué)習(xí)模型所需的語料庫,所以這種處理是可以接受的。

        語料庫構(gòu)建的主要流程如圖4所示。從漢字文件和盲文文件中分別抽取文本,將盲文文本轉(zhuǎn)換為ASCII編碼,在各自進(jìn)行句子切分等預(yù)處理后,利用匹配算法進(jìn)行漢字和盲文的字符對(duì)齊,根據(jù)對(duì)齊結(jié)果輸出多級(jí)對(duì)照的漢盲對(duì)照語料,形成漢盲對(duì)照語料庫。

        圖4 語料庫構(gòu)建流程圖

        1.2.1 預(yù)處理

        在進(jìn)行匹配和對(duì)齊之前,需要將漢字和盲文文本切分為句子。本文采用的方法為檢測標(biāo)點(diǎn)符號(hào)。采用的標(biāo)點(diǎn)集如表2所示。

        表2 漢語-盲文ASCII碼標(biāo)點(diǎn)符號(hào)對(duì)照表

        漢語……()·———‘’;——盲文”””;’,2,’,-^^^^;,”-

        漢字文本中標(biāo)點(diǎn)的檢測相對(duì)簡單,直接搜索相應(yīng)字符即可。盲文ASCII文件中的標(biāo)點(diǎn)符號(hào)的形式相對(duì)復(fù)雜,標(biāo)點(diǎn)符號(hào)之間存在包含關(guān)系,所以在預(yù)處理時(shí)需要添加規(guī)則判定以確認(rèn)標(biāo)點(diǎn)符號(hào)。首先使用KMP算法獲得盲文標(biāo)點(diǎn)的位置列表,然后對(duì)比具有包含關(guān)系的標(biāo)點(diǎn)符號(hào)的位置信息,如果存在相同的位置信息,則刪掉被包含的短字符串的位置信息。

        1.2.2 字符對(duì)齊

        在預(yù)處理階段,對(duì)于同一篇章,漢字和盲文文本都已被切分為句子,形成兩個(gè)句子集合。但是由于上文所述原因,兩個(gè)句子集合并不能精確對(duì)應(yīng);更為重要的是,漢字文本中的句子(以下稱為“漢字句子”)是不分詞的,無法與盲文形成詞語級(jí)別的對(duì)照。因此,字符對(duì)齊的任務(wù)就是: 第一,匹配并且保留內(nèi)容精確對(duì)應(yīng)的漢字和盲文句子,丟棄無法建立對(duì)應(yīng)關(guān)系的句子。第二,在句子中,將每個(gè)漢字與盲文建立對(duì)應(yīng)關(guān)系,從而把漢字句子也按盲文的分詞形式分詞,形成如圖3所示的對(duì)照。

        設(shè)預(yù)處理后得到的漢字句子集合為{A,B,C,…},盲文句子集合為{A′,B′,C′, …}。首先,將每個(gè)漢語句子通過漢盲字典轉(zhuǎn)換為對(duì)應(yīng)的盲文句子集合。漢盲字典中列出了每個(gè)漢字對(duì)應(yīng)的盲文符號(hào)串。由于漢字句子不分詞,因此此時(shí)生成的盲文句子也并不分詞。之所以是盲文句子集合,是因?yàn)闈h語句子中的多音字可以對(duì)應(yīng)多個(gè)不同的盲文符號(hào)串,因此根據(jù)句中多音字的所有讀音進(jìn)行全部組合,得到所有可能的盲文句子的集合。此時(shí),漢語句子集合{A,B,C, …}被轉(zhuǎn)化為盲文句子集合的集合{{a1,a2, …}, {b1,b2, …}, {c1,c2, ..}, …},其中{a1,a2, …}為漢語句子A對(duì)應(yīng)的盲文句子的集合,其他依此類推。

        對(duì)于每一個(gè)由漢語句子生成的盲文句子集合{a1,a2, …},檢查其中的每個(gè)句子,判斷是否與{A′,B′,C′, …}中的句子匹配。所謂匹配,是指兩個(gè)盲文句子在不考慮分詞(即忽略空方)和不考慮標(biāo)調(diào)(即忽略聲調(diào)符號(hào))的情況下完全相同。

        若找到A′與ai匹配,則將ai按照A′分詞,并進(jìn)一步將ai對(duì)應(yīng)的漢字句子A按相同的方式分詞,得到按照盲文規(guī)則分詞的漢字句子A″。這樣就得到了詞語級(jí)對(duì)照的漢語句子A″和盲文句子A′。保存A″和A′。如果沒有找到{A′,B′,C′, …}中的盲文句子能夠與{a1,a2, …}中的任意一個(gè)句子匹配,則丟棄{a1,a2, …}及其對(duì)應(yīng)的漢語句子A,繼續(xù)處理下一個(gè)漢語句子及其生成的盲文句子集合。整個(gè)流程如圖5所示。

        圖5 字符對(duì)齊算法流程圖

        1.3 WLCBC語料庫

        經(jīng)過上文所述的語料庫構(gòu)建步驟,我們利用126種書籍,成功構(gòu)建了WLCBC(Word Level Chinese-Braille Corpus)語料庫。其規(guī)模如表3所示。

        語料庫的漢字部分編碼為UTF-8,盲文編碼為ASCII,語料庫設(shè)計(jì)為直接采用txt文件存儲(chǔ)。為每個(gè)類別構(gòu)建兩個(gè)文件夾,每個(gè)文件夾中分別是每一篇文章的中文和盲文的txt文件,每個(gè)句子占一行,漢字和盲文句子都按盲文規(guī)則分詞,如圖2、圖3所示。

        2 基于深度學(xué)習(xí)的漢盲轉(zhuǎn)換方法

        基于本文構(gòu)建的漢盲對(duì)照語料庫,本文提出了一種基于深度學(xué)習(xí)的漢盲轉(zhuǎn)換方法。該方法的核心是利用與盲文分詞連寫對(duì)應(yīng)的漢字文本語料,訓(xùn)練符合盲文分詞規(guī)范的深度神經(jīng)網(wǎng)絡(luò)分詞模型。這種方法通過機(jī)器學(xué)習(xí)模型一次性地將漢字文本按盲文分詞規(guī)范進(jìn)行切分,相對(duì)于傳統(tǒng)的先按漢語分詞規(guī)范分詞再利用盲文規(guī)則進(jìn)行合并的方法更為簡單、直接,避免了計(jì)算機(jī)處理人工定義的語義和語法規(guī)則時(shí)存在的困難。相對(duì)于利用純盲文語料庫訓(xùn)練盲文分詞模型的方法[16],本文方法充分利用了漢盲對(duì)照語料庫的優(yōu)勢,直接訓(xùn)練面向漢字文本的分詞模型,可避免盲文因同音字詞帶來的歧義性。

        表3 漢盲對(duì)照語料庫統(tǒng)計(jì)結(jié)果

        本文提出的基于深度學(xué)習(xí)的漢盲轉(zhuǎn)換方法的主要流程如圖6所示。首先將漢字文本按照盲文的規(guī)則分詞,其中分詞部分使用基于深度學(xué)習(xí)的雙向LSTM模型。然后使用n-gram模型對(duì)分詞后的漢字標(biāo)調(diào)。最后將已經(jīng)分詞和標(biāo)調(diào)的漢字文本轉(zhuǎn)換為盲文,生成盲文文本。

        圖6 基于深度學(xué)習(xí)的漢盲轉(zhuǎn)換方法流程

        2.1 基于盲文規(guī)則的漢字文本分詞

        如上文所述,本文方法的核心在于直接將漢字文本按盲文規(guī)則分詞,這是通過直接采用按盲文規(guī)則分詞的漢字文本訓(xùn)練分詞模型實(shí)現(xiàn)的。本文所構(gòu)建的WLCBC語料庫,通過在漢字和盲文文本間進(jìn)行句子和字符匹配,實(shí)現(xiàn)了漢字和盲文在詞語級(jí)的對(duì)照,獲取了按照盲文規(guī)則分詞的漢字文本語料(圖3)。利用這一語料訓(xùn)練的分詞模型,即可用于將漢字文本直接按盲文規(guī)則分詞。在分詞模型方面,本文嘗試采用深度學(xué)習(xí)模型,該模型近年來在漢語分詞等許多領(lǐng)域均得到了廣泛應(yīng)用,被證實(shí)效果優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)及統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型。

        通過深度學(xué)習(xí)進(jìn)行分詞屬于分類問題: 將每個(gè)字的位置分為4種,即B、E、M、S,其中B代表詞的開頭,M代表詞的中間,E代表詞的末位,S代表單獨(dú)成詞,分詞的目的就是通過模型得到每個(gè)字的位置類別,然后合并成詞。

        本文選取了最近分詞領(lǐng)域普遍采用的LSTM神經(jīng)網(wǎng)絡(luò)模型[18],嘗試將其用于基于盲文規(guī)則的漢字文本分詞。本文采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。該模型共有6層網(wǎng)絡(luò),第1層是Word embeddings層,基于詞向量模型,將訓(xùn)練語料中的字由one-hot編碼映射為低維稠密的字向量。第2和第5層是Bi-LSTM網(wǎng)絡(luò)層,共有兩層Bi-LSTM層,為了防止過擬合,Bi-LSTM網(wǎng)絡(luò)層之后添加Dropout層,每次隨機(jī)丟棄一定比例的神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)。第6層輸出層是一個(gè)全連接層,因?yàn)槭嵌喾诸悊栴}。設(shè)置全連接層的激活函數(shù)為Softmax,它將多個(gè)神經(jīng)元的輸出映射到0到1之間的數(shù)值,選擇概率最大的類別作為該字的類別。

        圖7 本文采用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        模型訓(xùn)練前,需要將語料句子中的每個(gè)詞以字為單位進(jìn)行標(biāo)記。另外,由于分詞模型的輸入是向量形式,因此需要訓(xùn)練訓(xùn)詞向量模型,將語料轉(zhuǎn)為向量表示。經(jīng)過多輪訓(xùn)練,可生成所需的分詞模型。分詞模型的訓(xùn)練流程如圖8所示。

        圖8 分詞模型的訓(xùn)練流程

        對(duì)一句話進(jìn)行分詞時(shí),將文本轉(zhuǎn)換為詞向量,輸入分詞模型,通過模型計(jì)算得到每個(gè)字(向量)屬于四種狀態(tài)的概率,選擇概率最大的作為該字的狀態(tài),最后合并得到分詞結(jié)果。

        2.2 基于統(tǒng)計(jì)學(xué)習(xí)的自動(dòng)標(biāo)調(diào)

        本文基于構(gòu)建的漢盲對(duì)照語料庫,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法訓(xùn)練標(biāo)調(diào)模型,從語料中學(xué)習(xí)隱含的標(biāo)調(diào)模式,從而實(shí)現(xiàn)自動(dòng)標(biāo)調(diào)。本文采用的方法與文獻(xiàn)[16]相似,區(qū)別在于文獻(xiàn)[16]中的方法采用純盲文語料庫,其n-gram模型構(gòu)建的對(duì)象為盲文詞(含連寫的詞串),而本文方法采用漢盲對(duì)照語料庫,n-gram 模型構(gòu)建的對(duì)象為漢字詞(含連寫的詞串)。由于多個(gè)同音的漢字詞可對(duì)應(yīng)同一個(gè)盲文詞,因此本文方法更為精確。

        對(duì)于構(gòu)建的漢盲語料庫,將其中所有的盲文詞對(duì)應(yīng)的漢字詞的集合作為使用的詞表。將語料中出現(xiàn)的同一詞的不同標(biāo)調(diào)形式(如不標(biāo)調(diào),首字標(biāo)調(diào),第二字標(biāo)調(diào)……)作為不同詞添加至詞表。采用此詞表和語料庫訓(xùn)練一個(gè)n-gram語言模型。本文中,采用簡單的bi-gram模型,訓(xùn)練時(shí)采用了Kneser-Ney平滑策略。

        標(biāo)調(diào)時(shí),對(duì)于每一個(gè)待標(biāo)調(diào)的詞,根據(jù)其前n-1個(gè)詞的語言模型概率確定該采用哪種標(biāo)調(diào)形式。例如,若某個(gè)兩字詞存在不標(biāo)調(diào)形式w0及兩種標(biāo)調(diào)形式w1(首字標(biāo)調(diào))和w2(第二字標(biāo)調(diào)),此時(shí),比較P(w0|w),P(w1|w),P(w2|w1)的大小(其中,w為該詞之前的一個(gè)詞),取概率最大的標(biāo)調(diào)形式為最終選擇。

        2.3 漢—盲字符轉(zhuǎn)換及特殊處理

        在詞語級(jí)對(duì)照的漢盲對(duì)照語料庫的支持下,上文中的分詞和標(biāo)調(diào)兩個(gè)步驟都是針對(duì)漢字文本進(jìn)行的,相對(duì)于針對(duì)盲文文本進(jìn)行分詞和標(biāo)調(diào)的方法[16],避免了因盲文只表示讀音而導(dǎo)致的信息丟失和歧義增加。本文方法中,在進(jìn)行分詞和標(biāo)調(diào)之后,利用發(fā)音詞典和發(fā)音-盲文映射表將分詞和標(biāo)調(diào)的漢字文本轉(zhuǎn)換為盲文,轉(zhuǎn)換過程中保留并復(fù)制其中的標(biāo)調(diào)信息。

        在文本轉(zhuǎn)換時(shí),會(huì)遇到一些特殊情況,如漢語文本中有時(shí)會(huì)夾雜阿拉伯?dāng)?shù)字、英文字母及一些特殊符號(hào),盲文在“數(shù)字+量詞”和采用數(shù)字形式的年月日時(shí)會(huì)需要特殊處理(在數(shù)字后增加一個(gè)連接符)。針對(duì)這些情況,本文采用文獻(xiàn)[16]中的方法進(jìn)行必要的處理。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)設(shè)置

        基于第2節(jié)所述方法,本文搭建了一個(gè)用于實(shí)驗(yàn)的原型系統(tǒng),其代碼框架基于Python的Keras庫。

        為測試系統(tǒng)性能,將WLCBC語料庫隨機(jī)分為訓(xùn)練集和測試集,訓(xùn)練集規(guī)模約為21萬句,測試集規(guī)模約為6萬句。訓(xùn)練集和測試集的數(shù)據(jù)不重合,且不源于相同的書籍。訓(xùn)練集和測試集保留了通用文學(xué)、科學(xué)、醫(yī)學(xué)的分類。具體情況如表4所示。

        表4 實(shí)驗(yàn)數(shù)據(jù)情況

        實(shí)驗(yàn)的任務(wù)為漢字文本到盲文文本的轉(zhuǎn)換。在訓(xùn)練時(shí),使用句子、詞語級(jí)對(duì)照的漢字和盲文文本按第2節(jié)介紹的方法訓(xùn)練分詞模型和標(biāo)調(diào)模型。在測試時(shí),將測試集中的漢字文本去除分詞(即刪除詞與詞之間的空格字符)后得到的文本作為輸入,系統(tǒng)輸出轉(zhuǎn)換后的盲文結(jié)果。將語料庫中測試數(shù)據(jù)的盲文文本作為標(biāo)準(zhǔn)答案,與輸出結(jié)果進(jìn)行比較,計(jì)算轉(zhuǎn)換準(zhǔn)確率。準(zhǔn)確率的計(jì)算方法為將輸出結(jié)果與標(biāo)準(zhǔn)答案以詞為單位進(jìn)行編輯距離對(duì)齊,然后統(tǒng)計(jì)正確的詞的個(gè)數(shù),將正確的詞的個(gè)數(shù)與標(biāo)準(zhǔn)答案總詞數(shù)的比值作為準(zhǔn)確率。實(shí)驗(yàn)同時(shí)統(tǒng)計(jì)了考慮標(biāo)調(diào)和不考慮標(biāo)調(diào)的準(zhǔn)確率,前者代表最終的漢盲轉(zhuǎn)換性能,后者可基本代表分詞性能。

        實(shí)驗(yàn)中,訓(xùn)練了用于分詞的LSTM模型和用于標(biāo)調(diào)的bi-gram模型。LSTM為兩層雙向網(wǎng)絡(luò),維度為512。bi-gram模型采用SRILM工具包訓(xùn)練而成。為進(jìn)行比較,獲取了文獻(xiàn)[16]中基于盲文語料庫和感知機(jī)模型的系統(tǒng)進(jìn)行對(duì)比實(shí)驗(yàn)。同時(shí),為驗(yàn)證深度學(xué)習(xí)方法的優(yōu)越性,還訓(xùn)練了一個(gè)多層感知機(jī)(MLP)模型,其結(jié)構(gòu)為兩層Dense網(wǎng)絡(luò),7×100個(gè)神經(jīng)元為輸入層,隱藏層單元數(shù)為100,輸出層單元數(shù)為4。詞向量模型的訓(xùn)練語料為Sogou語料庫,向量維度為200,迭代50次,使用Python的Gensim庫訓(xùn)練模型。實(shí)驗(yàn)時(shí),采用本文構(gòu)建的漢盲對(duì)照語料庫訓(xùn)練MLP模型,然后采用該模型實(shí)現(xiàn)按照盲文分詞連寫規(guī)則的漢字文本分詞,后續(xù)的標(biāo)調(diào)等處理與上文所述相同。

        3.2 實(shí)驗(yàn)結(jié)果

        漢盲轉(zhuǎn)換的實(shí)驗(yàn)結(jié)果如表5和表6所示??梢钥闯?,無論是考慮標(biāo)調(diào)還是不考慮標(biāo)調(diào),對(duì)于所有領(lǐng)域,基于漢盲對(duì)照語料庫的MLP模型和LSTM模型效果均優(yōu)于采用純盲文語料庫的方法(文獻(xiàn)[16]系統(tǒng)),LSTM模型的結(jié)果優(yōu)于MLP模型,由此可以看出采用漢盲對(duì)照語料庫和更復(fù)雜的機(jī)器學(xué)習(xí)模型的重要性。在不考慮標(biāo)調(diào)時(shí),本文提出的基于漢盲對(duì)照語料庫和深度學(xué)習(xí)的分詞算法可達(dá)到94.42%的準(zhǔn)確率,已經(jīng)達(dá)到實(shí)用水平。從各領(lǐng)域來看,科學(xué)科普的準(zhǔn)確率最高,但這可能是由于訓(xùn)練語料和測試語料來自同一套叢書相似性較高造成的。而醫(yī)學(xué)領(lǐng)域性能相對(duì)較低,這可能是因?yàn)槠渲信c中醫(yī)相關(guān)的測試語料包含一定的古文內(nèi)容和中醫(yī)專用詞匯,而訓(xùn)練語料主要為現(xiàn)代漢語,只有一部分為醫(yī)學(xué)領(lǐng)域語料,總量規(guī)模不是很大,導(dǎo)致訓(xùn)練尚不充分。

        表5 漢盲轉(zhuǎn)換準(zhǔn)確率(不考慮標(biāo)調(diào))(%)

        表6 漢盲轉(zhuǎn)換準(zhǔn)確率(考慮標(biāo)調(diào))(%)

        4 結(jié)論

        本文提出了一種基于漢盲對(duì)照語料庫和深度學(xué)習(xí)的漢盲自動(dòng)轉(zhuǎn)換方法,首次將深度學(xué)習(xí)技術(shù)引入該領(lǐng)域,采用按照盲文規(guī)則分詞的漢字文本訓(xùn)練雙向LSTM模型,從而實(shí)現(xiàn)高準(zhǔn)確的盲文分詞。為支持模型訓(xùn)練,采用從漢字和盲文文本中自動(dòng)匹配抽取語料的方法構(gòu)建了篇章、句子、詞語多級(jí)對(duì)照的漢盲對(duì)照語料庫,其規(guī)模為27萬句、234萬字、448萬方盲文。實(shí)驗(yàn)結(jié)果表明,本文提出的基于漢盲對(duì)照語料庫和深度學(xué)習(xí)的漢盲轉(zhuǎn)換方法準(zhǔn)確率明顯優(yōu)于基于純盲文語料庫和傳統(tǒng)機(jī)器學(xué)習(xí)的方法,也優(yōu)于基于漢盲對(duì)照語料庫和多層感知器模型的方法。

        猜你喜歡
        盲文分詞語料
        布萊葉:發(fā)明盲文,在黑暗中“看見”世界
        制作盲文書籍,點(diǎn)亮黑暗世界
        結(jié)巴分詞在詞云中的應(yīng)用
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        值得重視的分詞的特殊用法
        盲文紙質(zhì)出版物與數(shù)字資源一體化研發(fā)初探
        出版與印刷(2016年1期)2016-01-03 08:53:36
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        国内偷拍第一视频第一视频区| 99亚洲男女激情在线观看| 天天爽夜夜爽夜夜爽| 久久精品国产91久久性色tv| 免费人人av看| av天堂中文亚洲官网| 国产亚洲精品97在线视频一| 蜜臀性色av免费| 亚洲精华国产精华液的福利| 中文字幕亚洲精品第1页| 日本熟妇高潮爽视频在线观看| 侵犯了美丽丰满人妻中文字幕| 亚洲av无码乱码国产麻豆| 亚洲av无码专区亚洲av伊甸园| 亚洲av久久无码精品九九| yw193.can尤物国产在线网页| 亚洲av色香蕉一区二区三区软件 | 蜜桃麻豆www久久囤产精品| 亚洲av日韩aⅴ永久无码| 男女上床视频在线观看| 国产成人av三级在线观看韩国| 国产精品国产三级国产av剧情 | 国产一区二区三区不卡在线观看 | 亚洲黄色精品在线播放| 亚洲av无码偷拍在线观看| 精精国产xxxx视频在线播放| 亚洲小说图区综合在线| 97国产精品麻豆性色| 中文国产乱码在线人妻一区二区 | 无码中文字幕人妻在线一区二区三区| 亚洲九九夜夜| aa日韩免费精品视频一| 日韩av无码中文字幕| 无套内射无矿码免费看黄| 国产情侣一区在线| 人妻av中文字幕精品久久| 亚洲综合av大全色婷婷| 巨胸喷奶水www视频网站| 一级片麻豆| 中文字幕人妻一区色偷久久| 蜜桃av噜噜一区二区三区9|