亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于規(guī)則與句法合成的層次化語句分析識別算法

        2020-07-18 06:51:18賈繼康邵玉斌杜慶治
        關(guān)鍵詞:層次化句法語料

        賈繼康, 邵玉斌, 龍 華, 杜慶治

        (昆明理工大學(xué) 信息工程與自動化學(xué)院, 昆明 650500)

        自然語言處理(natural language processing, NLP)目前已廣泛集成到Web和移動應(yīng)用程序中, 實(shí)現(xiàn)了人與計(jì)算機(jī)之間的自然交互, 內(nèi)容包括語音合成與識別、 機(jī)器翻譯、 句法分析等. 句法分析作為自然語言處理中的關(guān)鍵技術(shù)之一已被廣泛應(yīng)用, 如文本校對、 句型識別、 詞義消岐等[1]. 句法分析的基本任務(wù)是確定句子所包含的句法單位及這些句法單位之間的依存關(guān)系, 句法分析器分為自頂向下和自底向上分析器. 自頂向下分析器從頂部到底部(樹根、 文法的開始符號到葉子、 語言的終結(jié)符號)為輸入的符號串建立分析樹, 自底向上分析器是根據(jù)形式文法的重寫規(guī)則, 自葉子開始逐級向上歸約, 直到構(gòu)造出表示句子結(jié)構(gòu)的推導(dǎo)樹為止.

        層次句法分析是一種典型的自底向上分析方法. Abney等[2]提出的組塊概念是句法分析的先驅(qū); Ramshaw等[3]在組塊分析中增加了{(lán)B,I,O}標(biāo)記概念, 促進(jìn)了句法分析的發(fā)展; Ratnaparkhi[4]提出了最大熵模型的句法分析器, 奠定了層次句法分析的基礎(chǔ); Pascale等[5]將最大熵模型應(yīng)用于中文句法分析, 實(shí)現(xiàn)了基于字的統(tǒng)計(jì)句法分析器. 句法分析與句式結(jié)構(gòu)的研究密不可分, 但多數(shù)研究都是探討漢語的句子結(jié)構(gòu)格局, 對將句式研究成果應(yīng)用到信息處理中的研究報(bào)道較少, 這主要是因?yàn)橹形男畔⑻幚碇芯渥咏Y(jié)構(gòu)的形式化處理在很大程度上模糊了漢語的句式結(jié)構(gòu), 因此很難從句法樹結(jié)構(gòu)中獲取句式結(jié)構(gòu). 目前, 針對語言句式的研究多數(shù)采用字類、 句式搭配或特征詞等方法.

        從句式的角度, 無論修飾結(jié)合、 還是語言獨(dú)立成句, 在字、 詞或語塊角度實(shí)現(xiàn)的句法研究, 都有一定的局限性, 僅能解決局部問題, 不能做到對整個句子實(shí)現(xiàn)層次性的分析. 因此, 本文提出一種基于規(guī)則與句法合成的層次化語句分析識別算法, 該算法以句式識別框架為基礎(chǔ), 以二、 三詞元結(jié)合的層次化語句分析模型為前提, 使用具有代表性的人民日報(bào)作為數(shù)據(jù)集, 進(jìn)行目標(biāo)測試. 測試結(jié)果表明, 該算法既保留了二、 三詞元的規(guī)則特性, 又對規(guī)則庫進(jìn)行了更全面地融合, 有效提高了層次化語句分析的準(zhǔn)確度, 進(jìn)一步提升了句式識別的精度, 驗(yàn)證了算法的適用性和有效性.

        1 基于規(guī)則與句法合成的語句分解識別算法

        1.1 系統(tǒng)框架

        圖1 語句分析識別系統(tǒng)框架

        本文使用已處理好帶有正確詞性標(biāo)注的海量數(shù)據(jù)集作為輸入語料, 如圖1所示, 依次經(jīng)過語句識別框架, 二、 三元相結(jié)合語句分析模型和多層協(xié)調(diào)的句式識別算法, 根據(jù)語句識別框架與句式識別規(guī)則庫匹配, 按定義好的正確句式規(guī)則模板識別是否為一個句子; 判別是否需要二、 三元結(jié)合模型對句子層次化解析、 合成; 二、 三元模型獲取的結(jié)果經(jīng)過多層協(xié)調(diào)句式識別算法, 最終輸出判別及解析結(jié)果.

        1.2 基于統(tǒng)計(jì)和規(guī)則并舉的詞性標(biāo)注

        采用漢語詞性標(biāo)記集, 共99個(22個一類, 66個二類, 11個三類)[6]. 為了句式識別的高效性及文中所涉及規(guī)則模板制定的簡易、 合理性, 將表1中細(xì)分(pos2)所示的詞性標(biāo)記集簡化為粗記(pos1)表示, 最后實(shí)現(xiàn)語料標(biāo)注.

        表1 詞性標(biāo)識簡化

        由于句法分析的第一步都基于詞性標(biāo)注, 因此詞性標(biāo)注的優(yōu)劣直接影響實(shí)驗(yàn)結(jié)果的精確度. 本文以現(xiàn)有規(guī)則和統(tǒng)計(jì)方法相結(jié)合的詞性標(biāo)注概念為基礎(chǔ), 實(shí)現(xiàn)詞性最優(yōu)標(biāo)注. 假設(shè)字符串序列W={w1w2w3…wi-1wiwi+1…wn},M={m1m2m3…mi-1mimi+1…mn}, 其中:W表示由n個詞元有序組合成的句子;M是W對應(yīng)的詞性序列; 字符wi表示W(wǎng)的第i個詞元, 最終wi將具有表1中pos1的詞性之一. 例如: (wi|mi)表示wi的詞性為mi.

        由于漢語詞具有多類詞性, 因此根據(jù)漢語詞性標(biāo)記集可對一個詞進(jìn)行多種詞性劃分, 而考慮到生詞的詞性標(biāo)注在統(tǒng)計(jì)方法中通常通過合理處理詞匯的發(fā)射概率解決, 從而詞性標(biāo)注問題即轉(zhuǎn)化為求條件概率P(M/W)中最大的M, 即

        (1)

        其中:W′={w1,w2,…,wi}表示待選詞元序列;M′={m1,m2,…,mi}表示與W′相對應(yīng)的詞性序列. 由條件概率公式可得:

        (2)

        其中P(W)與M′,W′無關(guān), 為常數(shù), 故可省略, 即可簡化為

        (3)

        由于W′和W是子屬關(guān)系, 進(jìn)一步可得

        (4)

        由式(4)可知, 計(jì)算概率P(W′,M′)是分詞和詞性標(biāo)注問題的關(guān)鍵, 根據(jù)一階Markov的性質(zhì)[7]可得:

        其中:P(mi|mi-1)為隱含Markov模型(HMM)中的狀態(tài)轉(zhuǎn)移概率;P(wi|ti)為詞匯的發(fā)射概率. 由于海量語料中含有大量的生詞, 假設(shè)詞匯序列W中有生詞xj, 其詞性可標(biāo)注為mj, 根據(jù)HMM的假設(shè),xj的詞性mj由wj的詞性mj-1決定, 則

        (6)

        其中M為詞性種類的數(shù)目. 根據(jù)Bayes公式, 詞匯的發(fā)射概率為

        (7)

        將式(6)代入式(7), 可得

        (8)

        對式(7)中的各概率值采用最大似然估計(jì), 可得

        (9)

        其中:C(mj),C(mk),C(wj-1)分別為詞性mj,mk和詞wj-1在訓(xùn)練語料中出現(xiàn)的次數(shù);C(mkmj),C(wj-1mk)分別為詞性串mkmj和wj-1mk同時出現(xiàn)的次數(shù). 經(jīng)過上述處理可更精準(zhǔn)地對語句實(shí)現(xiàn)詞性標(biāo)注.

        1.3 句式識別框架及規(guī)則模板構(gòu)建

        基于中文句子結(jié)構(gòu)的分類有主謂句(動詞謂語句式表、 形容詞謂語句式表、 主謂謂語句、 名詞謂語句)和非主謂句(無主語、 獨(dú)語句), 為了驗(yàn)證算法的可行性, 以現(xiàn)代漢語八百詞中給出的動詞謂語句式表作為構(gòu)建規(guī)則依據(jù)[8]. 表2為識別框架規(guī)則庫, 其中model1列構(gòu)建了78條規(guī)則, 每行字符串作為一個規(guī)則獨(dú)立體.

        由于句式表自身特點(diǎn)導(dǎo)致規(guī)則串長度不一, 因此為實(shí)現(xiàn)句子在系統(tǒng)中更快、 更高精度地被識別, 用快速排序方法對字符向量進(jìn)行升序排序, 最終可得如表2中model2所示的規(guī)則模板. 為了驗(yàn)證最終結(jié)果, 根據(jù)動詞謂語句式中給出的句式結(jié)構(gòu), 提煉出如表2所示的句式規(guī)則庫. 在規(guī)則庫的基礎(chǔ)上構(gòu)建句式識別框架.

        表2 識別框架規(guī)則庫

        如當(dāng)字符串W={她|r唱過|v女高音|n}時, 分別對應(yīng)的詞性為{r,v,n}. 而當(dāng)序號為2時, model2={r,v,n}, 從而在規(guī)則掃描過程中會被成功匹配. 因此, 從語句中提煉出的句式規(guī)則能很好地用于句式檢錯中. 在規(guī)則集的基礎(chǔ)上構(gòu)建句式識別框架, 如圖2所示. 由圖2可見, 訓(xùn)練語料首先被詞性標(biāo)注, 然后利用句式識別算法和句式規(guī)則庫進(jìn)行交互匹配, 最終輸出識別結(jié)果.

        1.4 二、 三元語句層次化分析模型

        1.4.1 合成規(guī)則的構(gòu)建 為實(shí)現(xiàn)句法合成規(guī)則制定的有效性、 簡易性, 所有詞性類別都在給定的詞性標(biāo)注集中以表1中的pos1表示法作為簡易化詞性識別標(biāo)記, 最終得到由詞和詞性組成的詞元串W為

        W={w1|m1,w2|m2,…,wi-1|mi-1,wi|mi,wi+1|mi+1,…,wn|mn},

        詞元串w1w2w3…wi-1wiwi+1…wn中的{wi,wi+1}為W中相鄰的兩個詞, 記為一個二元組Ti, 所在位置不可顛倒, 即{wi,wi+1}≠{wi+1,wi}. 同理, 將{wj-1,wj,wj+1}記為一個三元組Tj, 其中i,j?n. 根據(jù)語法形式的合理性對現(xiàn)代漢語句子組織信息原則及現(xiàn)代漢語語法進(jìn)行研究, 并對漢語句法分析進(jìn)行解讀, 通過表1所示的詞性標(biāo)記集與語法和統(tǒng)計(jì)得出的語言規(guī)則相結(jié)合, 實(shí)現(xiàn)如表3所示的二、 三元句法合成規(guī)則的構(gòu)建. 其中:mi-1,mi,mi+1分別表示對應(yīng)詞的詞性; “*”表示無, 即當(dāng)前行為一個二元句法合成規(guī)則;hc_m表示Ti或Tj是合成詞的詞性.

        表3 二、 三元句法合成規(guī)則

        圖2 句式識別框架

        圖3 二、 三元規(guī)則匹配示意圖

        圖3描述了如何根據(jù)表3合成規(guī)則庫文件實(shí)現(xiàn)詞串中由{mi,mi+1}或{mi-1,mi,mi+1}匹配合成得到hc_m. 根據(jù)圖3, 獲取當(dāng)前Ti或Tj的詞性, 如序號為3時,mi-1=v,mi=u,mi+1=n, 則hc_m=n. 即根據(jù){mi-1,mi,mi+1}或{mi,mi+1}滿足句法合成規(guī)則:

        Ti={mi,mi+1},Tj={mj-1,mj,mj+1},

        Mhc_m=P(xi|mi)={mi,mi+1}或Mhc_m=P(xj|mj)={mj-1,mj,mj+1},

        (10)

        其中Mhc_m為詞單元Ti或Tj的詞性合成結(jié)果. 詞單元Ti或Tj合成一個新詞并具有新的詞性, 記為

        (11)

        1.4.2 二、 三元層次化分析 輸入句子的字串序列W={w1|m1,w2|m2,…,wi|mi,…,wj|mj,…,wn|mn}, 層次化分析滿足:

        (12)

        在層次化分析過程中按倒序的原則實(shí)現(xiàn)規(guī)則庫匹配合成, 并非根據(jù)下標(biāo)i或j升序的方式得到ti或tj.ti或tj可能還會再與相鄰字符wi實(shí)現(xiàn)匹配, 直至規(guī)則庫中無可匹配為止.

        按照W′={wn|mn,wn-1|mn-1,…,wi|mi,…,w1|m1}的順序掃描W′實(shí)現(xiàn):

        式(13)是對式(12)的一個分析合成解釋, 表示根據(jù)表3中的句法合成規(guī)則, 按倒序原則對W′和規(guī)則庫中所對應(yīng)的詞性進(jìn)行交互, 實(shí)現(xiàn)規(guī)則匹配. 若倒序過程與規(guī)則庫中的hc_m屬性相同, 則輸出第i/j次合成句子成分結(jié)果Wi或Wj. 在Wi,Wj基礎(chǔ)上, 有

        (14)

        在最新合成句子成分結(jié)果Wi/Wj的基礎(chǔ)上, 繼續(xù)進(jìn)行規(guī)則交互輸出Wi+1/Wj+1, 其中Wi/Wj為第i/j(i,j?n)次合成句子成分結(jié)果,Wi+1/Wj+1是通過在Wi/Wj合成的基礎(chǔ)上再次根據(jù)表3的合成規(guī)則按圖3所述匹配方式實(shí)現(xiàn)合成, 直到無規(guī)則可匹配則合成結(jié)束. 例如, 字符串:

        W={中國|n的|u改革|v開放|v和|c現(xiàn)代化|v建設(shè)|v繼續(xù)|v向前|v邁進(jìn)|v},

        其中, “|”前為詞, “|”后為其對應(yīng)的詞性. “v”和“v”可進(jìn)行匹配合成, 根據(jù)掃描規(guī)則, “向前”和“邁進(jìn)”可成功匹配為“向前邁進(jìn)|v”, 如式(12)中的W1; 繼續(xù)由后向前的原則進(jìn)行掃描, 實(shí)現(xiàn)“繼續(xù)|v”和“向前邁進(jìn)|v”進(jìn)行匹配結(jié)合, 得到“繼續(xù)向前邁進(jìn)|v”, 如式(12)中的W2; 同理, 依次循環(huán), 得到Wi={我們的|n改革開放|v和|c現(xiàn)代化建設(shè)繼續(xù)向前邁進(jìn)|v}, 繼續(xù)獲得“改革開放|v”, “和|c”以及“現(xiàn)代化建設(shè)繼續(xù)向前邁進(jìn)|v”進(jìn)行組合而成“改革開放和現(xiàn)代化建設(shè)繼續(xù)向前邁進(jìn)|v”, 如式(12)中的Wj; 直至最后得到“我們的改革開放和現(xiàn)代化建設(shè)繼續(xù)向前邁進(jìn)|s”, 具有“s”的標(biāo)志或已無可匹配的規(guī)則, 從而層次化解析達(dá)到最優(yōu)即結(jié)束.

        1.4.3 層次化語句分析算法 基于現(xiàn)代漢語語法研究中對層次分析法的思想以及在漢語上對句法分析和規(guī)則的研究, 進(jìn)而通過由語法和統(tǒng)計(jì)得出的語言分析規(guī)則實(shí)現(xiàn)層次化語法算法. 本文首次提出了二、 三詞元相結(jié)合模型, 實(shí)現(xiàn)層次化語句分析算法, 其流程如圖4所示.

        圖4 層次化語句分析算法流程

        算法步驟如下:

        1) 讀取語句W={w1|m1,w2|m2,w3|m3,…,wi|mi,…,wn|mn};

        2) 按照wi+1wi順序遍歷二、 三元規(guī)則文本;

        3) 將W和規(guī)則進(jìn)行匹配;

        5) 若二元規(guī)則與W不匹配, 則按照mi+1,mi,mi-1倒序方式與三元規(guī)則匹配;

        7) 若三元規(guī)則不符合匹配, 則輸出Wi-1或Wj-1, 其中Wi-1/Wj-1表示上一步合成的結(jié)果;

        8) 繼續(xù)判斷是否可繼續(xù)分解Wi/Wj/Wi-1/Wj-1;

        9) 循環(huán)第步驟2)~8);

        10) 合成結(jié)果轉(zhuǎn)換為能被識別的XML格式形式;

        11) 將XML格式實(shí)現(xiàn)為可識別為目錄樹形結(jié)構(gòu);

        12) 語句層次化分解可視化.

        在層次化語句分解過程中, 利用分詞和詞性標(biāo)注模型對句子的詞序列獲取當(dāng)前最新詞性并實(shí)現(xiàn)標(biāo)注, 例如:

        S={小明|n和|c小|a賈|n歡樂|a地|u騎|v小藍(lán)|n車|n去|v呈貢區(qū)|n飯店|n吃|v鍋包肉|n}.

        圖5為具體的層次化分過程. 經(jīng)過層次化語句分解后, 將得到的Wi/Wj最終轉(zhuǎn)化為能被識別的樹形結(jié)構(gòu)格式, 進(jìn)而實(shí)現(xiàn)語句解析可視化結(jié)果, 如圖6所示.

        圖5 語句分解示例

        圖6 層次化語句解析可視化示例

        1.5 基于多層協(xié)調(diào)的句式識別算法

        圖7 多層協(xié)調(diào)句式識別算法流程

        句法分析中, 針對句式的研究通常只從句子中的搭配關(guān)系、 特定句式框架、 特定字符等說明其方法的作用, 但在針對一個完整的字符串序列時, 這些方法將不再適用. 本文提出的句式識別算法解決了該類問題, 算法流程如圖7所示, 其中X表示句式識別框架及規(guī)則模板的構(gòu)建, 即W在句式識別框架中通過規(guī)則模板能否匹配成功, 如果匹配失敗, 則W通過二、 三元語句分析實(shí)現(xiàn)層次化合成. 算法流程如下:

        1) 輸入句子詞序列W;

        2) 對W詞性標(biāo)注;

        3) 利用規(guī)則模板實(shí)現(xiàn)與W交互匹配, 其中W?X當(dāng)且僅當(dāng)Vwi∈W?wi∈X;

        4) 若步驟3)中W能與X匹配成功, 則成功輸出識別結(jié)果;

        5) 若步驟3)中W與X無法匹配, 則W通過二、 三元語句分析模型實(shí)現(xiàn)W的層次化合成;

        6) 循環(huán)步驟3)~6);

        7) 輸出分析合成識別結(jié)果.

        2 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證本文方法的有效性, 在漢語數(shù)據(jù)集上進(jìn)行測評實(shí)驗(yàn).

        2.1 實(shí)驗(yàn)設(shè)置

        為驗(yàn)證實(shí)驗(yàn)結(jié)果的可靠性, 本文選擇1998年1月份的人民日報(bào)進(jìn)行測試, 對語料按每個“!”、 “?”或“。”作為一句劃分. 在操作過程中分別使用9 000,11 000,13 000句作為測試集, 對測試集進(jìn)行等差形式的疊加. 此外, 本文采用傳統(tǒng)的精確率(P)、 召回率(R)和F1值作為實(shí)驗(yàn)結(jié)果的評價標(biāo)準(zhǔn), 其中:

        (15)

        其中平均召回率R和平均F1值的獲取采用與平均精確率同樣的方法.

        2.2 結(jié)果分析

        為測試層次化語句識別算法的效果, 分別只在語句識別算法A和基于層次化模型的語句識別算法B下實(shí)現(xiàn)測試, 實(shí)驗(yàn)結(jié)果列于表4. 由表4可見, 在模型A和B中, 精確率、 召回率都隨測試條數(shù)的增加而呈現(xiàn)升序, 證明了語句識別算法的可行性. 實(shí)驗(yàn)結(jié)果導(dǎo)致未能成功識別的主要原因如下:

        1) 由于在句式識別框架中, 規(guī)則模板的制定只從單一的動詞謂語句式表獲取, 規(guī)則制定不全面, 所以導(dǎo)致在句子識別過程中不能更多地識別;

        2) 根據(jù)語言規(guī)則, 在二、 三元語句層次化分析中規(guī)則庫的建立不完善, 所以導(dǎo)致在語句層次化分析、 合成過程中覆蓋不全面;

        3) 由于語料處理的不規(guī)范, 在層次化分析規(guī)則庫中, 語料與規(guī)則庫不能成功匹配, 所以導(dǎo)致句子分析、 合成難度增大, 從而未能成功合成;

        4) 由于在設(shè)定“!”、 “?”或“。”作為一句劃分時, 未能概括全面導(dǎo)致每句過長, 句式識別規(guī)則庫中與之無法匹配, 所以導(dǎo)致句子不能識別.

        表4 語句識別算法實(shí)驗(yàn)結(jié)果

        在模型A中, 平均精確率、 平均召回率分別為72.86%和62.67%; 在模型B中, 平均精確率、 平均召回率分別為84.65%和77.15%. 可見模型B的平均精確率比模型A的平均精確率高, 表明語句識別算法合理、 有效, 層次化語句分析中只要規(guī)則足夠合理、 全面, 就能更好地達(dá)到語句分析識別算法的精度.

        綜上所述, 針對在自然語言研究中, 基于句法的發(fā)展受漢語自身特點(diǎn)限制的問題, 本文基于較有代表性的人民日報(bào)語料, 通過由語法和統(tǒng)計(jì)得出的語言規(guī)則實(shí)現(xiàn)了中文的語句分析和識別, 使層次化語句分析識別的平均精確率、 平均召回率分別達(dá)84.65%和77.15%, 效果較理想.

        猜你喜歡
        層次化句法語料
        面向量化分塊壓縮感知的區(qū)域?qū)哟位A(yù)測編碼
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        鐵路傳送網(wǎng)OTN設(shè)備互聯(lián)互通開銷層次化處理研究
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        艦船系統(tǒng)間電磁兼容性的層次化優(yōu)化方法
        《苗防備覽》中的湘西語料
        一区二区三区人妻av| 内射合集对白在线| 丰满的人妻hd高清日本| 人妻少妇不满足中文字幕| 777午夜精品免费观看| 无码的精品免费不卡在线| 亚洲国产日韩综一区二区在性色| 国产一区二区三区最新地址| 欧美日韩精品久久久久| 日韩av无码成人无码免费| 亚洲Av午夜精品a区| 激情视频在线观看免费播放| 精品婷婷国产综合久久| 香港三级午夜理论三级| 亚洲欧美日韩精品久久亚洲区| 人妻精品一区二区三区视频| av中文字幕性女高清在线| 天天躁夜夜躁av天天爽| 国产70老熟女重口小伙子| 97人妻碰免费视频| 久久熟女精品—区二区蜜臀| 国产人成视频在线视频| 国产最新进精品视频| 国内精品久久久影院| 久久99精品久久久久九色| 永久免费看黄网站性色| 伊人久久精品无码二区麻豆| 熟女体下毛毛黑森林| 亚洲日韩精品欧美一区二区三区不卡 | 人妻少妇精品无码专区app| 国产一区二区三区口爆在线| 99久久免费视频色老| 无码少妇一区二区浪潮av| AV无码免费不卡在线观看| 国产精品一区二区夜色不卡| 亚洲人成无码区在线观看| 131美女爱做视频| 亚洲色拍拍噜噜噜最新网站 | 又粗又硬又黄又爽的免费视频| 日韩国产精品一区二区Hd| 亚洲高清一区二区三区视频|