亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的糾錯系統(tǒng)架構設計

        2022-10-14 08:19:42
        關鍵詞:規(guī)則文本語言

        周 原

        (閩江師范高等??茖W校 數(shù)字信息工程學院,福建 福州 350018)

        0 引言

        近年來,互聯(lián)網與計算機技術的應用使人們快速進入了信息時代,人們的日常生產生活大多依賴于網絡通信,在該背景下,自然語言處理技術應運而生并不斷在諸多領域普及[1].作為一種新興學科,自然語言處理對智能化的發(fā)展具有重要意義,自然語言處理為文本糾錯提供了新的技術支撐,使文本糾錯的質量和效率有了明顯的提高.隨著新聞媒體、期刊雜志等文字工作領域的不斷發(fā)展,文字糾錯的工作量也越來越大,但由于傳統(tǒng)的人工糾錯難以保證糾錯的質量,且糾錯速度較慢,已不能滿足目前出版等行業(yè)領域的工作效率要求,因此文本自動糾錯在諸多行業(yè)廣泛應用,通過文本糾錯系統(tǒng)規(guī)范文本內容,可以提升整體的文本質量,實現(xiàn)智能糾錯,在減少大量人為工作量的同時,能夠使糾錯的準確率大幅提高[2].糾錯系統(tǒng)能夠基于規(guī)則,語言學等方法的結合,實現(xiàn)對字詞、語法、語義的糾錯,對文本內容進行分詞和標注,通過上下文語境輸出錯誤結果,根據(jù)知識庫智能化比對文本內容,實現(xiàn)文本錯誤的識別和糾錯.本文基于自然語言處理設計糾錯系統(tǒng)架構,通過建立語言知識庫,描述自然語言的上下位關系、同義反義關系等;制定語句合成規(guī)則等步驟實現(xiàn)文本的糾錯,以期為提高糾錯系統(tǒng)的文本處理功能,提升文本糾錯的準確率和工作效率提供重要的參考依據(jù).

        1 基于自然語言處理的糾錯系統(tǒng)架構設計

        1.1 建立語言知識庫

        本文糾錯系統(tǒng)的功能實現(xiàn)需要依賴于知識庫和數(shù)據(jù)的支持,因此在本文糾錯系統(tǒng)架構設計中,首先需要建立語言知識庫.語言知識庫和語料庫是實現(xiàn)自然語言處理的基礎,語料庫用于存放語言材料,基于大量的語言材料進行語言規(guī)律的探索,并用計算機語言量化出來實現(xiàn)對語言的處理和糾錯[3].本文糾錯系統(tǒng)架構主要涉及的語種為漢語和英語,在雙語語種的基礎上,經過對文字語言的加工處理,標注特定信息,形成標注語料庫.語言知識庫將語言知識存于語料庫中,對各語言單元的用法和范疇等進行明確的定義,對文字序列通過對文本的標注,顯示文字內在的語義,便于機器學習.本文語言知識庫涵蓋了豐富的語言單位和語言層面,包括詞組、句子、語法、句法以及語義等.基于漢語文本從通用領域向專業(yè)領域發(fā)散,提取有用信息并結合語言規(guī)則,實現(xiàn)對自然語言的處理.本文建立的語言知識庫充分體現(xiàn)知識網理論,描述自然語言的上下位關系、同義反義關系等,其庫中包括中英文知識詞典、中文繁體知識詞典、詞類表、標志符號與說明等數(shù)據(jù)文件和程序,語言知識庫以詞語概念和語義為基礎,從而為后文的語義語句判定提供數(shù)據(jù)來源,滿足自然語言處理的需求.

        1.2 制定語句合成規(guī)則

        在本文糾錯系統(tǒng)架構設計中,需要構建語句規(guī)則,實現(xiàn)對語句的分析和錯誤檢測.首先構建二元句法合成規(guī)則,利用上文構建的語言知識庫,對文本中各詞性類別進行分類和標注,根據(jù)字符串序列,得到詞元串,具體表示為:

        Q′=s1|e1,s2|e2,s3|e3,…si-1|ei,si+1|ei+1,…,sn|en

        (1)

        式中,si為詞性,“|”前的si為分詞后的最小單元詞元,“|”后的ei為當前最適宜的詞性.由于漢語的自然屬性與英語等其他語種不同,漢語的分詞不存在分隔符,在句式結構上屬于分析化和結構化語言,因此本文通過漢語詞語搭配原則對句法形式和組織信息進行語法句法的解讀,將上文中的詞性標記集和語言規(guī)則結構,構成二元句法合成規(guī)則集.在中文句式結構搭配中,除了常見的二元句法,還存在三元句法,因此還需要進行三元句法合成規(guī)則的制定,構建三元句法合成規(guī)則文本庫[4],該庫的實現(xiàn)與二元句法合成規(guī)則集相似,但由于三元句法的解析過程為三元詞之間的組合,在一般情況下,中文句式中的詞性搭配遵循左右詞性相同的原則,并以連詞為連接紐帶,并充分考慮中文句式間的修飾關系,中文句子成分的掃描按照從后向前的匹配規(guī)則進行,經過掃描選出詞性后與最新詞性進行匹配,在語言規(guī)則和詞性標記集的結合下完成對三元詞匯規(guī)則構建.

        1.3 語言分析及文字錯誤識別功能設計

        本文基于上文的規(guī)則角度,對自然語言進行句法的分析和文字錯誤識別功能的設計,并通過語法和統(tǒng)計得出句式分解規(guī)則,二元詞匯間的修飾與三元詞匯間的修飾相比,其修飾關系更加復雜,因此在進行語言材料文本的遍歷時,優(yōu)先遍歷二元規(guī)則集,從而得到語句的解析.XML格式數(shù)據(jù)能夠實現(xiàn)多種格式數(shù)據(jù)的轉換,因此將語言分析結果轉為XML格式,將語句解析過程轉化為能夠識別的結構格式,進行可視化展示,進行文字錯誤的識別[5].在文字錯誤的識別中,對錯別字的成因類型進行分析與劃分,主要包括音近且形近,音近但不形近以及不音近但形近三種類型,文字錯誤的識別是為后續(xù)自然語言處理和糾錯提供支撐,直接影響著后文的糾錯準確性.對文字錯誤的識別首先需要檢測出疑似存在錯別字的字串,由于中文的錯別字識別需要充分考慮漢字的上下文關系以及表達意圖,詞作為最小的獨立運行的語言單位沒有詞邊界的標識,因此通過當前文字與上下文連接緊密程度判斷句子中的用詞規(guī)范性,在給定一個完成自動分詞的句子,并利用上下文特征,通過散串方法抽取低頻散串元組,排查句子中可能存在錯誤的漢字串,利用互信息抽取句子中關聯(lián)度較低的句子,其關聯(lián)程度的計算公式為:

        (2)

        式中,I(pi,pi+1)為句子中用詞的互信息,表示兩個相鄰詞的關聯(lián)程度,pi和pi+1為相鄰的兩個詞,提取錯誤的上下文關系,得到疑似存在錯別字的串,將漢字串轉化為拼音串,生成相似的拼音候選,從而對拼音串進行再次解碼,得到新的漢字串,輸出錯別字的識別結果.

        1.4 基于自然語言處理構建糾錯模型

        最后基于自然語言處理構建糾錯模型,實現(xiàn)糾錯系統(tǒng)的文字糾正功能.與英文文本相比,由于中文文本的錄入是通過編碼實現(xiàn)的,因此其非規(guī)范表述的形式較為復雜,為糾錯系統(tǒng)帶來了較大的工作難度,為解決這一問題,在中文文本的糾錯中,需要先將漢字轉化成五筆編碼,進行編碼輸入再解碼成漢字,結合上下文語境以及二元模型進行糾錯[6].在進行文本錯誤識別后,利用本文的語言知識庫,對文本中的詞語搭配關系進行深層次的分析,并以此為基礎,獲取詞語的搭配,根據(jù)詞語搭配進行同音詞的糾錯.在漢字串轉換為拼音串后,對拼音流進行自動分詞,實現(xiàn)對拼音串解碼的預處理,在候選拼音串的解碼過程中,根據(jù)給定的觀察序列進行解碼,而后通過與訓練語言材料的匹配,具體解碼后得到的最佳匹配串表達式為:

        w′=argmaxs(w|k,λ)[

        (3)

        式中,w′為選出的最佳匹配串,k為經過加工的拼音串序列,w為當下拼音串下某個可能的漢字串,考慮上下文語境關系以及訓練語言材料中的頻率分布.在模型訓練階段,由于訓練語言材料的覆蓋范圍存在著一定的局限性[7],因此不能將全部的語言現(xiàn)象進行完整地描述,從而出現(xiàn)數(shù)據(jù)稀疏情況,利用平滑方法將所有出現(xiàn)的字符串分配一個非零的概率值,計算候選串概率,具體公式為:

        (4)

        式中,ti為時間,根據(jù)該概率模型的應用,將生成的概率最大的候選串與原文相結合,得出正確的句子,完成糾錯.

        2 實驗分析

        2.1 糾錯系統(tǒng)架構與系統(tǒng)流程描述

        為驗證本文設計的糾錯系統(tǒng)架構能否較為完整地實現(xiàn)對文本錯誤的識別和糾錯,并具有較高的召回率和準確率,在對文本錯誤類型進行劃分和研究后,確定了占文本錯誤類型的85%的本文錯誤作為系統(tǒng)糾錯的研究對象,具體的糾錯系統(tǒng)架構設計如圖1所示.

        圖1 糾錯系統(tǒng)架構

        由圖1可知本文具體的糾錯系統(tǒng)架構設計,在進行糾錯前,首先對模型、上下文語境、漢語搭配等預備資源進行訓練,將本文構建的二元規(guī)則集,三元規(guī)則集,文本知識庫以及糾錯模型等數(shù)據(jù)存入系統(tǒng)的本地文件,輸入文本后進行數(shù)據(jù)預處理,實現(xiàn)自動分詞和詞性標注,判斷字字接續(xù),詞性接續(xù),再通過同音詞以及上下文語境進行局部的同音詞糾錯,并利用漢語搭配發(fā)現(xiàn)遠距離錯誤,達到字詞級糾錯目的.各模塊工作順序如圖2所示.

        圖2 各模塊工作流程圖

        由圖2可知,在一個句子分析完成后,可繼續(xù)向下查看選中的輸入文本是否順利處理,給出文本錯誤出處與結果,提出糾錯建議,基于錯誤集進行長詞糾錯,經過模型處理后形成糾錯后的語料文本,最后輸出糾錯結果.

        2.2 文本錯誤識別結果與分析

        在此基礎上,對應用本文架構的糾錯系統(tǒng)性能進行驗證,首先對該系統(tǒng)對字詞、語法和語義的錯誤識別功能進行測試.本文的實驗測試集選擇了18 000個真實的句子文本,其中包含了11 354個錯誤,以召回率r、誤包率e和正確率p為文本錯誤識別實驗評價的指標,具體計算公式為:

        (5)

        (6)

        (7)

        式中,C為文本數(shù)據(jù)中實際的錯誤總數(shù),B為本文識別正確的文本錯誤總數(shù),J為誤報錯誤總數(shù).實驗中將文本錯誤的識別過程進行輸出顯示,并對中間結果進行分析,利用二元模型與上下文語境特征的結合,將文本以文件格式輸入到本文設計的模型中,具體測試結果如表1 所示.

        表1 文本錯誤識別

        由表1 可知,應用本文架構的糾錯系統(tǒng)在自然語言處理的錯誤識別測試中,其召回率和正確率均在95.00%以上,在本文系統(tǒng)試驗中,文本錯誤的識別是基于自動分詞和詞性標注的基礎上實現(xiàn)的,對誕規(guī)律的分析由本文建立的語言知識庫中實現(xiàn),證明本文語言知識庫中內容對本文錯誤的識別具有積極顯著的效果,其中,對字詞錯誤的識別效果最佳,其識別正確率達到了98.45%,對正確句子識別的誤報率較高,推測這是由于正確句子數(shù)量比例較高,對句子成分識別的擴展不充分導致的,對語法級錯誤和語義級錯誤的正確率較為接近,且誤報率較低,證明本文方法在語法錯誤和語義錯誤的識別中表現(xiàn)較為穩(wěn)定,總體來看,本文方法能夠識別大部分的字詞、語法和語義錯誤,能夠為糾錯功能的實現(xiàn)提供有效的數(shù)據(jù).

        2.3 文本糾錯結果與分析

        在文本糾錯階段,由于實驗訓練集中句子的字詞級錯誤較多,因此文中主要對錯別字糾錯結果進行展示與分析,主要包括對同音詞和長詞錯誤的糾錯,對糾錯結果的分析指標在上文的基礎上增加了糾正率和F值,具體計算公式為:

        (8)

        (9)

        式中,V為本文完成正確糾正的錯誤,對于同音詞的糾正過程中,分析中間結果存在部分錯誤,考慮這是由于數(shù)據(jù)稀疏未能找回和糾正所導致的,一些句子中由于糾錯詞的距離太遠,上下文窗口不足,因此基于漢語搭配進行遠距離的糾錯.實驗訓練集中共包括4 589個句子文本,其中包括2 107個同音詞遠距離錯誤,對該測試集進行測試得到具體各項實驗結果如表2 所示.

        由表2可知,在實驗訓練集的4 589個文本中共有實際同音詞錯誤2 806個,本文完成了正確糾錯2 687個,其同音詞糾錯的糾正率為95.76%,滿足糾錯系統(tǒng)的設計需要,證明本文方法對同音詞的糾錯效果較為理想.非詞糾錯建立在錯詞集的基礎上,在長詞糾錯的測試中,共抽取了600個四字詞,200個五字詞和150個六字詞,錯詞集用的是約180 M的系統(tǒng)日志語言材料,最后統(tǒng)計出對文本中的長詞糾錯結果,具體如表3所示.

        表2 同音詞糾錯實驗結果

        表3 長詞糾錯結果

        由表3可知,長詞糾錯的召回率和糾正率低于同音詞的糾錯結果,這是由于長詞糾錯的實驗所使用的錯詞集覆蓋范圍較小,語言材料有限,因此對長詞的糾錯效果產生了一定的影響,但總體而言,長詞糾錯性能較好.

        再對比應用本文架構的糾錯系統(tǒng)和傳統(tǒng)架構的糾錯系統(tǒng)(文獻[3]系統(tǒng))的糾錯結果,對比實驗中所使用的訓練集中包括894個句子文本,其中錯誤文本641個,包含了548個同音詞錯誤,93個長詞錯誤,首先對不同架構系統(tǒng)的糾錯準確率結果進行對比,具體結果如圖3所示.

        圖3 不同架構系統(tǒng)的糾錯準確率對比

        由表4可知,應用本文架構的糾錯系統(tǒng)在3次實驗中進行字詞糾錯的準確率均在95%以上,而傳統(tǒng)架構系統(tǒng)在3次實驗中的糾錯準確率均低于90%,準確率波動較大.其次對不同架構系統(tǒng)的糾錯召回率進行對比,具體如圖4所示.

        圖4 不同架構系統(tǒng)的糾錯召回率對比

        由圖4可知,在不同的實驗條件下,本文系統(tǒng)的平均召回率為90.02%,傳統(tǒng)架構系統(tǒng)的糾錯召回率為62.35%,本文架構系統(tǒng)糾錯的召回率遠高于傳統(tǒng)架構系統(tǒng)糾錯的召回率.最后驗證不同架構系統(tǒng)的F值,結果如圖5所示.

        圖5 不同架構系統(tǒng)糾錯的F值對比

        由圖5可知,本文架構系統(tǒng)的F值更高,傳統(tǒng)架構系統(tǒng)的F值較低,證明本文架構系統(tǒng)的糾錯功能更佳,具有較強的可行性.

        3 結束語

        本文通過建立語言知識庫,制定語句合成規(guī)則,語言分析及文字錯誤識別功能設計,基于自然語言處理構建糾錯模型,完成了本文的糾錯系統(tǒng)架構設計研究,取得了一定的研究成果.同時,由于時間和條件的限制,本文研究還存在諸多不足,需要在未來進一步探索和討論,從而不斷完善本文的架構設計,如未涉及對文字中標點符號糾錯的內容,未設置對標點位置預測以及標注所需要的特征模板,因此在今后的研究中,還應針對本文研究存在的問題不斷改進和完善,加強對中間處理過程中的噪聲,從而提高糾錯系統(tǒng)的錯誤識別準確率和糾正率.

        猜你喜歡
        規(guī)則文本語言
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        累積動態(tài)分析下的同聲傳譯語言壓縮
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        天堂一区二区三区在线观看视频| 久久久亚洲精品午夜福利| 玩弄极品少妇被弄到高潮| 国产一区白浆在线观看| 东北少妇不带套对白| 亚洲熟妇色xxxxx欧美老妇y| 天堂AV无码AV毛片毛| 国产视频在线观看一区二区三区 | 亚洲精品国产成人片| 成人看片黄a免费看那个网址| 伊人亚洲综合网色AV另类| 亚洲熟女av一区少妇| 国产免费牲交视频| 夜夜高潮夜夜爽夜夜爱爱| 天天干夜夜躁| 亚洲综合久久中文字幕专区一区 | 国产在线视频h| 亚洲乱码av一区二区蜜桃av | 麻豆久久久9性大片| av色综合网站| 日本不卡一区二区三区在线观看 | 免费女人高潮流视频在线观看| 毛茸茸性xxxx毛茸茸毛茸茸| 亚洲av福利天堂在线观看| 国产精品日韩av一区二区三区| 成人aaa片一区国产精品| 香蕉视频在线观看国产| 国产91九色视频在线播放| 男人天堂这里只有精品| av在线亚洲欧洲日产一区二区| 国产精品视频免费的| 日韩精品一区二区三区影音视频 | 国产欧美日韩a片免费软件| 国产无遮挡又黄又爽无VIP| 加勒比精品视频在线播放| 色噜噜狠狠狠综合曰曰曰| 天天狠天天透天干天天| 伊人久久大香线蕉av色婷婷| 国产色系视频在线观看| 两个人看的www中文在线观看| 日韩av在线不卡观看|