亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種消歧框架信息技術研究

        2016-05-14 22:11:11劉金輝
        數(shù)字技術與應用 2016年7期

        劉金輝

        摘要:隨著互聯(lián)網(wǎng)上海量文本的涌現(xiàn),自動文本處理已經(jīng)成為一項重要的研究課題。為了正確地處理漢語文本,必須對其中的歧義詞匯進行消歧。本文給出了一種基于多種語言學知識的詞義消歧框架。結合《同義詞詞林》,抽取歧義詞匯的上下文中的多種語言學知識作為消歧特征,使用貝葉斯模型來確定它的語義。同時,將自動消歧結果應用于檢索引擎、機器翻譯系統(tǒng)和文語轉(zhuǎn)換系統(tǒng)。

        關鍵詞:歧義詞匯 詞義消歧 上下文 消歧特征 貝葉斯模型

        中圖分類號:TP391.2 文獻標識碼:A 文章編號:1007-9416(2016)07-0092-01

        1 概述

        詞義消歧是指使用計算機自動地確定歧義詞匯在上下文環(huán)境中所具有的真實含義。目前,詞義消歧是自然語言處理領域中的一個基礎性研究課題,它對信息檢索[1]、機器翻譯[2]和文本處理具有重要的支持作用。隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡上涌現(xiàn)了大量的自然語言文本,迫切需要開發(fā)高質(zhì)量的自然語言文本處理工具。而詞義消歧則是提高自然語言文本處理質(zhì)量的關鍵性技術。目前,詞義消歧方法主要分為3類:有監(jiān)督的詞義消歧、無監(jiān)督的詞義消歧和半監(jiān)督的詞義消歧[3]。

        在歧義詞匯的上下文中,蘊藏著不同類型的語言學知識,諸如:詞形、詞性、句法、長度和語義信息。本文利用這些不同類型的語言學知識來為詞義判別過程提供指導信息。同時,使用詞義消歧結果來改善相關文本處理系統(tǒng)的性能。

        2 基于多種語言學知識的消歧框架

        本文綜合利用了歧義詞匯上下文中的詞形、詞性和語義信息,結合貝葉斯模型給出了一種漢語詞義消歧系統(tǒng)的框架結構,如圖1所示。

        在這一框架中,主要包括以下模塊:漢語分詞模塊、漢語詞性標注模塊、語義類別標注模塊和消歧特征提取模塊。漢語詞性標注模塊的作用是:為每個漢語單詞添加詞性標注。語義類別標注模塊的作用是:查閱《同義詞詞林》,根據(jù)出現(xiàn)頻度來標注漢語詞匯的語義類別。消歧特征提取模塊的作用是:提取左、右詞匯的詞形、詞性和語義類別作為判別特征。詞義消歧模塊采用了貝葉斯模型,其輸入是消歧特征分量出現(xiàn)的概率,輸出結果是該歧義詞匯的語義類別。詞義消歧過程如公式(1)所示。

        (1)

        對于待消歧的歧義詞匯而言,共包含n個語義類別:S1, S2, …, Sn。在貝葉斯模型中,主要包括兩個參數(shù):語義類別出現(xiàn)的先驗概率P(Si)和語義類別-特征向量出現(xiàn)的后驗概率P(Si|Feature)。

        以該框架為基礎,可以實現(xiàn)一個面向Web的漢語詞義消歧系統(tǒng)。系統(tǒng)分為客戶端和服務器兩個部分。客戶端利用JSP語言來實現(xiàn),使用Myeclipse作為開發(fā)工具。采用了Tomcat服務器。所實現(xiàn)的系統(tǒng)可以視為一個B/S結構,詞義消歧系統(tǒng)部署在服務器上。

        3 詞義消歧框架的應用

        互聯(lián)網(wǎng)上存在著海量的漢語文本信息。要想從網(wǎng)上找到感興趣的文字資料,必須采用檢索引擎。但是,常用的檢索引擎都是利用關鍵字匹配的方式來檢索漢語文本。在這一過程匯中,使用了字符串匹配的方法,沒有考慮到關鍵字的語義信息。其檢索的精確率受到了一定程度的影響,經(jīng)常會得到大相徑庭的檢索結果。首先,使用該漢語詞義消歧系統(tǒng)來確定查詢關鍵字的語義類別。然后,采用該漢語詞義消歧系統(tǒng)來確定檢索到的文本中的關鍵字的語義類別。最后,根據(jù)查詢關鍵字的語義類別,檢索引擎可以自動地選出用戶所需要的漢語文本資料,這將大大地提高檢索的性能。

        隨著對外貿(mào)易的快速發(fā)展,漢語資料的翻譯工作變得越來越繁重。單純依靠人來完成翻譯工作,將消耗大量的人力、物力和財力。因此,很多翻譯任務需要借助機器翻譯系統(tǒng)來完成。在翻譯轉(zhuǎn)換之前,使用該漢語詞義消歧系統(tǒng)根據(jù)上下文來確定歧義詞匯的語義類別,將會大大地提高機器翻譯系統(tǒng)的譯文輸出質(zhì)量。同時,將會降低人工編輯自動譯文輸出結果的工作量。

        在人們的日常生活中,文語轉(zhuǎn)換技術已經(jīng)越來越普及了。在很多智能手機和幼兒識字學習機上,都安裝了文語轉(zhuǎn)換軟件,將文本信息變?yōu)檎Z音信號朗讀出來。目前,文語轉(zhuǎn)換所面臨的一個難題是難以對文本句子實施正確地詞匯切分,所朗讀出來的語音很生硬,經(jīng)常會出現(xiàn)斷句的錯誤。在詞匯切分之后,使用該漢語詞義消歧系統(tǒng)根據(jù)上下文來確定歧義詞匯的語義類別,糾正自動分詞結果中的錯誤。這將會大大地改善語音朗讀的效果。

        4 結語

        目前,詞義消歧是自然語言處理領域中的一個研究熱點。本文介紹了國內(nèi)外現(xiàn)有的詞義消歧方法。對于輸入的漢語句子,分別進行分詞處理和詞性標注處理。查閱《同義詞詞林》來提取詞義消歧特征,結合貝葉斯模型來確定歧義詞匯的語義類別。給出了基于多種語言學知識的詞義消歧框架及其實現(xiàn)方案。同時,使用該詞義消歧系統(tǒng)來改善檢索引擎、機器翻譯系統(tǒng)和文語轉(zhuǎn)換系統(tǒng)的性能。

        參考文獻

        [1]張霖,張宇航.基于粗糙本體的信息檢索[J].信息化建設,2015,11: 246~246.

        [2]宋柔,葛詩利.面向篇章機器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學報,2015,29(5):125~135.

        [3]全昌勤.基于語料庫的漢語詞義消歧方法研究[D].華中師范大學,博士學位論文.2005.

        久久精品麻豆日日躁夜夜躁| 99久久婷婷国产精品综合网站 | 你懂的视频网站亚洲视频| 国产乱人无码伦av在线a| 无码人妻精品一区二区三区下载| 国产高清吃奶成免费视频网站 | 岛国大片在线免费观看 | 亚欧免费视频一区二区三区| 少妇深夜吞精一区二区| 国产精品无码一区二区三级| 伊人色综合视频一区二区三区| 成人亚洲欧美久久久久| 中文字幕文字幕一区二区| 无码 人妻 在线 视频| 福利视频一二三在线观看| 天啦噜国产精品亚洲精品| 国产一区二区三区精品毛片| 成人欧美一区二区三区在线观看 | 中文字幕无码高清一区二区三区| 亚洲av调教捆绑一区二区三区| 无码爆乳护士让我爽| 少妇人妻偷人精品无码视频| 日韩有码中文字幕第一页| 国产精品久久久在线看| 欧美内射深喉中文字幕| 九九九影院| 国产精品免费久久久久影院| 在线精品国产一区二区| 日韩精品av在线一区二区| 人妖一区二区三区在线| 伊人久久大香线蕉av色| 国产欧美日韩视频一区二区三区| 视频精品熟女一区二区三区| 国产av精品一区二区三区久久| 边啃奶头边躁狠狠躁| 国内自拍偷拍亚洲天堂| 亚洲男同免费视频网站| 国产精品久久777777| 国产女精品| 一区二区日本免费观看| 日韩日韩日韩日韩日韩|