亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談對中文信息處理的認識

        2008-12-31 00:00:00
        電腦知識與技術(shù) 2008年9期

        摘要:中文信息處理是一個未來具有廣闊前景的科研領(lǐng)域。從中文信息處理的研究內(nèi)容、主流技術(shù)等幾個方面淺談了對計算機中文信息處理的認識。

        關(guān)鍵詞:中文信息處理;語料庫;詞性標注

        中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)09-11709-03

        Of Chinese Information Processing

        LI Ying

        (College of Information Engineering, Xingjiang University, Wulumuqi 830046, China)

        Abstract: Chinese information processing will be one has the broad prospects scientific research domain in the future. From Chinese information processing's research content, the mainstream technology and so on several aspects discussed shallowly to the computer Chinese information processing understanding.

        Key words: Chinese Information Processing;Corpus; Part-of-speech tagging

        中文信息處理是中文(包括漢語和少數(shù)民族語言)語言學和信息技術(shù)的融合。指用計算機對中文的音、形、義等信息進行加工和處理,它是一門與計算機科學、語言學、數(shù)學、信息學、聲學等多種學科相關(guān)聯(lián)的綜合性學科。

        語言信息處理是用計算機對自然語言在各個層次(語素、詞、短語、句子、段落、篇章)上的各種表現(xiàn)形式(文本、聲音、圖像)的信息進行處理:輸入、輸出、轉(zhuǎn)換、壓縮、存儲和檢索等等。跟人工語言相比,自然語言詞匯量大,規(guī)則復雜,處處充滿歧義,但它是人類最重要的交際工具,也是人類思維、文化和一切知識的載體,因此語言信息處理具有特別重大的意義。[1]

        中文信息處理是用計算機處理漢語信息,也叫漢語信息處理。

        1 中文信息處理的特點

        中文信息處理在許多方面有自己的特點。

        1.1 漢字的特殊性

        西方語言只有幾十個字母。而漢字由于數(shù)量大且字形復雜,也給計算機處理帶來了困難。漢字信息處理是中文信息處理的關(guān)鍵和基礎(chǔ),包括漢字信息的輸入、漢字信息的加工和漢字信息的輸出等方面,其難點是漢字編碼問題。根據(jù)在漢字信息處理過程中的不同要求,漢字有多種編碼,主要可以分為四類,即漢字輸入編碼,漢字標準編碼,漢字內(nèi)碼和漢字形碼。

        1.2 書面漢語的特殊性

        書面漢語中,詞跟記號之間沒有分隔標記,自動分詞成為書面漢語分析的第一道難關(guān)。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段可以通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,但是在詞這一層上,中文比之英文要復雜的多、困難的多。

        1.3 漢語語音的特殊性

        漢語語音的特點是音節(jié)結(jié)構(gòu)簡單,音節(jié)界限分明,但有聲調(diào)和變調(diào)等問題,對于語音識別和語音合成來說,既有有利的一面,也有不利的一面。

        1.4 漢語語法的特殊性

        漢語形態(tài)貧乏,難以憑借形態(tài)來確定詞的句法功能,詞序和虛詞是主要的語法手段,句法歧義特別復雜,使得漢語語句自動分析這一關(guān)鍵技術(shù)遲遲不能取得突破。

        2 中文信息處理的研究內(nèi)容

        2.1 從用戶角度看,中文信息處理不外乎三個方面

        2.1.1 漢語信息的輸入和輸出

        輸入有三種形式:鍵盤輸入、手寫(或掃描)輸入、語音輸入,分別是漢字鍵盤輸入法、漢字識別和漢語語音識別的研究內(nèi)容。輸出有兩種形式:屏幕和打印機等設(shè)備上的漢字輸出、語音輸出,分別是漢字字形技術(shù)和漢語語音合成的研究內(nèi)容。

        2.1.2 漢語信息的檢索和提取

        給出主題詞或關(guān)鍵字,得到相關(guān)文獻或例句,這是信息檢索。對文獻內(nèi)容加以分析概括并且以條理化的形式來表達,叫做信息提取,是中文信息處理研究的一個新熱點。自動文摘和自動校對也可以看成是信息提取。

        2.1.3 漢語信息的轉(zhuǎn)換

        如GB、B和Unicode等內(nèi)碼之間的轉(zhuǎn)換,漢字簡體和繁體之間的轉(zhuǎn)換。漢語和其他語言之間的機器翻譯,屬于不同自然語言之間的轉(zhuǎn)換,也是中文信息處理的重要研究內(nèi)容。[2]

        2.2 從研究者角度看,中文信息處理可分為三種研究類型

        2.2.1 基礎(chǔ)研究

        包括漢字字符集的編碼體系、中文信息處理的發(fā)展戰(zhàn)略和基本方法、漢語計算模型、漢語語料和語言知識庫的建設(shè),等等。

        2.2.2 應(yīng)用基礎(chǔ)研究

        面向應(yīng)用的基礎(chǔ)性技術(shù)的研究,包括自動分詞技術(shù)、詞性標注和語義標注技術(shù)、語句分析技術(shù)、篇章分析技術(shù)等等。這些基礎(chǔ)性技術(shù)不限于特定的應(yīng)用目的,例如自動分詞技術(shù)在信息檢索和語音合成的預處理階段、漢字識別和語音識別的后處理階段都有重要的應(yīng)用價值。

        2.2.3 應(yīng)用研究

        實用系統(tǒng)的設(shè)計和研制,如漢字識別系統(tǒng)、漢語語音識別系統(tǒng)、中文全文檢索系統(tǒng)、漢外機器翻譯系統(tǒng)等等。[2]

        3 中文信息處理的主流技術(shù)

        語料庫方法和統(tǒng)計語言模型不但沒有過時,而且在可比的統(tǒng)一評測中被證明是當前各國語言信息處理的一種主流技術(shù)。

        3.1 N元模型

        設(shè)wi是文本中的任意一個詞,如果已知它在該文本中的前兩個詞 wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來預測wi出現(xiàn)的概率。這就是統(tǒng)計語言模型的概念。一般來說,如果用變量W代表文本中一個任意的詞序列,它由順序排列的n個詞組成,即W=w1w2...wn,則統(tǒng)計語言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:

        P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)

        不難看出,為了預測詞wn的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計算上來看,這種方法太復雜了。如果任意一個詞wi的出現(xiàn)概率只同它前面的兩個詞有關(guān),問題就可以得到極大的簡化。 這時的語言模型叫做三元模型(tri-gram):

        P(W)≈P(w1)P(w2|w1)∏i(i=3,...,n P(wi|wi-2w-1)

        符號∏i i=3,...,n P(...) 表示概率的連乘。一般來說,N元模型就是假設(shè)當前詞的出現(xiàn)概率只同它前面的N-1個詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語料庫來計算的。比如三元概率有

        P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi)/count(wi-2wi-1)

        式中count(...) 表示一個特定詞序列在整個語料庫中出現(xiàn)的累計次數(shù)。[4]

        3.2 語音識別

        讓人與計算機自由的交談,機器能聽懂人講話,是語音識別技術(shù)的最終目標。語音識別技術(shù)所設(shè)計的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機原理和聽覺原理、人工智能等。

        語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則和模型訓練技術(shù)3個方面,另外還涉及到語音識別單元的選取。

        關(guān)于語音識別單元的選取,對于大中型詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。

        關(guān)于特征參數(shù)提取技術(shù),語音信號中含有豐富的信息,這些信息稱為語音信號的聲學特征。特征參數(shù)提取技術(shù)就是為了獲得影響語音識別的重要信息,特征參數(shù)應(yīng)該盡量多的反映語義信息,盡量減少說話人的個人信息。

        關(guān)于模式匹配以及模型訓練技術(shù),模型訓練是按照一定的準則,從大量已知的模式中獲取表征該模式本質(zhì)特征的模型參數(shù)。模式匹配是根據(jù)一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。其實,語音識別任務(wù)可視為對以下條件概率極大值的計算問題:

        W*= argmaxW P(W|speech signal)

        = argmaxW P(speech signal|W) P(W)/P(speech signal)

        = argmaxW P(speech signal|W) P(W)

        式中數(shù)學符號argmaxW 表示對不同的候選詞序列W計算條件概率P(W|speech signal)的值,從而使W*成為條件概率值最大的詞序列。它也就是當前輸入語音信號speech signal所對應(yīng)的輸出詞串了。

        公式第二行是利用貝葉斯定律轉(zhuǎn)寫的結(jié)果,因為條件概率P(speech signal|W)比較容易估值。公式的分母P(speech signa ) 對給定的語音信號是一個常數(shù),不影響極大值的計算,故可以從公式中刪除。在公式第三行所示的結(jié)果中,P(W)叫做統(tǒng)計語言模型;P(speech signal|W) 叫做聲學模型。[4]

        3.3 詞性標注

        用計算機軟件標注文本中每個詞的詞性或義項。這兩種標注都是多中選一的問題,關(guān)鍵是如何處理兼類詞或多義詞。詞性標注為句法分析做鋪墊,語義標注為詞義結(jié)構(gòu)分析打基礎(chǔ),關(guān)鍵是如何處理兼類詞或多義詞。詞性標注為句法分析做鋪墊,語義標注為語義結(jié)構(gòu)分析打基礎(chǔ)。跟西方語言相比,漢語詞性標注的主要困難是缺乏形態(tài),詞類判定基礎(chǔ)根據(jù)詞的已實現(xiàn)的句法功能,對上下文的依賴特別嚴重。漢語的自動分詞和詞性標注的精確率,將直接影響到后續(xù)的句法分析結(jié)果。據(jù)觀察,在漢語句法分析結(jié)果中,有高達60%的分析錯誤來源于分詞和詞性標注的錯誤。[3]

        在英語的詞庫中約 14% 的詞形(type)具有不只一個詞性,而在一個語料庫中,總詞次數(shù)(tockens)中約 30% 是兼類詞。從這個統(tǒng)計數(shù)字中可以估計出詞性標注任務(wù)的難度。歷史上曾經(jīng)先后出現(xiàn)過兩個方法迥異的英語詞性標注系統(tǒng):TAGGIT系統(tǒng)擁有3000條上下文相關(guān)規(guī)則,而CLAWS系統(tǒng)完全采用概率統(tǒng)計方法。兩個系統(tǒng)各自完成了100萬詞次的英語語料庫的自動詞性標注任務(wù)。評則結(jié)果(見下表)表明,采用概率統(tǒng)計方法的CLAWS系統(tǒng)的標注精度達到96%,比TAGGIT系統(tǒng)提高了近20個百分點。經(jīng)過改進的CLAWS系統(tǒng)日后承擔了英國國家語料庫BNC一億條英語詞的詞性標注任務(wù)。

        具體來說,CLAWS系統(tǒng)采用的是詞類標記的二元模型。如果令 C = c1...cn 和 W = w1...wn 分別代表詞類標記序列和詞序列,則詞性標注任務(wù)可視為在已知詞序列W的情況下,計算如下條件概率極大值的問題:

        C*= argmaxC P(C|W)

        = argmaxC P(W|C)P(C)/P(W)

        ≈ argmaxC ∏ii=1,...,nP(wi|ci)P(ci|ci-1)

        P(C|W)表示:已知輸入詞序列W的情況下,出現(xiàn)詞類標記序列C的條件概率。數(shù)學符號argmaxC表示通過考察不同的候選詞類標記序列C, 來尋找使條件概率P(C|W)取最大值的那個詞序列W*。后者應(yīng)當就是對W的詞性標注結(jié)果。

        公式第二行是利用貝葉斯定律轉(zhuǎn)寫的結(jié)果,由于分母P(W)對給定的W是一個常數(shù),不影響極大值的計算,故可以從公式中刪除。接著對公式進行近似。首先,引入獨立性假設(shè),認為詞序列中的任意一個詞wi的出現(xiàn)概率近似,只同當前詞的詞性標記ci有關(guān),而與周圍(上下文)的詞類標記無關(guān)。即詞匯概率

        P(W|C) ≈ ∏ii=1,...,nP(wi|ci)

        其次,采用二元假設(shè),即近似認為任意詞類標記 ci的出現(xiàn)概率只同它緊鄰的前一個詞類標記ci-1有關(guān)。因此有:

        P(C) ≈∏i i=,...,nP(ci|ci-1)

        P(ci|ci-1)是詞類標記的轉(zhuǎn)移概率,也叫做二元模型。

        上述這兩個概率參數(shù)也都可以通過帶詞性標記的語料庫來分別估計:

        P(wi|ci) ≈ count(wi,ci)/count(ci)

        P(ci|ci-1) ≈ count(ci-1ci)/count(ci-1)

        4 結(jié)束語

        隨著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段。實際上,人們在生產(chǎn)生活中、社會在運轉(zhuǎn)過程中已經(jīng)高度依賴于中文信息處理。特別是在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的今天,信息技術(shù)的應(yīng)用已經(jīng)滲透到了社會的各個角落之中。這種滲透已不僅僅是最初的互聯(lián)網(wǎng)本身,還包括了移動電話、掌上電腦、電視機頂盒等產(chǎn)品的互聯(lián)網(wǎng)接人。在我國,所有這些應(yīng)用都離不開中文信息處理,中文信息處理技術(shù)已成為我國信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ)。

        參考文獻:

        [1] 曹邦偉,高傳善.計算機與信息處理[M].上海:復旦大學出版社,2001.

        [2] 陳小荷.中文信息處理概述[J].南京師范大學文學院學報,2002,1.

        [3] 馮志偉.漢字和漢語的計算機處理[J].當代語言學,2001,1.

        [4] 黃昌寧.中文信息處理的主流技術(shù)是什么?[J].計算機世界報,2002,(24).

        亚洲av熟女天堂久久天堂| 妇女性内射冈站hdwwwooo| av色综合网站| 色视频日本一区二区三区| 中文字幕亚洲一区二区不下| 区二区三区玖玖玖| 一区二区日韩国产精品| 一区二区三区国产偷拍| 黄片小视频免费观看完整版| 狠狠色婷婷久久综合频道日韩| 91尤物视频在线观看| 国产高清精品在线二区| 亚洲国产精品成人av在线不卡 | 色婷婷综合久久久中文字幕| 国产精品亚洲综合色区韩国| 青草青草伊人精品视频| 亚洲美女一区二区三区三州| 丰满人妻一区二区三区免费视频| 三上悠亚av影院在线看| 国产精品不卡无码AV在线播放| 日本本土精品午夜视频| 国产精品无码v在线观看| 亚洲一二三区在线观看| 日本熟女人妻一区二区三区| 天堂网av一区二区三区在线观看| 99re8这里有精品热视频免费| 国产精品久久久久9999吃药| 天美麻花果冻视频大全英文版| 婷婷精品国产亚洲av| 在线观看视频日本一区二区| 久久久久亚洲精品中文字幕| 97福利视频| 亚洲国产一区二区av| 国产av夜夜欢一区二区三区| 日日摸夜夜添夜夜添无码免费视频| 狠狠干视频网站| 亚洲熟女天堂av一区二区三区| 国产欧美一区二区精品久久久| 国内精品视频一区二区三区| 青青草视频在线你懂的| 国产欧美高清在线观看|