亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

AI自然語言處理系統(tǒng)內的中英文角色新解

2021-11-21 21:25:42李薇陳秋麗孫愛娜

現(xiàn)代英語 2021年3期

關鍵詞：中英文字母檢索

李薇陳秋麗孫愛娜

(1.廣州新華學院(東莞校區(qū))，廣東東莞 523133；2.廣州南方學院，廣東廣州 510970)

一、中英文在人工智能發(fā)展中的角色

在現(xiàn)代社會，英語已成為連接全球計算機網絡的工作語言。事實上，英語確實已在全球視聽市場、互聯(lián)網技術、文字處理軟件(word processor)以及外語教學領域中占據(jù)著絕對優(yōu)勢。

眾所周知，中文漢字閱讀值極高的優(yōu)點早已為世界所公認，據(jù)來自高速公路管理部門的一項交通信息資料顯示，司機在以時速80千米行駛的公交車上，可以瞬間看清路邊標志牌上的漢字，而漢字下方的阿拉伯數(shù)字則一晃而過難以辨識，這項調查揭示，人眼對漢字的辨識時間遠遠少于分辨阿拉伯數(shù)字所需的時間。由此可見，漢字易于辨識的優(yōu)勢顯然更加符合人工智能創(chuàng)新發(fā)展的實際需要。

二、中英文特點對比分析

(一)中英文字的語音識別比較

作為意音字(meaning－phonetic logogram)的漢語，其聲母韻母拼合音節(jié)就有415個，再加上四聲調，普通話就多達1294個可辨別字義的音節(jié)。由于漢語存在四種音調以及種類繁多的各地方言(wild dialects)，若發(fā)音不準，就會給人工智能的語音識別帶來極大的困難。

英文采用從古羅馬發(fā)展而來的拉丁字母，共由26個字母組成，發(fā)音以字母為基礎。英文沒有中文那種繁復的聲調，所以，語音輸入時只要保持中等語速，人工智能就很容易準確識別每一個字母。由于英語同音詞較少，英文在語音識別的效率上就較大地領先于漢語。

長期以來，英美等國家的西方人士對于漢語的聲調十分生疏，而漢語所謂的聲調就是音高。英語里也有音高，例如，當你說“OK?”的時候，用的是一個上升的音高，而說“OK!”時，則用了下降的音高，在英語里，這兩種不同的音高只是傳達了不同的語氣，而詞本身的意義并無改變。

(二)中英文在文字識別系統(tǒng)方面的比較

中文字與詞的信息量記錄遠比英文信息量大，所以，當人們翻閱聯(lián)合國工作文件時，就會發(fā)現(xiàn)同樣內容的中文文本比英語文本要薄許多，這是因為漢字是一個字一個音節(jié)的緣故。雖然英文字中，由兩個字母組成的詞語與一個漢字所占的位置相同，但實際上，英語詞的大量音節(jié)通常都是由多個字母所組成的。例如，由3個或4個英文字母組成的詞box、jump，由5個或 6 個字母組成的詞 great、yellow等。由此可見，英文字母所占的空間位置顯然大大地超過漢字。

以漢字為基礎單位的中文，橫豎都可以排列，但作為線性文字的英文卻只能橫排，因此，漢字的獨立表意能力當然就比英文強。例如，“他讀課文”，當你看見“讀”字，就可大致推斷出后一個詞意，而英文:“She went to have a rest.”當你看到“have”時，卻仍然無法預測后面詞語的意思。直到出現(xiàn)“rest”，你才明白“have a rest”是“休息”的意思。由此可見，英語表意更多是依賴于短語或整句的上下文內容，閱讀者若不看完全部文字內容，就難以明白它的準確意思。由于人工智能的跳躍識別能力還比較弱，因此，英語文字的表意方式就略遜于中文。

(三)中英文在多義字/詞方面的比較

中英文里的一字/詞多義(polysemy pun)情況普遍存在，例如，中文“好”，可表示:贊成、優(yōu)良、正常及圓滿等多重意思。例如，英文“open”，就包含:開業(yè)、開放、打開、展開等不同含意。

由于世間萬物紛繁，人類情感富于變化(enriching emotion)，所以，同一個中文/英文的詞語，往往隱含著不同的意思，這無疑會影響人們思維上的正確理解。同時，一字/詞多義的現(xiàn)象也常常會給人工智能的識別造成較大的麻煩。目前，由于人工智能系統(tǒng)識別多義字/詞的能力較弱，其在處理上述這類詞語時常會出現(xiàn)差錯。

(四)中英文字/詞的同音異義現(xiàn)象比較

中文里有大量同音異義詞(homonyms pun)，這類詞語若從字形上看大多互不相同，所以非常容易區(qū)別。但如果單獨讀某一字/詞，那么，中文的同音異義詞就常會造成理解錯誤。例如，機制(jī zhì)、機智(jī zhì)，自決(zì jué)、自覺(zì jué)等。

而以音為主的英語，由于其字母拼寫的不同，其詞語自然就具有不同的音。所以，盡管英語也有因同音異義而造成理解誤差的情況，但這種現(xiàn)象比漢語字/詞少了許多。例如，right(正確的)、write(寫字)，Meat(肉類)、meet(遇見)等。

三、漢英文字檢索、字庫與文字顯示

(一)文字檢索

根據(jù)漢字的優(yōu)勢與特點，語言學家們設計出多種有理檢索方法，例如“部首檢索法”，它是根據(jù)漢字字形結構，把有相同部分的字排列在一起，這些相同的部分即為部首。另外，漢字中也有無理檢索的現(xiàn)象(irrational retrieval)，雖然人們在電腦上可以設漢字文件名，但由于電腦機器內主要是以英文字母與阿拉伯數(shù)字為主，相比之下，使用漢字的確不如使用英文方便。

英文中的無理檢索非常普遍，常用的使用情況包含“密碼設置與檢索(password setting and retrieval)”，這種檢索方法主要運用于英美等國的情報單位及軍事絕密部門。

(二)字庫

在字庫格式方面，美國Apple公司與Microsoft公司聯(lián)手推出的新型數(shù)字化字形描述技術(TT技術)，以及Adobe公司特別為描述圖像與文字而專門設計的Post Script語言(PS語言)，現(xiàn)已成為流行的頁面描述語言形式。

英文利用字母線性羅列打字(linear listing of letters)，其所占的“字庫”空間極小，這是英文字庫的一大優(yōu)勢，而一個漢字往往得占兩個字母的空間，加之漢字與字母不能對應，因此就得另外建立漢字庫。而國際漢字庫的建立以及輸入法的改進，極大地方便了億萬電腦使用者，它使得電腦更快地向千家萬戶迅速普及。

(三)在電腦的顯示方面

近年來，索尼公司繼XEL－1產品之后，推出基于OLED技術而開發(fā)的新產品，由于其對比度超高、色彩飽和度豐富、重量輕且厚度極薄，視角廣且反應速度更快，因而引領了新一代平面顯示器潮流，而3D顯示器，更是顯示技術發(fā)展的終極夢想。

電腦顯示分為低、中、高三種分辨率，雖然漢字無法在低分辨率顯示器上顯示，但由于微電腦多采用高分辨率顯示器(clear resolution display)，目前漢字顯示效果還不錯，但英語字母與文字在低、中、高三級分辨率上都比較清晰，所以英文在電腦顯示分辨率上的優(yōu)勢是顯而易見的。

(四)在鍵盤與打字方面

以拼音為主的智能化ABC鍵盤輸入法，輸入極為方便且界面友好，字與詞的輸入按“全拼”“簡拼”與“混拼”形式輸入即可，并不需切換輸入方式。此外，智能ABC還可提供動態(tài)詞匯庫系統(tǒng)，而現(xiàn)有的基本詞庫具有用戶自定義詞匯以及設置詞頻調整等操作，其所具有的智能作用，可不斷滿足不同用戶的需求。

例如，當中國用戶需用漢語拼音字母打字時，利用英文鍵盤是完全可行的，而電腦上的“全拼”“雙拼”打字狀況也大都如此。但漢語拼音字母的出現(xiàn)頻率高低與英文的情況不太一樣。例如，“Z”鍵，在英語中的使用頻率較低，所以安排在第三鍵左下。

(五)在輸入法方面

目前，漢字輸入技術日趨向系統(tǒng)化、智能化、機助化以及標準化方向發(fā)展。對英美等英語用戶國家而言，電腦輸入是非常容易的事，它只是比英文打字機增多了一些符號鍵與功能鍵，一般就是按字母順序羅列輸入即可。鑒于漢字的特殊性，專家創(chuàng)造出遠比英文字母輸入法更加豐富多彩的方式，常見方式包括:字根法、筆形筆順法、全拼法及讀音法等。

漢字的特殊字形可用來簡化詞語的編碼，從而使中文詞語輸入速度超過英文，而英文的詞語輸入?yún)s無其他可以簡化的輸入法，它必須按照詞語的字母順序逐一輸入，因此，英語詞語在輸入速度上則略遜于中文。

四、結語

目前，隨著英語國家強勢文化影響力的日益擴大，特別是美國在電腦、互聯(lián)網信息與人工智能技術方面的領先態(tài)勢，使得英語的優(yōu)勢地位在一段時間內仍會持續(xù)存在。

中文漢字是義音兼表(meaning and sound)的語素音節(jié)文字，這一特征使得每一個漢字都仿佛是一個集成信息塊，能兼具形、意、義三個語言要素，加之漢字信息量大，用漢字作書面語就比用其他語言簡單許多。

簡而言之，中文與英文這兩大世界性主流語言，盡管在語言、文字、語義等多方面存在較大差異與區(qū)別，但它們卻都在蓬勃發(fā)展的人工智能“自然語言處理”NLP系統(tǒng)工程中，繼續(xù)發(fā)揮著各自不可替代的獨特作用。