蘇楠
(陜西能源職業(yè)技術(shù)學(xué)院 教務(wù)處, 陜西 咸陽 712000)
隨著計算機技術(shù)的不斷成熟和人工智能的不斷推進,計算機已經(jīng)被廣泛應(yīng)用于英語輔助教學(xué)中,各層級的學(xué)校也逐漸用線上考試代替了傳統(tǒng)的考試措施[1-2]。當(dāng)前智能算法在諸如選擇題、填空和判斷等客觀題中應(yīng)用較廣,而在作文等主觀題中的應(yīng)用偏少,主要是因為客觀題的答案唯一,計算機算法的實現(xiàn)較為簡單,而主觀題的算法相對復(fù)雜[3-5]。為了減輕教師閱卷的工作量,并較少因教師主觀因素而導(dǎo)致的學(xué)生得分不一致性,利用一定的算法實現(xiàn)智能主觀題目的計算機閱卷是非常有必要的[6-9]。本文從語義成分分析的基礎(chǔ)理論入手,對基于英語語義分析的智能算法進行了探討,旨在為人工智能在英語中更深一步的推廣和應(yīng)用提供理論和技術(shù)支持。
語義分析(Componential analysis)是20世紀(jì)40年代,丹麥構(gòu)建主義學(xué)家L. Hjelmslev和布格拉學(xué)派代表 R. Jakobson 在其著作中初次提及,他們認為詞義可以分解為最小的語義成分[10-12]。經(jīng)過20余年的發(fā)展,該理論逐漸被完善,并于20世紀(jì)60年代正式被應(yīng)用在語言學(xué)中。近年來,語義學(xué)家認為相比于詞義,意義單元是最小的語義組成單位,并稱其為語義成分(Sense components))、語義特征(Semantic features)、語義標(biāo)識(Semantic makers)或義素。這也就是說任意一個實意詞,我們都可以拆分出其語義成分,以下以英語單詞BOY舉例。針對BOY這個單詞,我們可以將其拆分為human、young和male三個語義成分,而不再認為該詞匯是一個不可拆分的整體。這一拆分為語義分析在基于計算機的智能分析中提供了極大的便利,可以根據(jù)不同的語境,為該單詞提供不同的意思,從而實現(xiàn)對語義的分析。
上述思想為語義成分分析提供了基本思路,詞義分析法具備很大的優(yōu)點,其中最為突出的是它將每一個單詞不再固定地認為是一組意譯的組合,而是分解為很多個詞義并將這些詞義放在不同的語境下供學(xué)習(xí)者理解和使用,能改善學(xué)生以往死記硬背的學(xué)習(xí)習(xí)慣并激發(fā)學(xué)生對語言的探索和熱愛[13]。但要實現(xiàn)語義分析的智能化,我們?nèi)匀幻媾R著幾個問題。
(1) 語義分析的基礎(chǔ)資源庫建立困難。和任意一種語言一樣,英語語義中也存在著極大的文學(xué)、宗教及其它因素,而且詞匯數(shù)量基數(shù)龐大,但要基于計算機技術(shù)實現(xiàn)英語語義分析智能算法,則需要為常用詞匯建立語義資源庫。
(2) 語義分析很難滿足語言的多彩性。計算機算法具備“兩分法”的特征,對于設(shè)定的語義成分會根據(jù)語境予以判斷,但這種具有兩分法色彩的分析方法無法滿足實際語言中多姿多彩的修辭手法;
(3) 語義分析無法完成抽象詞匯的分析作業(yè)。如kindness等虛擬詞匯,其用途廣泛,在口語和書面語言中,我們都能感受和理解其表達的意思,但當(dāng)使用語義分析手段對其分析時會發(fā)現(xiàn)無從下手。
面向語句成分的英語語義分析的智能算法結(jié)構(gòu)如圖1所示。由圖1可見,基于語義分析的智能算法結(jié)構(gòu)首先需要將一個句子中所包含的英語單詞分解為單個的詞匯,然后調(diào)取每一個詞匯的詞性及相應(yīng)的詞義,最后結(jié)合語境去分析該單詞在句子中的含義。以句子“I drew a picture yesterday.”為例,對結(jié)構(gòu)的每一塊進行分別介紹。
圖1 語義分析智能算法結(jié)構(gòu)
系統(tǒng)數(shù)據(jù)庫依賴于教師和教材的匯編,從業(yè)者根據(jù)不同學(xué)習(xí)程度的學(xué)生、教學(xué)大綱,將學(xué)生所需學(xué)習(xí)的詞匯進行匯編。其中主要包含詞匯的基本信息表和相對較為特殊的詞匯信息。
詞匯基本信息:根據(jù)教學(xué)大綱,將所需詞匯的詞性、不同環(huán)境下的發(fā)音音標(biāo)等信息儲存至數(shù)據(jù)庫中。以示例語句中的drew(draw的過去式)為例,其基本信息,如表1所示。
表1 數(shù)據(jù)庫中詞匯的基本信息(以draw常用詞義為例)
特殊詞匯信息:在英語中,大多數(shù)名詞的復(fù)數(shù)、動詞的過去式及過去分詞和現(xiàn)在式、形容詞的比較級和最高級等都具有一定的形成規(guī)則,但有一些詞匯的上述信息卻與常見的不一致,具有特殊性,仍以drew為例,如表2所示。
表2 數(shù)據(jù)庫中特殊詞匯信息(以draw常用詞義為例)
由表2可知,單詞“draw”作為動詞時,現(xiàn)在分詞和第三人稱單數(shù)符合一般的英語詞匯變形規(guī)則,但過去式和過去分詞明顯與常規(guī)有差別,為了更精確地實現(xiàn)語義分析智能算法,數(shù)據(jù)庫中應(yīng)該對此類詞匯進行單獨儲存。
以句子“I drew a picture yesterday.”為例,對系統(tǒng)的每一個模塊及實現(xiàn)方法進行分析。
詞匯分析是將一個句子中每一個詞匯單獨拆開,并分析其詞性、詞義等的過程,如圖2所示。
圖2 詞匯分析流程圖
以句子“I drew a picture yesterday.”中,首先將其分為以下幾個詞匯:“I”、“drew”、“a”、“picture”、“yesterday”。并在數(shù)據(jù)庫中調(diào)取每一個詞匯的所有含義。如“picture”:n. 照片,影片,描述,圖畫;vt. 想像,畫,拍照。調(diào)取完成后為下一步語句詞性分析做好準(zhǔn)備。
語句詞性分析主要是在詞匯分析的基礎(chǔ)上,首先獲取每一個單詞的詞性及詞義,然后根據(jù)獲取的數(shù)據(jù)和該詞匯前后詞匯的詞性,確定該單詞在本語句中所扮演的詞性。句子“I drew a picture yesterday.”中所有單詞詞性分析結(jié)果,如表3所示。
表3 語句詞性檢索及分析結(jié)果示例
語句分析是基于詞匯和語句的分析結(jié)果,確定句子的主語、謂語、賓語等主要成分和狀語等其它組成完整句子的成分。系統(tǒng)以英語的語法規(guī)則和對語句的分析結(jié)果,借助于英語語法的正則表達式,首先確定完整句子的謂語部分,然后根據(jù)主謂賓關(guān)系確定句子的主語和賓語部分,剩余的作為其它部分,并根據(jù)所處位置判斷其在句子中充當(dāng)?shù)慕巧F渲杏⒄Z語法的正則表達式見文獻[14]所示,茲不贅述。本文仍以上述例句為例,對語句語義進行分析,如表4、表5所示。
表4 語句語義分析
表5 考生答卷結(jié)果與標(biāo)準(zhǔn)答案對比
本文從既有英語單詞形態(tài)變化及英語語法正則表達式出發(fā),首先對語義成分分析的基本理論進行了分析,然后對語義分析智能算法結(jié)構(gòu)進行介紹,最后通過舉例,對算法結(jié)構(gòu)中各部分進行了研究。研究成果表明:面向語句成分的英語語義分析的智能算法在英語主觀題目批卷等工作中能起到非常好的作用,不僅能減輕教師的工作量,還能避免因教師主觀認知不同而造成的學(xué)生主觀題目得分不一致;同時該算法依賴于對英語詞匯及語法等的正則表達式的完善和詞匯數(shù)據(jù)庫的搭建,這些部分均已經(jīng)受到廣大從業(yè)者的關(guān)注。語句語義分析結(jié)果表明,限于計算機算法的認知程度和語言的復(fù)雜性,目前對除主謂賓等主要成分外的其它句子成分,不能實現(xiàn)很精準(zhǔn)的識別,這有待于我們展開更多的探索和研究。