[摘 要] 指出通過(guò)在數(shù)字出版平臺(tái)應(yīng)用自然語(yǔ)言處理技術(shù),提供詞匯及難句抽取服務(wù),能減少外文原著閱讀中的困難,提高電子書和紙質(zhì)書的閱讀效率;在討論數(shù)字出版平臺(tái)提供詞匯抽取服務(wù)的相關(guān)問(wèn)題后,進(jìn)一步提出難句抽取服務(wù)的相關(guān)建議,分析其可行性,給出參考抽取策略。
[關(guān)鍵詞] 數(shù)字出版 外文原著 自然語(yǔ)言處理 云平臺(tái) 詞匯提取 難句抽取
[中圖分類號(hào)] G237 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2014) 01-0079-05
1 引 言
隨著電子計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展, 以電子書(electronic book,ebook)為代表的數(shù)字出版物已經(jīng)廣泛興起和發(fā)展起來(lái),并由此形成了數(shù)字出版產(chǎn)業(yè)。數(shù)字出版平臺(tái)和電子讀物自身的數(shù)字化特點(diǎn),使利用各種現(xiàn)代技術(shù)為讀者提供包括娛樂(lè)和輔助學(xué)習(xí)功能在內(nèi)的各種新型有效服務(wù)成為可能。多媒體技術(shù)與人工智能研究領(lǐng)域成果如自然語(yǔ)言處理等的應(yīng)用,將使數(shù)字出版不僅帶來(lái)信息載體、讀物來(lái)源和閱讀方式方面的變化,而且會(huì)使閱讀過(guò)程中的學(xué)習(xí)方式、學(xué)習(xí)效果等都發(fā)生很多變化[1]。
與此同時(shí),人類進(jìn)入信息時(shí)代后,國(guó)際間的科學(xué)文化交流日益增多,了解學(xué)習(xí)不同國(guó)家的文化習(xí)俗、掌握世界新的科學(xué)技術(shù)發(fā)展動(dòng)態(tài)成為個(gè)人與國(guó)家發(fā)展的前提。因此,外語(yǔ)的學(xué)習(xí)和使用比以往任何時(shí)代更顯重要。現(xiàn)代社會(huì)很多人都需要閱讀外文原版文學(xué)讀物、學(xué)術(shù)專著和教材。但外文原版讀物閱讀的難點(diǎn)是剛開(kāi)始時(shí)生詞較多,有些句子不容易理解,容易產(chǎn)生閱讀挫折,當(dāng)所選讀物的閱讀難度和內(nèi)容不合適時(shí)就更明顯。對(duì)于專業(yè)文獻(xiàn),除了一般詞匯問(wèn)題外,由于強(qiáng)調(diào)語(yǔ)言的縝密性、準(zhǔn)確性,經(jīng)常會(huì)使用長(zhǎng)句和大量專業(yè)術(shù)語(yǔ),所以較一般文學(xué)讀物更不容易理解。能否解決閱讀中的詞匯和難句障礙,是能否克服外文原版讀物閱讀初期的困難,進(jìn)入熟練閱讀過(guò)程的關(guān)鍵。雖然我國(guó)在外語(yǔ)教學(xué)方面投入很大,但效果并不理想,原因之一是許多讀者沒(méi)能真正進(jìn)入外文原版文獻(xiàn)的熟練閱讀狀態(tài),未形成外語(yǔ)學(xué)習(xí)和使用實(shí)踐相互促進(jìn)、緊密結(jié)合的良性循環(huán)過(guò)程。缺乏應(yīng)用實(shí)踐,過(guò)多停留在應(yīng)試和學(xué)習(xí)過(guò)程本身的外語(yǔ)學(xué)習(xí)嚴(yán)重影響了外語(yǔ)繼續(xù)學(xué)習(xí)和終身學(xué)習(xí),以及在實(shí)踐中應(yīng)用外語(yǔ)的動(dòng)力。外文文獻(xiàn)對(duì)擴(kuò)大科研人員的研究視野、確定研究策略和方向、提高科研水平等發(fā)揮著非常重要的作用,但我國(guó)花費(fèi)大量經(jīng)費(fèi)購(gòu)買的外文文獻(xiàn)數(shù)據(jù)庫(kù)利用率較低,主要原因就是語(yǔ)言障礙。
目前數(shù)字出版技術(shù)、自然語(yǔ)言處理技術(shù)和云技術(shù)的發(fā)展,為人們改進(jìn)或解決上述問(wèn)題帶來(lái)了可能。本文首先介紹在數(shù)字出版中應(yīng)用自然語(yǔ)言處理技術(shù),通過(guò)詞匯抽取服務(wù)輔助外文閱讀的問(wèn)題,同時(shí)進(jìn)一步提出在數(shù)字出版中提供難句抽取服務(wù)的建議,并對(duì)可行性進(jìn)行分析及給出可供參考的抽取策略。
2 數(shù)字出版中的詞匯抽取服務(wù)
在數(shù)字出版中提供詞匯提取服務(wù)是把外文原著中讀者可能不認(rèn)識(shí)的生詞提前抽取出來(lái),給出解釋,生成按詞頻分段,能按照頁(yè)碼和章節(jié)進(jìn)行篩選的詞匯表放到出版平臺(tái)上供下載;對(duì)于專業(yè)外文書籍,不僅提供常規(guī)詞匯表,還包括專業(yè)詞匯表。在數(shù)字出版提供詞匯抽取的最初理念由本文作者在2012年美國(guó)《出版研究季刊》中第一次提到[2],下面在介紹原理念的基礎(chǔ)上,總結(jié)擴(kuò)展分析如下。
2.1 提供詞匯抽取服務(wù)有助于提高外文閱讀效率
閱讀外文原著一直被認(rèn)為是學(xué)習(xí)外語(yǔ)的有效方法。認(rèn)知語(yǔ)言學(xué)的研究表明,語(yǔ)言是在具體的社會(huì)環(huán)境中、在真實(shí)互動(dòng)中學(xué)會(huì)的,因此強(qiáng)調(diào)學(xué)習(xí)者的自身參與,對(duì)于常用的表達(dá)要設(shè)法引起學(xué)習(xí)者的充分注意,讓他們結(jié)合語(yǔ)境多加練習(xí)[3]。而文學(xué)原著閱讀為學(xué)習(xí)者提供了語(yǔ)言習(xí)得的真實(shí)語(yǔ)境,可以與單詞大量、密切接觸,而且讀上手之后不會(huì)令人心煩,因此在讀者了解和學(xué)習(xí)文化知識(shí)、開(kāi)發(fā)智力的同時(shí),實(shí)現(xiàn)了學(xué)習(xí)單詞、強(qiáng)化語(yǔ)言學(xué)習(xí)的目的。通過(guò)把詞匯表下載到不同設(shè)備上顯示,如電腦顯示器、手機(jī),或打印、抄寫等,可以使讀者在閱讀過(guò)程中方便快捷地查找生詞解釋,如果能先以頁(yè)碼或章節(jié)為單位抄寫生詞,強(qiáng)化記憶,然后再閱讀對(duì)應(yīng)的頁(yè)或章節(jié)原文,不僅容易理解原著內(nèi)容,享受閱讀樂(lè)趣,而且這個(gè)過(guò)程本身就是一種有效的外語(yǔ)學(xué)習(xí)途徑。因?yàn)檎Z(yǔ)言學(xué)者已經(jīng)驗(yàn)證,要想在短時(shí)間內(nèi)大幅度提高詞匯量,有計(jì)劃地利用單詞表來(lái)學(xué)習(xí)并記憶新單詞是較好的、也是最直接的辦法[4-5]。外文原著的閱讀有兩種形式——紙質(zhì)書閱讀和電子書閱讀,而詞匯抽取服務(wù)可以使電子書和紙質(zhì)書讀者獲得同樣的幫助。
2.2 提供詞匯抽取的技術(shù)基礎(chǔ)
數(shù)字出版提供詞匯抽取服務(wù)的主要技術(shù)基礎(chǔ)是自然語(yǔ)言處理、云計(jì)算和數(shù)字出版。
首先,自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)是用計(jì)算機(jī)來(lái)研究和處理自然語(yǔ)言的技術(shù),始于20世紀(jì)40年代末50年代初,已成為當(dāng)代計(jì)算機(jī)科學(xué)中一門重要的新型學(xué)科。詞匯抽取和各種詞典建設(shè)是自然語(yǔ)言處理技術(shù)的基礎(chǔ),屬于成熟的技術(shù)。英語(yǔ)的自然語(yǔ)言處理水平處于世界先進(jìn)水平,對(duì)英語(yǔ)實(shí)現(xiàn)詞匯抽取服務(wù)很容易實(shí)現(xiàn)。對(duì)于漢語(yǔ)這樣的表意文字,計(jì)算機(jī)自動(dòng)分詞的準(zhǔn)確率還不能令人滿意(大約90%)[6],影響了各種電子詞典的建設(shè)速度,目前大規(guī)模地實(shí)現(xiàn)詞匯抽取服務(wù)還有困難;但是,依靠在漢語(yǔ)自然語(yǔ)言處理技術(shù)方面幾十年的研究成果和建設(shè)的各種資源,在一定范圍內(nèi)實(shí)施詞匯抽取還是可以的。
其次,云計(jì)算是一種運(yùn)算模式,能實(shí)現(xiàn)無(wú)處不在、便捷按需的網(wǎng)絡(luò)訪問(wèn),信息處理和存儲(chǔ)在云數(shù)據(jù)中心完成。由于數(shù)字出版技術(shù)更新和管理費(fèi)用等問(wèn)題,數(shù)字出版采用云技術(shù)成為一種必然趨勢(shì)[7]。數(shù)字出版提供詞匯抽取服務(wù)需要云計(jì)算技術(shù)的原因在于詞典建設(shè)是龐大和困難的工作。現(xiàn)代社會(huì)發(fā)展迅速,新詞不斷出現(xiàn),詞典的更新維護(hù)是一個(gè)重要課題,也是單個(gè)出版社無(wú)法承擔(dān)的;由云平臺(tái)完成詞典建設(shè)、更新維護(hù)及詞匯抽取軟件的建設(shè),以資源共享的形式提供給各出版社使用,則能夠保證其有效管理和經(jīng)濟(jì)可行性。
再次,數(shù)字出版決定了著作原稿在各個(gè)階段都是以電子文檔形式存在的,對(duì)于任何一本原著,只需在編輯完成后把對(duì)應(yīng)電子文檔的格式轉(zhuǎn)換成純文本,然后利用基于自然語(yǔ)言處理技術(shù)設(shè)計(jì)的詞匯抽取軟件和電子詞典即可完成詞匯抽取工作。endprint
2.3 詞匯抽取策略
外文原著中的詞匯量很大,專業(yè)著作或原版教材則不僅包括普通詞匯,而且包含很多只能在專業(yè)詞典中查到的專業(yè)術(shù)語(yǔ)。每個(gè)讀者的外語(yǔ)水平也不同,遇到的生詞差異很大,所以要有效地抽取符合個(gè)人情況的生詞,并以方便學(xué)習(xí)的形式顯示,需考慮采用合適的抽取策略。
2.3.1 普通詞匯抽取
提供詞匯抽取服務(wù)主要基于這樣一個(gè)統(tǒng)計(jì)事實(shí),即一本書包含很多詞匯,但常用單詞占了絕大部分。據(jù)弗蘭西斯(Francis)和庫(kù)切拉(Kucera)(1982)統(tǒng)計(jì),在一百多萬(wàn)詞的Brown語(yǔ)料庫(kù)中,頻率居前的1000單詞就可以覆蓋72%的語(yǔ)料庫(kù);頻率居前的2000單詞可以覆蓋79.7%;頻率居前的5000單詞可以覆蓋88.7%;頻率居前的6000單詞可以覆蓋89.9%;而頻率居前的15851個(gè)單詞才覆蓋97.8%[8]。教育心理學(xué)家、心理測(cè)量專家、語(yǔ)言學(xué)家和其他研究人員多年來(lái)一直使用文本樣本中的單詞頻率統(tǒng)計(jì)作為估算單詞難度的方法,其基本假設(shè)是文本中出現(xiàn)頻率低的單詞是難度大的單詞[9]。一個(gè)讀者的外語(yǔ)水平越高,所認(rèn)識(shí)的難詞、或者說(shuō)低頻詞就越多。如果把一種語(yǔ)言的詞匯按詞頻分段,語(yǔ)言水平高的讀者生詞少且趨于低頻詞段;外語(yǔ)水平較低的讀者生詞較多,詞頻段跨度較大。因此,數(shù)字出版平臺(tái)可以通過(guò)采用不同的抽取策略提供不同頻段的詞匯表來(lái)滿足不同外語(yǔ)水平讀者的需要[10]。
2.3.2 專業(yè)術(shù)語(yǔ)抽取
專業(yè)外文文獻(xiàn)中有很多專業(yè)術(shù)語(yǔ),即某一學(xué)科領(lǐng)域所特有或?qū)S玫恼Z(yǔ)匯,其詞義常不為專業(yè)外讀者所明白。盡管術(shù)語(yǔ)只占全文的 5%—10%,但它們卻構(gòu)成科技英語(yǔ)翻譯與其他文體翻譯的根本區(qū)別[11],需要通過(guò)專業(yè)詞典解決專業(yè)術(shù)語(yǔ)的抽取問(wèn)題。對(duì)于只涉及某一個(gè)專業(yè)的外文專著,可通過(guò)軟件工具在原稿編輯完成后轉(zhuǎn)換成純文本格式,進(jìn)入對(duì)應(yīng)的專業(yè)詞典,抽取出其中的專業(yè)術(shù)語(yǔ),形成專業(yè)詞匯表供讀者下載。由于專業(yè)詞匯也可分為常用高頻詞匯、核心專業(yè)詞匯和低頻詞匯,所以,專業(yè)術(shù)語(yǔ)抽取時(shí)也可參考常規(guī)詞匯按詞頻分段的方法,列出不同頻段的專業(yè)詞匯,讀者可考慮先記住高頻詞匯,減少閱讀困難。為了與常規(guī)詞匯表相區(qū)別,每個(gè)專業(yè)術(shù)語(yǔ)后應(yīng)添加專業(yè)標(biāo)記[12]。
如果是涉及多門專業(yè)知識(shí)的綜合類專著,則需要分別進(jìn)入不同的專業(yè)詞典進(jìn)行專業(yè)術(shù)語(yǔ)抽取。由于專業(yè)詞典一般存在一詞多域多義和一詞多域同義的現(xiàn)象,即同一詞匯可能會(huì)出現(xiàn)在不同的專業(yè)詞典中,在不同專業(yè)領(lǐng)域有不同的意義,也可能具有相同的意義[13]。所以,必要時(shí)需對(duì)從不同的專業(yè)詞典中抽取出來(lái)的詞匯進(jìn)行合并,減少數(shù)據(jù)冗余,方便讀者學(xué)習(xí)。
目前,對(duì)于數(shù)字出版中提供詞匯抽取的探討,還只限于文學(xué)原著或?qū)I(yè)文獻(xiàn)。實(shí)際上,通過(guò)考慮不同類型讀物的特點(diǎn),通過(guò)采取合適的抽取策略,各種類型的外文讀物,包括報(bào)紙、雜志等都可以實(shí)現(xiàn)詞匯提取,為提高外語(yǔ)學(xué)習(xí)效率發(fā)揮積極作用。
3 數(shù)字出版中的難句抽取服務(wù)
前面介紹了數(shù)字出版中提供詞匯抽取服務(wù)的問(wèn)題,實(shí)際上,還可以進(jìn)一步深化這種服務(wù),在提供詞匯抽取服務(wù)的同時(shí),提供難句抽取服務(wù)。
3.1 提供難句抽取服務(wù)的意義
外文閱讀中最主要的困難是詞匯問(wèn)題,而句式結(jié)構(gòu)復(fù)雜、成分關(guān)系多樣、具有高度邏輯性的長(zhǎng)難句是另一障礙,能否解決長(zhǎng)難句的理解是提高閱讀能力的另一個(gè)關(guān)鍵。對(duì)語(yǔ)篇整體結(jié)構(gòu)、深層含義、作者態(tài)度等信息的理解非常重要,提高學(xué)生對(duì)于閱讀材料的宏觀把握能力已成為語(yǔ)言學(xué)家及語(yǔ)言教師們研究的重要課題之一,但是詞匯和句子理解仍然是外語(yǔ)學(xué)習(xí)的基礎(chǔ)。特別在學(xué)習(xí)一門外語(yǔ)的早期,如初、高中及至大學(xué)階段,長(zhǎng)難句理解都是學(xué)習(xí)中常見(jiàn)的困難[14-15]。如果長(zhǎng)難句的理解能力提高,則外文閱讀速度和質(zhì)量將會(huì)得到極大提高。如果在讀者閱讀外文原著時(shí),不僅限于生詞,同時(shí)也能提前把讀者不容易理解的難句抽取出來(lái),給出解釋和分析,生成能按頁(yè)碼、章節(jié)和字母順序自由排序和篩選的難句表放到出版平臺(tái)上供下載,則能幫助讀者更好地理解這些難句。按頁(yè)碼、章節(jié)自由篩選,能迅速恢復(fù)其上下文語(yǔ)境,不僅對(duì)語(yǔ)言學(xué)習(xí)本身有利,同時(shí)有助于更好地理解原著。讀者可以選擇喜愛(ài)的章節(jié)里的生詞和難句,經(jīng)過(guò)有意識(shí)分析和學(xué)習(xí),然后對(duì)那部分更好地閱讀理解。
此外,在各種類別的外語(yǔ)日常閱讀訓(xùn)練中,如果能集中選擇一些學(xué)習(xí)者熟悉內(nèi)容且感興趣的、具有代表性的長(zhǎng)難句,如選擇一些影響較大的文學(xué)名著中的長(zhǎng)難句進(jìn)行分析和強(qiáng)化翻譯訓(xùn)練,掌握規(guī)律就可以事半功倍。所以外文數(shù)字出版中提供難句抽取服務(wù)具有積極的意義。
3.2 提供難句抽取服務(wù)的可行性分析
雖然外文出版中的難句抽取服務(wù)對(duì)外語(yǔ)學(xué)習(xí)有積極的意義,但目前技術(shù)條件下還存在一些具體困難,需要通過(guò)某些特殊方法,采取合適策略來(lái)解決。
3.2.1 自動(dòng)化難句抽取中的困難
在數(shù)字出版中實(shí)現(xiàn)外文難句抽取的完全自動(dòng)化,從理論上說(shuō),需要涉及語(yǔ)篇的預(yù)處理、難句識(shí)別及抽取算法和機(jī)器翻譯。這些在目前都還存在一些困難。
首先,要在外文數(shù)字出版中把難句抽取出來(lái)并通過(guò)機(jī)器翻譯自動(dòng)給出翻譯結(jié)果,不僅涉及詞長(zhǎng)、詞頻和句長(zhǎng)的計(jì)算,還需要對(duì)句子結(jié)構(gòu)等進(jìn)行多方面的識(shí)別和判定,因此,需要對(duì)生語(yǔ)料(完成編輯后的書籍原稿文檔)進(jìn)行預(yù)處理,即進(jìn)行詞匯、句法、語(yǔ)義等的分析,添加相應(yīng)標(biāo)注,把生語(yǔ)料變成熟語(yǔ)料。雖然語(yǔ)料庫(kù)的自動(dòng)標(biāo)注技術(shù)已經(jīng)研究多年,有一些效果較好的語(yǔ)料庫(kù)自動(dòng)標(biāo)注工具軟件,但該過(guò)程一般仍然需要人工干預(yù)校正。語(yǔ)料庫(kù)標(biāo)注是一項(xiàng)代價(jià)昂貴的工作[16],需要大量人力、物力和資金,所以在目前的技術(shù)條件下,對(duì)出版的外文讀物生語(yǔ)料庫(kù)進(jìn)行標(biāo)注還是不現(xiàn)實(shí)的。
其次, 除了語(yǔ)料的標(biāo)注,難句抽取還需要根據(jù)高效準(zhǔn)確的難句識(shí)別和抽取算法,開(kāi)發(fā)相應(yīng)的難句抽取軟件工具。目前為止,對(duì)語(yǔ)篇難度(文本難度)進(jìn)行的研究很多,但多數(shù)都是基于文本難度的宏觀度量,對(duì)微觀的諸如語(yǔ)篇的基本組成部分——句子難度度量研究的較少[17],缺乏精確高效的難句抽取算法[18]。endprint
第三,對(duì)于抽取出來(lái)的難句,需要用機(jī)器翻譯方法給出翻譯,而目前的機(jī)器翻譯水平無(wú)法保證難句翻譯的準(zhǔn)確性。
3.2.2 參考傳統(tǒng)文本難度算法及通過(guò)人工干預(yù)實(shí)現(xiàn)難句提取
首先,為了解決語(yǔ)篇預(yù)處理和缺乏準(zhǔn)確高效的難句識(shí)別和抽取算法等問(wèn)題,可以考慮在參考傳統(tǒng)的確定文本難度算法的基礎(chǔ)上,在純文本格式文件中實(shí)現(xiàn)自動(dòng)難句提取,這樣就可以避開(kāi)語(yǔ)篇預(yù)處理問(wèn)題。文本難度(也稱為易讀性),是指文本易于閱讀和理解的程度和性質(zhì)。易讀性依賴于多種因素, 主要包括文章的句子平均長(zhǎng)度、生詞數(shù)和語(yǔ)法復(fù)雜度。英文易讀性的研究始于1920年代,研究者通過(guò)不懈的努力開(kāi)發(fā)出了上百個(gè)易讀性公式[19]。通常易讀性公式使用文本的詞匯難度和句法難度來(lái)判定文本難度,詞匯難度以詞頻和詞長(zhǎng)來(lái)衡量,句子難度以句子的長(zhǎng)度來(lái)衡量。此外,近年來(lái)統(tǒng)計(jì)語(yǔ)言模型被引入易讀性研究中[20],但是在對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理的基礎(chǔ)上進(jìn)行的,這里無(wú)法采用。而傳統(tǒng)的文本難度計(jì)算中的詞匯難度、詞頻和詞長(zhǎng)計(jì)算都可以在純文本格式文件中完成。由云平臺(tái)提供基于傳統(tǒng)文本難度算法的難句抽取軟件工具比較容易,雖然不能達(dá)到完全的抽取率,但大部分難句可提取出來(lái)。
其次,在基于傳統(tǒng)文本難度算法進(jìn)行難句提取時(shí),應(yīng)該注意成語(yǔ)和俗語(yǔ)問(wèn)題。難句一般比較長(zhǎng),但長(zhǎng)句不一定是難句;而含有成語(yǔ)和俗語(yǔ)的句子,有時(shí)雖然短,卻難以理解。因此,可從兩個(gè)方面考慮:首先是句長(zhǎng)和句子中的詞頻因素。句子越長(zhǎng)、其中詞匯難度越大(詞長(zhǎng)、詞頻低),則句子是難句的可能性越大。其次是句中是否包含成語(yǔ)和俗語(yǔ)因素。在文學(xué)類讀物中,成語(yǔ)和俗語(yǔ)較多;在專業(yè)讀物中,也可能用到成語(yǔ)和俗語(yǔ),但非常少。隨著自然語(yǔ)言處理技術(shù)和語(yǔ)料庫(kù)技術(shù)的發(fā)展,成語(yǔ)或俗語(yǔ)電子詞典的建立日趨完善,鑒于成語(yǔ)和俗語(yǔ)對(duì)讀者帶來(lái)的不便,在對(duì)文學(xué)讀物原著進(jìn)行難句抽取時(shí),可增加對(duì)成語(yǔ)和俗語(yǔ)因素的考慮。目前,英語(yǔ)是國(guó)際通用語(yǔ)言,對(duì)文本難度研究最成熟的也是英語(yǔ),因而可嘗試首先在英文讀物中實(shí)現(xiàn)難句的自動(dòng)提取。
第三,對(duì)于通過(guò)文本難度算法提取出來(lái)的難句,由于不能通過(guò)機(jī)器翻譯方法給出準(zhǔn)確的翻譯結(jié)果和句子分析,可根據(jù)讀物特點(diǎn),從減少人力、物力需求的角度選擇不同的人工翻譯策略。對(duì)于文學(xué)作品中抽取出來(lái)的難句,可通過(guò)讀者論壇等方法討論解決;原版教材中的難句可由授課教師或教材引進(jìn)部門組織專家翻譯放到服務(wù)器上提供給學(xué)生,同時(shí)可參考通過(guò)雙語(yǔ)平行語(yǔ)料庫(kù)的信息服務(wù)平臺(tái)等輔助完成翻譯[21]。
第四,從語(yǔ)言水平級(jí)別劃分,外文讀物有很多種類,難句抽取應(yīng)注意從讀物本身的文本難度出發(fā)來(lái)設(shè)計(jì)難句抽取算法,以滿足不同語(yǔ)言水平讀者群的需求。
4 結(jié) 語(yǔ)
人類已經(jīng)進(jìn)入數(shù)字出版時(shí)代,自然語(yǔ)言處理技術(shù)在云平臺(tái)的支持下將能為人們的語(yǔ)言學(xué)習(xí)提供多種服務(wù)。本文僅介紹和探討了最基礎(chǔ)的詞匯和難句抽取服務(wù),且主要是從理念上加以討論,具體實(shí)施還需要出版社、語(yǔ)言學(xué)家和軟件技術(shù)人員的共同努力,并在實(shí)踐中持續(xù)改善。需要注意的是,雖然詞匯和難句提取能對(duì)讀者的閱讀提供幫助,但內(nèi)容和文本難度仍然是外文原著閱讀能否成功的重要因素,出版社平臺(tái)應(yīng)提供外文書籍的內(nèi)容和閱讀難度分級(jí)信息。實(shí)踐證明,外文原著閱讀可以全方位地提高閱讀者的外語(yǔ)水平,教師許連贊 2001年通過(guò)讓學(xué)生閱讀原著的方法使學(xué)生的口語(yǔ)能力受到了外交官的好評(píng)[22],所以,我國(guó)數(shù)字出版如能提供外文原著的詞匯和難句抽取服務(wù),將會(huì)對(duì)我國(guó)外語(yǔ)水平的整體提高產(chǎn)生積極影響。
注 釋
[1][2][10]Jilan Sun. Popularizing vocabulary extraction service on digital publishing platforms[J]. Publishing Research Quarterly, 2012,28:65-72. DOI 10.1007/s12109-012-9255-6
[3]蔡金亭,朱立霞. 認(rèn)知語(yǔ)言學(xué)角度的二語(yǔ)習(xí)得研究:觀點(diǎn)、現(xiàn)狀與展望[J]. 外語(yǔ)研究,2010(1):1-7
[4]李慶燊. 論英語(yǔ)詞匯教學(xué)中的誤區(qū)[J]. 教育與職業(yè),2010(2): 176-177
[5]王淼. 中初水平學(xué)習(xí)者在外語(yǔ)學(xué)習(xí)環(huán)境下的偶遇詞匯學(xué)習(xí)[D]. 上海:上海外國(guó)語(yǔ)大學(xué),2004
[6]李興珊,劉萍萍,馬國(guó)杰. 中文閱讀中詞切分的認(rèn)知機(jī)理述評(píng)[J]. 心理學(xué)進(jìn)展,2011,19(4):459-470
[7]Ted Hill. The Inevitable Shift to Cloud-Based Book Publishing: The Next Step in the Digital Transformation of Book Publishing May be Closer than You Think[J].Publishing Research Quarterly,2012,28:1-7.DOI 10.1007/s12109-011-9249-9
[8]Francis WN,Kucera H. Frequency analysis of English usage: Lex-icon and grammar[M]. Boston: Houghton Mifflin,1982
[9]Breland,H. M. word frequency and word difficulty: A comparison of counts on four corpora[J]. Psychological Science,1996(2):96-99
[11]蔡子亮. 術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù)[J]. 英語(yǔ)科技術(shù)語(yǔ)的翻譯,2005(2):31-32
[12]孫繼蘭. 外文原版教材出版提供詞匯抽取服務(wù)可行性分析[J]. 科技與出版,2013(4):54-57endprint
[13]黃河燕,張克亮,張孝飛. 基于本體的專業(yè)機(jī)器翻譯術(shù)語(yǔ)詞典研究[J].中文信息學(xué)報(bào),2007,21(1): 17-22
[14]劉婷婷. 云南省高職高專非英語(yǔ)專業(yè)學(xué)生英語(yǔ)閱讀理解長(zhǎng)難句的障礙研究及解決方法[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,29(1,上):251-253
[15]何正胤. 高中英語(yǔ)閱讀教學(xué)策略探析[J]. 湘潭師范學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2006,28(2):179-180
[16]常寶寶,俞士汶. 語(yǔ)料庫(kù)技術(shù)及其應(yīng)用[J]. 外語(yǔ)研究,2009(5):43-51
[17]江少敏. 句子難度度量研究[D]. 廈門:廈門大學(xué),2009
[18]Kim,Young-Bum; Kim,Youngjo; Kim,Yu-Seop. Sentence difficulty analysis with local feature space and global distributional difference. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C].v 7425 LNCS,p 716-722,2012,Convergence and Hybrid Information Technology - 6th International Conference,ICHIT 2012,Proceedings.
[19]章辭. 英文易讀性研究: 回顧與反思[J]. 湖南工程學(xué)院學(xué)報(bào),2010,20(3):47-51
[20]邢富坤,程?hào)|元. 基于統(tǒng)計(jì)語(yǔ)言模型的英語(yǔ)易讀性研究[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2010,33 (6): 19-24
[21]王傳英. 基于雙語(yǔ)平行語(yǔ)料庫(kù)的信息服務(wù)平臺(tái)建設(shè)[J]. 圖書館工作與研究,2010(12):79-82
[22]楊衛(wèi)芳,楊蘊(yùn)玉. 輸入、輸出理論與英語(yǔ)口語(yǔ)教學(xué)[J]. 中國(guó)成人教育 ,2007(10):182-183
(收稿日期:2013-06-14)endprint