亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        有道智云翻譯API在圖書館信息服務(wù)中的應(yīng)用研究*

        2019-09-06 07:55:18劉邦國
        圖書情報研究 2019年3期
        關(guān)鍵詞:圖書館語言服務(wù)

        袁 潤 劉邦國 王 丹

        (江蘇大學科技信息研究所 鎮(zhèn)江 212013)

        1 引言

        高校圖書館在開展信息服務(wù)過程中,經(jīng)常遇到翻譯工作。例如,在定題跟蹤、專題報告、文獻計量、競爭情報、研究前沿探測等服務(wù)工作中,有時需要翻譯外文文獻的題名、摘要,也包括國家地區(qū)名稱、機構(gòu)名稱,有時還需要翻譯關(guān)鍵詞、主題詞、研究前沿等學術(shù)詞匯。雖然可以利用的在線翻譯工具很多,但是針對批量的重復性翻譯,工作量仍然顯得比較繁重。隨著技術(shù)的發(fā)展,各種工具已成為圖書館信息服務(wù)的好幫手,學科館員經(jīng)常利用CiteSpace 做文獻計量分析,使用Ucinet 做網(wǎng)絡(luò)分析,采用R 語言做各種統(tǒng)計分析等。因此,開發(fā)一個翻譯工具,以減輕館員工作量,是本文研究的目的所在。

        目前,基于深度學習的神經(jīng)機器翻譯方法獲得迅速發(fā)展,已取代傳統(tǒng)的統(tǒng)計機器翻譯成為學術(shù)界和工業(yè)界新的主流方法,翻譯質(zhì)量得到顯著提升[1]。研究機器翻譯在圖書館信息服務(wù)中應(yīng)用的文獻較少,具有代表性的研究工作是陳江萍[2-3]等對數(shù)字圖書館多語言信息存取和元數(shù)據(jù)記錄的機器翻譯,結(jié)果顯示,機器翻譯系統(tǒng)可以勝任翻譯一些常用的信息存取點,如主題、創(chuàng)建者、標題等,但是對概述或文摘的翻譯仍是一大挑戰(zhàn)。

        有道翻譯API 接口提供的翻譯服務(wù),包含了中英翻譯和小語種翻譯功能,通過編程調(diào)用有道翻譯API,傳入待翻譯的內(nèi)容,并指定要翻譯的源語言和目標語言種類,就可以得到相應(yīng)的翻譯結(jié)果。R 語言是一個自由、免費、源代碼開放的軟件,特別在統(tǒng)計計算和統(tǒng)計繪圖方面具有強大功能,通過編程可以極大地減輕重復性的工作量。本文采用R 語言函數(shù)調(diào)用有道翻譯API,實現(xiàn)了自動翻譯功能,并對翻譯結(jié)果開展了測評研究。

        為保證翻譯與測評過程條理清晰,本研究工作分為四個步驟:第一,整理分類翻譯的內(nèi)容,主要包括題名、摘要、國家、機構(gòu)、研究前沿等;第二,調(diào)用R 語言函數(shù)完成翻譯;第三,從翻譯結(jié)果當中隨機抽樣,生成測評試卷;第四,采用人工測評方法對翻譯結(jié)果打分并寫上評語。研究表明,翻譯結(jié)果基本能夠滿足圖書館信息服務(wù)需求,對專有名詞的翻譯表現(xiàn)最好,對句子、段落的翻譯表現(xiàn)較好,對縮寫詞匯、新生詞匯以及結(jié)構(gòu)過于復雜句子的翻譯欠佳?;赗 語言開發(fā)的翻譯工具在圖書館學科服務(wù)、定題跟蹤、專題報告、科技查新等服務(wù)中得到了應(yīng)用,一定程度上減輕了信息服務(wù)過程中的翻譯工作量。

        2 有道智云API 的自然語言翻譯

        國內(nèi)提供在線翻譯服務(wù)的公司主要有百度和有道,兩者均提供了互聯(lián)網(wǎng)應(yīng)用編程接口。目前,有道智云API 接口可以提供的翻譯服務(wù)主要包含中文在內(nèi)的8 種語言相互翻譯功能,分別是中文、日文、英文、韓文、法文、俄文、葡萄牙文和西班牙文。

        API 是互聯(lián)網(wǎng)服務(wù)應(yīng)用編程接口,直接通過HTTP 協(xié)議與客戶程序進行通信。應(yīng)用程序一般需要執(zhí)行三個步驟:第一步,按要求準備好相關(guān)參數(shù),使用HTTP 協(xié)議調(diào)用接口;第二步,接口對源文數(shù)據(jù)進行機器翻譯,并返回結(jié)果;第三步,按需要的格式提取返回結(jié)果。應(yīng)用程序無需關(guān)心接口處理的細節(jié),這使得第三方可以利用有道翻譯提供更具靈活性的,能夠滿足用戶個性化需求的特色服務(wù),例如,嵌入到瀏覽器、網(wǎng)站或應(yīng)用程序中。

        調(diào)用有道智云API,需要向其傳入待翻譯的內(nèi)容、源語言的種類和目標語言的種類,同時還需要傳入應(yīng)用ID 及其密鑰等參數(shù),若通過接口的認證,就可以得到相應(yīng)的翻譯結(jié)果。這一過程可以分解為三個步驟:構(gòu)建HTTP 請求指令、獲取翻譯結(jié)果、轉(zhuǎn)換翻譯結(jié)果。

        第一步,構(gòu)建HTTP 請求指令。HTTP 請求指令包含7 個變量,如表1所示。

        表1 HTTP 請求指令變量說明

        表1中的前三個變量很好理解,變量q 用來存儲要翻譯的文本,其使用的編碼必須是UTF-8格式;變量from 用來存儲源語言的類型,可以設(shè)置成auto 讓服務(wù)器自動檢測,由于本次僅對英文進行了翻譯測試,故源語言類型為“EN”。變量to用來存儲要翻譯的目標語言。由于有道智云API是一項收費服務(wù),所以需要創(chuàng)建應(yīng)用ID 和密鑰,以便服務(wù)器根據(jù)該ID 提交數(shù)據(jù)的字節(jié)數(shù)來收費。應(yīng)用ID(appKey)及其密鑰(secretKey)需要預(yù)先到有道智云網(wǎng)站申請,步驟如下:①登陸有道智云官網(wǎng),點擊右上角“注冊”按鈕,在注冊頁面(http://ai.youdao.com/register.s)選擇用網(wǎng)易郵箱或者合作賬號,比如QQ、微博和微信登陸,然后完善個人信息,成為開發(fā)者;②登陸有道智云平臺后,點擊“應(yīng)用管理”—>“我的應(yīng)用”—>“創(chuàng)建應(yīng)用”,根據(jù)提示信息,完成應(yīng)用創(chuàng)建;③選擇“自然語言翻譯”—>“翻譯實例”—>“創(chuàng)建實例”,完成實例的創(chuàng)建;④點擊“應(yīng)用管理”—>“我的應(yīng)用”,在應(yīng)用列表找到新需要綁定的應(yīng)用,點擊“綁定服務(wù)”。變量salt 存儲的是一個從1 到65 535 之間的一個隨機數(shù)。簽名變量(sign)需要通過MD5(appKey+q+salt+密鑰)生成。R語言代碼如下:

        構(gòu)建的HTTP 請求指令保存在變量httpClient 當中,其形式如下所示,其含義表示請求有道智云翻譯網(wǎng)站將英文“good”翻譯成中文。

        http://openapi.youdao.com/api?q=good&from=EN&to=zh_CHS&appKey=ff889495-4b45-46d9-8f48-946554334f2a&salt=2&sign=1995882C5064805BC30 A39829B779D7B

        第二步,訪問網(wǎng)站獲取翻譯結(jié)果。本文應(yīng)用R 語言的RCurl 包訪問網(wǎng)頁,返回JSON 格式的結(jié)果。將HTTP 請求指令代入RCurl 包的getURL函數(shù)即可得到Web 服務(wù)器返回的結(jié)果,用R 語言表示就是以下一條指令。

        URI <- getURL(httpClient)

        變量URL 當中存放的是服務(wù)器返回的JSON 格式的翻譯結(jié)果。JSON 是一種輕量級的數(shù)據(jù)傳輸格式,能夠在多種語言之間進行數(shù)據(jù)交換,具有簡潔和易于使用的特點,在Web 開發(fā)中得到廣泛應(yīng)用。JSON 有對象和數(shù)組兩種主要形式。對象是一個無序的“名稱/值”對集合,如圖1所示。一個對象以“{”開始,以“}”結(jié)束,每個“名稱”后跟一個“:”,“名稱”使用雙引號括起來,名稱的每個“值”之間使用“,”將其分隔。數(shù)組是值的有序集合,如圖2所示。一個數(shù)組以“[”開始,以“]”結(jié)束,值之間使用“,”將其分隔[4]。

        圖1 JSON 對象格式

        圖2 JSON 數(shù)組格式

        圖3 返回的JSON 格式的結(jié)果

        翻譯結(jié)果的JSON 格式示例如圖3所示。Web 服務(wù)器端在處理客戶端的HTTP 請求時,將處理結(jié)果“序列化” (Serialization),即將對象狀態(tài)轉(zhuǎn)換為可保持或傳輸?shù)母袷降倪^程,然后傳輸?shù)娇蛻舳?。由于這種序列化的數(shù)據(jù)格式不便于閱讀,所以客戶端需要執(zhí)行“反序列化”操作,這就是接下來的第三步,將“數(shù)據(jù)流”轉(zhuǎn)換為“數(shù)據(jù)對象”。

        第三步,轉(zhuǎn)換翻譯結(jié)果。JSON 是JavaScript Object Notation 的縮寫,在R 語言環(huán)境中可以使用rjson 包中的fromJSON 函數(shù)將JSON 文件轉(zhuǎn)換成R 語言的list 對象,指令如下。

        obj <- fromJSON(URI)

        數(shù)據(jù)對象obj 是一個包含10 個元素的列表結(jié)構(gòu),如表2所示。

        表2 翻譯結(jié)果數(shù)據(jù)對象結(jié)構(gòu)

        從表2可見,如果要獲取翻譯結(jié)果,可以直接通過obj$translation 指令操作,其它字段信息可以根據(jù)應(yīng)用需要,有選擇性地利用,例如,根據(jù)obj$ errorCode 代碼處理出錯信息等。

        本文使用的R 語言版本為R3.4.1,使用到的主要貢獻包(package)有4 個:digest 包,通過digest()函數(shù)對sign 進行md5 算法加密完成數(shù)字簽名,數(shù)字簽名是一種非對稱加密的認證模式,其目的是為了讓接收方(服務(wù)器)確認發(fā)送方的信息是否被篡改,這也是服務(wù)器常用的一種保證數(shù)據(jù)安全的方式;RCurl 包,通過包內(nèi)getURL()函數(shù)獲取拼接后的URL 地址返回的網(wǎng)頁內(nèi)容,通過這個包可以實現(xiàn)向服務(wù)器發(fā)送翻譯請求后再接收服務(wù)器返回的相關(guān)數(shù)據(jù),該數(shù)據(jù)內(nèi)的元素如表2中所示;rjson 包,通過包內(nèi)fromJSON()函數(shù)讀取JSON 并解析成R 語言能夠識別的list 結(jié)構(gòu),目的是為了讓非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,再按需對list 對象中的翻譯結(jié)果、語音朗讀等具體內(nèi)容進行展示。

        3 翻譯結(jié)果測評

        機器翻譯結(jié)果測評就是對給定翻譯系統(tǒng)生成譯文的質(zhì)量進行量化的評價,一般分為人工測評與自動測評兩類[5]。其中,人工測評是根據(jù)測評者的主觀判斷對翻譯結(jié)果進行打分,該方法容易操作,也較為成熟,測評結(jié)果一般比較準確,但成本較高,周期較長。

        人工測評的標準隨著機器翻譯的發(fā)展進步和時間的推移,在描述上產(chǎn)生了一些變化。最早的人工測評可以追溯到1966年,分為“可理解性”和“保真度”兩個標準[6-7]??衫斫庑灾傅氖欠g后內(nèi)容應(yīng)使人能夠理解,保真度指的是翻譯后的內(nèi)容能夠真實還原原意。到90年代后,ARPA 提出了“忠實度”和“流利度”兩個標準[6,8],這也是90年代至今都應(yīng)用較為廣泛的人工測評指標[9],忠實度指的是譯文是否如實表達原文的意思,流利度指的是語句是否流暢通順[10]。2000年后也出現(xiàn)過其它一些人工測評標準,但其實質(zhì)是基于忠實度和流利度兩個標準的補充。2010年,LDC(語言學數(shù)據(jù)協(xié)會)制定了以流利程度(fluency)和充分程度(adequacy)為機器翻譯人工測評指標[3]。

        本文通過R 語言自編函數(shù)完成了一批翻譯工作,包括ESI 學科分析過程中涉及的150 多個國家或地區(qū)的名稱,5 465 個機構(gòu)名稱,8 683個研究前沿的翻譯,還包括1 萬余篇論文題名和摘要的翻譯,從各項的翻譯結(jié)果中隨機抽樣并按一定標準生成試卷后進行測評。

        測評借鑒孫連恒等[11]的方法和測評標準,我們聘請了四位具有博士學位且從教多年的英語教師對翻譯結(jié)果打分并給出相關(guān)評語。實際操作時,針對“國家名稱、機構(gòu)名稱、研究前沿、論文題名、論文摘要”等5 個類別,隨機抽取翻譯結(jié)果組成試卷。每張試卷的總分設(shè)為100 分,按照題量為4:4:4:4:1,分值為1:1:1:1:4 的比例隨機生成。前4 類每一類題量為4,每題5 分,這5 分全部來自充分程度的得分;論文摘要題量為1,每題20 分,這20 分中流利程度和充分程度各占10分。之所以對前4 類只進行充分程度的評分,是因為考慮到這四類的內(nèi)容都是單詞、詞組或者名詞性短語、非完整句組成,所以對于國家、機構(gòu)、前沿和題名只做充分程度的測評,對于摘要則進行流利程度和充分程度的測評,具體標準如表3所示。

        表3 流利程度和充分程度分值及含義

        四位測評員根據(jù)以上測評標準,對翻譯結(jié)果進行人工測評打分。測評過程要求單獨進行,且所有內(nèi)容須在2 小時內(nèi)完成,測評結(jié)果如表4所示。

        表4 四位測評員的測評結(jié)果

        表4為四位測評員的測評結(jié)果,其中“/”左側(cè)為該項得分,右側(cè)為該項總分。將各項標準差進一步處理,假設(shè)每一項總分均為5 分,最大的標準差也僅為0.645,表明各項翻譯得分較為穩(wěn)定。

        國家名稱、機構(gòu)名稱、研究前沿、論文題名、論文摘要這五項各20 分的翻譯內(nèi)容里,國家、前沿、題名這三項平均得分均大于14.5,單題平均也都都超過了3.6 分,在充分程度上均可以達到基本表達主要意思及以上的效果,尤其是研究前沿的翻譯上,單題得分接近4 分,效果最好。而在機構(gòu)名稱的翻譯上,有兩位測評員給出了12 分以下的分數(shù),最低的一位評測員該項只給出了9 分,平均一題僅得2.25 分,這也是導致平均分低于12 分的原因所在,進而分析這兩項得分較低的翻譯內(nèi)容,發(fā)現(xiàn)是由于機構(gòu)名稱的縮寫所致。

        論文摘要得分上,“/”左側(cè)的得分包含了流利程度和充分程度,各占該項總分20 分的一半,得分可以看出充分程度和流利程度差別并不是很大,且充分程度得分均小于流利程度,這和對翻譯內(nèi)容分析后的結(jié)果相同,在句子段落的翻譯上,有道智云往往是流利度優(yōu)先,少數(shù)情況會出現(xiàn)個別單詞的漏譯或誤譯。在平均分上也達到了12 分,平均單題獲得3 分,總體達到基本通順。

        接著我們分析了4 位測評員對試卷打分后給出的評語,并對每位測評員的觀點進行了總結(jié)。測評員A 認為,可以正確翻譯摘要中的主要單詞和短語,部分單句不符合漢語的語法規(guī)則;測評員B 認為,譯文可以為科研人員提供輔助性的理解,但與人工翻譯仍存在差距;測評員C 認為,根據(jù)翻譯的基本原則和要求,即忠實原文的基礎(chǔ)上可以達到通順,但倘若用于學術(shù)、商業(yè)、法律、外教、文化交流等方面的翻譯,后期的人工編輯(糾錯)非常重要;測評員D 認為,基本通順,但存在不符合漢語語法規(guī)則的單句,句子之間的邏輯關(guān)系有待加強。

        4 翻譯服務(wù)在圖書館信息服務(wù)中的推廣應(yīng)用

        本文是實際工作的總結(jié),用R 語言開發(fā)的工具在學科信息、文獻檢索、科技查新等服務(wù)中得到了應(yīng)用,取得了預(yù)期效果,較大的減輕了館員的人工翻譯工作量。

        2015年,國家將“雙一流”建設(shè)寫入“十三五”規(guī)劃,作為高等教育發(fā)展的一項重要決策[12]。在遴選一流學科中,ESI 成為一項重要指標,這使得全國高校開始追蹤ESI 學科排名,圖書館開展的相關(guān)服務(wù)工作量顯著增加,這其中就包括了ESI 高被引論文題錄信息的翻譯。由于ESI 每兩個月更新一次數(shù)據(jù),分析工作呈現(xiàn)出重復性特征,非常適合采取工具軟件輔助完成分析任務(wù),以提高工作效率。本文利用R 語言編寫的計量分析軟件不但可以進行統(tǒng)計分析,還可以對原始文獻的相關(guān)內(nèi)容提供翻譯,這既能滿足學者的學術(shù)信息需求,也能滿足科研管理部門的宏觀信息需求,翻譯工具對基于ESI 的學科服務(wù)發(fā)揮了輔助作用,為高校學科建設(shè)和科研活動提供更有價值的參考。

        科技查新是我國高校圖書館的一項特色工作,最早可以追溯到1980年[13],其目的是查證科研課題或成果的新穎性[14]??萍疾樾峦ǔI婕爸杏⑽臋z索,查全率和查準率是其關(guān)鍵指標。查新員經(jīng)常需要翻譯中英文專業(yè)術(shù)語,還需要大量閱讀檢索結(jié)果,這對圖書館員是一大挑戰(zhàn),目前通常應(yīng)用“取詞翻譯”和“劃詞翻譯”工具輔助閱讀外文文摘。事實上,可以在科技查新的過程中嵌入翻譯工具,自動翻譯文摘,提高查新員閱讀外文文獻的效率。

        此外,高校圖書館在定題跟蹤、專題報道、科技情報編譯等信息咨詢服務(wù)中,有時也需要提供翻譯工作,開發(fā)一個翻譯工具,有助于提高圖書館信息服務(wù)效率和水平。

        5 結(jié)語

        基于4 位測評員的打分和評語,測評員們普遍認為在國家名稱、研究前沿、論文題名的翻譯上,有道智云在大多數(shù)文本翻譯上已經(jīng)達到“信達雅”中“信”的基本水平,尤其是研究前沿等片段性的文本翻譯效果最好,滿足了圖書館在信息咨詢服務(wù)中使用機器翻譯替代人工翻譯提高效能的要求。在摘要這類長文本的翻譯上,測評員們認為盡管上下文中還會出現(xiàn)不合乎邏輯順序的問題,單句也會存在不符合語法規(guī)則的情況,但絕大多數(shù)情況下可以較好的翻譯句中主要單詞和短語,在忠實原文的基礎(chǔ)上達到基本通順。這依然表明了片段性文本內(nèi)容的翻譯在目前看來已對機器翻譯產(chǎn)生不了大的難度,也證明了有道智云API 提供的翻譯功能在圖書館信息咨詢中是有價值的,并且在科研工作中也可以提供一定程度上輔助性的幫助。而要達到為科研工作者提供更為有效的幫助,還是建議要把機器翻譯和人工翻譯結(jié)合起來,各取所長,在進行高效的機器翻譯后有針對性的對部分內(nèi)容進行人工校正和潤色。同時,本文的研究存在一定局限,僅對英文進行了翻譯測試,未開展多語種測試分析,今后可進一步開展其他語種的測試分析。

        綜上所述,本文既驗證了陳江萍[2]提到的文摘翻譯仍然存在挑戰(zhàn)以及人工打分主觀性較高導致了同一標準下得分的一致性較低的情況,又增加了其文中機器翻譯沒有實現(xiàn)的批量化、自動化的功能。圖書館在提供信息咨詢服務(wù)時,要翻譯的內(nèi)容存在很大一部分是片段性的文本,諸如關(guān)鍵詞、研究前沿、摘要等。R 語言調(diào)用有道智云API 所提供的批量化、自助化的翻譯服務(wù)是可以完成這些工作中的大多數(shù)內(nèi)容,從而也是可以解決信息咨詢服務(wù)中館員工作量大、效率低的問題。并且利用R 語言的便利性,可以很方便的對文獻數(shù)據(jù)進行文獻計量操作。

        機器翻譯作為人工智能具體研究方向之一,發(fā)展至今依然存在很大的前景和上升空間,隨著神經(jīng)機器翻譯等各類相關(guān)技術(shù)的不斷發(fā)展,各類方法的不斷優(yōu)化,未來機器翻譯可以更加完善,服務(wù)更多的用戶。

        猜你喜歡
        圖書館語言服務(wù)
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        讓語言描寫搖曳多姿
        招行30年:從“滿意服務(wù)”到“感動服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        累積動態(tài)分析下的同聲傳譯語言壓縮
        飛躍圖書館
        我有我語言
        国产精品午夜爆乳美女视频| 国产女人精品一区二区三区| 国产精品一区二区黑丝| 色一情一乱一伦| 亚洲日韩欧美国产高清αv| 无码AV午夜福利一区| 亚洲白嫩少妇在线喷水 | 日本加勒比一区二区在线观看| 自拍偷自拍亚洲精品第按摩| 国产av麻豆mag剧集| 狠狠色噜噜狠狠狠97影音先锋| 午夜男女视频一区二区三区| 美女下蹲露大唇无遮挡| 人妻有码中文字幕| 亚洲最大成av人网站| 护士奶头又白又大又好摸视频 | 亚洲中久无码永久在线观看同| 国产69精品一区二区三区| 亚洲av调教捆绑一区二区三区| 亚洲亚洲人成综合丝袜图片| 美女大量吞精在线观看456| 中文字幕亚洲区第一页| 国产成人综合精品一区二区| 成年女人色毛片| 国产美女在线精品亚洲二区| 一区二区三区视频偷拍| 丰满人妻熟妇乱又仑精品| av无码免费永久在线观看| 亚洲国产AⅤ精品一区二区不卡| 亚洲免费在线视频播放 | 久久亚洲私人国产精品| 亚洲精品日本| 99久久国产精品免费热| 青草内射中出高潮| 亚洲av日韩aⅴ无码电影| 精品人妻av区二区三区| 亚洲精品久久激情国产片| 日本亚洲国产一区二区三区| 久久久2019精品视频中文字幕| 激情在线一区二区三区视频| 人人妻人人爽人人澡人人|