亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于醫(yī)學領域的漢英子句對齊語料庫檢索系統(tǒng)的設計與實現(xiàn)

2016-04-11 08:20:08王全蕊李艷翠

河南科技學院學報(自然科學版) 2016年6期

關鍵詞：子句檢索系統(tǒng)漢英

王全蕊,李艷翠

（河南科技學院,河南新鄉(xiāng)453003）

基于醫(yī)學領域的漢英子句對齊語料庫檢索系統(tǒng)的設計與實現(xiàn)

王全蕊,李艷翠

（河南科技學院,河南新鄉(xiāng)453003）

漢英平行語料庫檢索系統(tǒng)在自動文摘、問答系統(tǒng)、機器翻譯等領域的重要性越來越突出.為了提高漢英互譯的精確性,系統(tǒng)采用JSP技術作為后臺開發(fā)語言,以MySQL為后臺數據庫,設計并開發(fā)了基于醫(yī)學領域的漢英子句對齊語料庫檢索系統(tǒng).語料庫檢索平臺具有良好的用戶界面,充分利用已有標注結果,滿足用戶在子句層面上的對齊查詢、統(tǒng)計分析等功能.系統(tǒng)既可用于漢英子句的對比、翻譯、教學等研究,為融合子句信息的機器翻譯研究奠定基礎,又可有效的輔助醫(yī)學專業(yè)學生的翻譯教學.

醫(yī)學語料庫；對齊技術；JSP；數據庫；檢索系統(tǒng)

近年來,人們在漢英平行語料庫理論研究的基礎上開發(fā)了相應的語料檢索系統(tǒng),不僅可以用于提高機器自動翻譯的性能,而且能加強機器翻譯中的人機交互.哈工大信息檢索研究機構構建的具有50萬對齊句對的漢英雙語語料庫檢索系統(tǒng),能夠實現(xiàn)句子、短語、詞匯3種粒度上的對齊.中科院計算機技術研究所構建了跨語言語料庫檢索系統(tǒng),數據庫中含有18萬漢英句對,支持漢英句子、句子來源等查詢.當然國內還有很多大規(guī)模的漢英雙語語料庫檢索系統(tǒng),但這些語料庫主要是在篇章、句子或詞匯層面上對齊檢索,而很少有子句的層面上進行對齊檢索和分析的,這就直接影響力漢英互譯的精確性,甚至會出現(xiàn)“斷章取義”的現(xiàn)象.

本文根據醫(yī)學領域的篇章分析任務和語料庫建設實踐,采用JSP技術作為后臺開發(fā)語言,以MySQL為后臺數據庫,設計開發(fā)一個能在子句層面上實現(xiàn)對齊的漢英平行語料庫檢索系統(tǒng),為融合子句信息的機器翻譯研究奠定基礎,又可有效的輔助醫(yī)學專業(yè)英語學生的翻譯教學.

1 相關技術

1.1 語料庫構建技術

在自然語言處理領域中,構建漢英平行語料庫在推動機器翻譯的發(fā)展中發(fā)揮了巨大的作用.文獻[1]通過自動抽取、自動映射加人工標注相結合的方法,構建了可以實現(xiàn)中英文在實體和關系級別上的對齊中英文平行語料庫；文獻[2]提出的基于單詞間粘合度與松弛度的語塊劃分評分方法以及雙語語塊劃分的雙向約束算法,可以提高句子對齊的準確率；當然還有其他的一些理論研究成果[3-7],也都是在句子或詞匯層面上對對齊技術進行分析和研究的.

本文采用文獻[8]中的子句定義,先對漢語醫(yī)學篇章按照“源語優(yōu)先”的對齊策略,進行手工切分.在獲得的413篇醫(yī)學領域的實際語料中,把與典型子句在結構、功能、形式上類似的特殊短語在特定的語境下也作為子句處理.接著對切分后的結果利用對齊標注工具實現(xiàn)篇章子句標注,標注結果保存到數據庫中作為語料庫內容.標注內容包括文獻[9]中給出的子句、連接詞、中心、篇章結構層次等信息.然后通過段落號和段內關系號體現(xiàn)出醫(yī)學語料在子句層面上的對齊關系.

1.2 JSP技術

JSP,全稱為Java Server Pages,中文名叫java服務器頁面,是由SUN公司和其他公司創(chuàng)建的一種網站開發(fā)語言,可以動態(tài)生成HTML、XML或其他各格式文檔的Web網頁,可以將其簡單的理解為是Servlet的另一種表現(xiàn)形式.使用JSP技術開發(fā)檢索平臺具有獨特的優(yōu)勢,能夠保持內容生成和頁面顯示的分離性,使得基于Web的應用程序的開發(fā)變的快速和簡單.通過獲取網頁前端用戶的請求,以特定的Java Beans組件對數據庫進行訪問,并以HTML頁面的形式顯示結果,不僅具備了Java的簡單易用、功能強大、面向對象的優(yōu)點,而且具有平臺無關性與安全可靠性.

1.3 多庫檢索技術

由于醫(yī)學是一個龐大的學科,其中的多個分支還與其他學科有交叉,使得該領域的知識體系較為繁雜,當然所要構建的語料庫也將會非常大.為了使構建的醫(yī)學語料庫具有可擴展性,本檢索系統(tǒng)將數據庫按醫(yī)學的不同學科劃分為多個子數據庫.多個子數據庫可能會存在一定的交叉性,為了確保檢索的一致性和不重復性,采用多庫檢索技術以提高醫(yī)學子句檢索系統(tǒng)的精準率.

利用Web瀏覽器的訪問請求接口,根據每個數據庫的檢索格式將用戶的查詢請求自動生成多個對應的查詢請求,再將查詢請求傳送到對應的數據庫中等待檢索結果的返回,最后當數據庫返回查詢結果時,由系統(tǒng)對結果進行分析綜合并排序,以統(tǒng)一的格式呈現(xiàn)給用戶.

2 系統(tǒng)設計與實現(xiàn)

2.1 系統(tǒng)總體結構設計

在設計的醫(yī)學領域漢英子句對齊語料庫檢索系統(tǒng)中,用戶提交檢索請求,系統(tǒng)會將其請求根據相應的查詢格式進行轉換,并到語料庫中進行全醫(yī)學學科查詢或是分科查詢.當查詢結果返回時,再利用自動對齊功能將所查詢的漢英子句以固定對齊格式顯示在系統(tǒng)頁面上.通過頁面對齊結果,用戶可以對比分析前期所做的手工標注是否規(guī)范、切分規(guī)則是否完善等問題,根據可能存在的問題,用戶可以再次修改手工標注文檔并上傳,更新語料庫.

子句對齊語料庫檢索系統(tǒng)的總體設計圖如圖1所示.

圖1 在線醫(yī)學漢英平行語料檢索系統(tǒng)的總體設計Fig.1 Conceptual diagrams of Chinese-English parallel corpus retrieval system

2.2 系統(tǒng)開發(fā)環(huán)境

在線醫(yī)學漢英平行語料檢索系統(tǒng)采用B/S架構,使用Java語言進行編程,以MyEclipse工具和JSP技術開發(fā),使用MySQL作為系統(tǒng)的后臺數據庫,在Windows平臺上進行系統(tǒng)設計.

2.3 數據庫設計

按照醫(yī)學學科分類,將系統(tǒng)的語料組成12個子數據庫.分別為其建立對應的數據庫物理文件,并將急診科文件作為主數據庫文件,擴展名為MDF,其他為次數據庫文件,擴展名為NDF,然后將這個多個子數據庫文件放在磁盤不同的邏輯盤中,由此可以極大地提高語料庫的檢索速度,并且使得在后期不斷增加醫(yī)學語料時,依然能夠保持高效的檢索效率.

每個醫(yī)學分學科的子數據對應兩個表單,一個是以對應學科名命名的漢語XML文檔,另一個是以對應學科名命名的漢語XML文檔.在進行漢英子句對齊時我們根據前期所做的層次結構標注（StructureType字段）、連接詞標注（ConnectiveType字段）、關系標注（RelationType字段）、角色分布標注（RoleLocation字段）、中心標注（Center字段）等工作建立數據庫表單,見表1.

表1 語料數據庫的表單Tab.1 Form of corpus database

2.4 系統(tǒng)功能描述

檢索系統(tǒng)主要由語料庫、手工切分模塊、自動標注模塊、自動對齊模塊、跨庫檢索模塊和統(tǒng)計分析模塊6大模塊組成.

語料庫主要用于存儲醫(yī)學領域包括內科、外科、神經科、兒科、急診科、家庭醫(yī)學、影像醫(yī)學等12個醫(yī)學學科的英漢子句語料.

手工切分模塊主要是對前期收集到的醫(yī)學12個學科的413篇源語料進行預處理,將其中的一些噪聲去除；然后根據文獻[7]給出的基本篇章單位（子句）的定義對源預料進行切分和手工標注.

自動標注模塊可以實現(xiàn)對手工切分后的12個學科的漢英篇章在子句、連接詞、中心、篇章結構側層次等篇章結構信息進行標注,漢英雙語的對齊關系可通過段落號和段內關系號體現(xiàn).標注結果被保存為XML格式的文件,且漢英雙語標注和切分后的結果各自獨立保存在不同的本地磁盤中,以便后期在擴展數據庫時提高數據庫的查詢速度.

多庫檢索模塊根據用戶提出的請求對各個子數據庫進行檢索并將檢索結果提交給自動對齊模塊,由自動對齊模塊對將根據對齊原則檢索結果對齊后顯示在前端頁面上.

統(tǒng)計分析模塊可以通過圖和表兩種不同的形式顯示英語小句的漢語對齊分析中最小對齊單位出現(xiàn)的頻率和所占百分比.

2.5 漢英子句對齊檢索系統(tǒng)的實現(xiàn)

為了能夠實現(xiàn)醫(yī)學領域篇章漢英子句的全面檢索和有針對性的檢索,該漢英子句對齊語料庫檢索系統(tǒng)可以實現(xiàn)子語料庫檢索,即分學科進行子句對齊查詢.同時各個學科之間會有一定的交叉性,因此為了提高該系統(tǒng)的查全率,還設置了全語料庫檢索,可以在系統(tǒng)中對所有學科進行檢索,如圖2所示.

圖2 系統(tǒng)總語料庫檢索界面Fig.2 Retrieval interface of total system corpus

在檢索頁面用戶既可以提交中文查詢關鍵詞,也可以提交英文查詢關鍵詞.系統(tǒng)通過相應正則表達式匹配對應的漢英查詢條件,然后將查詢條件拼接到SQL語句中進行模糊查詢,其關鍵代碼如下：

該系統(tǒng)具有文件上傳的功能,可以將已標注好的漢英XML語料文檔同時上傳至系統(tǒng),以擴充語料庫內容,幫助用戶獲取更多的信息,對應圖3中的直接上傳模塊；同時還可以將手工切分好的DOC源語料文檔上傳至系統(tǒng),再由系統(tǒng)的自動標注模塊將其轉換為XML文檔保存至語料庫中,對應圖3的間接上傳模塊.

圖3 DOC源語料庫文檔上傳界面Fig.3 Upload interface of DOC source corpus files

上傳DOC源語料文檔之前,用戶需對源語料進行一些預處理,然后再按照切分規(guī)則對篇章進行手工標注,并保存為DOC文檔.通過間接上傳的功能可以利用標注工具將源語料標注為帶有特定格式的XML文檔,并將該文檔保存至指定的目錄下.用戶可以查看該文檔自動標注的結果,如果存在問題,可人工進行適當修改,再保存為XML文檔,并通過直接上傳功能上傳至語料數據庫中.

3 系統(tǒng)測試

3.1 檢索模塊測試

以分科檢索功能為例,在兒科學信息檢索頁面中,設置查詢條件為“患兒”,可將查詢結果快速地返回在頁面的下方,以漢英對照的方式同時顯示,并且能夠顯示漢英子句的切分位置,且以漢語優(yōu)先的規(guī)則對齊英文子句,檢索界面結果如圖4所示.

圖4 兒科子語料庫檢索結果Fig.4 Retrieval results of pediatrics corpus

由圖4可以看出,以“患兒”為關鍵字進行檢索時,系統(tǒng)會將語料庫中包含該關鍵字的所有段落或句子以切分和對齊的形式顯示出來,在此基礎上,可以通過人工排查和統(tǒng)計工具對其中少數切分不合理以及漢英沒有對齊的情況進行進一步的分析和研究.

3.2 統(tǒng)計分析測試

系統(tǒng)可以通過圖和表兩種不同的形式顯示英語小句的漢語對齊分析中最小對齊單位出現(xiàn)的頻率和所占百分比,我們選取兒科的兩篇文檔進行統(tǒng)計分析后的結果如圖5所示.

圖5 英語小句的漢語對齊分析中最小對齊單位出現(xiàn)的頻率和所占百分比Fig.5 Frequency and percentage of atomic alignment unit in the Chinese alignment analysis of English

4 小結

醫(yī)學領域漢英子句對齊語料庫檢索系統(tǒng)能實現(xiàn)在子句層面上進行漢英雙語自動標注和對齊,同時還可以根據提供的關鍵詞檢索相關漢英子句對齊情況,并能根據特定條件進行統(tǒng)計分析.該漢英子句語料庫以及檢索系統(tǒng)既可用于漢英子句的對比、翻譯、教學等研究,為融合子句信息的機器翻譯研究奠定基礎,又可有效的輔助醫(yī)學專業(yè)學生的翻譯教學.

[1]惠浩添,李云建,錢龍華,等.一個面向信息抽取的中英文平行語料庫[J].計算機工程與科學,2015,37（12）：2331-2338.

[2]俞敬松,王惠臨,吳勝蘭.高正確率的雙語語塊對齊算法研究[J].中文信息學報,2015,29（1）：67-74.

[3]宋柔,葛詩利.面向篇章機器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學報,2015,29（5）：125-135.

[4]王嵐,嚴燦勛.軍事英漢漢英平行語料庫建設存在的問題及對策[J].解放軍外國語學院學報,2015,38（5）：33-39.

[5]倪傳斌,魏俊彥,徐曉東,等.基于句子層面的雙語詞匯轉換研究：來自眼動的證據[J].解放軍外國語學院學報,2015,38（1）：19-28.

[6]陳松菁.語料庫在大學英語寫作教學中的應用初探[J].長春大學學報（自然科學版）,2011,21（8）：107-111.

[7]XUE N W,YANG Y Q.Chinese sentence segmentation as comma classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland,2011：631 635.

[8]李艷翠,馮文賀,周國棟,等.基于逗號的漢語子句識別研究[J].北京大學學報（自然科學版）,2013,49（1）：7-14.

[9]LI Y C,FENG W H,SUN J,et al.Building Chinese discourse corpus with connective-driven dependency tree structure[C] //Association for Computational Linguistics（ACL）.2014 Conference on Empirical Methods in Natural Language Processing, EMNLP 2014,Doha,Qatar：2105 2114.

（責任編輯：盧奇）

Design and realization of the Chinese-English clause alignment corpus retrieval system

WANG Quanrui,LI Yancui
（Henan Institute of Science and Technology,Xinxiang 453003,China）

Over recent years,Chinese-English clause alignment corpus retrieval system is more and more important in the field of automatic summarization,question answering system,machine translation and so on.In order to improve the accuracy of the Chinese and English translation,exploiting a small online Chinese-English clause alignment corpus retrieval system in the medical field,using JSP as the foreground and background of the development of language,MySQL database as a background.The corpus retrieval platform has good user interface that can meet the user's query,statistical analysis at the clause level.By building the Chinese-English clause corpus and the retrieval systems that can not only be used for comparison clauses,translation,teaching and research both Chinese and English clause comparison,translation,teaching and research,but also effectively assists medical students in English translation and teaching.

medical corpus；clause alignment；JSP；database；the retrieval system

TP391

1008-7516（2016）06-0057-06

10.3969/j.issn.1008-7516.2016.06.014

2016-10-12

國家自然科學基金（61502149）

王全蕊（1981―）,女,河南新鄉(xiāng)人,碩士,講師.主要從事數據挖掘與信息處理研究.