亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        跨語言信息檢索中的語義關(guān)聯(lián)研究

        2016-05-14 09:15:44司莉賈歡
        新世紀(jì)圖書館 2016年6期

        司莉 賈歡

        摘 要 論文探討了跨語言信息檢索中語義關(guān)聯(lián)的5種方法技術(shù),包括同義及近義關(guān)系推薦、概念中間語言、非翻譯方法、術(shù)語抽取技術(shù)、多語本體,并探究各種方法技術(shù)的適用性。以上方法技術(shù)通過實現(xiàn)查詢詞與檢索文檔在概念層次上的匹配,實現(xiàn)跨語言信息檢索中的語義關(guān)聯(lián),為后期跨語言信息檢索系統(tǒng)構(gòu)建中的語義關(guān)聯(lián)實現(xiàn)提供借鑒。

        關(guān)鍵詞 跨語言信息檢索 語義關(guān)聯(lián) 本體 主題圖

        分類號 G254.90

        DOI 10.16810/j.cnki.1672-514X.2016.06.010

        Abstract This paper discusses 5 kinds of methods and techniques about cross-language information retrieval, including synonymous relationship recommendation, concept of intermediate language, untranslated method, term extraction technology, and multilingual ontology. Their applicabilities are also explored. These methods and techniques can implement semantic relevance in cross-language information retrieval by matching queries and retrieve documents on the conceptual level, so as to provide reference for semantic association implementation in cross language information retrieval system.

        Keywords Cross-language information retrieval. Semantic association. Ontology. Topic maps.

        0 引言

        語義關(guān)聯(lián)是語義數(shù)據(jù)模型中實體之間二維關(guān)系的知識表示形式,即實體之間的復(fù)雜關(guān)系[1]?;ヂ?lián)網(wǎng)用戶與信息資源的多語言化、互聯(lián)網(wǎng)信息資源的語義化是目前互聯(lián)網(wǎng)發(fā)展的明顯趨勢[2]。用戶使用母語或熟悉的語言檢索出不同語種相關(guān)信息的跨語言信息檢索應(yīng)運而生。在語義關(guān)聯(lián)方面,傳統(tǒng)的信息檢索多使用查詢詞與文檔相匹配方法檢索用戶所需結(jié)果,因用戶使用查詢詞相對自由,以及語言中存在一詞多義、一義多詞等現(xiàn)象,使得此種字符級匹配的檢索方法容易漏檢或檢出冗余信息。“世界科學(xué)跨語言檢索平臺WorldWideScience”[3]雖能夠?qū)崿F(xiàn)多語言信息檢索功能,但其仍是通過檢索式與文獻之間的關(guān)鍵詞匹配完成檢索,語義關(guān)聯(lián)體現(xiàn)仍不充分。通過語義關(guān)聯(lián)便于系統(tǒng)理解用戶的檢索用途,有助于用戶快速定位并利用相關(guān)知識,提高信息的檢索效率。本文主要從方法和技術(shù)角度出發(fā),探討跨語言信息檢索中的語義關(guān)聯(lián)的實現(xiàn)。

        1 跨語言信息檢索中的語義關(guān)聯(lián)方法及技術(shù)

        當(dāng)前,實現(xiàn)跨語言信息檢索中語義關(guān)聯(lián)的方法和技術(shù)主要有同義及近義關(guān)系推薦、概念中間語言、非翻譯方法、術(shù)語抽取技術(shù)、多語本體。

        1.1 同義及近義關(guān)系推薦

        同義及近義關(guān)系推薦方法能幫助用戶擴展與提問式有語義關(guān)系的同義詞及近義詞,提高查全率。如在跨語言信息檢索中常用的語言轉(zhuǎn)換策略——提問式檢索中,先將源語言的提問式翻譯為目標(biāo)語言,再在目標(biāo)語言文檔中進行檢索,返回給用戶的檢索結(jié)果是目標(biāo)語言。在提問式檢索中,用戶輸入的檢索詞較短,可能會遺漏相同意義或相近意義的關(guān)鍵詞,導(dǎo)致查全率不高。系統(tǒng)后臺可將多語種的同義詞或近義詞關(guān)聯(lián)起來,如以英漢對齊詞典為知識庫、以等值翻譯詞對為知識表示形式,對中文術(shù)語和英文翻譯進行雙向推導(dǎo)(利用多部英漢翻譯詞典,首先選擇中文術(shù)語C作為入口詞,推導(dǎo)出C的英語翻譯為E,再將E翻譯成中文C1,完成第一次同義推導(dǎo);之后將C1翻譯成英文E1,再將E1翻譯為中文C2,完成第二次推導(dǎo)),統(tǒng)計中文詞的出現(xiàn)頻率,對C2的權(quán)值進行統(tǒng)計,計算出C1的權(quán)值,按權(quán)值的高低排序,推算出C的同義詞C1[4],再將同義詞翻譯為目標(biāo)語言進行查詢,具體步驟如圖1所示。

        1.2 概念中間語言

        概念中間語言有助于不同語種之間的映射,從而實現(xiàn)不同語種詞匯之間的語義關(guān)聯(lián)。其主要用于不能直接進行翻譯的語種。一般選擇應(yīng)用廣泛的英語作為概念中間語言。概念中間語言能確保各種語言的文獻和提問式在概念層次進行匹配[5]。在此,以Cindor為例說明使用概念中間語言實現(xiàn)跨語言概念匹配的過程。Cindor系統(tǒng)支持英語、法語、西班牙語、德語、意大利語、日語6種語言。將每個概念用一個同義詞群synset來表示,將其他語言的詞匯鏈接到表示他們所表達的概念對應(yīng)的synset編號上,方便概念之間的匹配,如若法語為母語,選擇法語檢索詞“F”,系統(tǒng)將“F”與中間語言英語進行匹配,找到對應(yīng)的英文詞匯“E”,“E”的編號為“N”,之后可以檢索出編號為“N”的其他語種詞匯,再在各個目標(biāo)文檔中進行檢索,返回相關(guān)信息,完成跨語言信息檢索[6]。如圖2所示。

        1.3 非翻譯方法

        非翻譯方法是指不對查詢語言或目標(biāo)語言進行翻譯就能實現(xiàn)跨語言信息檢索。基于偏最小二乘理論的中間語義的跨語言信息檢索方法就是一種非翻譯方法[7]。其不對查詢或者目標(biāo)文獻進行翻譯,而是通過建立兩種語言的平行語料庫,將兩種語言都投影到一個更小的語義空間,并建立好對應(yīng)的中間語義對,實現(xiàn)語義關(guān)聯(lián),此種方法避免了對查詢語言或目標(biāo)語言進行翻譯過程中導(dǎo)致的語義偏離。針對兩種以上的語言,亦可通過這種方法實現(xiàn)多語言之間的跨語言信息檢索,如構(gòu)建中法跨語言信息檢索模型,其實現(xiàn)過程是在中英平行語料庫和蒙特利爾大學(xué)提供的英法平行語料庫基礎(chǔ)上,先對雙語語料庫的文檔進行分析建模,建立了中英、英法跨語言信息檢索模型,并利用英語作為過渡語言,實現(xiàn)了中法跨語言信息檢索模型的構(gòu)建[8]。

        1.4 術(shù)語抽取技術(shù)

        多語術(shù)語抽取可實現(xiàn)不同語種概念之間的匹配,實現(xiàn)跨語言信息檢索中的語義關(guān)聯(lián)。目前,可通過構(gòu)建語料庫實現(xiàn)雙語術(shù)語抽取。語料庫是指由大量經(jīng)過整理的文本形成的具有既定格式與標(biāo)記的文本集[7]?;谡Z料庫的方法主要為基于平行語料庫和可比語料庫兩種方法[2]。第一種,利用平行語料庫進行雙語核心術(shù)語抽取。將專業(yè)領(lǐng)域文檔的關(guān)鍵詞作為候選核心術(shù)語,利用中文和英文的專業(yè)領(lǐng)域分類語料,通過關(guān)鍵詞抽取、術(shù)語度計算等關(guān)鍵技術(shù),分別進行中文和英文的核心術(shù)語的識別;接著,以中英文專業(yè)領(lǐng)域平行語料為基礎(chǔ),利用雙語對齊技術(shù),自動生成中英文對照的雙語核心術(shù)語列表,實現(xiàn)中英雙語核心術(shù)語對的抽取[9]。第二種,利用可比語料庫抽取中英雙語術(shù)語對,在給定的主題領(lǐng)域下,選取中英文專業(yè)語料,從中分別獲取中英文關(guān)鍵詞,根據(jù)詞語共現(xiàn)統(tǒng)計獲取該主題領(lǐng)域的其他相關(guān)關(guān)鍵詞;以這些關(guān)鍵詞作為查詢?nèi)肟?,通過學(xué)術(shù)搜索引擎從網(wǎng)絡(luò)獲取候選可比語料;對可比語料進行定量評估,以剔除不符合要求的語料,最終得到特定主題領(lǐng)域的可比語料庫,實現(xiàn)中英雙語術(shù)語對的抽取[10]。

        1.5 多語本體

        本體能夠很好地描述概念的內(nèi)涵及概念間關(guān)系,具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持。多語本體是本體在不同語種中的具體表現(xiàn)形式,利用多語本體構(gòu)建領(lǐng)域知識,能減少不同語言轉(zhuǎn)換過程中的語義損失和曲解[11]。在多語本體庫構(gòu)建中,引入了同義詞規(guī)范,使各語種的概念之間能夠相互對照[12]。多語本體將源語言與目標(biāo)語言的對應(yīng)實例統(tǒng)一在本體概念下,當(dāng)用戶用源語言輸入一個查詢式,系統(tǒng)在源語言本體庫中找到其對應(yīng)的概念,然后映射到目標(biāo)語言本體庫,找出對應(yīng)的實例反饋給用戶。在此過程中,對查詢表達和檢索對象進行語義標(biāo)注是利用多語本體實現(xiàn)語義關(guān)聯(lián)的重要環(huán)節(jié)[6]。以下是使用查詢表達和檢索對象進行語義標(biāo)注的過程。(1)在查詢表達的語義標(biāo)注中,采用遍歷的方法,將查詢用詞與源語言本體庫中對應(yīng)的本體術(shù)語以及相關(guān)的概念術(shù)語建立映射,再通過源語言本體庫與目標(biāo)語言本體庫已建立的概念映射關(guān)系,最終將查詢用詞轉(zhuǎn)換為目標(biāo)語言概念術(shù)語。(2)在檢索對象的語義標(biāo)注中,從目標(biāo)文檔中抽取特征詞匯,根據(jù)詞匯的統(tǒng)計詞頻或者文檔創(chuàng)建者賦予的標(biāo)志,為每個特征詞賦權(quán)值,以表示它們在檢索中的重要程度。通過本體庫的查詢,查看本體中的每個術(shù)語的每一種語義,看其是否存在于已抽取出的特征詞匯中,從而把文檔(帶有權(quán)值信息)作為該領(lǐng)域本體的一個實例與領(lǐng)域本體關(guān)聯(lián)起來。

        此外,主題圖屬于一種簡單的本體,在揭示語詞概念之間的語義關(guān)系和多語言支持方面具有優(yōu)越性[13]。它是一種用于描述信息資源知識結(jié)構(gòu)的元數(shù)據(jù)格式,可以定位某一知識概念所在的資源位置,也可以表示知識概念間的相互聯(lián)系。主題圖克服了簡單字符級匹配的缺陷,能夠?qū)崿F(xiàn)語義檢索。主要由主題、資源實體及關(guān)聯(lián)性三部分組成[14]。夏立新和王忠義提出基于主題圖的跨語言檢索模型[13],其實現(xiàn)語義關(guān)聯(lián)的過程為:先通過分別提取中文信息資源和英文信息資源中的元數(shù)據(jù),在主題圖模板和規(guī)則文檔的支持下生成中文主題圖和英文主題圖,將中文主題圖翻譯為漢英雙語主題圖,將漢英雙語主題圖與中文主題圖合并,對合并后的主題圖中未經(jīng)翻譯的漢語主題進行翻譯,最終生成綜合的漢英雙語主題圖,實現(xiàn)使用中文或英文任一語種的提問式檢索,均可獲得兩種語言的相關(guān)信息。

        2 語義關(guān)聯(lián)方法技術(shù)的適用性

        筆者對實現(xiàn)跨語言信息檢索中語義關(guān)聯(lián)的5種方法和技術(shù)的適用性進行了分析,如表1所示。

        在跨語言信息檢索語義關(guān)聯(lián)實現(xiàn)的過程中,以上方法和技術(shù)并非完全獨立,可互相結(jié)合或與其他技術(shù)結(jié)合使用。如可考慮將概念中間語言與本體技術(shù)、非翻譯方法與平行語料庫、術(shù)語抽取技術(shù)與詞共現(xiàn)技術(shù)相結(jié)合實現(xiàn)跨語言信息檢索中的語義關(guān)聯(lián)。(1)將概念中間語言與本體技術(shù)相結(jié)合。基于本體的跨語言信息檢索的關(guān)鍵技術(shù)是多語本體庫的相互映射,映射的關(guān)鍵在于利用中間語言來規(guī)范多語本體庫中的概念,使源語言與目標(biāo)語言內(nèi)涵表達一致,并根據(jù)含義建立多語映射。如Cindor系統(tǒng)采用中間語言翻譯技術(shù)來實現(xiàn)跨語言檢索,以多語本體作為其跨語言轉(zhuǎn)化的核心機制[5]。(2)非翻譯方法與平行語料庫相結(jié)合。基于偏最小二乘理論的中間語義的跨語言信息檢索屬于非翻譯方法,其是通過建立好的中英文平行語料庫,將兩種語言都投影到一個更小的語義空間中,并建立好對應(yīng)的中間語義對。利用對應(yīng)的中間語義對,在這個中間語義空間中計算查詢和文檔直接的相似度,實現(xiàn)CLIR。(3)術(shù)語抽取技術(shù)與詞共現(xiàn)技術(shù)相結(jié)合。在使用可比語料庫進行雙語術(shù)語對抽取時,需要使用到詞語共現(xiàn)技術(shù),用于獲取領(lǐng)域內(nèi)相關(guān)的關(guān)鍵詞。

        3 結(jié)語

        本文探討了跨語言信息檢索中語義關(guān)聯(lián)的方法和技術(shù),以及這些方法技術(shù)的適用性。主要包括如下5種方法技術(shù):同義及近義關(guān)系推薦、概念中間語言、非翻譯方法、術(shù)語抽取技術(shù)、多語本體。同義及近義關(guān)系推薦方法能幫助用戶擴展與提問式有語義關(guān)系的同義詞及近義詞;概念中間語言通過選擇英語作為中間語言完成不同語種之間的映射,實現(xiàn)不同語種詞匯之間的語義關(guān)聯(lián);非翻譯方法(指基于偏最小二乘理論的中間語義的跨語言信息檢索方法)通過建立各語言的平行語料庫,將各語言都投影到一個更小的語義空間,并建立好對應(yīng)的中間語義對,實現(xiàn)語義關(guān)聯(lián);多語術(shù)語抽取通過平行語料庫與可比語料庫抽取不同語種的核心術(shù)語對;多語本體將源語言查詢詞映射到源語言本體中,再通過源語言本體與目標(biāo)語言本體的映射關(guān)系,查找出與查詢詞對應(yīng)的目標(biāo)語言概念。以上方法技術(shù)不局限于傳統(tǒng)檢索中字符級的匹配,而是提升到概念匹配的層次,將這些方法技術(shù)應(yīng)用到跨語言信息檢索系統(tǒng)中,能更好地實現(xiàn)跨語言信息檢索中的語義關(guān)聯(lián)。

        參考文獻:

        [ 1 ] 鄭清照.基于Linked Open Data的語義關(guān)聯(lián)發(fā)現(xiàn)及其應(yīng)用[D].杭州:浙江大學(xué),2010.

        [ 2 ] 章成志,王惠臨.面向數(shù)字圖書館應(yīng)用的多語言領(lǐng)域本體學(xué)習(xí)研究[J].圖書情報工作,2011,55(2):11-15,94.

        [ 3 ] World Wide Science[EB/OL].[2015-01-15].http://wo-

        rldwidescience.org/.

        [ 4 ] 宋培彥,李靜靜,趙星.跨語言術(shù)語同義關(guān)系推薦方法及其實證[J].現(xiàn)代圖書情報技術(shù),2013(5):40-45.

        [ 5 ] 吳丹.本體驅(qū)動的跨語言信息檢索研究[J].現(xiàn)代圖書情報技術(shù),2006(5):22-26,85.

        [ 6 ] 吳丹,王惠臨.本體在跨語言信息檢索中的應(yīng)用機制研究[J].圖書情報工作,2006,50(9):10-13.

        [ 7 ] 黃國斌,王明文,葉浩.一種新的基于中間語義的跨語言信息檢索模型[J].中文信息學(xué)報,2009(2):77-82.

        [ 8 ] 鄒小芳.基于潛在中間語義的多語言信息檢索研究[D].南昌:江西師范大學(xué),2009.

        [ 9 ] 章成志,王惠臨.基于專業(yè)領(lǐng)域平行語料的雙語核心術(shù)語抽取研究[C]//北京語言大學(xué).中國計算機語言學(xué)研究前沿進展(2007-2009).第十屆全國計算語言學(xué)學(xué)術(shù)會議,2009.358-363.

        [10] 康小麗,章成志.用于雙語術(shù)語抽取的專業(yè)領(lǐng)域中英文可比語料庫構(gòu)建[J].現(xiàn)代圖書情報技術(shù),2012(2):28-33.

        [11] 郝嘉樹,王惠臨,劉耀.基于本體的跨語言信息檢索模型和關(guān)鍵技術(shù)研究[J].情報科學(xué),2009(2):271-275.

        [12] 劉偉成,孫吉紅.多語言本體構(gòu)建及其在跨語言信息檢索中的應(yīng)用[J].武漢科技大學(xué)學(xué)報(社會科學(xué)版),2008,10(4):73-76,98.

        [13] 夏立新,王忠義.基于主題圖的英漢跨語言檢索模型構(gòu)建[J].圖書情報工作,2008,52(11):70-74.

        [14] 艾丹祥,張玉峰.利用主題圖建立概念知識庫[J].圖書情報知識,2003(2):48-50,53.

        胳膊肘上有白色的小疙瘩| 亚洲日韩国产精品乱-久| 成熟丰满熟妇高潮xxxxx| 在线成人tv天堂中文字幕| 久久2020精品免费网站| 女人被狂躁的高潮免费视频| 国产伦久视频免费观看视频| 久久精品国产亚洲AⅤ无码| 蜜桃视频高清在线观看| 久久精品人搡人妻人少妇| 狠狠综合久久av一区二区| 亚洲影院丰满少妇中文字幕无码| 女人一级特黄大片国产精品| 精品国产亚洲av高清大片| 亚洲一卡2卡3卡4卡5卡精品| 久久国产精品二区99| 肉丝高跟国产精品啪啪| 日韩精品中文一区二区三区在线 | 激情综合色综合啪啪开心| 99久久精品费精品国产一区二区| 亚洲高潮喷水中文字幕| 精品人妻午夜中文字幕av四季| 久久精品夜色噜噜亚洲a∨| 国产人妻久久精品二区三区| 欧美成人高清手机在线视频| 人妻少妇偷人精品一区二区三区| 亚洲日韩国产av无码无码精品| 区二区欧美性插b在线视频网站| 亚洲成片在线看一区二区| 自拍偷自拍亚洲一区二区| 天美传媒一区二区| 国产肉体XXXX裸体784大胆| 国产另类人妖在线观看| 肉色欧美久久久久久久免费看| 亚洲综合色丁香婷婷六月图片| 国产亚洲青春草在线视频| 女女同恋一区二区在线观看 | 熟女俱乐部五十路二区av| 日本精品国产1区2区3区| 蜜桃成熟时在线观看免费视频| 伊人久久大香线蕉av一区|