亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于個性化訂制與跨語言搜索技術的網(wǎng)絡信息服務平臺

        2018-09-26 07:08:10
        計算機應用與軟件 2018年9期
        關鍵詞:搜索引擎用戶語言

        烏 寶 貴

        (中國電子信息產業(yè)發(fā)展研究院 北京 100048)

        0 引 言

        經(jīng)過幾十年的發(fā)展,因特網(wǎng)(Internet)現(xiàn)已成為一個海量信息資源庫。概言之,網(wǎng)絡信息資源特點有三:一是信息的分布式存儲,因特網(wǎng)上的信息分散存儲在數(shù)以千萬計的各類網(wǎng)站服務器中。二是信息的更新頻率高,網(wǎng)上信息每時每刻都在發(fā)生著變化,每天新增的信息達到EB數(shù)量級。三是信息的多媒體性,網(wǎng)上信息的載體多種多樣,既有一般的數(shù)字、文本,也有大量的圖片和音、視頻。如何從諾大的網(wǎng)絡信息資源庫中尋找到適合具體需求的信息,是一個尚未徹底解決的問題。

        因特網(wǎng)信息檢索大致經(jīng)歷了三個階段:第一階段,因特網(wǎng)發(fā)展早期,網(wǎng)上的資源類網(wǎng)站比較少,人們采取直接瀏覽相關網(wǎng)站的方式查找信息,可稱之為“網(wǎng)站瀏覽信息檢索”方式,效率極低。第二階段,隨著網(wǎng)上資源的迅速增加,雅虎(Yahoo)率先推出導航式信息搜索服務,將因特網(wǎng)上的網(wǎng)站進行“樹形”分類,引導用戶沿著某一信息類別分支逐層找到目標網(wǎng)站,一定程度上提高了信息搜索效率,可稱之為“導航式信息檢索”方式。第三階段,搜索引擎的出現(xiàn),為人們從因特網(wǎng)上查找信息提供了很大便利。人們只要在搜索框中輸入要查尋信息的主題詞,搜索引擎就可以返回相應查詢結果,供用戶取用,可稱之為“搜索引擎信息檢索”方式。然而,當下普遍使用的百度等搜索引擎,在功能上還存在許多局限,難以完全滿足人們的需求。局限一:單一語言信息檢索。搜索引擎的搜索范圍一般局限于與檢索主題詞所使用相同語言的網(wǎng)站,而不能實現(xiàn)以一種語言輸入主題詞,而檢索時進行跨語言內容檢索。比如:用中文輸入檢索主題詞“云計算”,搜索引擎搜索的范圍局限于包含中文“云計算”內容的相關網(wǎng)站,而不能自動擴展至包括英文“Cloud Computing”以及其他語種的網(wǎng)站。局限二:被動式信息檢索。搜索引擎只有當用戶發(fā)出檢索請求時,才被動地響應檢索所需信息,然后把結果反饋給用戶,而不能根據(jù)用戶需求搜尋信息,并主動推送給用戶。局限三:缺乏個性化服務能力。搜索引擎不能根據(jù)用戶的個性化需求為用戶提供訂制化信息服務。這三大局限,降低了搜索引擎信息檢索的完整性、主動性和個性化服務能力。

        本文提出一種基于個性化定制、跨語言搜索及主動推送服務的網(wǎng)絡信息服務平臺,可以突破以上三大局限,彌補當下一般搜索引擎的不足,更好地滿足人們網(wǎng)絡信息檢索的需要。

        1 需求分析與功能設計

        對于一些普通的、淺層次的網(wǎng)絡信息需求,目前通用的搜索引擎尚能夠基本滿足要求。但是對于一些專業(yè)人士(比如:科研人員、情報搜集人員等)而言,其信息需求還有更高要求。主要是:

        (1) 個性化服務 希冀信息服務平臺能夠根據(jù)不同用戶的信息需求,為其提供個性化的信息服務。比如,某一工程科研人員與某一醫(yī)學專家,他們因為從事的專業(yè)領域不同,對信息的需求也絕然不同。好的信息服務平臺應能根據(jù)不同用戶的個性化需求,有針對性地為其提供信息服務。

        (2) 跨語言搜索 在信息搜索時,系統(tǒng)接收的檢索條件可以一種語言表達,而在檢索執(zhí)行時,系統(tǒng)自動將檢索條件擴展、轉化為多種語言。比如:用中文提交檢索詞“云計算”,搜索引擎搜索與“云計算”主題相關的信息之前,先經(jīng)多語種翻譯引擎將中文表達的“云計算”檢索詞自動翻譯成英文、法文、德文、日文等語種(根據(jù)用戶需要)的相對應檢索詞,然后再以每種語言表達的檢索詞為條件,在相應語種網(wǎng)站范圍內執(zhí)行網(wǎng)絡搜索,由此將搜索范圍由原來單一語種搜索擴展至多語種信息搜索。并且,系統(tǒng)得到搜索結果后,再將不同語言的搜索結果經(jīng)過二次轉換,翻譯成與檢索字所用語言相同的結果,返回給用戶。

        (3) 主動推送服務 系統(tǒng)的搜索行為不是等到用戶在檢索框中輸入檢索條件后才執(zhí)行,而是根據(jù)事先用戶訂制好的搜索條件,不間斷地執(zhí)行網(wǎng)絡搜索,且將搜索結果不斷地主動推送給用戶。

        由此可見,一個更高級的網(wǎng)絡信息服務平臺,除了具備目前一般搜索引擎功能外,還應能滿足以上三個服務需求,具備個性化服務、跨語言檢索和主動推送信息三大功能。

        2 系統(tǒng)原理與邏輯架構

        本文提出的新網(wǎng)絡信息服務平臺的實現(xiàn)原理是,將個性化訂制技術、多語種機器自動翻譯技術、跨語言搜索引擎技術和主動推送技術相結合,研制出一種新的網(wǎng)絡信息服務平臺。該平臺的系統(tǒng)邏輯結構如圖1所示。

        圖1 系統(tǒng)邏輯結構圖

        從圖中可以看出,新的網(wǎng)絡信息服務平臺主要由用戶界面及服務引擎兩大部分構成?!坝脩艚缑妗笔怯脩羰褂孟到y(tǒng)的橋梁,為其提供個性化訂制、信息檢索條件輸入、搜索結果信息展示等服務?!胺找妗笔窍到y(tǒng)的核心,主要由“個性化主題訂制子系統(tǒng)”、“多語種機器自動翻譯子系統(tǒng)”、“跨語言網(wǎng)絡搜索引擎”及“主動推送服務子系統(tǒng)”幾大部分構成。其中:

        ? 個性化主題訂制子系統(tǒng)負責處理用戶的個性化訂制請求。用戶通過信息訂制頁面選擇“主題詞+信息源網(wǎng)站+刷新頻率”的方式,告知系統(tǒng)其信息需求,系統(tǒng)將所有用戶的個性化訂制進行結構化處理,生成單語種訂制數(shù)據(jù)庫。

        ? 多語種機器翻譯子系統(tǒng)負責根據(jù)用戶在訂制階段選擇的語種,將其輸入的主題詞翻譯成其他語種對應的主題詞,生成“多語種訂制數(shù)據(jù)庫”。

        ? 跨語言網(wǎng)絡搜索引擎負責根據(jù)多語種訂制數(shù)據(jù)庫庫的搜索需求,不間斷地進行跨語種網(wǎng)絡搜索,并將結果進行分類、排序等處理,生成多語種搜索結果庫。

        ? 主動推送服務子系統(tǒng)負責經(jīng)多語種機器翻譯子系統(tǒng)進行了二次翻譯(即將不同語種的搜索結果翻譯成與個性化訂制主題詞所用語種相同的結果)的單語種搜索結果庫內容主動推送給訂制用戶。

        整個信息服務流程可描述為以下五大步驟:

        (1) 個性化信息需求訂制 用戶通過信息需求訂制頁面(見表1),填報(或者編輯修改以前的)信息需求訂制表并向系統(tǒng)提交。最基本的信息需求表包括:序號、主題詞、信息源地址、檢索語言、刷新頻率等項目,其中:序號由系統(tǒng)自動生成;主題詞由用戶根據(jù)自己的個性化需求設定,數(shù)量上沒有限制;信息源地址是指用戶讓系統(tǒng)重點關注的網(wǎng)站地址,一個主題詞可以對應多個信息源。用戶也可以不指定信息源,搜索引擎網(wǎng)絡爬蟲按照既定的搜索策略尋找與主題詞有關的信息。填報需求表時,設定的該主題詞需要檢索的語言種類,是機器翻譯引擎將主題詞翻譯成其他語言的依據(jù)。如果不設定語言種類,系統(tǒng)默認只檢索主題詞所用語言范圍。設定刷新頻率是告訴系統(tǒng)查詢結果推送及顯示頻率,可以有多種選擇,如以分鐘為單位。如果不設定,有新的信息搜索結果時,系統(tǒng)將及時推送給用戶,并刷新結果顯示頁面。

        表1 用戶信息需求訂制表

        (2) 機器翻譯引擎將主題詞翻譯成多語種主題詞 用戶提交信息需求表后,多語種機器自動翻譯引擎將表中的主題詞翻譯成相應語言表達的主題詞,生成新的多語種主題詞表。此時,用戶提交的主題詞表中的一個主題詞可能對應多個新的不同語種表達的主題詞。

        (3) 搜索引擎進行多語種信息搜索 跨語言網(wǎng)絡搜索引擎根據(jù)新的主題詞表進行網(wǎng)絡信息搜索,并對搜索結果進行分類、標引和排序,生成多語種搜索結果庫。

        (4) 多語種翻譯引擎將搜索結果進行逆向翻譯 多語種翻譯引擎根據(jù)主題詞表,將搜索結果進行語言逆向翻譯,生成與用戶提交的主題詞表語言相同的單語言搜索結果庫。

        (5) 將最終結果推送給用戶 用戶通過信息顯示頁面,可以看到不同主題詞的搜索結果。對于經(jīng)過翻譯的搜索結果,如果需要,用戶可以點擊源文檔地址(信息展示頁面提供的原始文檔網(wǎng)絡地址),進一步瀏覽相關語言原始文檔。

        3 關鍵技術

        實現(xiàn)提供個性化訂制、跨語言搜索及主動推送服務的網(wǎng)絡信息服務平臺,必須了解和掌握以下關鍵技術:

        (1) 個性化訂制技術 個性化訂制是系統(tǒng)的基礎功能,采用關系數(shù)據(jù)庫技術即可實現(xiàn)。主要是處理好用戶與主題詞、主題詞與信息源網(wǎng)址、主題詞與相關語種的“一對多”關系。用戶界面應盡量設計得簡潔易用,最好用填寫(或修改)需求信息表的形式完成需求訂制。

        (2) 主題詞多語種自動機器翻譯技術 將用戶以一種語言(如漢語)表達的主題詞通過機器翻譯引擎自動翻譯成其他語言(如英語、日語、德語等等)表達的主題詞,是本系統(tǒng)實現(xiàn)跨語言網(wǎng)絡搜索的前提。技術難點是如何保證用戶提交的原主題詞與翻譯生成的其他語言主題詞在語義上保持一致。造成此種困難的原因是,不同語言詞匯之間的“多對多對應關系”以及目前的自然語言處理技術還不能完全解決語義的理解問題。構建系統(tǒng)時,采用權威的“雙語詞典”及先進的機器翻譯引擎是提高主題詞翻譯準確性的關鍵。

        (3) 跨語言網(wǎng)絡搜索技術 實現(xiàn)跨語言網(wǎng)絡搜索有兩條途徑:一是自行開發(fā)一個能支持多語種的網(wǎng)絡搜索引擎,難度非常之大;二是通過“元搜索引擎”技術實現(xiàn)跨語言網(wǎng)絡搜索,經(jīng)驗證明這是一條比較可行的技術途徑。所謂“元搜索引擎”,是一種調用其他獨立搜索引擎的引擎,是對多個獨立搜索引擎的整合、調用、控制和優(yōu)化利用。相對元搜索引擎,可被利用的獨立搜索引擎稱為“源搜索引擎”,或“搜索資源”,整合、調用、控制和優(yōu)化利用源搜索引擎的技術,稱為“元搜索技術”,元搜索技術是元搜索引擎的核心。

        (4) 多語種文檔機器翻譯技術 實現(xiàn)對跨語言搜索得到的多語種文檔進行自動化的機器翻譯,途徑也有兩種:一種是自行研發(fā)多語種文檔機器翻譯系統(tǒng),對源文檔進行翻譯;另外一種是將技術成熟的機器翻譯系統(tǒng)融入本系統(tǒng)平臺,通過API調用機器翻譯系統(tǒng)完成不同語言的翻譯工作?!癎oogle翻譯”目前支持多達數(shù)十種語言的雙向翻譯,其利用統(tǒng)計算法及大數(shù)據(jù)處理、人工智能等技術,大大提高了翻譯的準確率。本文建議采取第二種技術途徑解決多語種文檔自動翻譯問題。

        (5) 信息主動推送技術 從因特網(wǎng)上獲取信息的方式有兩種。一種是利用Google和百度等搜索引擎,在檢索框中輸入查詢條件,搜索引擎將搜索結果返回給用戶。從用戶角度看,這種方式是把信息拉向“客戶端”,稱為“拉(Pull)”的方式。另外一種與之對立,是“推(Push)”的方式,如本文提出的個性化信息訂制和系統(tǒng)主動推送模式。“拉(Pull)”和“推(Push)”技術對用戶來說都是信息獲取技術,但二者存在著根本的不同。以Pull技術為核心的信息拉取技術,在信息獲取時,用戶必須時刻處于主動地位,也就是說,用戶必須參與信息獲取的整個過程。而以Push技術為核心的信息推送技術,在信息推送過程中,服務器始終處于主動地位,用戶卻處于被動地位?!袄?Pull)”與“推(Push)”的根本區(qū)別是:相對一次會話,Pull由客戶發(fā)起,主動方是客戶;Push由服務器發(fā)起,主動方是服務器。與Pull技術相比,Push技術不僅獲取信息的效率高,費用低,而且及時性強。Push技術能夠通過一定的技術標準或協(xié)議,把用戶感興趣的信息,按照用戶的要求及時、主動地推送給用戶。用戶收到信息后,還可以離線瀏覽。

        4 結 語

        本文將個性化訂制、多語種機器自動翻譯、網(wǎng)絡跨語言搜索及主動信息推送技術相結合,提出了一種新的網(wǎng)絡信息服務平臺的系統(tǒng)架構,為網(wǎng)絡信息搜索及個性化信息服務平臺的構建提供了一種新的參考模型。事實上,如果將多語種機器自動翻譯和跨語言網(wǎng)絡搜索技術應用于人們慣常使用的百度等搜索引擎(可稱之為“即時搜索引擎”)中,也可以大大提升這些搜索引擎的檢索效率和服務質量。將基于個性化訂制和主動推送服務的搜索引擎與即時搜索引擎相配合,就可以比較好地滿足人們各種不同的網(wǎng)絡信息檢索需求。

        另外,隨著大數(shù)據(jù)和人工智能技術的發(fā)展與不斷成熟,并在搜索引擎中合理加以應用,就可以在個性化、智能化網(wǎng)絡搜索引擎方向上作出功能更加強大的網(wǎng)絡信息服務平臺,讓因特網(wǎng)上的信息資源充分發(fā)揮其應有的價值。

        猜你喜歡
        搜索引擎用戶語言
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        讓語言描寫搖曳多姿
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        累積動態(tài)分析下的同聲傳譯語言壓縮
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        網(wǎng)絡搜索引擎亟待規(guī)范
        我有我語言
        如何獲取一億海外用戶
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        日韩吃奶摸下aa片免费观看| av网站不卡的av在线| 激情综合五月开心婷婷| 丰满爆乳在线播放| 久久伊人影院| 国产精自产拍久久久久久蜜| 中文字幕久热精品视频免费| 最全精品自拍视频在线| 国产欧美精品aaaaaa片| 天天鲁一鲁摸一摸爽一爽| 亚洲VA中文字幕无码毛片春药| 日本高清一区二区三区色| 音影先锋中文字幕在线| 色老板精品视频在线观看| 在线观看国产激情视频| 日日躁夜夜躁狠狠躁| 亚洲中文字幕无码mv| 人伦片无码中文字幕| 蜜桃av福利精品小视频| 亚洲欧美中文日韩在线v日本| 日日澡夜夜澡人人高潮| 毛片无码高潮喷白浆视频| 国产熟女露脸大叫高潮| 天天做天天爱夜夜爽女人爽| 婷婷丁香五月中文字幕| 在线观看精品国产福利片87| 亚洲最大的av在线观看| 偷拍一区二区视频播放器| 免费无码一区二区三区蜜桃大| 国产精品久久综合桃花网| 男男互吃大丁视频网站| 国产精品女同一区二区软件| 樱桃视频影院在线播放| 日韩毛片基地一区二区三区| 国内精品久久久久影院蜜芽| 久久精品熟女亚洲av麻豆永永| 热久久美女精品天天吊色| 亚洲欧美日韩中文天堂| 亚洲在线一区二区三区| 亚洲最大在线视频一区二区| 欧美日韩一区二区三区在线观看视频 |