亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于跨語(yǔ)言信息檢索的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)模型的研究

        2010-12-31 00:00:00耀何明祥
        現(xiàn)代情報(bào) 2010年11期

        〔摘 要〕目前,隨著企業(yè)全球化的競(jìng)爭(zhēng)日益加劇,那些參與國(guó)外競(jìng)爭(zhēng)的企業(yè)不僅要知道自己企業(yè)本身的情況,也要了解國(guó)外競(jìng)爭(zhēng)對(duì)手的情況,這需要有效的收集企業(yè)情報(bào)。本文分析了企業(yè)競(jìng)爭(zhēng)情報(bào)的特點(diǎn)以及情報(bào)收集存在的問(wèn)題,并且將跨語(yǔ)言信息檢索引入到企業(yè)競(jìng)爭(zhēng)情報(bào)收集。本文構(gòu)建了基于跨語(yǔ)言信息檢索的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)的模型,并對(duì)其進(jìn)行了具體分析。

        〔關(guān)鍵詞〕競(jìng)爭(zhēng)情報(bào);情報(bào)收集;跨語(yǔ)言信息檢索;模型

        DOI:10.3969/j.issn.1008-0821.2010.11.003

        〔中圖分類號(hào)〕G35 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2010)11-0012-04

        Research of the Model of Enterprise Competitive Intelligence Collection

        System Based on Cross-language Information RetrievalSun Yao He Mingxiang

        (College of Information Science and Engineering,Shandong University of Science and Technology,

        Qingdao 266510,China)

        〔Abstract〕Now with the competition of the enterprise globalization gradually,so enterprise which want to participating competition,not only know their own circumstance about the enterprise themselves,but also know the circumstance about the rival.This need collection of the enterprise intelligence efficiently.This paper analyzed the features of the enterprise Competitive Intelligence and the problem of the intelligence collection,and the CLIR was introduced into the enterprise competitive intelligence collection.An enterprise competitive intelligence collection system model was established in this paper,which is based on CLIR,and detailed analysis was carried out.

        〔Keywords〕competitve intelligence;collection of intelligence;cross language information retrieval;model

        根據(jù)美國(guó)知名互聯(lián)網(wǎng)流量監(jiān)測(cè)機(jī)構(gòu)comScore統(tǒng)計(jì)報(bào)告顯示,2008年12月期間,全球網(wǎng)民總量已突破10億大關(guān),其中中國(guó)網(wǎng)民數(shù)量以1.797億居首。comScore所統(tǒng)計(jì)全球各地區(qū)網(wǎng)民數(shù)量及比率為:亞太地區(qū):4.16億(在全球網(wǎng)民中所占比率為41.3%,下同)、歐洲地區(qū):2.83億(28%)、北美地區(qū):1.85億(18.4%)、拉丁美洲地區(qū):7 500萬(wàn)(7.4%)、中東和非洲地區(qū):4 900萬(wàn)(4.8%) 。非英語(yǔ)網(wǎng)民的人數(shù)迅速增長(zhǎng),但是以英語(yǔ)顯示的網(wǎng)頁(yè)卻占70%左右[1]。語(yǔ)言的多樣性影響了網(wǎng)絡(luò)信息價(jià)值的充分發(fā)揮。于是,人們提出了跨語(yǔ)言信息檢索技術(shù),即允許用戶使用其熟悉的一種語(yǔ)言(如母語(yǔ))構(gòu)造查詢檢索式,檢索出以另外一種或幾種語(yǔ)言表達(dá)的信息,以滿足非英語(yǔ)母語(yǔ)的人群對(duì)信息資源的需求。

        隨著信息化社會(huì)的高速發(fā)展,信息資源競(jìng)爭(zhēng)成為現(xiàn)在企業(yè)競(jìng)爭(zhēng)的重要元素。目前,國(guó)際化競(jìng)爭(zhēng)程度不斷深入,尤其是加入WTO后,我國(guó)企業(yè)面臨著更加嚴(yán)峻的挑戰(zhàn)與機(jī)遇,這直接導(dǎo)致了競(jìng)爭(zhēng)情報(bào)活動(dòng)的逐漸國(guó)際化。這要求情報(bào)人員需要收集和分析來(lái)自不同語(yǔ)言的情報(bào)資源,因此,構(gòu)建基于CLIR(跨語(yǔ)言信息檢索)的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)具有重要的現(xiàn)實(shí)意義。

        1 企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)

        競(jìng)爭(zhēng)情報(bào)系統(tǒng)(Competitive Intelligence System,簡(jiǎn)稱CIS)是競(jìng)爭(zhēng)情報(bào)工作的組織保障和物質(zhì)基礎(chǔ),是以人的智能為主導(dǎo)、信息網(wǎng)絡(luò)為手段、增強(qiáng)企業(yè)競(jìng)爭(zhēng)力為目標(biāo)的人機(jī)結(jié)合的競(jìng)爭(zhēng)戰(zhàn)略決策支持和咨詢系統(tǒng)[2]。一般來(lái)說(shuō),企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)主要包括競(jìng)爭(zhēng)情報(bào)收集子系統(tǒng)、競(jìng)爭(zhēng)情報(bào)分析子系統(tǒng)和競(jìng)爭(zhēng)情報(bào)傳播子系統(tǒng)三部分。情報(bào)收集子系統(tǒng)是企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的基礎(chǔ),是企業(yè)情報(bào)系統(tǒng)的重要組成部分,主要功能是按照用戶的情報(bào)需求收集相關(guān)的競(jìng)爭(zhēng)情報(bào),是整個(gè)系統(tǒng)信息流的輸入系統(tǒng)。競(jìng)爭(zhēng)情報(bào)分析子系統(tǒng)是企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的核心,主要功能是將競(jìng)爭(zhēng)情報(bào)收集子系統(tǒng)所收集的信息進(jìn)行深加工,將信息轉(zhuǎn)化為情報(bào)。競(jìng)爭(zhēng)情報(bào)服務(wù)子系統(tǒng)是企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的輸出系統(tǒng),它的主要功能是面向企業(yè)各級(jí)決策層和各類用戶提供情報(bào)產(chǎn)品和情報(bào)服務(wù)。傳統(tǒng)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)將數(shù)據(jù)的分析作為核心,忽略了信息收集環(huán)節(jié)和信息質(zhì)量,特別是情報(bào)資源的檢索問(wèn)題。

        企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)的主要任務(wù)是根據(jù)競(jìng)爭(zhēng)情報(bào)項(xiàng)目的目標(biāo),將來(lái)自不同渠道的信息資源通過(guò)數(shù)據(jù)采集單元加以合并、過(guò)濾、提取、自動(dòng)分類,并將處理過(guò)的競(jìng)爭(zhēng)情報(bào)信息存入情報(bào)數(shù)據(jù)庫(kù)中,形成情報(bào)數(shù)據(jù)。具體的說(shuō),競(jìng)爭(zhēng)情報(bào)的收集是由兩個(gè)緊密相連的過(guò)程組成的:一是競(jìng)爭(zhēng)情報(bào)的檢索,二是競(jìng)爭(zhēng)情報(bào)的存儲(chǔ)。從本質(zhì)上說(shuō),情報(bào)來(lái)源于信息,所以企業(yè)競(jìng)爭(zhēng)情報(bào)的檢索本質(zhì)上是一種信息檢索工作[3]。

        對(duì)于以信息為資源進(jìn)行分析加工的計(jì)算機(jī)系統(tǒng)來(lái)說(shuō),數(shù)據(jù)源的質(zhì)量是非常重要的。正所謂輸入的是垃圾,輸出的也必將是垃圾。現(xiàn)有的競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)大多得到的是一些用戶并不感興趣的信息,并不能滿足企業(yè)競(jìng)爭(zhēng)的需求,因此給情報(bào)分析和服務(wù)帶來(lái)了困難。怎樣從信息海洋中收集真正有價(jià)值的情報(bào),對(duì)于企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。當(dāng)前,全球化的時(shí)代已經(jīng)到來(lái),我國(guó)企業(yè)與國(guó)外的交流與合作變得日益重要和頻繁。但是由于語(yǔ)言之間的差異,這給信息檢索帶來(lái)了不小的困難,如果能夠消除這種差異并幫助人們理解這些信息,這對(duì)于知識(shí)的交流與共享來(lái)說(shuō)具有重大的意義。

        用戶用一種語(yǔ)言(比如中文)表示的檢索條件,檢索由同種語(yǔ)言(中文)組成的文檔集,檢索結(jié)果用該種語(yǔ)言(中文)表示。這種傳統(tǒng)意義上的信息檢索被稱為單語(yǔ)言信息檢索。用戶用某種語(yǔ)言(比如中文)表示的檢索條件,檢索由多種語(yǔ)言(比如中文、英文、德文、日文等)組成的文檔集,檢索結(jié)果用描述檢索條件的語(yǔ)言(比如中文)表示,這里稱為跨語(yǔ)言信息檢索(Cross Language Information Retrieval,CLIR)[4]。也就是說(shuō)。CLIR就是用戶想用自己熟悉的語(yǔ)言來(lái)查詢另一種語(yǔ)言的文檔集,例如,輸入中文,信息檢索系統(tǒng)將返回其他語(yǔ)言(比如英文)的相關(guān)信息。

        CLIR一般可以分為3個(gè)步驟:(1)多語(yǔ)種信息的搜集以及多語(yǔ)種信息數(shù)據(jù)庫(kù)的建立;(2)應(yīng)用語(yǔ)言自動(dòng)處理技術(shù)實(shí)現(xiàn)提問(wèn)語(yǔ)種(是用戶查詢提問(wèn)式所屬語(yǔ)種)和信息語(yǔ)種(是被檢索對(duì)象信息所使用的語(yǔ)種)的統(tǒng)一;(3)應(yīng)用單語(yǔ)種信息檢索技術(shù)實(shí)現(xiàn)提問(wèn)式與數(shù)據(jù)庫(kù)信息的匹配。其中,步驟(2)是實(shí)現(xiàn)CLIR的關(guān)鍵。實(shí)現(xiàn)CLIR主要可以使用以下5種方法:提問(wèn)式翻譯、文獻(xiàn)翻譯、提問(wèn)式——文獻(xiàn)翻譯、中間語(yǔ)種翻譯和非翻譯[5]。目前,絕大多數(shù)的跨語(yǔ)言信息檢索系統(tǒng)都是應(yīng)用提問(wèn)式翻譯,它是把用戶提問(wèn)轉(zhuǎn)化成被檢索對(duì)象信息所使用的語(yǔ)種,然后對(duì)不同語(yǔ)種的文獻(xiàn)信息集進(jìn)行查詢。例如,我們用中文查詢英文信息,系統(tǒng)會(huì)首先將中文提問(wèn)翻譯成英文然后再進(jìn)行檢索。提問(wèn)式翻譯的優(yōu)點(diǎn)是比較容易實(shí)現(xiàn)并且檢索效率比較高,而且可能是最有效的方法。一個(gè)現(xiàn)實(shí)中的單語(yǔ)言信息檢索系統(tǒng)可以比較容易地轉(zhuǎn)換成一個(gè)跨語(yǔ)言信息檢索系統(tǒng),通過(guò)在提問(wèn)處理模塊上增加一個(gè)提問(wèn)翻譯程序。本文也是針對(duì)提問(wèn)檢索式進(jìn)行翻譯處理來(lái)構(gòu)建跨語(yǔ)言信息檢索模型的。

        目前,隨著信息化的全球發(fā)展,CLIR已經(jīng)成為當(dāng)前信息檢索的重要研究課題,它能夠有效地消除語(yǔ)言隔閡。例如,網(wǎng)絡(luò)70%以上的信息都是英語(yǔ)信息,而使用英文的網(wǎng)絡(luò)用戶僅占約40%,這給非英語(yǔ)國(guó)家用戶利用網(wǎng)絡(luò)信息帶來(lái)了極大的不便。不僅在互聯(lián)網(wǎng)中,在所有同時(shí)存在多語(yǔ)種的信息系統(tǒng)(如數(shù)字圖書館)中,這種語(yǔ)言障礙都限制了人們對(duì)信息的有效獲取,影響了多語(yǔ)種信息價(jià)值的充分發(fā)揮。如果能夠有效的利用CLIR,我們可以獲得更多我們想要的、有價(jià)值的信息。信息收集的國(guó)際化等于情報(bào)資源的國(guó)際化,我們將CLIR引入到企業(yè)競(jìng)爭(zhēng)情報(bào)收集,可以在一定程度上解決情報(bào)收集過(guò)程中的語(yǔ)言障礙問(wèn)題。

        3 跨語(yǔ)言信息檢索在企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)中的應(yīng)用3.1 跨語(yǔ)言信息檢索的模型研究

        本文以跨中英文信息檢索為例構(gòu)建了一個(gè)基于CLIR的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)模型,它可以幫助用戶迅速收集到所需要的外文情報(bào)信息。因此我們首先要構(gòu)建中英文跨語(yǔ)言信息檢索的模型,圖1為中英文跨語(yǔ)言信息檢索的模型圖。

        該模型的工作流程如下:

        (1)用戶輸入查詢信息;

        (2)對(duì)用戶的提問(wèn)進(jìn)行處理,如果用戶提問(wèn)語(yǔ)言為英文則轉(zhuǎn)向第(4)步,若為中文則繼續(xù)執(zhí)行;

        (3)將處理過(guò)的中文提問(wèn)翻譯成英文;

        (4)執(zhí)行傳統(tǒng)的單語(yǔ)言信息檢索;

        (5)將檢索結(jié)果返回給用戶。

        圖1 中英文跨語(yǔ)言信息檢索模型

        中英文跨語(yǔ)言信息檢索模型主要包括4個(gè)模塊:用戶提問(wèn)處理模塊,提問(wèn)式翻譯模塊,消歧模塊,檢索模塊。

        3.1.1 用戶提問(wèn)處理模塊

        本模塊用來(lái)規(guī)范提問(wèn)式,以便于翻譯和檢索。主要有以下兩種功能:一是用戶提問(wèn)式可能是用中文也可能是用英文,首先識(shí)別出用戶提問(wèn)所用語(yǔ)種,如果是源語(yǔ)言,則無(wú)需翻譯,直接檢索。目前用于語(yǔ)種識(shí)別的重要技術(shù)有馮沖等提出的基于字符層馬爾科夫模型的多語(yǔ)種識(shí)別[6],以及陳剛等提出的基于獨(dú)立分量分析的語(yǔ)種識(shí)別方法[7]。二是如果提問(wèn)式是英文,檢索中文信息時(shí),只需對(duì)其逐詞翻譯。但若是中文提問(wèn)式,處理則比較復(fù)雜容,首先要對(duì)其進(jìn)行詞切分處理,把提問(wèn)式切分成單個(gè)有實(shí)際意義的詞,然后進(jìn)行翻譯處理。本模型使用了正向最大匹配方法,其原理是:假設(shè)自動(dòng)分詞詞典(或詞庫(kù))中的最長(zhǎng)詞條是m個(gè)字,則取被處理字串前m個(gè)字作為匹配字段,查找詞典,若詞典中存在這樣的一個(gè)m字詞,則匹配成功,匹配字段被作為一個(gè)詞切分出來(lái);如果在詞典中找不到這樣一個(gè)m字詞,則匹配失敗,匹配字段去掉最后一個(gè)字,剩下的字段重新進(jìn)行匹配,如此進(jìn)行下去,直到匹配成功,也就是完成一輪匹配,切分出一個(gè)詞為止。最后直到被處理字串全部切分完成。

        3.1.2 翻譯模塊

        翻譯模塊主要應(yīng)用在提問(wèn)式翻譯上,提問(wèn)式翻譯方法是在信息檢索之前,將提問(wèn)式的語(yǔ)種轉(zhuǎn)化翻譯成所要檢索信息的信息語(yǔ)種。這種轉(zhuǎn)化方式是目前實(shí)現(xiàn)CLIR的主流思想,與文獻(xiàn)翻譯相比,提問(wèn)式翻譯工作量較小,可以很容易地與傳統(tǒng)單語(yǔ)種信息檢索技術(shù)緊密結(jié)合,但是檢索返回的結(jié)果是用目標(biāo)語(yǔ)言描述的,這將增加用戶利用信息的難度。到目前為止,提問(wèn)式翻譯可以通過(guò)以下技術(shù)來(lái)加以實(shí)現(xiàn):機(jī)器翻譯系統(tǒng)(machine translation system,MTS)、基于字典/詞典方法(dictionary-based methods)、基于語(yǔ)料庫(kù)方法(corpus-based methods)、字典——語(yǔ)料庫(kù)混合方法(hybrid methods)、提問(wèn)式構(gòu)造方法(query structuring methods)、提問(wèn)詞再賦權(quán)方法(query term reweighting methods)、潛在語(yǔ)義標(biāo)引法(Latent Semantic Indexing—LSI)、基于關(guān)鍵詞翻譯技術(shù)(keywords-basedtranslation)、檢索反饋技術(shù)(retrieval feedbacktechniques)等。本文將使用字典——語(yǔ)料庫(kù)混合方法,這種方法結(jié)合了基于字典和基于語(yǔ)料庫(kù)方法各自的優(yōu)點(diǎn)。首先使用字典對(duì)提問(wèn)式進(jìn)行翻譯,在翻譯過(guò)程中可能會(huì)出現(xiàn)多個(gè)結(jié)果或翻譯含糊不清的情況,此時(shí),利用專業(yè)語(yǔ)料庫(kù)中相關(guān)術(shù)語(yǔ)的對(duì)應(yīng)關(guān)系來(lái)凈化翻譯結(jié)果。字典翻譯的方便性和語(yǔ)料庫(kù)翻譯的專業(yè)性、準(zhǔn)確性在這種方法中得到了最充分的體現(xiàn)[8]。

        3.1.3 消歧模塊

        跨語(yǔ)言信息檢索翻譯歧義性問(wèn)題就是對(duì)于信息語(yǔ)種來(lái)說(shuō),提問(wèn)語(yǔ)種具有不用的含義,這樣在匹配詞語(yǔ)時(shí)會(huì)帶許多歧義,例如一個(gè)漢語(yǔ)詞可以被翻譯成為多個(gè)英語(yǔ)單詞,而一個(gè)英語(yǔ)單詞本身也不是只有一個(gè)漢語(yǔ)意思。因此,在翻譯過(guò)程中會(huì)出現(xiàn)一些提問(wèn)式的翻譯和原始的提問(wèn)意義有所不同。而在應(yīng)用這些具有歧義性的提問(wèn)翻譯進(jìn)行信息檢索時(shí),系統(tǒng)會(huì)給出不相關(guān)的檢索結(jié)果,這是CLIR中性能惡化的一個(gè)主要原因。因此,處理翻譯的歧義性是比較重要的,從而給出每個(gè)提問(wèn)式正確的翻譯。本模型中消歧模塊使用的是查詢擴(kuò)展消歧方法。微軟亞洲研究院在研究中英文信息檢索時(shí),就提出了一種兩步假相關(guān)性反饋的提問(wèn)式擴(kuò)展方法:首先,使用翻譯后的提問(wèn)式檢索出一系列文獻(xiàn)信息,并對(duì)其進(jìn)行相關(guān)性排序(共現(xiàn)技術(shù));然后,從結(jié)果文獻(xiàn)信息排序前n篇文檔中選取m個(gè)最高頻率的詞,來(lái)擴(kuò)展最初的查詢提問(wèn)式[9]。

        3.1.4 檢索模塊

        檢索模塊是針對(duì)提問(wèn)式翻譯結(jié)束后,利用提問(wèn)式翻譯檢索文件數(shù)據(jù)庫(kù)中文件的過(guò)程,在此過(guò)程中,提問(wèn)式語(yǔ)言和文件語(yǔ)言屬于同種語(yǔ)言,進(jìn)行同一語(yǔ)言之間的信息檢索。目前,單語(yǔ)言信息檢索技術(shù)發(fā)展已經(jīng)相當(dāng)成熟,在本文中不再闡述。

        3.2 基于跨語(yǔ)言信息檢索的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)的模型本文結(jié)合競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)的體系結(jié)構(gòu)和基于提問(wèn)式翻譯的CLIR的工作流程,初步設(shè)計(jì)了基于CLIR的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)模型的大體框架。圖2為基于CLIR的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)的模型圖。

        圖2 基于CLIR的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)的模型

        上述模型共分為4個(gè)模塊:情報(bào)需求提交模塊、CLIR模塊、搜索結(jié)果評(píng)價(jià)模塊、數(shù)據(jù)加工模塊,以及兩個(gè)數(shù)據(jù)庫(kù):信息資源庫(kù)和情報(bào)知識(shí)庫(kù)。

        3.2.1 情報(bào)需求提交模塊

        用戶通過(guò)情報(bào)需求提交模塊向系統(tǒng)提交情報(bào)需求及情報(bào)格式要求等信息,實(shí)現(xiàn)人機(jī)交互。然后將所需要搜集的情報(bào)需求提交給CLIR系統(tǒng)。

        3.2.2 CLIR模塊

        CLIR系統(tǒng)接受用戶的需求之后按照上小節(jié)所述進(jìn)行工作。

        3.2.3 搜索結(jié)果評(píng)價(jià)模塊

        信息檢索的核心問(wèn)題是相關(guān)文檔的預(yù)測(cè),以及根據(jù)相關(guān)性對(duì)文檔進(jìn)行排序。一般來(lái)說(shuō),最上面的文檔被認(rèn)為是最相關(guān)的。因此相關(guān)性的計(jì)算以及排序算法成為信息檢索的主要問(wèn)題。在搜索結(jié)果中,怎樣排序不同語(yǔ)言的文檔,怎樣計(jì)算不同語(yǔ)言文檔的相關(guān)性,同樣成為情報(bào)收集的核心問(wèn)題。在搜索結(jié)果評(píng)價(jià)模塊,我們使用PageRank算法。PageRank算法是由Google創(chuàng)始人斯坦福大學(xué)的博士研究生Sergey Brin和Lawrence Page提出了網(wǎng)絡(luò)鏈接分析的一個(gè)新算法:該算法是建立在隨機(jī)沖浪者模型上的。具體來(lái)說(shuō),假設(shè)沖浪者跟隨鏈接進(jìn)行了若干步的瀏覽后轉(zhuǎn)向一個(gè)隨機(jī)的起點(diǎn)網(wǎng)頁(yè)又重新跟隨鏈接瀏覽,那么一個(gè)網(wǎng)頁(yè)的價(jià)值程度值就由該網(wǎng)頁(yè)被這個(gè)隨機(jī)沖浪者所訪問(wèn)的頻率所決定。

        PageRank算法簡(jiǎn)單描述如下:u是一個(gè)網(wǎng)頁(yè),F(xiàn)(u)是頁(yè)面u指向的網(wǎng)頁(yè)集合,B(u)是指向u的網(wǎng)頁(yè)集合,N(u)=F(u)是u指向外的鏈接數(shù),c是規(guī)范化因子(一般取0.85)。

        那么網(wǎng)頁(yè)u的PageRank值可以利用下面的公式計(jì)算:

        R(u)=c∑vB(u)R(v)/N(v)

        該算法的矩陣描述形式為:

        設(shè)A為一個(gè)方陣,行和列對(duì)應(yīng)網(wǎng)頁(yè)集的網(wǎng)頁(yè)。如果網(wǎng)頁(yè)u有指向網(wǎng)頁(yè)v的一個(gè)鏈接,則Au,v=1Nu,否則Au,v=0。設(shè)R是對(duì)應(yīng)網(wǎng)頁(yè)集的PageRank值向量,則有R=cAR,可見R為A的特征根為c的特征向量。實(shí)際上,只需要求出最大特征根的特征向量,就是網(wǎng)頁(yè)集對(duì)應(yīng)的最終PageRank值[10]。網(wǎng)頁(yè)的重要性是由PageRank算法計(jì)算得來(lái)的。最終,搜索引擎根據(jù)網(wǎng)頁(yè)的PageRank值對(duì)搜索結(jié)果排序,得出具有高PageRank值的重要頁(yè)面。

        3.2.4 數(shù)據(jù)加工模塊

        數(shù)據(jù)加工模塊主要是將搜集來(lái)的數(shù)據(jù)按照一定的標(biāo)準(zhǔn)進(jìn)行規(guī)范,提高數(shù)據(jù)的可操作性,并按照競(jìng)爭(zhēng)情報(bào)分類目錄的要求,進(jìn)行分類歸檔,以方便對(duì)其進(jìn)行快速檢索及合理存儲(chǔ),然后將數(shù)據(jù)按情報(bào)數(shù)據(jù)庫(kù)的要求和數(shù)據(jù)存儲(chǔ)格式對(duì)數(shù)據(jù)進(jìn)行整合。最終存儲(chǔ)在競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)庫(kù)中,并提供給用戶所需情報(bào),以幫助用戶進(jìn)一步分析情報(bào)和提供情報(bào)服務(wù)。

        信息資源庫(kù)主要包括企業(yè)Web站點(diǎn)、Internet資源、聯(lián)機(jī)數(shù)據(jù)庫(kù)等。情報(bào)知識(shí)庫(kù)主要是將經(jīng)過(guò)加工過(guò)的數(shù)據(jù)進(jìn)行分類存儲(chǔ)的數(shù)據(jù)庫(kù)。

        4 總結(jié)與展望

        目前存在的企業(yè)競(jìng)爭(zhēng)情報(bào)收集模型大多是基于單語(yǔ)言信息檢索,這對(duì)于許多跨國(guó)公司檢索外文信息來(lái)說(shuō)會(huì)造成信息檢索精度和召回率低下。根據(jù)文獻(xiàn)[11],目前國(guó)內(nèi)外CIS軟件基本上不具有跨語(yǔ)種信息檢索與翻譯功能,本文將跨語(yǔ)言信息檢索引入到企業(yè)競(jìng)爭(zhēng)情報(bào)收集并構(gòu)建了基于跨語(yǔ)言信息檢索的企業(yè)競(jìng)爭(zhēng)情報(bào)收集系統(tǒng)的模型,這將有效地幫助企業(yè)從信息海洋中獲得更加準(zhǔn)確的情報(bào)信息,更好的幫助決策者做出準(zhǔn)確的決策,從而在激烈的市場(chǎng)競(jìng)爭(zhēng)中贏得更多的機(jī)會(huì),并因此立于不敗之地。

        參考文獻(xiàn)

        [1]http:∥www.byywee.com/page/M0/S24/24128.html[EB].

        [2]包昌火,張燕,黃英.競(jìng)爭(zhēng)情報(bào)的崛起和發(fā)展[M].北京:國(guó)防工業(yè)出版社,2003:310-374.

        [3]喬林.基于多關(guān)鍵詞檢索的企業(yè)競(jìng)爭(zhēng)情報(bào)搜集方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2006.4.

        [4]吳芳.基于本體的跨語(yǔ)言全文檢索模型的研究[D].北京郵電大學(xué),2005.5.

        [5]郭華庚,趙英.跨語(yǔ)言信息檢索研究與應(yīng)用[J].現(xiàn)代情報(bào),2008,(9):142-145.

        [6]馮沖,黃河燕,陳肇雄,等.基于字符層馬爾科夫模型的多語(yǔ)種識(shí)別[J].計(jì)算機(jī)科學(xué),2006,(10):226-228.

        [7]陳剛,陳莘萌.基于獨(dú)立分量分析的語(yǔ)種識(shí)別方法[J].計(jì)算機(jī)工程,2006,(12):17-19.

        [8]王昊.基于跨語(yǔ)言信息檢索的數(shù)字圖書館系統(tǒng)模型[J].情報(bào)科學(xué),2005,(10):1573-1578.

        [9]張素芳.國(guó)外跨語(yǔ)言信息檢索中的翻譯歧義性問(wèn)題研究綜述[J].圖書館學(xué)研究,2006,(6):72-75.

        [10]黃德才,戚華春.PageRank算法研究[J].計(jì)算機(jī)工程,2006,(2):145-146.

        [11]金學(xué)惠,劉細(xì)文.國(guó)內(nèi)外典型競(jìng)爭(zhēng)情報(bào)系統(tǒng)軟件功能的差異性分析[J].情報(bào)雜志,2009,(9):102-106.

        亚洲熟女少妇精品综合| 久久国产精品不只是精品| 免费一区二区三区视频狠狠| 国产午夜福利av在线麻豆| 99久久精品费精品国产一区二| 一本无码av中文出轨人妻| 欧美自拍视频在线| 蜜桃网站在线免费观看视频| 中文字幕av人妻少妇一区二区 | 美女人妻中出日本人妻| 欧美丰满老熟妇aaaa片| 9lporm自拍视频区| 国产精品久久久久孕妇| av网址在线一区二区| 欧美成人猛片aaaaaaa| 久久久久国产一区二区三区| 欧美成人a在线网站| 精品在线视频免费在线观看视频 | 精品少妇人妻av一区二区蜜桃| √天堂中文官网在线| 亚洲av成人精品日韩一区| 亚洲成人免费无码| 亚洲国产精品成人一区二区三区| 在线观看国产视频你懂得| 粗大猛烈进出白浆视频| 疯狂做受xxxx高潮欧美日本| 久久精品美女久久| 久久精品成人一区二区三区蜜臀| 亚洲国产成人极品综合| 久青草久青草视频在线观看| 成在线人视频免费视频| 一区二区三区在线观看视频| 无码专区人妻系列日韩精品| 亚洲日韩精品欧美一区二区| 精品国产一区二区三区AV小说| 久久国产精品懂色av| 一区二区三区内射美女毛片 | 人人狠狠综合久久亚洲婷婷| 久久亚洲国产成人精品v| 日本高清一区二区三区不卡| 狠狠色噜噜狠狠狠8888米奇|