亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于排序式SVM的搜索自適應(yīng)排序系統(tǒng)實(shí)現(xiàn)

        2021-10-28 04:42:34薛曉慧芮光輝李煒東袁培森
        關(guān)鍵詞:分詞搜索引擎文檔

        薛曉慧,芮光輝,李煒東,袁培森

        (1.國網(wǎng)青海省電力公司,青海 西寧 810008; 2.國網(wǎng)青海省電力公司海北供電公司,青海 海晏 812200; 3.南京農(nóng)業(yè)大學(xué) 人工智能學(xué)院,江蘇 南京 210095)

        0 引 言

        搜索引擎作為一種基于關(guān)鍵字查詢的信息檢索工具,已經(jīng)有30多年的發(fā)展歷史。尤其在最近十年,搜索引擎隨著因特網(wǎng)的普及而得到迅速發(fā)展,同時(shí)搜索引擎向著個(gè)性化和智能化的方向發(fā)展[1]。搜索引擎的個(gè)性化是指搜索相同的內(nèi)容時(shí)會(huì)根據(jù)用戶不同的需求特點(diǎn),得到不同搜索結(jié)果;而智能化則是指搜索引擎能夠進(jìn)行自我學(xué)習(xí),自動(dòng)地適應(yīng)用戶的搜索需求并將用戶進(jìn)行智能分類,從而為搜索引擎的個(gè)性化提供依據(jù)[2]。

        搜索引擎根據(jù)檢索方式的不同分為獨(dú)立型搜索引擎和元搜索引擎[3]。目前用戶普遍使用的Google和百度是獨(dú)立型搜索引擎的代表,其原理是利用Robot從網(wǎng)絡(luò)中搜集信息并且建立屬于自己的索引數(shù)據(jù)庫[4]。當(dāng)需要搜索的時(shí)候則檢索其索引數(shù)據(jù)庫,再通過數(shù)據(jù)庫的內(nèi)容搜索到相應(yīng)的信息或連接站點(diǎn)并提供給用戶。元搜索引擎與獨(dú)立型搜索引擎不同,其原理是將獲得的用戶搜索需求,交給多個(gè)獨(dú)立型搜索引擎以獲得多個(gè)搜索結(jié)果,之后進(jìn)行集中處理將處理過的搜索結(jié)果返回給用戶[5]。目前比較出色的元搜索引擎包括Mamma,MateCrawler,SavvySearch,萬緯,360綜合搜索等。

        元搜索引擎致力于解決人們?cè)谒阉鲿r(shí)無法得到所需信息的困擾,不至于使用戶陷入“信息過載”和“資源迷向”的困境[6]。元搜索引擎集合了多個(gè)搜索引擎檢索結(jié)果并且能對(duì)此做出整合處理,有效地解決了獨(dú)立搜索引擎信息覆蓋率不足和查準(zhǔn)率不高的問題,為搜索引擎的發(fā)展開辟了一個(gè)新的方向。目前對(duì)于元搜索引擎的研究主要集中在搜索結(jié)果的排序和搜索結(jié)果的合成等方面[7]。

        對(duì)搜索結(jié)果的排序很大程度影響了用戶對(duì)搜索結(jié)果瀏覽時(shí)的選擇,目前研究的方向不僅是單單基于相關(guān)度對(duì)結(jié)果進(jìn)行排序,而是期望根據(jù)用戶的個(gè)性和特點(diǎn)排序搜索結(jié)果[8]。因此,排序?qū)W習(xí)(learning to rank)這一個(gè)概念應(yīng)運(yùn)而生,它運(yùn)用了機(jī)器學(xué)習(xí)的概念,能夠基于特征集合產(chǎn)生訓(xùn)練模型,并在之后能夠自動(dòng)學(xué)習(xí)得到結(jié)果,為實(shí)現(xiàn)搜索引擎的個(gè)性化奠定了基礎(chǔ)[9-10]。已有的排序?qū)W習(xí)算法可以根據(jù)訓(xùn)練樣例的不同分為3類:單文檔方法(pointwise)、文檔對(duì)方法(pairwise)和文檔列表方法(listwise)[5]。一般情況下性能較優(yōu)的是文檔對(duì)方法,其原理是采用查詢對(duì)應(yīng)的文檔對(duì)(document pairs)作為訓(xùn)練樣例,這類方法中應(yīng)用較為廣泛的是Ranking SVM,一種基于支持向量機(jī)(support vector machine)的排序?qū)W習(xí)方法[11]。

        對(duì)于搜索結(jié)果的合成,由于元搜索引擎從多個(gè)獨(dú)立型搜索引擎得到結(jié)果后,不同的搜索引擎采用了各不相同的排序技術(shù),因此沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)去重新排列得到搜索結(jié)果,如何將與用戶查詢相似度高的放在前面的位置是搜索結(jié)果合成的關(guān)鍵。目前大部分元搜索引擎會(huì)根據(jù)局部相似度或全局相似度的計(jì)算,將每個(gè)成員搜索引擎返回的文檔降序排列[12]。例如J. P. Callana等[13]針對(duì)搜索引擎返回結(jié)果的排序、相關(guān)性分值的不同,給出了間隔排列合成法、分值合成法、加權(quán)分值法;再如Krisch等[14]提出的通過修改下層搜索引擎以獲得更多信息并進(jìn)行合成處理的方法[8];再如元搜索引擎系統(tǒng)MetaCrawler引入概念可信度來決定文檔與用戶請(qǐng)求相關(guān)程度[15]。

        元搜索引擎需要根據(jù)相似度來對(duì)搜索結(jié)果進(jìn)行合成和排序,而這種相似度通常是通過詞頻來度量的[16]。但是在中文語境下對(duì)于詞頻的計(jì)算并不容易,這是因?yàn)橛⑽牡膯卧~與單詞之間使用空格斷開,每個(gè)單詞分別有各自的語義,電腦也因此能夠更容易地識(shí)別從而解釋這句話;而中文的每個(gè)句子由許多字和詞組成,而大多數(shù)情況下每個(gè)字并不是單獨(dú)表示意思的,必須與其他字組成詞才能表達(dá)準(zhǔn)確的意思,但是詞語之間并沒有明顯的分隔或其他標(biāo)志[17]。因此對(duì)于中文語境下的元搜索引擎,在計(jì)算相似度之前需要將搜索的關(guān)鍵字和獲取的網(wǎng)頁內(nèi)容進(jìn)行分詞處理[18]。分詞方法根據(jù)原理可以分為基于統(tǒng)計(jì)的,基于詞典的。中國科學(xué)院計(jì)算技術(shù)研究所的漢語詞法分析系統(tǒng)ICTCLAS(institute of computing technology,Chinese lexical analysis system)[19]是一種性能優(yōu)越的中文分詞器,綜合了基于統(tǒng)計(jì)和詞典的分詞方法,有著很好的性能并得到了廣泛的應(yīng)用。

        文中基于元搜索引擎的原理以及相關(guān)技術(shù)方法,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)網(wǎng)頁個(gè)性化搜索自適應(yīng)排序系統(tǒng)。該系統(tǒng)使用ICTCLAS中文分詞方法對(duì)多個(gè)獨(dú)立型搜索引擎的搜索結(jié)果進(jìn)行分詞處理,利用TF-IDF算法計(jì)算關(guān)鍵詞與搜索結(jié)果的相似度,以排序并合成搜索結(jié)果,再利用Ranking SVM排序?qū)W習(xí)方法對(duì)搜索結(jié)果進(jìn)行重排序以形成對(duì)用戶個(gè)性化的和自適應(yīng)的搜索結(jié)果。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在中文語境下能對(duì)多個(gè)獨(dú)立型搜索引擎的結(jié)果進(jìn)行整合,能對(duì)整合結(jié)果進(jìn)行個(gè)性化的重排序,具有良好的性能和運(yùn)行效率。

        1 技術(shù)原理

        1.1 排序?qū)W習(xí)

        為了使搜索引擎的結(jié)果能夠更好地呈現(xiàn),使其更好地完成信息檢索的功能,近年來關(guān)于如何利用排序函數(shù)的特征去構(gòu)建有效的排序函數(shù)成為熱門問題。它運(yùn)用了機(jī)器學(xué)習(xí)的概念,能夠基于特征集合產(chǎn)生訓(xùn)練模型,并在之后自動(dòng)學(xué)習(xí)得到結(jié)果,為實(shí)現(xiàn)搜索引擎的個(gè)性化奠定了基礎(chǔ)。

        排序?qū)W習(xí)算法需要的數(shù)據(jù)是由三部分構(gòu)成的:查詢、與該查詢相對(duì)應(yīng)的文檔的特征序列,以及由人工進(jìn)行標(biāo)注的查詢與文檔之間的相關(guān)度[9]。已有的排序?qū)W習(xí)算法可以根據(jù)訓(xùn)練樣例的不同分為3類:單文檔方法,文檔對(duì)方法和文檔列表方法。單文檔方法,如Pranking with Ranking算法,采用一個(gè)查詢對(duì)應(yīng)的單一文檔作為訓(xùn)練樣例,而不考慮此文檔與該查詢對(duì)應(yīng)的其他文檔之間的關(guān)系;文檔對(duì)方法,如Ranking SVM算法,采用查詢對(duì)應(yīng)的文檔對(duì)作為訓(xùn)練樣例;而文檔列表方法,如ListNet算法,采用查詢對(duì)應(yīng)的文檔序列(document lists)作為訓(xùn)練樣例。已有的研究表明,一般來說文檔對(duì)和文檔列表方法優(yōu)于單文檔方法,但是由于文檔列表對(duì)于訓(xùn)練樣例的要求較高,因此系統(tǒng)采用了文檔對(duì)方法中的Ranking SVM方法對(duì)搜索引擎結(jié)果重排序的算法。

        Ranking SVM是基于支持向量機(jī)的排序?qū)W習(xí)算法。它通過對(duì)機(jī)器學(xué)習(xí)中的支持向量機(jī)進(jìn)行訓(xùn)練,并用訓(xùn)練所得的模型對(duì)網(wǎng)頁進(jìn)行排序。Ranking SVM的原理如圖1所示。

        圖1 Ranking SVM流程

        假設(shè)有輸入空間X∈n,其中n表示特征數(shù)量。有由標(biāo)簽表示的rank值空間Y={r1,r2,…,rq},其中q代表rank值的個(gè)數(shù)[10]。另外,假設(shè)rank值之間存在一個(gè)順序關(guān)系rq?rq-1?…?r1,其中?表示參考關(guān)系。存在一系列函數(shù)的集合f∈F,集合中每個(gè)函數(shù)都能確定兩個(gè)樣本之間的參考關(guān)系:

        (1)

        首先,假設(shè)f是線性函數(shù):

        (2)

        將公式(1)和公式(2)相加,得到:

        (3)

        (4)

        根據(jù)所給的訓(xùn)練數(shù)據(jù)集合S,創(chuàng)建了一個(gè)新的數(shù)據(jù)集合S',新的數(shù)據(jù)集合包含l個(gè)標(biāo)簽向量。

        (5)

        根據(jù)SVM原理,得出建立SVM模型就相當(dāng)于對(duì)下面的二次最優(yōu)問題求解:

        (6)

        引入拉格朗日對(duì)偶公式,把公式(6)經(jīng)過變化得到以下公式:

        (7)

        通過求解上述二次規(guī)劃問題,可以計(jì)算出最優(yōu)解α,依據(jù)公式(8)計(jì)算出最優(yōu)特征權(quán)向量w。

        (8)

        如果w是最優(yōu)權(quán)向量,對(duì)于一個(gè)新樣本z,Ranking SVM算法的排序函數(shù)f(z)根據(jù)公式(9)計(jì)算z的排序得分。

        (9)

        1.2 中文分詞方法

        在計(jì)算詞頻之前,需要將搜索的關(guān)鍵字和獲取的網(wǎng)頁內(nèi)容進(jìn)行分詞處理。中文中每個(gè)句子由許多字和詞組成,而大多數(shù)情況下每個(gè)字并不是單獨(dú)表示意思的,必須與其他字組成詞才能表達(dá)準(zhǔn)確的意思,但是詞語之間并沒有明顯的分隔或其他標(biāo)志,增加了中文分詞的難度[20]。漢語詞法分析系統(tǒng)ICTCLAS是常用的漢語詞法分析器[19],它使用了基于統(tǒng)計(jì)和詞典的分詞方法,主要功能包括:中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別等。

        從結(jié)構(gòu)上來講,詞是由幾個(gè)字組合而成。因此在檢索上下文時(shí),發(fā)現(xiàn)有兩個(gè)或多個(gè)字多次相鄰出現(xiàn),則它們就很有可能構(gòu)成一個(gè)詞,出現(xiàn)的次數(shù)越多,構(gòu)成詞的概率越高。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度[12]。所以只要通過對(duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),從而計(jì)算得到它們的互現(xiàn)信息,即可以此為依據(jù)判斷這幾個(gè)字是否為一個(gè)詞。定義兩個(gè)字的互現(xiàn)信息如公式(10)所示:

        (10)

        其中,P(X,Y)是漢字X,Y的相鄰共現(xiàn)概率,P(X),P(Y)分別是X,Y在語料中出現(xiàn)的概率。互現(xiàn)信息體現(xiàn)的就是通常意義上漢字之間結(jié)合關(guān)系的緊密程度,而當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可判定這些字的組合可能構(gòu)成了一個(gè)詞。通過上述方法可以根據(jù)中文文本識(shí)別單詞,進(jìn)而完成中文分詞處理。

        1.3 網(wǎng)頁內(nèi)容與搜索關(guān)鍵詞相似度的計(jì)算

        對(duì)于搜索結(jié)果的合成,通常采用的方法是分別計(jì)算關(guān)鍵詞和搜索結(jié)果文本的相似度指標(biāo),按照指標(biāo)進(jìn)行合成排序。TF-IDF(term frequency-inverse document frequency)算法是一種用于信息檢索的常用加權(quán)算法,該算法可以有效地評(píng)估一個(gè)單詞在文檔集合中的重要程度,以進(jìn)行關(guān)鍵字提取和分析,廣泛地應(yīng)用于數(shù)據(jù)挖掘等專業(yè)領(lǐng)域[21]。TF-IDF的思想是:如果某關(guān)鍵詞在一段文本中出現(xiàn)的頻率高,而在其他文本中很少出現(xiàn),則認(rèn)為此詞具有很好的類別區(qū)分能力,也就是這個(gè)關(guān)鍵詞與這一段文本相似度高,應(yīng)該出現(xiàn)在合成結(jié)果的前面。

        關(guān)鍵詞在一段文本中出現(xiàn)的頻率可以用詞頻(term frequency,TF)來衡量,其計(jì)算公式如式(11)所示:

        (11)

        其中,T是搜索的關(guān)鍵字在文檔中出現(xiàn)的次數(shù),F(xiàn)是整篇文章詞語的總數(shù)。

        關(guān)鍵詞在其他文本出現(xiàn)的頻率是否較低,或者說這個(gè)詞語的普遍重要性,可以用逆向文檔頻率(inverse document frequency,IDF)來衡量,其計(jì)算公式如式(12)所示:

        (12)

        其中,N表示文檔的總數(shù)量,M表示包含該關(guān)鍵字的文檔數(shù)量。

        TF-IDF算法是計(jì)算一個(gè)關(guān)鍵詞在文檔集合中的TF-IDF指標(biāo),這項(xiàng)指標(biāo)是TF指標(biāo)和IDF指標(biāo)的乘積,即TF-IDF=TF×IDF。對(duì)搜集到的每個(gè)搜索結(jié)果文本,計(jì)算對(duì)應(yīng)的TF-IDF指標(biāo),若該指標(biāo)越高,則說明該關(guān)鍵字在一條搜索結(jié)果文本中出現(xiàn)的次數(shù)越多,其重要性越高,同時(shí)也說明這個(gè)關(guān)鍵字與這項(xiàng)搜索結(jié)果的相似度越高,能更好地體現(xiàn)和概括文檔內(nèi)容,進(jìn)而說明該搜索結(jié)果是用戶期望得到的,應(yīng)該放在前面;反之若TF-IDF指標(biāo)越低,則說明該條搜索結(jié)果重要性越低,應(yīng)該放在后面。使用TF-IDF算法計(jì)算相似度指標(biāo),相較于傳統(tǒng)的TF算法,降低了考慮IDF的所帶來結(jié)果的不可靠性[22]。

        2 系統(tǒng)結(jié)構(gòu)和流程

        2.1 系統(tǒng)結(jié)構(gòu)

        系統(tǒng)功能模塊主要由網(wǎng)頁數(shù)據(jù)獲取、數(shù)據(jù)處理排序以及用戶界面三個(gè)部分組成,系統(tǒng)的內(nèi)核包括:(1)根據(jù)網(wǎng)頁的URL得到百度、有道和360搜索引擎的搜索結(jié)果;(2)利用HtmlParser解析工具解析網(wǎng)頁的HTML;(3)利用ICTCLAS分詞工具對(duì)解析的結(jié)果進(jìn)行分詞處理;(4)利用TF-IDF算法計(jì)算關(guān)鍵字和搜索結(jié)果文本的相似性,據(jù)此排序;(5)在得到訓(xùn)練集和測(cè)試集之后,利用Ranking SVM實(shí)現(xiàn)對(duì)搜索結(jié)果的重排序,處理過程如圖2所示。

        圖2 搜索引擎程序?qū)崿F(xiàn)原理

        第(1)步需要使用URLEncoder工具,由于客戶端在進(jìn)行網(wǎng)頁請(qǐng)求的過程中,不允許出現(xiàn)非ASCII碼的內(nèi)容。然而本系統(tǒng)是針對(duì)中文的個(gè)性化搜索引擎,請(qǐng)求中必然包含中文,需要使用URLEncoder將中文請(qǐng)求進(jìn)行轉(zhuǎn)換以生成請(qǐng)求交由獨(dú)立型搜索引擎處理。URLEncoder的轉(zhuǎn)換方法是:(a)將請(qǐng)求中的非ASCII字符用其16進(jìn)制的Unicode編碼表示,并在前面加上“%”;(b)請(qǐng)求內(nèi)容中的空格全部用“+”代替;(c)其余ASCII字符不處理。

        第(2)步是對(duì)獨(dú)立型搜索引擎返回的搜索結(jié)果進(jìn)行解析,返回的結(jié)果是HTML形式的,因此可以考慮使用HtmlParser工具對(duì)HTML進(jìn)行解析,得到搜索結(jié)果正文。HtmlParser可以對(duì)HTML文檔的DOM進(jìn)行解析,進(jìn)而提取出搜索結(jié)果的標(biāo)題文本和正文文本。

        第(3)步使用ICTCLAS分詞工具對(duì)解析得到的獨(dú)立型搜索引擎的結(jié)果進(jìn)行分詞,將連續(xù)的文本根據(jù)中文語法分割成一個(gè)個(gè)單詞并標(biāo)注詞性。另外標(biāo)注詞性之后,需要對(duì)搜索結(jié)果文本中的無意義的虛詞(例如助詞,語氣詞,嘆詞等)進(jìn)行刪除,這樣處理可以在下一步計(jì)算相似度的TF-IDF方法有更好的區(qū)分度。

        第(4)步使用TF-IDF算法計(jì)算搜索關(guān)鍵詞和搜索結(jié)果文本的相似度并進(jìn)行排序,按照1.3節(jié)所述的方法進(jìn)行計(jì)算,得到每一條搜索結(jié)果的TF-IDF指標(biāo),按照該指標(biāo)降序排列并合成搜索結(jié)果。

        第(5)步則使用Ranking SVM對(duì)結(jié)果進(jìn)行重排序,該步驟的目的是根據(jù)用戶的偏好,提供更加個(gè)性化的搜索結(jié)果。該方法會(huì)記錄用戶的個(gè)人偏好以形成訓(xùn)練集,使用Ranking SVM進(jìn)行訓(xùn)練以生成排序?qū)W習(xí)模型,根據(jù)訓(xùn)練得到的模型,對(duì)上一步結(jié)果使用TF-IDF算法合成得到的搜索結(jié)果進(jìn)行重排序,最終得到個(gè)性化的自適應(yīng)排序搜索結(jié)果。

        2.2 系統(tǒng)運(yùn)行流程

        關(guān)于搜索引擎的系統(tǒng)流程設(shè)計(jì),主要分為多個(gè)搜索引擎搜索結(jié)果的獲取,對(duì)搜索結(jié)果內(nèi)容與標(biāo)題的解析,對(duì)內(nèi)容與標(biāo)題的中文分詞,計(jì)算內(nèi)容、標(biāo)語與搜索關(guān)鍵字直接的相關(guān)度,確定搜索結(jié)果的排序,系統(tǒng)運(yùn)行時(shí),直接進(jìn)入搜索界面,輸入關(guān)鍵詞即可查詢,得到搜索結(jié)果,系統(tǒng)運(yùn)行流程如圖3所示。

        圖3 系統(tǒng)運(yùn)行流程

        為了形成個(gè)性化的搜索結(jié)果,需要保存用戶的搜索記錄供Ranking SVM訓(xùn)練使用,因此設(shè)計(jì)了登錄系統(tǒng)和數(shù)據(jù)庫,用于收集和存儲(chǔ)用戶的搜索記錄,同時(shí)后臺(tái)也可以獲取這些用戶信息進(jìn)行排序?qū)W習(xí),從而完成對(duì)搜索結(jié)果個(gè)性化重排序的功能。如果用戶不進(jìn)行登錄,則得到的搜索結(jié)果僅為根據(jù)關(guān)鍵詞和搜索結(jié)果相似度排序得到的合成搜索結(jié)果,不具有個(gè)性化的特征。系統(tǒng)支持用戶多次查詢,用戶查詢次數(shù)越多,系統(tǒng)的個(gè)性化排序效果越顯著。

        3 實(shí)驗(yàn)和結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        CPU:Intel(R) Core(TM) i3 CPU;內(nèi)存:8 GB;開發(fā)用JDK版本 1.8;依賴項(xiàng):Gson,HtmlParser,ICTCLAS,Ranking SVM。

        3.2 系統(tǒng)性能測(cè)試

        在線搜索結(jié)果的時(shí)間由搜索的關(guān)鍵字、網(wǎng)頁內(nèi)容、網(wǎng)速等多種因素決定,實(shí)驗(yàn)中選取部分具有代表性的關(guān)鍵詞進(jìn)行搜索并記錄搜索時(shí)間,實(shí)驗(yàn)結(jié)果如表1所示。

        表1 性能測(cè)試結(jié)果

        目前,由于沒采用緩存,系統(tǒng)的搜索時(shí)間還有較大的優(yōu)化空間。根據(jù)性能測(cè)試結(jié)果可以發(fā)現(xiàn),對(duì)于一些較為寬泛的關(guān)鍵詞(例如計(jì)算機(jī)、語文等),搜索用時(shí)較長,這是因?yàn)檫@一類關(guān)鍵詞獨(dú)立型搜索引擎得到的結(jié)果數(shù)量就比較龐大,因而計(jì)算相似度和重排序的規(guī)模也比較大,最終導(dǎo)致用時(shí)增加;而對(duì)于一些比較明確的關(guān)鍵詞(例如南京大學(xué)等),搜索用時(shí)較短,同理是因?yàn)檫@類關(guān)鍵詞獨(dú)立型搜索引擎結(jié)果數(shù)量較少導(dǎo)致的。

        3.3 系統(tǒng)流程測(cè)試

        輸入“計(jì)算機(jī)”關(guān)鍵詞,系統(tǒng)排序結(jié)果對(duì)比如圖4所示。其中圖4(a)是使用TF-IDF算法對(duì)搜索結(jié)果的合成,圖4(b)是使用Ranking SVM對(duì)搜索結(jié)果的重排序,可以看出順序已經(jīng)調(diào)整,更加符合用戶的使用偏好。

        對(duì)于關(guān)鍵詞“計(jì)算機(jī)”,經(jīng)過TF-IDF計(jì)算相似度排序合成的搜索結(jié)果,可以看到“計(jì)算機(jī)互動(dòng)百科”這一項(xiàng)出現(xiàn)在了第3個(gè)到第5個(gè),而“計(jì)算機(jī)基礎(chǔ)知識(shí)教程”這一項(xiàng)出現(xiàn)在第1個(gè)和第2個(gè),這是因?yàn)椤坝?jì)算機(jī)基礎(chǔ)知識(shí)教程”這一項(xiàng)的搜索結(jié)果文本包含了大量“計(jì)算機(jī)”這一關(guān)鍵詞,導(dǎo)致其TF-IDF指標(biāo)比較大,所以合成排序結(jié)果的時(shí)候會(huì)前置,而“計(jì)算機(jī)互動(dòng)百科”這一搜索結(jié)果對(duì)應(yīng)的TF-IDF指標(biāo)就比較小,所以排在稍后的位置。而經(jīng)過Ranking SVM對(duì)結(jié)果進(jìn)行了重排序,由于系統(tǒng)已經(jīng)記錄了用戶的搜索記錄并訓(xùn)練了排序?qū)W習(xí)模型,該用戶在之前的搜索中偏向于選擇與這個(gè)關(guān)鍵詞相關(guān)的百科,因此在重排序的過程中將“計(jì)算機(jī)互動(dòng)百科”放在了前面,變成了第1個(gè)到第3個(gè),而“計(jì)算機(jī)基礎(chǔ)知識(shí)教程”則被重排到了第8個(gè)和第9個(gè)。

        圖4 排序結(jié)果示例

        通過上述分析可以發(fā)現(xiàn),該系統(tǒng)可以按照前文所述的TF-IDF算法依據(jù)相似性對(duì)獨(dú)立型搜索引擎的結(jié)果進(jìn)行合成,同時(shí)Ranking SVM可以記錄用戶的搜索記錄生成排序?qū)W習(xí)模型,對(duì)合成的搜索結(jié)果進(jìn)行個(gè)性化的重排序,提供給用戶自適應(yīng)的個(gè)性化搜索結(jié)果。

        4 結(jié)束語

        基于元搜索引擎的原理以及相關(guān)技術(shù)方法,文中設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)網(wǎng)頁個(gè)性化搜索自適應(yīng)排序系統(tǒng)。該系統(tǒng)使用ICTCLAS中文分詞方法對(duì)多個(gè)獨(dú)立型搜索引擎的搜索結(jié)果進(jìn)行處理,使用TF-IDF算法計(jì)算相似度指標(biāo)以合成搜索結(jié)果,再利用Ranking SVM排序?qū)W習(xí)方法對(duì)搜索結(jié)果進(jìn)行重排序以形成對(duì)用戶個(gè)性化的和自適應(yīng)的搜索結(jié)果。使用Java和JSP實(shí)現(xiàn)該系統(tǒng),實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在中文語境下能對(duì)多個(gè)獨(dú)立型搜索引擎的結(jié)果進(jìn)行整合,能對(duì)合成后的搜索結(jié)果進(jìn)行個(gè)性化的重排序。

        猜你喜歡
        分詞搜索引擎文檔
        有人一聲不吭向你扔了個(gè)文檔
        結(jié)巴分詞在詞云中的應(yīng)用
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        值得重視的分詞的特殊用法
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        加勒比色老久久爱综合网| 国产美女被遭强高潮露开双腿 | 久久久久亚洲av无码a片软件| 91亚洲精品福利在线播放 | 人妻中文久久人妻蜜桃| 国产成人精品久久亚洲高清不卡| 国产乱xxⅹxx国语对白| 久久99国产伦精品免费| 国产精品高清亚洲精品| 国产精品高潮呻吟av久久黄| 久久久久久无码av成人影院| 人妻人人澡人人添人人爽人人玩| 亚洲天堂无码AV一二三四区| 日本精品一级二区三级| 国内精品久久久久国产盗摄| 日本午夜免费福利视频| 亚洲欧美变态另类综合| 午夜免费观看一区二区三区| 国产精品视频一区二区三区不卡 | 亚洲国产免费公开在线视频 | 成人a级视频在线观看| 亚洲日韩图片专区小说专区| 国产精品高清亚洲精品| 日本亚洲精品一区二区三| 日韩欧群交p片内射中文| 国产精品天堂avav在线| 91桃色在线播放国产| 色综合天天综合欧美综合| a级毛片在线观看| 亚色中文字幕| 黄片国产一区二区三区| 国产七十六+老熟妇| 日本精品一区二区三区在线视频 | 色综合久久中文综合网亚洲| 久激情内射婷内射蜜桃人妖| 精品一区二区av天堂| 日本一区二区视频免费在线观看| 亚洲精品国精品久久99热| 亚洲一区二区观看播放| 午夜视频福利一区二区三区| 亚洲国产精品av在线|