亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于相關(guān)性分析的搜索引擎設(shè)計

        2018-09-17 05:36:16趙冰漫
        科教導(dǎo)刊·電子版 2018年21期
        關(guān)鍵詞:搜索引擎相關(guān)性

        趙冰漫

        摘 要 隨著計算機系統(tǒng)性能的提高和網(wǎng)絡(luò)技術(shù)的不斷進步,如何在互聯(lián)網(wǎng)這個龐大的信息資源中提供高效的搜索服務(wù),幫助用戶在海量的數(shù)據(jù)中快速找到需要的信息是搜索引擎亟待解決的問題。通常用戶只關(guān)心返回的排在前面的結(jié)果,然而當(dāng)前搜索引擎返回的查詢結(jié)果與用戶需求的相關(guān)性并不高。于是搜索引擎的相關(guān)性設(shè)計--按照與用戶查詢的相關(guān)程度對搜索引擎的索引文檔進行排序,成為當(dāng)前研究的重點。

        關(guān)鍵詞 搜索引擎 相關(guān)性 用戶查詢 索引

        中圖分類號:TP391 文獻標識碼:A

        0引言

        本文對搜索引擎的相關(guān)性進行了深入的研究,主要工作歸納為以下幾點:

        (1)文本搜索引擎的相關(guān)性排序模型,采用向量空間模型。

        (2)文本搜索引擎數(shù)據(jù)源采用網(wǎng)絡(luò)爬蟲實現(xiàn)。

        (3)文本搜索引擎數(shù)據(jù)分類采用樸素貝葉斯算法。

        1相關(guān)性分析與實現(xiàn)

        TF-IDF:是一種常用的檢索系統(tǒng)的加權(quán)技術(shù)。

        基本思想:是每個字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比,與在其他文件中出現(xiàn)的次數(shù)成反比。

        TF:Term Frequency:關(guān)鍵詞詞頻,是指一篇文章中關(guān)鍵詞出現(xiàn)的頻率,比如在一篇M個詞的文章中有N個該關(guān)鍵詞,則: TF=為該關(guān)鍵詞在這篇文章中的詞頻。

        IDF:Inverse Document Frequency :逆向文本頻率,是用于衡量關(guān)鍵詞權(quán)重的指數(shù),由:IDF=log()計算而得。

        D:表示文章總數(shù),DW:表示關(guān)鍵詞出現(xiàn)過的文章數(shù)。

        2基于向量空間的余弦算法

        算法步驟:預(yù)處理→文本特征項選擇→加權(quán)→生成向量空間模型后計算余弦。

        (1)預(yù)處理。預(yù)處理主要是進行中文分詞和去停用詞。然后按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標點、及亂碼去掉。例如:“這,的,和,會,為”等詞出現(xiàn)在任何一篇中文文本中,但是他們對這個文本所表達的意思幾乎沒有任何貢獻。使用停用詞表來剔除停用詞的過程,就是一個查詢過程,對每一個詞條,看其是否位于停用詞表中,如果是則將其從詞條串中刪除。

        (2)文本特征性選擇與加權(quán)。過濾掉常用副詞、助詞等頻率高的詞之后,根據(jù)剩下詞的頻度確定若干關(guān)鍵詞。頻度計算參照TF公式。

        (3)加權(quán)是針對每個關(guān)鍵詞對文本特征的體現(xiàn)效果小大不同而設(shè)置的機制,權(quán)值計算參照IDF公式。

        (4)向量空間模型VSM及余弦計算。向量空間模型的基本思想是把文檔簡化為以特征項(關(guān)鍵詞)的權(quán)重為分量的N維向量表示。

        假設(shè)一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d),對于其他要與之比較的文本,也將遵從這個特征項順序。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權(quán)重表示其重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn)簡記為D=D(W1,W2,…,Wn)把他叫做文本D的權(quán)值向量表示,其中Wk是Tk的權(quán)重,1≤k≤N。

        兩個文本D1和D2之間的內(nèi)容相關(guān)度SIM(D1,D2)常用向量之間夾角的余弦值表示,即

        式中W1k、W2k表示文本D1和D2第k個特征項的權(quán)值,1≤k≤N。

        3樸素貝葉斯算法設(shè)計與實現(xiàn)

        樸素貝葉斯的思想基礎(chǔ)是:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。

        文本分類在搜索引擎中屬于必備語言處理模塊,每篇文章都由成百上千個詞語組成,可以當(dāng)做個向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i個詞語。文章的分類也可以視為一個分類標記集合C=(c1,c2,c3,…,cm)。在wi出現(xiàn)的情況下,文本是文本分類C的概率,可根據(jù)貝葉斯計算,公式為:

        在文本分類的角度理解貝葉斯公式為:在wi詞出現(xiàn)的情況下是否是文本類別取決于在文本分類cj情況下wi出現(xiàn)的概率,以及wi在所有詞中出現(xiàn)的概率。p(w)的意義在于如果這個詞在所有文檔中出現(xiàn),那么用wi去判定是否是cj的概率越低,越不具備代表性。

        樸素貝葉斯是一種有監(jiān)督的學(xué)習(xí)方式,可以利用伯努利模型以文件為粒度進行文本分類??梢詺w納樸素貝葉斯大致分為數(shù)據(jù)準備、分類器訓(xùn)練及分類識別三個階段。

        (1)數(shù)據(jù)準備。語料庫的準備工作階段,這個階段的任務(wù)是為樸素貝葉斯分類做必要的準備,主要工作是根據(jù)具體情況確定屬性特征,并對每個屬性特征進行適當(dāng)劃分,然后由人工對一部分待分類項進行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響,分類器的質(zhì)量很大程度上是由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定的。

        (2)分類器訓(xùn)練。這個階段的任務(wù)是生成分類器,主要工作是計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這一階段是機械階段,根據(jù)前面討論的公式可以由程序自動計算完成。

        (3)分類識別。這個階段的任務(wù)是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關(guān)系。這一階段也是機械性階段,由程序完成。

        4結(jié)語

        搜索引擎相關(guān)性的研究在未來還將是研究熱點,學(xué)者將會從更加全面的角度剖析相關(guān)性的影響因素,增加用戶習(xí)慣、需求等因素;檢索功能也將不斷得到補充,多媒體檢索、移動檢索等檢索技術(shù)將成為未來各個搜索引擎企業(yè)重點研究的檢索功能;同時,除了檢索效率、網(wǎng)頁相關(guān)性的評價研究外,檢索結(jié)果排序、檢索信息重復(fù)率、網(wǎng)頁死鏈或響應(yīng)時間等問題也將成為下一階段亟待研究解決的重要問題。

        參考文獻

        [1] 王黎.搜索引擎的相關(guān)性排序算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2010.

        [2] 王亮.搜索引擎及其相關(guān)性排序研究[D].武漢:武漢大學(xué),2004.

        [3] 孫靖.基于云平臺的數(shù)據(jù)庫搜索引擎實現(xiàn)方法的研究[D].南京:南京郵電大學(xué),2014.

        猜你喜歡
        搜索引擎相關(guān)性
        基于Kronecker信道的MIMO系統(tǒng)通信性能分析
        科技視界(2016年21期)2016-10-17 17:37:34
        小兒支氣管哮喘與小兒肺炎支原體感染相關(guān)性分析
        腦梗死與高同型半胱氨酸的相關(guān)性研究(2)
        腦梗死與高同型半胱氨酸的相關(guān)性研究
        會計信息質(zhì)量可靠性與相關(guān)性的矛盾與協(xié)調(diào)
        決策有用觀下財務(wù)會計信息質(zhì)量研究
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        亚洲av成人中文无码专区| 日本高清一区在线你懂得 | 不卡一本av天堂专区| 夜夜躁狠狠躁日日躁2022| 少妇人妻在线视频| AV无码人妻一区二区三区牛牛| 国产一区二区视频免费| 超碰色偷偷男人的天堂| 精品国产18久久久久久| 久国产精品久久精品国产四虎 | 国产精品日日摸夜夜添夜夜添| 亚洲国产成人va在线观看天堂| 亚洲av无码专区在线| а√天堂资源8在线官网在线| 精品国产性色av网站| 久久精品亚洲热综合一本色婷婷| 国产成人av一区二区三区在线观看 | 亚洲av无码一区二区三区鸳鸯影院| 成人性做爰aaa片免费看| 日韩在线视精品在亚洲| 亚洲中文字幕乱码在线观看| 77777_亚洲午夜久久多人| 亚洲xxxx做受欧美| 国产亚洲日本人在线观看| 日本综合视频一区二区| 久久久久免费看成人影片 | 99亚洲男女激情在线观看| 麻豆AV免费网站| 日本老熟女一区二区三区| 亚洲av无码专区国产不卡顿| 人人妻人人爽人人做夜欢视频九色| 操B小视频国产| 亚洲97成人在线视频| 97久久精品无码一区二区天美| 国产成人免费一区二区三区| 手机在线播放成人av| 无码人妻丰满熟妇区五十路| 亚洲精品免费专区| 精品国产车一区二区三区| 狠狠色丁香婷婷综合潮喷| 精品综合久久久久久97超人|