亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        鏈接分析技術(shù)中Web聚類算法及歸類的應(yīng)用研究

        2018-09-10 03:22:34許曉燕
        河南科技 2018年14期
        關(guān)鍵詞:聚類算法

        許曉燕

        摘 要:鏈接分析技術(shù)是優(yōu)化信息搜索速度與利用價(jià)值的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化發(fā)展途徑,在以往更加傾向于關(guān)鍵內(nèi)容的數(shù)據(jù)信息特征歸類,而對(duì)于Web信息內(nèi)容的特征屬性要求較低,因此會(huì)產(chǎn)生搜索主題不鮮明、搜索內(nèi)容針對(duì)性差等問(wèn)題?;诖?,本文針對(duì)鏈接分析技術(shù)提出了聚類算法的應(yīng)用模式,以便為Web信息內(nèi)容的歸類推薦提供理論參考。

        關(guān)鍵詞:鏈接分析技術(shù);Web;聚類算法;歸類應(yīng)用;子集特征

        中圖分類號(hào):TP393.07 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2018)14-0024-03

        Application of Web Clustering Algorithm and Classification in

        Link Analysis Technology

        XU Xiaoyan

        (Sanmenxia Polytechnic,Sanmenxia Henan 472000)

        Abstract: The link analysis technology is the optimal way to optimize the network structure of information search speed and use. In the past, the characteristics of the data information which were more inclined to the key content were classified, and the characteristics of the Web information content were low, so the problem of the search theme was not distinct and the content of the search was poor. Based on this, this paper put forward the application mode of clustering algorithm for link analysis technology, so as to provide a theoretical reference for the classification and recommendation of Web information content.

        Keywords: link analysis technology;Web;clustering algorithm;categorization application;subset feature

        1 鏈接分析技術(shù)概述

        1.1 鏈接分析技術(shù)簡(jiǎn)介

        鏈接分析是源于對(duì)Web結(jié)構(gòu)中超鏈接的多維分析。其分析目標(biāo)是強(qiáng)調(diào)網(wǎng)絡(luò)信息檢索、數(shù)據(jù)挖掘、網(wǎng)絡(luò)統(tǒng)計(jì)、Web結(jié)構(gòu)建模等方面的技術(shù)優(yōu)化方案。長(zhǎng)期以來(lái),擁有高質(zhì)量的外部鏈接都是搜索引擎必要的技術(shù)支撐[1]。在此方面,鏈接分析技術(shù)Google、百度、雅虎和搜狗等搜索引擎平臺(tái)提供了關(guān)鍵詞索引的技術(shù)方案。當(dāng)反向鏈接或?qū)腈溄訉?duì)關(guān)鍵詞匯的采集頻次較高,且達(dá)到了全網(wǎng)搜尋的效果之后,并不代表其中的索引信息都能呈現(xiàn)在Web頁(yè)面中,而是需要積極調(diào)取其中的特征屬性,繼而通過(guò)聚類分析算法明確具體的排名,才能將關(guān)聯(lián)度更高的信息、網(wǎng)址、域名進(jìn)行歸類和排列。因此,鏈接分析技術(shù)所呈現(xiàn)的鏈接構(gòu)建開(kāi)辟了網(wǎng)絡(luò)終端收集信息的便捷性,而網(wǎng)站被搜尋到的概率也會(huì)相對(duì)更高且更為合理。因此,鏈接分析技術(shù)是關(guān)鍵詞查詢后影響搜索信息排名的關(guān)鍵因素,也決定了搜索引擎的常規(guī)應(yīng)用效率與性能。

        1.2 鏈接分析的基本原理

        搜索引擎對(duì)網(wǎng)頁(yè)關(guān)聯(lián)度的排序,是基于鏈接分析技術(shù)支持完成的具體搜索操作。這一流程,既需要對(duì)關(guān)鍵詞本身的出現(xiàn)密度加以衡量,同時(shí)需要對(duì)比鏈接本身的流行度。當(dāng)該網(wǎng)頁(yè)被瀏覽的頻次較高,其鏈接分析技術(shù)則會(huì)將該頁(yè)面推送到排名靠前的位置,相反,排名則較為靠后。通過(guò)鏈接分析,能讓搜索內(nèi)容更為精準(zhǔn)。一個(gè)Web頁(yè)面的反向鏈接越高,其可應(yīng)用價(jià)值也會(huì)越大,基于這種原理支持其鏈接靠前便是鏈接分析技術(shù)的基本運(yùn)行原理。因此,鏈接分析技術(shù)不僅提供了關(guān)于搜索信息的普遍解答[2],而且優(yōu)化了信息價(jià)值定位后所呈現(xiàn)出關(guān)聯(lián)度更高、應(yīng)用價(jià)值更高及使用頻次更高的Web頁(yè)面,是最大限度優(yōu)化搜索信息權(quán)威性的技術(shù)支持。

        2 應(yīng)用鏈接分析技術(shù)的優(yōu)勢(shì)

        鏈接分析技術(shù)在Web頁(yè)面的數(shù)據(jù)挖掘過(guò)程中具有極為廣泛的應(yīng)用價(jià)值,分別為提升信息檢索質(zhì)量、擴(kuò)大網(wǎng)絡(luò)主題空間。

        2.1 提升信息檢索質(zhì)量

        鏈接分析技術(shù)對(duì)于改善網(wǎng)絡(luò)信息檢索的速度及時(shí)效性具有重要作用。以Web頁(yè)面信息的檢索為對(duì)象,在采用了鏈接分析技術(shù)之后,其核心算法可以借助聚類分析模式彌補(bǔ)網(wǎng)絡(luò)信息關(guān)聯(lián)度不足的弊端,進(jìn)而剔除線性存儲(chǔ)的局限性,并為終端用戶擴(kuò)大搜索范圍,集中檢索空間。此外,在搜索引擎中的網(wǎng)絡(luò)瀏覽速度也會(huì)隨之加速,節(jié)省用戶的網(wǎng)絡(luò)瀏覽時(shí)間。在搜索引擎檢索到的信息中建立評(píng)價(jià)等級(jí),從排序優(yōu)化條件中開(kāi)發(fā)超鏈分析的推薦選項(xiàng),進(jìn)而加強(qiáng)信息檢索的排序效果。

        2.2 擴(kuò)大網(wǎng)絡(luò)主題空間

        網(wǎng)絡(luò)主題是設(shè)置Web頁(yè)面信息時(shí)所融入的基礎(chǔ)元素,這一元素并不會(huì)由關(guān)鍵詞直接顯現(xiàn)。當(dāng)關(guān)鍵詞不同時(shí),部分Web頁(yè)面信息仍然傳遞出類似的結(jié)論、結(jié)果或研究?jī)?nèi)容,實(shí)質(zhì)上也是對(duì)網(wǎng)絡(luò)信息的轉(zhuǎn)載或解釋。這種并不具備檢索要求的信息,反而有助于用戶逐步明確搜索方向,是認(rèn)知網(wǎng)絡(luò)主題空間的引導(dǎo)。借助鏈接分析技術(shù)檢索Web頁(yè)面中的隱含信息,提供更加權(quán)威的質(zhì)量評(píng)價(jià),有助于邏輯性更強(qiáng)、權(quán)威性更高、主題更為鮮明的Web頁(yè)面被快速發(fā)掘。由此,數(shù)據(jù)發(fā)掘的價(jià)值得以保障,是擴(kuò)大網(wǎng)絡(luò)主題空間檢索范圍的技術(shù)支持[3]。

        3 鏈接分析技術(shù)中Web聚類算法及歸類的應(yīng)用

        3.1 鏈接分析技術(shù)中的歸類模式

        在搜索Web頁(yè)面信息時(shí),多數(shù)關(guān)聯(lián)主題并不鮮明,存在模糊查詢的現(xiàn)象。運(yùn)用鏈接分析技術(shù),實(shí)質(zhì)上也是逐步消解模糊狀態(tài)的方式,需要將關(guān)聯(lián)度較高的信息進(jìn)行歸類,進(jìn)而推送應(yīng)用價(jià)值更高的Web頁(yè)面信息。此時(shí),傳統(tǒng)的關(guān)鍵詞索引模式并不足以分析用戶的實(shí)質(zhì)需求,因此關(guān)聯(lián)數(shù)據(jù)并未被快速發(fā)掘。例如,當(dāng)關(guān)鍵詞為“蛟龍”時(shí),其作為古代神話中的神獸并非用戶搜索意圖,而由我國(guó)自主研發(fā)的“蛟龍?zhí)栞d人潛水器”反而可能是用戶所需查詢的主題。如果搜索引擎無(wú)法滿足所有用戶對(duì)關(guān)聯(lián)主題的信息需求,實(shí)質(zhì)上所呈現(xiàn)出的Web頁(yè)面應(yīng)用價(jià)值也會(huì)相對(duì)較低。因此,搜索引擎首先需要加強(qiáng)關(guān)聯(lián)主題的歸類統(tǒng)計(jì),然后將歸類內(nèi)容分別呈現(xiàn)給用戶,才能達(dá)到預(yù)期的搜索與查詢效果。利用鏈接分析技術(shù)歸類其中的關(guān)聯(lián)主題,通過(guò)劃分Web頁(yè)面的歸類,從中計(jì)算出網(wǎng)絡(luò)信息的比例權(quán)重,這樣才能進(jìn)一步提升查詢結(jié)果的針對(duì)性。

        3.2 聚類算法的分析流程

        首先,需要定義搜索范圍的有向圖[G=V,E],其中[V]代表了文檔集合,E為關(guān)系集合。假設(shè)P與Q的關(guān)聯(lián)主題均符合從P鏈接到Q,或從Q鏈接到P的條件。那么,G集合則涵蓋了[P,Q]無(wú)限趨向于E的特征表現(xiàn)。其節(jié)點(diǎn)[Iv]和 [Ov]也在不斷接近于節(jié)點(diǎn)集合。因此,在每個(gè)節(jié)點(diǎn)中都會(huì)明確具體的出度和入度,并保持相對(duì)的穩(wěn)定性。在G中存在n個(gè)節(jié)點(diǎn),在得到[R0a,b=0]或1的情況下,[Rk+1a,b=RkIia,Ijb],[Limk→∞],則代表[Rka,b=Ra,b],那么[Ra,b]的鏈接相似度也會(huì)滿足用戶需求,并得到支持Web信息歸類的最終數(shù)據(jù)集合。

        3.3 構(gòu)建網(wǎng)頁(yè)集合

        聚類分析的特點(diǎn)是將Web關(guān)聯(lián)信息中較為抽象的內(nèi)容劃分為統(tǒng)一的屬性集合,在分組之后才涉及歸類應(yīng)用。這種近似為智能行為的算法為鏈接分析提供了基礎(chǔ)條件,因此能依據(jù)描述信息的逐步清晰最終明確數(shù)據(jù)源分類。這一分類也是加強(qiáng)網(wǎng)頁(yè)集合構(gòu)造的基礎(chǔ)條件,將突出關(guān)聯(lián)主題的鮮明度。在構(gòu)建網(wǎng)頁(yè)集合的過(guò)程中,首先需要確定如下條件:網(wǎng)絡(luò)信息的出現(xiàn)頻次、集合信息的整體權(quán)威性、搜索范圍的明確度。當(dāng)相關(guān)參數(shù)構(gòu)筑了網(wǎng)頁(yè)信息的集成效果后,根集合R的Web信息集合條件也更為清晰,是諸多子集合滿足搜索條件的重要表現(xiàn),也是快速發(fā)掘用戶搜索需求規(guī)律的內(nèi)容歸類[4]。

        3.4 Web頁(yè)面信息歸類

        當(dāng)用戶所需的搜索范圍被界定,其中的字符串內(nèi)容也會(huì)集中于網(wǎng)頁(yè)集合內(nèi),并表示出具體的鏈接強(qiáng)度關(guān)系。真正的鏈接強(qiáng)度是Web聚類算法得以支持予以分析結(jié)果明確的主要條件,是為了更為精準(zhǔn)地調(diào)取網(wǎng)頁(yè)子集信息而設(shè)定的搜索條件。因此,網(wǎng)頁(yè)歸類的Web聚類算法也能快速建立頁(yè)面集合的特征,為用戶提供更為精準(zhǔn)的搜索服務(wù)。通過(guò)分析頁(yè)面內(nèi)容信息的關(guān)聯(lián)度,劃分集合屬性,使其達(dá)到歸類需求。一方面,需要生成初始類,并在網(wǎng)頁(yè)信息中隨機(jī)設(shè)定一個(gè)相似度較高的類,計(jì)算其中的相似度。將相似度最小的Web頁(yè)面信息作為第二個(gè)類,計(jì)算其余Web頁(yè)面信息與兩個(gè)網(wǎng)絡(luò)集合的關(guān)聯(lián)性,取二者之和中最小的參考值作為第三個(gè)類。以此類推,便產(chǎn)生了K個(gè)類,且每個(gè)類的特征屬性都并不相同,查詢其中的信息對(duì)比,或者關(guān)鍵詞內(nèi)容,終端用戶便可以優(yōu)化網(wǎng)頁(yè)信息的主題特征鮮明度,令用戶了解每一類集合的主題特征。另一方面,需要針對(duì)網(wǎng)絡(luò)信息的迭代過(guò)程加以描述,參考網(wǎng)頁(yè)信息的隸屬度和關(guān)聯(lián)度,取其平均值作為聚類算法的終止條件,并將網(wǎng)頁(yè)信息聚集,呈現(xiàn)出不同意圖或特征的Web頁(yè)面信息以供用戶參考。

        3.5 信息權(quán)重計(jì)算

        在得到分類網(wǎng)頁(yè)特征數(shù)據(jù)之后,用戶可以在自己所需的主題中選擇子集合,并在歸類內(nèi)容中查找契合度最高的信息內(nèi)容。因此,聚類結(jié)果在用戶選擇的子集合中具有再利用價(jià)值,是鏈接分析技術(shù)得以實(shí)現(xiàn)的根本。在此基礎(chǔ)上,完成對(duì)網(wǎng)頁(yè)子集權(quán)重的設(shè)定,是進(jìn)一步優(yōu)化排列效果的支持條件。聚類算法之所以能加強(qiáng)信息關(guān)聯(lián)度,是因?yàn)樵谙嚓P(guān)信息中提取可量化的標(biāo)準(zhǔn)之后,優(yōu)化子集信息的特重度。例如,“百度快照”中將關(guān)聯(lián)詞通過(guò)不同顏色呈現(xiàn)給用戶,便是逐一顯現(xiàn)文檔內(nèi)容信息的應(yīng)用價(jià)值排列。這樣的內(nèi)容推薦效果可以讓終端用戶快速識(shí)別關(guān)鍵信息的價(jià)值取向,從而明確所選主題內(nèi)容的適應(yīng)度。其計(jì)算信息權(quán)重主要為5個(gè)步驟。第一,需要設(shè)定所選內(nèi)容信息的子集合鄰接圖為N,并以H[n]代表關(guān)聯(lián)度,以A[n]代表權(quán)威度。第二,需要初始化關(guān)聯(lián)度與全維度子集合的相關(guān)信息,設(shè)定其閾值為1。第三,需要在向量H和A并未收斂時(shí)進(jìn)入計(jì)算流程,否則需要退出。第四,需要對(duì)N集合的所有節(jié)點(diǎn)閾值,得到[A=n,n,nHn,×auth_wtn,,n]。第五,需要對(duì)集合中的節(jié)點(diǎn)進(jìn)行再次閾值,得到[H=n,n,nAn,×hub_wtn,,n],進(jìn)而最終得到H與A的規(guī)范化結(jié)構(gòu),為Web頁(yè)面信息的搜索依據(jù)權(quán)重比例進(jìn)行排序。相關(guān)研究表明,這種以聚類算法為核心的鏈接分析技術(shù)能滿足模糊主題的相關(guān)信息搜索需求,進(jìn)而為用戶提供興趣度更高的Web頁(yè)面內(nèi)容,是進(jìn)一步優(yōu)化Web信息內(nèi)容聚類條件和歸類應(yīng)用的發(fā)展結(jié)果,能支持終端用戶在最短時(shí)限內(nèi)完成對(duì)模糊信息的搜索,優(yōu)化搜索內(nèi)容的精準(zhǔn)度與時(shí)效性,并達(dá)到加快搜索速度的應(yīng)用效果。

        4 結(jié)語(yǔ)

        Web頁(yè)面信息在利用了聚類分析算法之后,能將諸多特征子集充分提取和調(diào)集,并最終歸類為不同的主題內(nèi)容以便為終端用戶提供數(shù)據(jù)信息的對(duì)比與參考。借助鏈接分析技術(shù),能優(yōu)化Web頁(yè)面信息的歸類應(yīng)用條件,從而提高快速查詢搜索結(jié)果的精準(zhǔn)度,擴(kuò)大適用范圍?;诖耍梢岳镁垲愃惴▋?yōu)化鏈接分析技術(shù)的應(yīng)用效果,并在歸類屬性中達(dá)到預(yù)期的搜索精度,為優(yōu)化Web頁(yè)面的信息整合度提供技術(shù)支持。

        參考文獻(xiàn):

        [1]趙蓉英,魏緒秋.時(shí)空維度下的我國(guó)鏈接分析研究現(xiàn)狀分析[J].情報(bào)科學(xué),2017(4):3-8.

        [2]高翔,吳萬(wàn)琴.異質(zhì)信息網(wǎng)絡(luò)中基于聚類及鏈接分析的多樣性挖掘技術(shù)[J].工業(yè)儀表與自動(dòng)化裝置,2014(6):11-14,46.

        [3]屈玉閣.基于譜聚類與改進(jìn)WEB鏈接分析HITS算法的多屬性群決策方法[J].統(tǒng)計(jì)與決策,2014(19):13-17.

        [4]孫建軍.鏈接分析:知識(shí)基礎(chǔ)、研究主體、研究熱點(diǎn)與前沿綜述——基于科學(xué)知識(shí)圖譜的途徑[J].情報(bào)學(xué)報(bào),2014(6):659-672.

        猜你喜歡
        聚類算法
        一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法
        基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類方法分析張學(xué)文治療肝熱血瘀證用藥規(guī)律
        數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
        K—Means聚類算法在MapReduce框架下的實(shí)現(xiàn)
        基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
        數(shù)據(jù)挖掘技術(shù)在識(shí)別可疑金融交易中的應(yīng)用
        基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
        大規(guī)模風(fēng)電場(chǎng)集中接入對(duì)電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類
        基于MapReduce的DBSCAN聚類算法的并行實(shí)現(xiàn)
        久久久精品456亚洲影院| 偷拍偷窥在线精品视频| 久久免费观看国产精品| 国模无码视频专区一区| 精品一区二区三区久久久| av免费网站在线免费观看| 蜜桃av噜噜一区二区三区免费| 国产麻豆剧传媒精品国产av| 一区二区三区免费观看日本| 国产精品无码素人福利| 亚洲国产成人精品无码一区二区| 亚洲碰碰人人av熟女天堂| 综合无码一区二区三区四区五区| 日本国产在线一区二区| 伊人婷婷综合缴情亚洲五月| 99视频在线精品免费观看6| 亚洲欧美国产国产综合一区| 人人妻人人添人人爽日韩欧美 | 亚洲中文字幕视频第一二区| 成人自慰女黄网站免费大全| 国产乱子伦精品无码专区 | 亚洲日产一线二线三线精华液| 久久亚洲精品ab无码播放| 天天摸天天做天天爽天天舒服| 在线看高清中文字幕一区| 免费观看国产短视频的方法| 曰本人做爰又黄又粗视频| 亚洲AV秘 无码一区二区三区臀 | 久久99国产精品久久99密桃| 亚洲视频高清一区二区| 久久国产成人精品av| 国产精品夜间视频香蕉| 国产日韩精品一区二区在线观看播放| 无码8090精品久久一区| 蜜桃av区一区二区三| 亚洲一品道一区二区三区| 国产高颜值女主播在线| 久久国产成人精品国产成人亚洲| 免费无码又爽又刺激聊天app| 精品久久久久久午夜| 五月婷婷丁香视频在线观看|