亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)規(guī)則挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用研究

        2014-12-31 00:00:00孟遙
        數(shù)字化用戶 2014年17期

        【摘 要】隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,人們面對(duì)的數(shù)據(jù)量以驚人的速度增長,如何快速有效地從浩瀚的信息資源中提取出有價(jià)值的信息成了迫切需要解決的問題,于是一種綜合了統(tǒng)計(jì)學(xué)、數(shù)學(xué)、數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)等多門學(xué)科的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中一個(gè)十分活躍的研究領(lǐng)域。本文對(duì)關(guān)聯(lián)規(guī)則挖掘進(jìn)行了論述,并針對(duì)目前網(wǎng)絡(luò)信息檢索效率過低的問題,提出了一種基于關(guān)聯(lián)庫的查詢擴(kuò)展算法。

        【關(guān)鍵詞】關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;信息檢索;查詢擴(kuò)展

        一、問題

        隨著計(jì)算機(jī)和信息技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們傳遞信息的重要渠道及其主要的信息源。web信息和數(shù)據(jù)庫規(guī)模的急劇膨脹給人們帶來方便快捷的同時(shí),也為大量雜亂無章的信息所困擾,用戶想從中快速準(zhǔn)確地發(fā)現(xiàn)感興趣的信息變得難上加難,信息過載和詞不匹配等難題也相繼出現(xiàn)。為了更有效地利用一些重要數(shù)據(jù),人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,給決策者提供一個(gè)統(tǒng)一的全局視角,因而在許多領(lǐng)域建立了數(shù)據(jù)倉庫。但海量的數(shù)據(jù)往往使人們無法準(zhǔn)確地辨別潛在的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些相關(guān)信息的需求。

        二、數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中發(fā)現(xiàn)潛在的、新穎的、有價(jià)值的信息和知識(shí)的一門技術(shù),它是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘并不是用規(guī)范的數(shù)據(jù)庫查詢語言進(jìn)行查詢,而是根據(jù)目標(biāo)對(duì)數(shù)據(jù)進(jìn)行檢索和分析,揭示其中隱含的規(guī)律,即對(duì)查詢的內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索。

        三、關(guān)聯(lián)規(guī)則挖掘

        關(guān)聯(lián)規(guī)則挖掘是從大量數(shù)據(jù)中挖掘出相關(guān)項(xiàng)集的有趣的關(guān)聯(lián)或聯(lián)系,反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。

        關(guān)聯(lián)規(guī)則通常是從事務(wù)數(shù)據(jù)庫或數(shù)據(jù)倉庫中挖掘出的,具體如下:

        挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則,稱為強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的任務(wù)就是要挖掘出數(shù)據(jù)庫D中所有的強(qiáng)規(guī)則。因此,可以把關(guān)聯(lián)規(guī)則挖掘劃分為兩個(gè)子問題:

        ①找出所有的頻繁項(xiàng)集:根據(jù)定義,這些項(xiàng)集的每一個(gè)出現(xiàn)的頻繁性至少與預(yù)定義的最小支持計(jì)數(shù)一樣。②由頻繁項(xiàng)集產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。

        大部分關(guān)聯(lián)規(guī)則都是基于支持度-置信度框架,從而產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。但有時(shí)仍會(huì)得出對(duì)用戶來說不感興趣的規(guī)則,從而對(duì)產(chǎn)生一定的誤導(dǎo)。管理者通過對(duì)大量關(guān)聯(lián)規(guī)則進(jìn)行篩選,從而得出自己想要的知識(shí)。

        四、關(guān)聯(lián)規(guī)則挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用

        (一)關(guān)聯(lián)庫結(jié)構(gòu)

        為了描述特征詞之間的層次關(guān)系和相關(guān)性,關(guān)聯(lián)庫中包含以下兩個(gè)結(jié)構(gòu)表:

        1.層次關(guān)系表:主要是描述詞或概念之間的層次關(guān)系,基本元素是語詞節(jié)點(diǎn),語詞節(jié)點(diǎn)的屬性用結(jié)構(gòu)體描述如下:

        語詞之間的層次關(guān)系主要是根據(jù)關(guān)聯(lián)規(guī)則的置信度來決定:對(duì)于關(guān)聯(lián)規(guī)則A->B,如果C(A->B)>0.8且C(B->A)<0.5,則認(rèn)為B是A的父層次,相應(yīng)的A是B的子層次。因?yàn)樵贏出現(xiàn)的情況下B出現(xiàn)的概率很高,而在B出現(xiàn)的情況下A出現(xiàn)的概率很低,說明B的語義要比A更廣泛些。

        2.相關(guān)關(guān)系表:用于描述語詞之間的相關(guān)性,描述如下:

        (二)查詢擴(kuò)展

        查詢擴(kuò)展指的是利用計(jì)算機(jī)語言學(xué)、信息學(xué)等多種技術(shù)把與原查詢相關(guān)的詞或者詞組添加到原查詢,從而得到比原查詢長的新查詢,然后檢索文檔。查詢擴(kuò)展主要需要解決以下兩個(gè)問題:1、如何選擇適當(dāng)?shù)恼Z詞進(jìn)行擴(kuò)展;2、如何給擴(kuò)展語詞賦予權(quán)值。

        本文提出一種基于關(guān)聯(lián)庫的查詢擴(kuò)展算法,在擴(kuò)展時(shí)通過引入γ和wmin(s)對(duì)擴(kuò)展語詞進(jìn)行兩次限定,主要分以下幾個(gè)步驟:

        ⑴建立查詢串q的向量空間模型

        將查詢串分割成單個(gè)的語詞,每個(gè)查詢串q表示成其中的一個(gè)范化特征向量V(q) = (i1,w1(q); …,ij, wj(q);…,im, wm(q)),其中ij為語詞項(xiàng),wj(q)為ij在q中的權(quán)值。

        設(shè)查詢串包含的語詞項(xiàng)為{q1,q2,…,qn},則語詞項(xiàng)的所有子集s={{q1}, {q2}, …,{qn}, {q1,q2},…,{q1,q2,…,qn}}={s1,s2,…,s2n-1},其中s1={q1},s2={q2},以此類推。根據(jù)關(guān)聯(lián)庫中概念層次關(guān)系表和相關(guān)關(guān)系表,分別對(duì)子集進(jìn)行相應(yīng)的擴(kuò)展,然后合并運(yùn)算后得到擴(kuò)展語詞項(xiàng)集,記作RS(s),將對(duì)q的擴(kuò)展轉(zhuǎn)化為對(duì)s的擴(kuò)展。

        ⑵ 找出各個(gè)子集的相關(guān)語詞

        從關(guān)聯(lián)庫中分別找出sk(1≤k≤2n-1)的相關(guān)語詞,并將其置信度從大到小排列,取前m個(gè)相關(guān)語詞,存入到RS(sk)中。

        ⑶合并相關(guān)語詞

        將RS(sk)集合中的所有相關(guān)語詞按照權(quán)值(置信度)大小進(jìn)行排序,如果其中有重復(fù)的語詞項(xiàng),則選取權(quán)值的最大值。取不低于擴(kuò)展詞權(quán)值閾值wmin(s)的相關(guān)語詞并存入到RS(s)集合中。

        ⑷ 將查詢串q與擴(kuò)展串RS(s)合并后,組成一系列語詞項(xiàng)集合

        將所得出的相關(guān)語詞加入到初始的查詢q中,形成新的擴(kuò)展查詢q’。為查詢q’中的每一個(gè)擴(kuò)展語詞分配權(quán)值,擴(kuò)展出來的相關(guān)語詞的權(quán)值由語詞之間的相關(guān)度決定。

        (三)算法的不足和改進(jìn)

        本文提出的基于關(guān)聯(lián)庫的查詢擴(kuò)展算法可在一定程度上提高查準(zhǔn)率,克服了傳統(tǒng)信息檢索基于關(guān)鍵字的搜索引擎的簡(jiǎn)單匹配的缺陷,減輕了相關(guān)領(lǐng)域?qū)<覙?gòu)建語義庫的負(fù)擔(dān)。但由于網(wǎng)絡(luò)上數(shù)據(jù)的龐大性使得語詞或概念之間的語義關(guān)系都相當(dāng)復(fù)雜,采用何種算法以及怎樣對(duì)關(guān)聯(lián)規(guī)則進(jìn)行剪枝等都是決定查詢效率的關(guān)鍵性因素。我覺得可以和其他的技術(shù)相結(jié)合獲得更高的效率,如下:

        ⑴.關(guān)聯(lián)規(guī)則挖掘與信息過濾技術(shù)相結(jié)合

        網(wǎng)絡(luò)及信息技術(shù)的迅猛發(fā)展導(dǎo)致了信息過載等現(xiàn)象,因而可以在網(wǎng)絡(luò)信息挖掘之前對(duì)網(wǎng)絡(luò)文檔中包含的信息進(jìn)行過濾、篩選、分類和歸檔等操作,使網(wǎng)絡(luò)信息挖掘所要處理的數(shù)據(jù)量得以減少,同時(shí)使輸入數(shù)據(jù)的質(zhì)量、網(wǎng)絡(luò)內(nèi)容挖掘的信息挖掘速度及精確度和用戶所得信息的時(shí)效性得以提高。

        ⑵.關(guān)聯(lián)規(guī)則挖掘與可視化技術(shù)相結(jié)合

        可將關(guān)聯(lián)規(guī)則挖掘技術(shù)與可視化完美結(jié)合,互為補(bǔ)充,在信息檢索中利用可視化技術(shù)可將用數(shù)據(jù)挖掘得到的語義關(guān)系用圖像方式顯示,揭示數(shù)據(jù)之間的相互關(guān)系及發(fā)展趨勢(shì),有助于用戶判斷一個(gè)檢索中的相關(guān)信息是否是自己需要的。用形象直觀的圖像來指引檢索過程,可以加快檢索速度,大大縮短用戶的查詢時(shí)間,而且可以加深用戶對(duì)數(shù)據(jù)含義的理解,使挖掘信息的過程和結(jié)果易于理解,便于在發(fā)現(xiàn)知識(shí)過程中進(jìn)行人機(jī)交互。

        国产美女a做受大片免费| 男女视频在线观看一区二区| 麻豆成人久久精品二区三区91| 久久精品国产在热亚洲不卡| 国产激情一区二区三区在线| 夜夜夜夜曰天天天天拍国产| 女人和拘做受全程看视频| 男受被做哭激烈娇喘gv视频| 中文字幕欧美一区| 精品一区二区三区久久久| 国产三级c片在线观看| 虎白m粉嫩小在线播放| 国模冰莲极品自慰人体| 国产zzjjzzjj视频全免费| 99久久久久国产| 久久久久久免费播放一级毛片| 国产精品成人久久a级片| 丝袜美腿国产一区二区| 亚洲综合网国产精品一区| 蜜臀色欲av在线播放国产日韩| 久久99精品久久久久久久清纯| 亚洲精品日本| 男女视频一区二区三区在线观看| 日韩精品亚洲一区二区| 久久综合丝袜日本网| 亚洲国产18成人中文字幕久久久久无码av | 中文字幕一区二区中出后入| 国产人成无码视频在线观看| 国产成人无码区免费内射一片色欲| 久久青青热| 亚洲中文字幕高清视频| 极品美女调教喷水网站| 国产欧美日韩一区二区三区| 人成午夜免费大片| 国产精品毛片99久久久久| 中文字幕成人精品久久不卡91 | 久久精品国产亚洲av麻豆| 又爽又黄禁片视频1000免费| 欧美精品v欧洲高清| 日本熟妇中出高潮视频 | 麻豆精品国产精华精华液好用吗|