亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)融合中基于聚類(lèi)的成員系統(tǒng)選擇算法*

        2022-02-16 08:33:00
        關(guān)鍵詞:列表檢索聚類(lèi)

        張 振 張 芳

        (江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院 鎮(zhèn)江 212013)

        1 引言

        隨著信息技術(shù)的發(fā)展,大量的信息內(nèi)容推動(dòng)了信息檢索系統(tǒng)[1]的開(kāi)發(fā),由于檢索系統(tǒng)中檢索模型[2]存在差異,因此生成的結(jié)果列表也有差異。數(shù)據(jù)融合的出現(xiàn)很好地解決了進(jìn)一步提升檢索結(jié)果的問(wèn)題,在略讀效應(yīng)[3]、合唱效應(yīng)[4]的作用下整合多個(gè)檢索結(jié)果列表以增強(qiáng)檢索性能。研究表明[5]參與融合成員系統(tǒng)的增加,有利于融合性能的提升。但成員系統(tǒng)過(guò)多時(shí),融合過(guò)程的時(shí)間復(fù)雜度增加,冗余和質(zhì)量差的成員系統(tǒng)影響[6]影響了融合效果進(jìn)一步提升。因此,如何在大規(guī)模成員系統(tǒng)中選擇一組合適的成員系統(tǒng)參與融合并使最終的融合性能明顯提升,是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。Antonio[7~8]等提出了一種啟發(fā)式選擇方法QV,但是這種方法只能應(yīng)用于成員系統(tǒng)較少時(shí)。

        由幾何框架[9]理論可知,只有滿足差異性和互補(bǔ)性的結(jié)果列表才能有效地提高融合性能。本文提出了一種基于變色龍層次聚類(lèi)[10]和序列前向的成員系統(tǒng)選擇算法(RFS),該算法首先定義檢索結(jié)果列表之間的相似度度量,得到的距離矩陣后用于變色龍層次聚類(lèi),然后采用貪婪策略選出k 個(gè)來(lái)自不同簇的成員系統(tǒng)用于數(shù)據(jù)融合。

        2 相關(guān)理論

        2.1 數(shù)據(jù)融合技術(shù)

        數(shù)據(jù)融合[11]就是一種能夠把多個(gè)信息檢索系統(tǒng)返回的結(jié)果合并,重新排序生成一個(gè)性能更優(yōu)的檢索結(jié)果的技術(shù),使用合適的數(shù)據(jù)融合方法能夠有效地提升檢索性能。將參與融合的檢索系統(tǒng)稱之為成員系統(tǒng),成員系統(tǒng)對(duì)查詢進(jìn)行檢索產(chǎn)生成員結(jié)果。數(shù)據(jù)融合的基本流程如圖1所示。

        圖1 數(shù)據(jù)融合基本流程

        對(duì)于用戶查詢q,在給定文檔集中含有m 個(gè)成員系統(tǒng),根據(jù)各自的檢索策略搜索與查詢相關(guān)的文檔,返回各自的結(jié)果列表R1,R2,…,Rm。接下來(lái)對(duì)著m個(gè)結(jié)果進(jìn)行規(guī)范化[12]操作,之后使用某種融合算法將m個(gè)規(guī)范化后的檢索結(jié)果合并、重排生成最終檢索結(jié)果。本文采用常用的數(shù)據(jù)融合方法CombSUM、CombMNZ和MR[13]進(jìn)行融合操作。

        2.2 成員結(jié)果列表相似度測(cè)定

        在信息檢索領(lǐng)域中,某些情況下我們需要度量?jī)蓚€(gè)檢索列表的距離,或者說(shuō)相似程度[14]。本文采用基于集合的度量[15](Set Based Measure)來(lái)衡量結(jié)果列表之間的相似度。

        基于集合的度量主要通過(guò)計(jì)算兩個(gè)不同排序列表,在不同深度時(shí)對(duì)應(yīng)集合的交集大小來(lái)計(jì)算排序列表的相似度。計(jì)算出不同深度的交集比例后,通過(guò)交集比例的分布來(lái)量化兩個(gè)列表的相似程度,最簡(jiǎn)單的方法就是直接計(jì)算交集比例的平均值。但是隨著列表長(zhǎng)度的不斷增加,距離值有可能會(huì)無(wú)窮大。同時(shí),在比較兩個(gè)排序列表的相似性時(shí),要考慮不同位置的元素權(quán)重,尤其是top 元素的相對(duì)位置權(quán)重。為解決上述問(wèn)題,我們給每個(gè)深度的交集比例定義了一個(gè)權(quán)重系數(shù),計(jì)算加權(quán)和,稱為偏差重疊排名(RBO)。設(shè)S 和T 為兩個(gè)無(wú)限長(zhǎng)度的排序列表,Si為列表S 的第i 個(gè)元素,Sc:d={Si:c≤i≤d}表示列表中從位置c到位置d的所有元素組合的集合。在深度為d 時(shí),列表S 和T 的交集為

        交集的元素個(gè)數(shù)稱之為列表S 與T 在深度為d時(shí)的交疊,該交疊相對(duì)于深度d 的比值稱之為列表S與T的一致度。

        則RBO距離度量定義為

        其中,p為一個(gè)預(yù)先定下的參數(shù),0 <p<1。

        2.3 變色龍層次聚類(lèi)

        變色龍聚類(lèi)是一種利用動(dòng)態(tài)模型的兩階段層次聚類(lèi)算法,其考慮不同簇間的信息,克服了傳統(tǒng)層次聚類(lèi)靜態(tài)建模的局限性[16]。變龍算法的聚類(lèi)步驟如圖2。

        圖2 變色龍聚類(lèi)步驟

        第一階段,首先Chameleon 計(jì)算數(shù)據(jù)集的距離矩陣和相應(yīng)的權(quán)重矩陣,然后采用KNN 方法來(lái)構(gòu)建一個(gè)稀疏圖,圖的每一個(gè)頂點(diǎn)代表一個(gè)數(shù)據(jù)對(duì)象,如果一個(gè)對(duì)象是另一個(gè)對(duì)象的k 個(gè)最相似的對(duì)象之一,那么這兩個(gè)頂點(diǎn)(對(duì)象)之間就存在一條邊(這些邊加權(quán)后反映對(duì)象間的相似度);最后,Chameleon使用hMetis圖劃分算法,把k-個(gè)最近鄰圖劃分成大量相對(duì)較小的子簇,使得邊割最小。

        第二階段,計(jì)算子簇兩兩間相對(duì)互連度RI 和相對(duì)近似度RC,并以此計(jì)算其相似度F,迭代選取相似度最大的兩個(gè)子簇合并,直到子簇個(gè)數(shù)小于設(shè)定值或相似性最大值小于閾值時(shí)結(jié)束。相對(duì)互連度RI和相對(duì)近似度RC的公式如下所示:

        3 本文算法

        本文針對(duì)大規(guī)模數(shù)據(jù)集,首先在數(shù)據(jù)預(yù)處理階段將不正常數(shù)據(jù)對(duì)象去除,生成初始數(shù)據(jù)集,利用變色龍聚類(lèi)算法將數(shù)據(jù)集依據(jù)相似性分成若干簇,之后采用貪婪策略順次從不同簇中挑選出若干融合性能好的成員結(jié)果,最終找出最佳成員系統(tǒng)組合。

        算法1 基于變色龍層次聚類(lèi)的分組算法

        4 實(shí)驗(yàn)結(jié)果及分析

        本文采用的TREC(Text REtrieval Conference)提交的結(jié)果作為數(shù)據(jù)集,采用的數(shù)據(jù)集為

        TREC2017 Precision Medicine Track Scientific Abstracts Task,此數(shù)據(jù)集中含有125 組檢索結(jié)果,遠(yuǎn)多于其他的主題數(shù)據(jù)集,有利于測(cè)試選擇方法的可靠性。經(jīng)過(guò)初步挑選后有108 個(gè)成員系統(tǒng)檢索結(jié)果可用。

        在聚類(lèi)完成后,使用二折交叉驗(yàn)證將每組成員系統(tǒng)中的查詢按編號(hào)分為奇偶兩組。首先,使用貪婪策略將簇中偶數(shù)組使用順序前向算法選擇出成員系統(tǒng)組,之后將其在對(duì)應(yīng)成員系統(tǒng)組中的奇數(shù)查詢上進(jìn)行融合測(cè)試,使用CombSUM 作為來(lái)計(jì)算評(píng)價(jià)指標(biāo),然后再反過(guò)來(lái)測(cè)試。實(shí)驗(yàn)中采用分別用CombSUM、CombMNZ、MR 作為選擇后融合方法,MAP 值作為融合性能評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)共分為兩個(gè)部分。

        1)小規(guī)模數(shù)據(jù)集選擇算法性能對(duì)照實(shí)驗(yàn)

        文獻(xiàn)[7]提出的QV 選擇算法只適合在參與融合的成員系統(tǒng)較少時(shí),為了與本實(shí)驗(yàn)提出的RFS算法進(jìn)行對(duì)照,故從實(shí)驗(yàn)集截取了MAP 值較優(yōu)的50個(gè)成員系統(tǒng)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中RFS 方法將成員系統(tǒng)分成10 個(gè)簇,依次選擇2~10 個(gè)成員系統(tǒng)。之后使用分別CombSUM、CombMNZ、MR 進(jìn)行融合實(shí)驗(yàn)。AllList 表示所有成員系統(tǒng)參與融合后的結(jié)果。實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 RFS選擇算法與QV選擇算法的性能曲線圖(評(píng)價(jià)指標(biāo)MAP)

        分析圖3發(fā)現(xiàn),隨著選擇系統(tǒng)個(gè)數(shù)的增加,RFS算法和QV 算法的性能都先增加再降低,在選擇的成員系統(tǒng)個(gè)數(shù)為6 左右時(shí)取得最佳性能,且RFS 算法的性能遠(yuǎn)由于QV算法。

        2)RFS算法在大數(shù)據(jù)集上的性能實(shí)驗(yàn)

        為了說(shuō)明RFS算法在大規(guī)模數(shù)據(jù)集上的效果,本節(jié)實(shí)驗(yàn)使用含有108 個(gè)成員系統(tǒng)的數(shù)據(jù)集來(lái)測(cè)試,經(jīng)過(guò)試驗(yàn)測(cè)試,數(shù)據(jù)集被分成21 簇個(gè)數(shù),故選取不同的組數(shù)(從2 組~21 組)進(jìn)行融合實(shí)驗(yàn),同時(shí)引入了其他幾種選擇算法。GA是使用遺傳算法來(lái)選擇成員系統(tǒng);TopIR 選擇算法,根據(jù)MAP 表依次選取MAP 值較大的成員系統(tǒng)參與融合;TopCha 選擇算法則是在完成聚類(lèi)后,依次選取每個(gè)簇中MAP值最大的成員系統(tǒng)參與融合;Bsetcomb是RFS選擇的成員系統(tǒng)進(jìn)行融合之前最優(yōu)成員系統(tǒng)性能。將這四種算法分別運(yùn)用在實(shí)驗(yàn)數(shù)據(jù)集上,并分別使用CombSUM、CombMNZ、MR 作選擇成員系統(tǒng)組的融合方法。結(jié)果如圖4~6所示。

        觀察圖4、圖5、圖6可以得出,在所有提出的選擇算法中,隨著選擇的成員系統(tǒng)增加,融合性能也逐步提升。其中性能最好的是RFS 選擇算法,Top-Cha 選擇算法次之。在使用CombSUM、CombMNZ、MR 進(jìn)行融合時(shí),RFS 分別在成員系統(tǒng)個(gè)數(shù)n=15、16、16時(shí)MAP取得最大值0.3607、0.3451、0.3608。

        圖4 不同選擇算法情況下的融合曲線圖(融合方法:combSUM)

        圖5 不同選擇算法情況下的融合曲線圖(融合方法:combMNZ)

        圖6 不同選擇算法情況下的融合曲線圖(融合方法:MR)

        將其與所有成員系統(tǒng)結(jié)果融合的結(jié)果(All-List)進(jìn)行對(duì)照,如圖7 所示,通過(guò)RFS 選擇算法得到成員結(jié)果列表融合后的性能高于所有成員結(jié)果列表的融合性能,同時(shí)個(gè)數(shù)大大較少,因此有效地降低了時(shí)間復(fù)雜度,提升了融合效率。

        圖7 選擇成員系統(tǒng)和所有成員系統(tǒng)融合的性能比較

        5 結(jié)語(yǔ)

        本文提出了一種新的成員系統(tǒng)選擇算法,通過(guò)上述實(shí)驗(yàn)表明該算法通過(guò)降低成員結(jié)果的冗余度,不僅能大大縮減參與融合的成員系統(tǒng)個(gè)數(shù),而且這些選擇的成員系統(tǒng)結(jié)果融合后性能也明顯提升,同時(shí)本算法也明顯優(yōu)于其他的選擇算法。下一步研究重點(diǎn)是如何改進(jìn)聚類(lèi)算法,從而使簇間的成員系統(tǒng)相似度更低,以有利于下一步的篩選。

        猜你喜歡
        列表檢索聚類(lèi)
        巧用列表來(lái)推理
        學(xué)習(xí)運(yùn)用列表法
        擴(kuò)列吧
        2019年第4-6期便捷檢索目錄
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        專(zhuān)利檢索中“語(yǔ)義”的表現(xiàn)
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        不含3-圈的1-平面圖的列表邊染色與列表全染色
        自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
        97色偷偷色噜噜狠狠爱网站| 91久久精品一区二区三区大全| 亚洲日韩一区二区一无码| 国产成人亚洲综合无码精品| 国产精品入口蜜桃人妻| 2021年性爱喷水视频| 成人影院免费视频观看| 丰满少妇av一区二区三区| 99久久精品一区二区国产| 人妖av手机在线观看| 精品香蕉一区二区三区| 人妻精品久久久久中文字幕| 久久青青草原亚洲av无码麻豆| 欧美性猛交xxxx乱大交3| 久久人人爽人人爽人人片亞洲| 人妻丰满熟妇AV无码区HD| 制服丝袜视频国产一区| 日韩国产自拍成人在线| 免费在线国产不卡视频| av在线免费观看网站免费| 国产丝袜美女| 51国偷自产一区二区三区| 国产欧美精品一区二区三区,| 国产精品av网站在线| 国产在线av一区二区| 久久人妻av无码中文专区| 亚洲精品~无码抽插| 18禁男女爽爽爽午夜网站免费| 国产WW久久久久久久久久| 日产乱码一区二区国产内射| 午夜视频在线观看国产| 漂亮丰满人妻被中出中文字幕| 国产精品私密保养| 久久亚洲私人国产精品va| 亚洲综合欧美在线一区在线播放| 8888四色奇米在线观看| 在线精品国内视频秒播| 中文字幕无码免费久久| 亚洲中文字幕一二区精品自拍| 中文字幕日韩精品有码视频| 久久99精品国产99久久6男男|