亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        流式魯棒子模覆蓋算法的圖集覆蓋問題的研究

        2021-12-07 07:45:38王耀力孫永明
        電子設計工程 2021年23期

        田 歌,王耀力,常 青,孫永明

        (1.太原理工大學信息與計算機學院,山西晉中 030600;2.山西省林業(yè)科學研究院,山西太原 030000)

        數(shù)據(jù)匯總是機器學習中的一個主要挑戰(zhàn),它的任務是從大型數(shù)據(jù)集中找到可管理大小的代表性子集。包括圖像摘要、文檔和語料庫摘要、推薦系統(tǒng)和非參數(shù)學習等許多應用程序。獲得數(shù)據(jù)匯總的一般方法是:首先選擇數(shù)據(jù)元素的子集,然后對所選集合的“代表性”進行量化,以構成優(yōu)化效用函數(shù)。通常,用于匯總的效用函數(shù)表現(xiàn)出子模性,即自然遞減的收益性質(zhì)[1]。換句話說,子模性意味著隨著摘要中包含更多數(shù)據(jù)點,數(shù)據(jù)集中任何元素的增加值都會減少收益。因此,可以將數(shù)據(jù)匯總問題自然地歸結為子模覆蓋問題[2]。數(shù)據(jù)匯總通常采用集中式算法,但集中式算法對于大型數(shù)據(jù)集來說不切實際。因為順序選擇單個機器上的元素在速度和內(nèi)存方面受到很大的限制。因此,為了大規(guī)模地解決上述子模優(yōu)化問題,需要利用MapReduce式的并行計算模型,或借助于流算法[3]。

        而在實際應用當中,應用程序往往受限于數(shù)據(jù)存儲容量與數(shù)據(jù)存取速度等因素,流算法往往是其可行的選擇。流算法來源于大數(shù)據(jù)。自1987 年以來,世界人均存儲信息的能力每40 個月翻一番。算法面臨著存儲、通信、分析等挑戰(zhàn)。流算法僅需存儲少量可用數(shù)據(jù),而且內(nèi)存大小可以遠小于輸入數(shù)據(jù)的大小。流算法不僅可以避免對內(nèi)存的大量隨機訪問,而且可根據(jù)當前數(shù)據(jù)及時提供數(shù)據(jù)預測,從而促進實時數(shù)據(jù)分析[4]。

        但在很多情況下,人們希望提取的代表集合是具有魯棒性的。例如網(wǎng)絡中的結點出現(xiàn)故障或者結點本身的變化,異或是當集合中的某些元素被移除時,希望集合還能保持其穩(wěn)定性和代表性[5]。綜上所述,文中對現(xiàn)有流式子模覆蓋算法進行改進,同時加入魯棒性判斷,使其選出的代表性集合可以最多抵抗m元素的可能移除。

        1 基于流算法的子模覆蓋問題

        1.1 傳統(tǒng)貪婪子模覆蓋算法

        標準子模覆蓋(SC)問題中,目標就是找到最小的子集S∈V使其滿足特定的效用Q,即:

        SC 問題是一個典型NP 問題,一種簡單的貪婪策略是在每個階段選擇被覆蓋元素最多的集合[6]。該算法的偽代碼如下。集合C包含覆蓋集合的指標,集合U存儲X中未覆蓋的元素。最初C為空,U←x,反復選擇覆蓋U元素最多的S集合,將其添加到覆蓋項中。

        貪婪集和覆蓋算法的偽代碼如下:

        1.2 基于流算法的子模覆蓋算法

        引入流算法主要是解決子模覆蓋問題,同時保持較小的內(nèi)存并且不對數(shù)據(jù)流進行大量傳遞[7-9]。

        2017 年,Baharan 等人提出解決大規(guī)模數(shù)據(jù)問題時可以將數(shù)據(jù)分發(fā)給幾個機器,尋求并行的計算方法,或者使用流算法來擴大子模優(yōu)化[10]。2009 年,Barna 等人首次將流算法應用到集覆蓋問題的研究中,主要集中在半流模型上,其內(nèi)存被限制為O(n)[11]。2014 年,Emek 等人證明,如果將流算法限制為僅對數(shù)據(jù)流執(zhí)行一次傳遞,最佳的近似保證為[12]。2015 年,Chakrabarti 等人通過放寬單通道約束,設計了一個p-pass 半流(p+1)n1/(p+1)近似算法,并證明其本質(zhì)上是嚴格的(p+1)3的因子[13]。2016 年,Ashkan等人提出了首個流式子模覆蓋算法ESC-流算法,它僅需按任意順序?qū)?shù)據(jù)進行一次傳遞,并提供任何ε>0,就可以得到最佳解決方案的2/ε的近似值,同時達到指定效用的1-ε,該算法僅需要O((klogk)/ε)的內(nèi)存[14]。

        定義1:對于任何數(shù)量的p通道和任何m大小的流,p通道流算法至少以的概率將子模數(shù)覆蓋問題近似為小于的因子,必須使用大小至少為的內(nèi)存。

        用m表示數(shù)據(jù)流的大小。當p=1 時,任何近似比大于m/2 的單程流算法都必須至少使用Ω(m)的內(nèi)存。ESC流算法采用兩個階段,第一個階段允許內(nèi)存大小的參數(shù)M作為輸入。該算法保留t+1=logM/2+1 大小的代表集。每個代表集最大為2j,并且具有對應的閾值。一旦新元素e到達流中,它將被添加到所有未完全填充的代表性集合中,并且這些元素的邊際增益高于相應的閾值,即該算法僅需要對數(shù)據(jù)流進行一次傳遞。該算法第一階段對于流的每個元素的運行時間都是O(log logM),因為每個元素的計算成本是O(logM)次的oracle 調(diào)用[15-16]。

        ESC 流式子模覆蓋的偽代碼如下:

        step1:ESC 流算法-選擇代表集

        Step2:ESC 流算法-響應查詢

        已知值,執(zhí)行以下步驟:

        1:在S0,…,St上進行二分查找;

        2:返回最小集合Si,使得f(s)≥(1-ε)Q;

        3:如果不存在這樣的集合,則返回“違反假設”。

        2 改進的流式子模覆蓋算法

        2.1 算法流程

        鑒于目前提取的代表集合中,當集合元素變化時或者某些元素增加刪除時,無法保證集合的穩(wěn)定性。為了使選出的代表集合能夠具有抵抗部分元素被移除和替換的性能,對以上流式子模覆蓋算法進行改進。

        對于任何集合E?V,其中|E|≤m,存在一個最大為k的子集Z?SE,滿足:

        則認為對于參數(shù)m,集合S是魯棒的。c是一個近似率。用OPT(k,VE)表示VE大小為k的最佳子集(即在刪除E個元素后)。

        基于以上定義,文中改進后的流式魯棒子模覆蓋算法(SRSC)的步驟如下,該算法也需要兩個階段:

        階段1:需要輸入一個非遞減的單調(diào)子模函數(shù),基數(shù)約束為k、魯棒性參數(shù)為m、閾值參數(shù)為t。對于部分α∈(0,1],參數(shù)t是對于f(OPT(k,VE))的α近似值。因此,它依賴于f(OPT(k,VE)),但是f(OPT(k,VE))是未知的。因此在所提算法中假設f(OPT(k,VE))是已知的。該算法同ESC流算法一樣,只需要對數(shù)據(jù)流進行一次傳遞,并輸出一組最優(yōu)元素。

        階段2:SRSC 接收在流傳輸階段構造的集合S,去除元素E?S的集合,將基數(shù)約束k作為輸入。然后返回最大為k的集合Z,該集合只需要在集合SE上運行上述簡單貪婪算法即可獲得。

        文中所提算法為流式魯棒子模覆蓋算法(SRSC)。

        流式魯棒子模覆蓋算法的偽代碼如下:

        step1:SRSC 算法-選擇代表集

        2.2 算法性能分析

        2.2.1 下界

        首先分析算法的下界,由于流算法可以被概念化為知道輸入流不同段的玩家間的通信問題。因此,必要通信總量的下限產(chǎn)生流算法所需的內(nèi)存量的下界。通信的下界意味著流的下界。

        而合適的通信對復雜問題始于多玩家指針跳躍問題。

        定義2:令T為深度l≥1 的完整t進制數(shù)(因此k=l+1 ≥2 層),則:

        令MPJT,p+1為具有p+1 級別的完整t進制數(shù)T上的多玩家指針跳躍問題的實例,而π 為問題的輸入,分布在p+1 個玩家P1,P2,…,Pp+1中。因此在m集合中,文中構造了SRSCt,p+1,l中的一個實例I()π,對于一些整數(shù)l≥t,有:

        在文中的例子中k=p+1。

        p-pass流算法ALG使用M大小的內(nèi)存將SRSCt,p+1,l近似為小于的因數(shù),其中,流由P1的集合和P2的集合組成,依此類推。文中使用ALG為MPJT,p+1設計一個[p,(p+1)M,1/3]協(xié)議PRTCL如下:

        在i=1,…p的每個回合中,在ALG中模擬第i次傳遞;當ALG中處理流與P1對應最后一組集合時,將內(nèi)存的內(nèi)容廣播到所有玩家。然后,在ALG完成流上的P2,依此類推直至Pp+1之后執(zhí)行相同的操作。

        由于ALG將I(π)的s*大小近似小于的一個因數(shù),概率至少為2/3,因此PRTCL 輸出MPJT,p+1概率至少為2/3?;叵胗螒騇PJT,p+1是在p+1 個玩家中進行的,從定義2 中可以知道,M必須至少為

        2.2.2 魯棒性

        對于流式魯棒子模覆蓋問題,文中讓OPT(k,VE)代表選出子集的最優(yōu):

        于SRSC 對數(shù)據(jù)集執(zhí)行一次傳遞并且構造一個集合S,其大小最多是O((k+mlogk)logk)個元素。對于這樣一個集合S和任意集合E∈V,滿足 |E|≤m,則:

        根據(jù)貪婪算法可以得到:

        文中先從貪婪算法中得出:

        再將式(7)帶入得到:

        最終得到:

        總結文中結論與過去的流式子模覆蓋問題,給出了這些算法實現(xiàn)的近似因子、傳遞次數(shù)和空間界限。流式子模覆蓋算法邊界總結如表1 所示。

        表1 流式子模覆蓋算法邊界總結

        3 仿真實驗與分析

        3.1 實驗概述

        在很多應用中,例如社交網(wǎng)絡中的影響最大化,圖形中的社區(qū)檢測等,重點的是從龐大的圖形中選擇小部分頂點,這些頂點在某種意義上“覆蓋”了一個圖的很大一部分。

        為了評估SRSC 算法的可使用性。文中考慮了兩個基本的集合覆蓋問題:“支配集合”和“頂點覆蓋”問題。并將其應用到網(wǎng)絡圖中3 個不同大小、不同類型的數(shù)據(jù)集中進行分析和比較。分別是由爬蟲BUbiNG 得到的“eu-2015”,這是在2015 年底拍攝的一個大型的歐盟國家的快照。它由1 070 557 254個節(jié)點和91 792 261 600 條邊組成。人類活動生成的有向社交網(wǎng)絡“enwiki-2013”,是2013 年2 月底維基百科英文部分的快照。它由4 206 785個節(jié)點和101 355 853 條邊組成。從公共來源抓取的“ego-Twitter”由來自Twitter 的“圈子”(或“列表”)組成。它由81 306 個節(jié)點和1 768 149 條邊組成。以上3 種圖都是稀疏的,因此需要較大的覆蓋解決方案。將文中算法與隨機選擇和ESC 流算法進行比較。

        3.2 支配集問題

        給定具有頂點集V和邊集E的圖G(V,E):ρ(S)表示圖中S的頂點領域,δ(S)表示圖中的邊連接到S中的一個頂點。支配集即是選擇覆蓋頂點集V(即頂點集)的最小集的問題。其對應的效用函數(shù)為:f(s)=|ρ(S)∪S|,為單調(diào)子模函數(shù)。設置算法中M=520 MB,a=2,Q=0.7|V|。

        在支配集問題中,從圖1 中可以得出,文中SRSC算法與ESC 流算法的性能基本保持一致,甚至在數(shù)據(jù)集越大且頂點選擇覆蓋越多時性能略優(yōu)于流算法。

        圖1 不同算法下支配集問題情況

        3.3 頂點覆蓋問題

        給定具有頂點集V和邊集E的圖G(V,E):δ(S)表示圖中的邊連接到S中的一個頂點。頂點覆蓋是選擇覆蓋邊緣集E的最小集合問題。其對應的效用函數(shù)為:f(s)=|δ(S)|,為單調(diào)子模函數(shù)。

        設置算法中M=320 MB,a=2,Q=0.8|E|。

        在頂點覆蓋問題中,從圖2 中可以得出,文中算法卻略差于ESC 流算法,但比起隨機選擇已經(jīng)有了相當大的提升。

        圖2 不同算法下頂點覆蓋情況

        3.4 魯棒性測試

        文中算法不僅可以動態(tài)提取代表性的集合,也可以預先知道哪些元素將被刪除,保證代表集合的穩(wěn)定性,文中將選取上述數(shù)據(jù)集“ego-Twitter”,在支配集的問題中比較,刪除不同k值時對集合覆蓋的影響。

        由圖3 可知,在刪除數(shù)據(jù)k值從100 至500 變化時,文中算法比ESC 流算法受到刪除元素的影響少,其穩(wěn)定性提高了10%以上。

        圖3 刪除給定數(shù)據(jù)情況下兩種算法支配集問題的表現(xiàn)

        4 結論

        文中討論了流式子模覆蓋問題的優(yōu)化,對其集合加入魯棒性判斷,使其算法選出的代表集可以在部分元素被刪除時還能具有其對應的穩(wěn)定性和代表性。實驗證明,在文中模型下采用流式魯棒子模覆蓋算法,相比其他流式算法,集合穩(wěn)定性提高了10%以上,可以適用于更復雜的場景。

        久久精品人人爽人人爽| 亚洲av三级黄色在线观看| 中文字幕无码成人片| 粉嫩虎白女毛片人体| 国产精品亚洲欧美天海翼| 东风日产系列全部车型| 美女脱了内裤洗澡视频| 高清精品一区二区三区| 国产亚洲视频在线观看网址| 国产成社区在线视频观看| 国产成人av区一区二区三| 精品卡一卡二卡3卡高清乱码| 国产女主播喷水视频在线观看 | 国产精品9999久久久久仙踪林| 亚洲中文无码永久免| 久久久久人妻精品一区5555| 日韩av一区二区不卡在线| 国产av精品久久一区二区| 免费视频亚洲一区二区三区| 无码专区亚洲综合另类| 69久久夜色精品国产69| 国产人成无码视频在线1000 | 国产h视频在线观看网站免费| 国产激情小视频在线观看 | 三上悠亚免费一区二区在线| 亚洲国产日韩av一区二区| 天天射综合网天天插天天干| 中国女人内谢69xxxx免费视频| 99成人精品| 成人激情视频一区二区三区| 丝袜美腿一区二区国产| 久青草久青草视频在线观看| 日本不卡一区二区高清中文| 伊人精品成人久久综合97| 国产午夜手机精彩视频| chinesefreexxxx国产麻豆| 亚洲天堂免费一二三四区| 一区二区精品国产亚洲| 亚洲午夜精品久久久久久人妖| 日韩久久久黄色一级av| 亚洲一区二区精品在线|