亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種分布式聲音檔案數(shù)據(jù)挖掘方法研究*

        2022-01-25 06:57:30鮮婭靜
        關(guān)鍵詞:進(jìn)程數(shù)據(jù)挖掘分布式

        鮮婭靜

        (西安醫(yī)學(xué)院,陜西 西安 710021)

        1 引言

        隨著計(jì)算機(jī)科學(xué)與通信技術(shù)不斷發(fā)展,電子檔案技術(shù)已廣泛應(yīng)用于各行各業(yè)[1-2].檔案管理中收集的數(shù)據(jù)量往往超過了使用傳統(tǒng)串行處理技術(shù)分析和有效提取重要信息的能力.在過去的十年中,語音識別[3]、地震建模[4]和圖像處理[5]等各種大數(shù)據(jù)應(yīng)用表明,使用并行和分布式計(jì)算的高速數(shù)據(jù)處理是解決這一問題的有效方法.

        聲音檔案數(shù)據(jù)[6]管理與分析是近年來一個(gè)研究熱點(diǎn),主要是實(shí)現(xiàn)對大量聲音集合的管理與高級數(shù)據(jù)分析.國內(nèi)外眾多學(xué)者對此進(jìn)行了研究,并取得了豐碩成果.董一超[7]根據(jù)英國聲音檔案館建設(shè)方面積累的經(jīng)驗(yàn),為我國聲音檔案建設(shè)工作提供了一些合理性建議.Müller[8]論述了聲音檔案館運(yùn)營環(huán)境的日益數(shù)字化、網(wǎng)絡(luò)化和用戶化,以及其支持無數(shù)用戶利用館藏聲音檔案數(shù)據(jù)進(jìn)行學(xué)習(xí)、體驗(yàn)和創(chuàng)作的應(yīng)用需求.胡立耘對聲音檔案的數(shù)字化信息組織進(jìn)行了研究,提出加強(qiáng)不同元數(shù)據(jù)的映射和互操作,實(shí)現(xiàn)聲音記錄的數(shù)字化轉(zhuǎn)換與保存.上述大部分文章對各自領(lǐng)域聲音電子檔案數(shù)據(jù)管理建設(shè)方面進(jìn)行了研究,對聲音檔案數(shù)據(jù)使用與分析研究有待提升.此外,目前比較典型的聲音檔案數(shù)據(jù)分析方法為串行處理方式[9],這在很大程度上影響系統(tǒng)執(zhí)行效果.為此,本文提出了一種并行模式下挖掘大量聲音檔案數(shù)據(jù)的模型.通過將串行模型與解析映射和聚合算子相結(jié)合,實(shí)現(xiàn)了并行分布式分析方法.

        2 聲音檔案挖掘算法

        2.1 串行模型

        圖1所示為用于挖掘感興趣信號的聲音檔案的系統(tǒng)框架圖.系統(tǒng)中連續(xù)采樣聲源為s(n),其中n是最大長度N的離散時(shí)間索引.系統(tǒng)中處理硬件資源用符號Pw標(biāo)記,其中P表示資源池,w表示工作索引序列.串行案例使用單個(gè)工作進(jìn)程,此時(shí)Pw=1.數(shù)據(jù)挖掘算法用fi表示.

        圖1 聲音檔案數(shù)據(jù)挖掘中串行模式

        在系統(tǒng)中,可以使用幾種不同的算法來提取模式、形狀和其他度量,且每個(gè)算法都可以使用索引{j=1,2,…,J},其中J為fi的最后一個(gè)算法.對于每個(gè)數(shù)據(jù)挖掘算法,輸出結(jié)果都是以v(i)表示的事件.本文中v(i)可以看作是與輸入序列的n個(gè)采樣點(diǎn)重合的連續(xù)事件序列,即有‖i‖=‖n‖.令系統(tǒng)中所有算法的輸出集合描述為v(i,j),則串行模型為

        v(i,j)=s(n)·fi·Pw=1,

        (1)

        其中,s(n)為輸入信號;fi為數(shù)據(jù)挖掘算法;Pw=1為單個(gè)工作進(jìn)程的處理池.

        2.2 數(shù)據(jù)塊映射和聚合規(guī)則

        (2)

        (3)

        (4)

        進(jìn)一步,聲音檔案數(shù)據(jù)通過收集所有數(shù)據(jù)塊重新組合,處理時(shí)使用的并集運(yùn)算符描述為

        (5)

        逆映射通過應(yīng)用于輸出v(i,j)的聚合規(guī)則進(jìn)行,具體定義為

        (6)

        2.3 并行分布模型

        并行分布式聲音檔案數(shù)據(jù)挖掘模型如圖2所示.與串行模型相比,添加了映射和階段,以提供數(shù)據(jù)塊(式(2))的創(chuàng)建和輸出(式(6))的重構(gòu).分布式模型顯示一個(gè)進(jìn)程池,且有Pw>1和最大進(jìn)程池Pw=W.

        圖2 檔案聲音數(shù)據(jù)的并行分布式提取模型

        綜合式(1)(3)和(4),則并行分布分析模型描述為

        vw(i,j)=sw(n)·fj·Pw,

        (7)

        輸出可進(jìn)一步更新為

        (8)

        2.4 性能指標(biāo)

        采用程序運(yùn)行時(shí)間和效率因子進(jìn)行性能度量.對于串行進(jìn)程,程序運(yùn)行時(shí)間是數(shù)據(jù)挖掘作業(yè)的停止時(shí)間和開始時(shí)間之差.對于并行分布式處理,許多進(jìn)程一起執(zhí)行.每個(gè)進(jìn)程將以不同的速率完成各自任務(wù),然而磁盤管理系統(tǒng)只能為每個(gè)vw(i,j)結(jié)果處理有限數(shù)量的寫操作請求.由于進(jìn)程將在不同的時(shí)間完成,運(yùn)行時(shí)間性能T由最后一個(gè)進(jìn)程完成|vw|max的時(shí)間減去作業(yè)開始時(shí)間之差,即

        T=|vw|max-tstart,

        (9)

        效率因子γ定義為運(yùn)行時(shí)值的比率,即

        (10)

        其中,Tref是串行處理運(yùn)行時(shí)間的參考值;T是工作進(jìn)程池為w=W的分布式運(yùn)行時(shí)間.

        3 執(zhí)行方法

        3.1 數(shù)據(jù)集與數(shù)據(jù)挖掘算法

        測試聲音檔案數(shù)據(jù)集以194 kHz和16位分辨率采樣.聲音檔案中wav音頻文件的存檔大約630 GB的數(shù)據(jù).本文采用兩種數(shù)據(jù)挖掘算法,且每個(gè)算法都是一個(gè)檢測器分類器.第一種是專門針對脈沖序列檢測器分類器(算法f1)[10];第二種是常規(guī)數(shù)據(jù)源檢測分類器(算法f2)[11].

        3.2 可擴(kuò)展性

        可擴(kuò)展性通過一系列本地網(wǎng)絡(luò)連接的分布式服務(wù)器衡量.系統(tǒng)運(yùn)行時(shí)同時(shí)有四個(gè)任務(wù)運(yùn)行,每個(gè)任務(wù)使用不同的處理器的組合.運(yùn)行包括四個(gè)可伸縮的工作配置:串行Pw=1、8工作進(jìn)程池Pw=8、16工作進(jìn)程池Pw=16和64工作進(jìn)程池Pw=64.

        采用式(9)度量每個(gè)算法的運(yùn)行時(shí)間(見表2),并以性能Pw=1作為基線,使用式(10)度量每個(gè)工作進(jìn)程池配置的效率.

        3.3 并行性

        并行性的測量分為兩個(gè)步驟:

        步驟1:使用串行模型(式(1))分別運(yùn)行表1中的兩個(gè)算法.其次,記錄兩個(gè)算法運(yùn)行時(shí)間度量:算法f1的運(yùn)行時(shí)間T1和算法f2的運(yùn)行時(shí)間T2.再次,記錄f1和f2的線性組合,記為T1+T2.

        表1 數(shù)據(jù)挖掘算法部分參數(shù)

        步驟2:使用聲音檔案數(shù)據(jù)挖掘模型同時(shí)運(yùn)行兩個(gè)數(shù)據(jù)挖掘算法(式(8)).對于1、8、16和64個(gè)工作池配置,測量其并行時(shí)間(記為T1,2).

        4 仿真與分析

        表2為串行情況下算法的運(yùn)行時(shí)間,T1和T2分別是算法f1和f2的運(yùn)行時(shí)間,串行運(yùn)行時(shí)間的線性組合由T1+T2給出.

        表2 串行模型性能

        表3所示為本文算法擴(kuò)展到更多進(jìn)程池時(shí)的性能結(jié)果,其中不同算法運(yùn)行時(shí)間由基于1、8、16和64個(gè)進(jìn)程池確定.通過測量串行結(jié)果Tw=1與給定進(jìn)程池和算法對Tw=W的運(yùn)行時(shí)間的函數(shù)關(guān)系,計(jì)算每個(gè)算法的效率.可以看出,當(dāng)進(jìn)程池為1時(shí),算法運(yùn)行可理解為運(yùn)行在串行模型.隨著進(jìn)程池?cái)?shù)量增加,系統(tǒng)運(yùn)行效率逐漸提高.當(dāng)進(jìn)程池為64時(shí),效率可達(dá)到23.5倍.仿真結(jié)果符合實(shí)際情況,進(jìn)一步驗(yàn)證了所提方法的有效性及實(shí)用性.

        表3 多進(jìn)程池模型運(yùn)行性能結(jié)果

        5 結(jié)語

        對聲音檔案數(shù)據(jù)挖掘方法進(jìn)行了研究與分析,并提出一種并行分布式聲音檔案數(shù)據(jù)挖掘模型.仿真結(jié)果表明,隨著進(jìn)程池的增多,系統(tǒng)運(yùn)行效率明顯提升.然而這將會(huì)導(dǎo)致系統(tǒng)能耗增多,實(shí)際使用時(shí)需要考慮資源受限及能耗損耗等情況.未來可將能耗、資源等限制條件引入模型,進(jìn)一步增強(qiáng)系統(tǒng)實(shí)用性.

        猜你喜歡
        進(jìn)程數(shù)據(jù)挖掘分布式
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        債券市場對外開放的進(jìn)程與展望
        中國外匯(2019年20期)2019-11-25 09:54:58
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于DDS的分布式三維協(xié)同仿真研究
        西門子 分布式I/O Simatic ET 200AL
        社會(huì)進(jìn)程中的新聞學(xué)探尋
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        色狠狠av老熟女| 日本一区二区三区亚洲| 国产亚州精品女人久久久久久| 国产精品_国产精品_k频道w| 国产a级网站| 日本人妻伦理片在线观看| 中文字幕一区二区网站| 国产丝袜美腿中文字幕| 丰满人妻一区二区三区免费视频| 秋霞鲁丝片av无码| 久久精品无码一区二区三区不卡| 手机在线播放成人av| 亚洲av中文无码乱人伦在线咪咕| 亚洲欧美日本| 国产真实伦视频在线视频| av在线不卡一区二区| 久久综合九色综合久99| 精品亚洲成在人线av无码| 国产日产精品久久久久久| 亚洲综合天堂av网站在线观看| 亚洲av成人综合网成人| 成人激情五月天| 免费国产黄片视频在线观看| 国产一区二区资源在线观看| 亚洲人成精品久久久久| 无码毛片aaa在线| 日本高清中文一区二区三区| 久草视频在线手机免费看| 中文www新版资源在线| 国产乱色国产精品免费视频| 日韩人妻一区二区中文字幕| 亚洲av无码一区二区一二区| 欧美大香线蕉线伊人久久| 亚洲中文字幕有码av| 99久久婷婷国产亚洲终合精品 | 国产一区二区熟女精品免费| 国产精品成熟老女人| 欧美多毛肥胖老妇做爰| av网站可以直接看的| 女优av一区二区三区| 国产精品jizz视频|