亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        序列分析綜述

        2021-09-09 07:36:26張傳斌陳水標(biāo)吳偉堅(jiān)
        現(xiàn)代計(jì)算機(jī) 2021年19期
        關(guān)鍵詞:向量神經(jīng)網(wǎng)絡(luò)分類

        張傳斌,陳水標(biāo),吳偉堅(jiān)

        (肇慶學(xué)院,計(jì)算機(jī)科學(xué)與軟件學(xué)院,肇慶 526061)

        0 引言

        序列分析的應(yīng)用范圍非常廣泛,如基因和蛋白質(zhì)的序列分析、信息檢索、健康分析、金融數(shù)據(jù)分析、交通流預(yù)測(cè)、天氣預(yù)報(bào)和網(wǎng)絡(luò)安全檢測(cè)等。這些都是多學(xué)科交叉的領(lǐng)域,具有良好的社會(huì)和經(jīng)濟(jì)研究?jī)r(jià)值,因此序列分析也一直是研究熱點(diǎn)。

        我們可以把序列劃分為以下三個(gè)類別:

        (1)符號(hào)序列

        符號(hào)序列可以是由單個(gè)符號(hào)組成的簡(jiǎn)單有序列表,如DNA序列;也可以是由符號(hào)向量組成的有序列表,如用戶每次使用軟件查看新聞的類別序列〈(軍事,新聞,歷史),(軍事,新聞,新聞),…,(歷史,新聞,歷史)〉。

        (2)時(shí)間序列

        時(shí)間序列是指按一定時(shí)間間隔順序排列的符號(hào)或數(shù)值列表,列表中的值通常是實(shí)數(shù)或?qū)崝?shù)向量,如交通流數(shù)據(jù)、水文和氣溫?cái)?shù)據(jù)等。在時(shí)間序列中,當(dāng)前元素與之前的元素具有關(guān)聯(lián)性,蘊(yùn)含著研究對(duì)象的發(fā)展趨勢(shì)或周期性。

        (3)復(fù)雜結(jié)構(gòu)序列

        復(fù)雜結(jié)構(gòu)序列是指序列中的每個(gè)元素具有較復(fù)雜的結(jié)構(gòu),如患者的醫(yī)療記錄,每個(gè)記錄都可能包括姓名、性別、年齡、心電圖、體溫、醫(yī)囑和用藥明細(xì)等數(shù)據(jù)。

        中國(guó)管理科學(xué)研究院研究員吳興杰從中美貿(mào)易戰(zhàn)的背景切入,以《基于中美貿(mào)易戰(zhàn)的鄉(xiāng)村振興戰(zhàn)略的思想創(chuàng)新》為題,重點(diǎn)對(duì)鄉(xiāng)村振興戰(zhàn)略的思想創(chuàng)新進(jìn)行了研究,提出:鄉(xiāng)村振興戰(zhàn)略的重點(diǎn)和難點(diǎn)在中西部落后鄉(xiāng)村,東部特別是沿海鄉(xiāng)村要實(shí)現(xiàn)從富起來(lái)到強(qiáng)起來(lái)再到美起來(lái)。鄉(xiāng)村振興戰(zhàn)略要從政治訴求轉(zhuǎn)化為發(fā)展的內(nèi)在邏輯進(jìn)而落地的關(guān)鍵是思想的創(chuàng)新,即哲學(xué)創(chuàng)新。規(guī)避鄉(xiāng)村振興“上熱下冷→外熱內(nèi)冷→表熱實(shí)冷”的關(guān)鍵,是解決誰(shuí)來(lái)干和怎么干這兩大核心問(wèn)題,防止樣板化、錯(cuò)位化與非農(nóng)化而偏離其正軌。

        1 序列分析任務(wù)類型

        序列分析的任務(wù)主要有分類和預(yù)測(cè)。符號(hào)序列主要以分類操作為主,如對(duì)新蛋白質(zhì)進(jìn)行歸類,對(duì)新聞軟件的用戶進(jìn)行分類等。預(yù)測(cè)任務(wù)常用于時(shí)間序列的分析,如預(yù)測(cè)交通流的趨勢(shì)、股票走勢(shì)預(yù)測(cè),天氣預(yù)報(bào)等,時(shí)間序列也可通過(guò)分類進(jìn)行分析,如對(duì)長(zhǎng)期的全球氣溫?cái)?shù)據(jù)進(jìn)行分析,判斷那段時(shí)間是否屬于厄爾尼諾現(xiàn)象頻發(fā)的異常氣候時(shí)期。

        分類任務(wù)主要有三大技術(shù)難點(diǎn):①較難從序列中提取出合適的特征值,而對(duì)于絕大部分分類算法來(lái)說(shuō),特征值的好壞直接影響分類器的性能;②即使能從序列中提取出特征,其特征空間也是高維空間,計(jì)算難度很大;③某些序列甚至無(wú)法提取明確的特征值。

        對(duì)時(shí)間序列的預(yù)測(cè)任務(wù)中,同樣也面臨著特征提取困難的挑戰(zhàn),而且序列的前后元素存在耦合現(xiàn)象,特征的次序也會(huì)對(duì)預(yù)測(cè)效果產(chǎn)生較大影響。

        2 序列分類方法

        2.1 基于特征的分類

        這種方法將序列轉(zhuǎn)換成特征向量,再使用各種分類算法進(jìn)行分類。K元語(yǔ)義模型(K-Gram)是其中一種提取序列特征的方法。一般是指定一個(gè)K元短序列的集合,將源序列表示為短序列出現(xiàn)和缺失情況的向量,或者短序列出現(xiàn)頻率的向量,然后再使用傳統(tǒng)的分類方法進(jìn)行處理[1-3]。此外還有基于模式的特征選擇方法,通過(guò)這種方法獲取滿足以下三個(gè)條件的特征:①在某個(gè)類中常見(jiàn);②與該類別高度相關(guān);③僅出現(xiàn)在該類別中。通過(guò)上述方式提取特征后,就可以進(jìn)行分類,如使用樸素貝葉斯算法進(jìn)行處理[4-5]。以上的方法通常是針對(duì)序列的局部進(jìn)行特征提取,Aggarwal等人[6]通過(guò)小波分析,將序列分解為不同頻率的子波,從近似和細(xì)節(jié)兩個(gè)方面提取特征值,再通過(guò)K近鄰算法進(jìn)行分類。

        2.2 基于距離的分類

        這種方法通過(guò)計(jì)算序列間的距離來(lái)進(jìn)行分類,序列間的相似程度可以通過(guò)一系列距離函數(shù)來(lái)衡量,然后使用K近鄰算法、支持向量機(jī)等算法,根據(jù)序列間的距離進(jìn)行分類操作[7-10]。

        歐幾里德距離是最為常用的距離計(jì)算方法。假設(shè)有兩個(gè)長(zhǎng)度為L(zhǎng)的序列S和S′,則兩者間的距離可通過(guò)以下公式進(jìn)行計(jì)算:

        在蛋白質(zhì)和基因測(cè)序等應(yīng)用中,不同序列的長(zhǎng)度可能不同,動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)距離[11]可用于衡量長(zhǎng)度不同的序列的相似程度。

        其主要思想是盡可能按順序?qū)π蛄兄休^相似的片段進(jìn)行比較,但序列中的點(diǎn)不需要進(jìn)行一一對(duì)應(yīng),片段間可存在一些間隔點(diǎn),如圖1所示。此外,還有類似的改進(jìn)算法[12-14],通過(guò)局部對(duì)齊的方式計(jì)算兩個(gè)序列間的距離。

        核函數(shù)可將序列映射到超平面,在超平面中使用支持向量機(jī)進(jìn)行切分,能有效地提升長(zhǎng)序列的分類性能。其中K-譜核(K-spectrum kernel)是應(yīng)用最為廣泛的核函數(shù)[15]。Lodhi等人[16]提出一種字符串核(string kernel)方法處理文本分類,給定一個(gè)長(zhǎng)度均為K的子序列的集合,將源序列轉(zhuǎn)換成子序列權(quán)重值的特征向量。K-譜核有許多改進(jìn)算法,提升了K-譜核函數(shù)的計(jì)算效率,并對(duì)不匹配的權(quán)值也進(jìn)行了適當(dāng)處理[10,17]。此外還有其他類型的核函數(shù)[18-19],并在各種符號(hào)序列分類應(yīng)用中取得了不錯(cuò)的效果。

        圖1 動(dòng)態(tài)時(shí)間規(guī)整距離的計(jì)算方式

        2.3 基于模型的分類

        樸素貝葉斯模型[20]原理簡(jiǎn)單、適用性強(qiáng),被廣泛應(yīng)用于文本分類[21]及其他符號(hào)序列的分類任務(wù),如基因和蛋白質(zhì)測(cè)序[22]。根據(jù)應(yīng)用場(chǎng)景的特點(diǎn),許多改良的樸素貝葉斯模型也取得了不錯(cuò)的效果,文獻(xiàn)[25]在訓(xùn)練樸素貝葉斯模型時(shí),使用期望最大化過(guò)程去優(yōu)化參數(shù)。樸素貝葉斯模型通常要求每條序列是相互獨(dú)立的,而馬爾可夫鏈模型或隱馬爾可夫鏈模型可用于處理存在相互依賴關(guān)系的序列。Yakhnenko等人[23]使用K階馬爾科夫鏈模型處理蛋白質(zhì)分類和文本序列。Srivastava等人[24]使用隱馬爾可夫鏈模型處理生物序列,此文章的模型通過(guò)嵌入、匹配和刪除三個(gè)狀態(tài)進(jìn)行學(xué)習(xí),并會(huì)為每個(gè)訓(xùn)練集中的各個(gè)類分別進(jìn)行學(xué)習(xí),在對(duì)新序列進(jìn)行分類時(shí),會(huì)使用所有訓(xùn)練得到模型進(jìn)行測(cè)試,將新序列歸類為可能性最高的一類。Kalpakis等人[26]使用求和自回歸平均模型(Autoregressive Integrated Moving Average Model,ARIMA)來(lái)描述時(shí)間序列,并通過(guò)計(jì)算兩個(gè)序列的線性預(yù)測(cè)編碼倒譜(Linear Predictive Coding Cepstrum)之間的歐幾里德距離來(lái)量化相似程度。

        3 序列預(yù)測(cè)方法

        時(shí)間序列一般具有趨勢(shì)性和周期性,如某條河流的水文數(shù)據(jù)、道路的交通流數(shù)據(jù)、某地的氣溫?cái)?shù)據(jù)。從宏觀角度看,我們可以觀測(cè)到這些數(shù)據(jù)的趨勢(shì)或者周期波動(dòng)。此外,序列也可能是服從某種概率分布隨機(jī)產(chǎn)生的,如拋擲硬幣的正反面結(jié)果的序列、粒子進(jìn)行布朗運(yùn)動(dòng)的位置序列,我們也可以通過(guò)統(tǒng)計(jì)方法分析序列蘊(yùn)含的規(guī)律。另外,由于現(xiàn)實(shí)世界存在許多偶然因素,數(shù)據(jù)測(cè)量也會(huì)引入誤差,時(shí)間序列也包含不確定性和噪聲。

        3.1 傳統(tǒng)的時(shí)間序列模型

        傳統(tǒng)的時(shí)間序列模型將序列分為平穩(wěn)時(shí)間序列和非平穩(wěn)時(shí)間序列兩類。平穩(wěn)時(shí)間序列是指序列通過(guò)隨機(jī)過(guò)程生成,而且其統(tǒng)計(jì)規(guī)律保持不變,即滿足均值和方差不變,任意兩個(gè)時(shí)間間隔的協(xié)方差與當(dāng)前時(shí)間無(wú)關(guān)。針對(duì)這類時(shí)間序列的模型有自回歸模型(Auto Regressive,AR)、移動(dòng)平均模型(Moving Average,MA)、自回歸移動(dòng)平均模型(Auto Regressive Moving Average,ARMA)[27-28]。

        非平穩(wěn)時(shí)間序列是指序列具有時(shí)變均值,現(xiàn)實(shí)場(chǎng)景中的時(shí)間序列大多是非平穩(wěn)的,如股價(jià)變化、移動(dòng)軌跡等[27]。然而序列元素之間的差值可能具備平穩(wěn)性,如果一個(gè)時(shí)間序列{Xt}經(jīng)過(guò)d次差分得到的序列是一個(gè)平穩(wěn)的ARMA過(guò)程,則{Xt可通過(guò)自回歸積分滑動(dòng)平均模型(Autoregressive Integrated Moving Average Model,ARIMA)進(jìn)行描述。一個(gè)具體的應(yīng)用例子是Kumar等人使用ARIMA預(yù)測(cè)交通噪聲的變化情況[30]。

        “Box-Jenkins”方法[31]是一種求解上述四個(gè)模型參數(shù)的通用方法,其步驟如下:

        (1)根據(jù)序列的圖形大致判斷序列的平穩(wěn)性,也可以通過(guò)分段計(jì)算序列的均值和方差進(jìn)行判斷,更為嚴(yán)謹(jǐn)?shù)呐袛喾椒樵鰪V迪基-福勒檢驗(yàn)(Augmented Dickey-Fuller test)[32]。如果序列為非平穩(wěn)的,則先對(duì)序列進(jìn)行d次差分運(yùn)算,轉(zhuǎn)化為平穩(wěn)時(shí)間序列。

        (2)求第(1)步獲得的平穩(wěn)序列的偏自相關(guān)函數(shù)(Partial Auto-Correlation Function,PACF)和自相關(guān)函數(shù)(Auto-Correlation Function,ACF),根據(jù)所求圖形確定p或q的值。

        (3)根據(jù)前兩步的計(jì)算結(jié)果選取合適的模型,利用序列數(shù)據(jù)對(duì)模型進(jìn)行擬合,計(jì)算出剩余的參數(shù)φ,θ,c。此步驟可通過(guò)最大似然估計(jì)[27]和EM算法(Expectation Maximization Algorithm)求解[33]。

        3.2 支持向量機(jī)

        支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的算法,在處理高維度和非線性問(wèn)題時(shí)具有強(qiáng)大能力。支持向量機(jī)被廣泛運(yùn)用于經(jīng)濟(jì)數(shù)據(jù)的預(yù)測(cè)[34-37],這些文章的主要思想時(shí)將時(shí)間序列被映射到超平面,然后在超平面中使用最小二乘支持向量機(jī),建立回歸方程,實(shí)現(xiàn)預(yù)測(cè)。Ip等人[38]將最小二乘支持向量機(jī)用于空氣污染狀況的預(yù)測(cè),用于測(cè)試的時(shí)間序列中的元素是由污染水平、風(fēng)向、溫度、濕度等因素組成的向量,取得了良好的預(yù)測(cè)效果。Mellit等人[39]使用最小二乘支持向量機(jī)預(yù)測(cè)氣候狀況,文章中的時(shí)間序列包含光照、氣溫、相對(duì)濕度、風(fēng)速、風(fēng)向和氣壓等因素,支持向量機(jī)在測(cè)試集中的效果最優(yōu)。

        3.3 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

        神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)也稱人工神經(jīng)網(wǎng)絡(luò),是參考生物的神經(jīng)結(jié)構(gòu)設(shè)計(jì)的一種網(wǎng)絡(luò)模型[40]。利用大量數(shù)據(jù)對(duì)有足夠數(shù)量神經(jīng)元的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,能讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到數(shù)據(jù)中隱含的統(tǒng)計(jì)規(guī)律,相當(dāng)于建立了一個(gè)非常復(fù)雜的函數(shù),從而實(shí)現(xiàn)對(duì)新事件的預(yù)測(cè)。Abhishek等人[41]使用反向傳播神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network)實(shí)現(xiàn)降水值的預(yù)測(cè)。Mellit等人[42]利用神經(jīng)網(wǎng)絡(luò)提前一天預(yù)測(cè)日照情況,幫助光伏發(fā)電廠進(jìn)行能源調(diào)度。Yang等人[43]和Thomas等人[44]在病毒研究時(shí),通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白酶的切割位置,為藥物研制提供精準(zhǔn)靶點(diǎn),提高疾病的治療效果。

        深度學(xué)習(xí)(Deep Learning)脫胎于神經(jīng)網(wǎng)絡(luò),通過(guò)增加大量隱層,并逐層進(jìn)行特征變換的方式獲取數(shù)據(jù)更深層的特征,而且克服了神經(jīng)網(wǎng)絡(luò)容易過(guò)擬合、調(diào)參困難和訓(xùn)練速度較慢等問(wèn)題[45]。

        深度學(xué)習(xí)是當(dāng)前非常熱門的人工智能研究領(lǐng)域之一,在圖像處理、模式識(shí)別等領(lǐng)域取得了豐碩成果。AlphaGo利用大量的人類對(duì)弈數(shù)據(jù)和自我對(duì)弈數(shù)據(jù)進(jìn)行深度學(xué)習(xí)訓(xùn)練,在與人類對(duì)弈時(shí)同時(shí)使用四個(gè)策略網(wǎng)絡(luò)進(jìn)行評(píng)估和預(yù)測(cè),擊敗了人類最頂級(jí)的棋手[46]。Hinton等人[47]總結(jié)了深度學(xué)習(xí)在語(yǔ)音識(shí)別方面的成果,目前已經(jīng)有大量用于商用的語(yǔ)音識(shí)別系統(tǒng)。Yu等人[48]提出了一個(gè)時(shí)序正則化矩陣分解(Temporal Regularized Matrix Factorization,TRMF)框架處理高維時(shí)間序列問(wèn)題。Lai等人[49]提出了利用深度學(xué)習(xí)對(duì)長(zhǎng)短時(shí)間模式進(jìn)行建模,為處理各類多元時(shí)間序列數(shù)據(jù)提供了一個(gè)通用框架。

        4 結(jié)語(yǔ)

        本文介紹了序列分析任務(wù)類型和序列的分類預(yù)測(cè)方法,并闡述了分類和預(yù)測(cè)方法中所常用的各種技術(shù)如小波分析、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)方法解決了實(shí)際工作中的一些相關(guān)問(wèn)題,并具有一定的實(shí)際意義和應(yīng)用價(jià)值。

        猜你喜歡
        向量神經(jīng)網(wǎng)絡(luò)分類
        向量的分解
        分類算一算
        聚焦“向量與三角”創(chuàng)新題
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        向量垂直在解析幾何中的應(yīng)用
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        久久国产成人免费网站| 福利视频一区二区三区| 午夜性刺激免费看视频| 国产成人午夜福利在线观看| 欧洲精品免费一区二区三区| 丰满人妻被中出中文字幕| 无码片久久久天堂中文字幕| 女同中文字幕在线观看| 久久精品亚洲熟女av蜜謦| 一夲道无码人妻精品一区二区 | 久久久久99精品成人片直播| 人人狠狠综合久久亚洲婷婷| 人妻少妇中文字幕久久69堂| 日本不卡视频一区二区| 老熟女的中文字幕欲望| 亚洲av无码片vr一区二区三区| 亚洲精品国偷自产在线99正片| 狠狠狠狠狠综合视频| 射进去av一区二区三区| 国产精品亚洲色婷婷99久久精品| 国产精品麻豆欧美日韩ww| 无码国产日韩精品一区二区| 中文字幕有码在线亚洲| 玩弄白嫩少妇xxxxx性| 久久精品日韩av无码| 五月婷婷激情六月开心| 国产丝袜长腿在线看片网站| 未发育成型小奶头毛片av| 色猫咪免费人成网站在线观看 | 丝袜美腿亚洲综合久久 | 午夜天堂av天堂久久久| 欧洲人妻丰满av无码久久不卡| 青草青草伊人精品视频| 亚洲天堂av在线免费观看| 国产精品成人va在线观看| 日韩免费一区二区三区在线| 亚洲色图少妇熟女偷拍自拍| 色久悠悠婷婷综合在线| 国产精品狼人久久久久影院| 亚洲AV无码乱码1区久久| 国产精品女同一区二区免|