亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MATLAB的極大似然估計(jì)分析木條數(shù)據(jù)合理性

        2017-07-09 21:02:05闞瑞祥
        關(guān)鍵詞:機(jī)器學(xué)習(xí)正態(tài)分布計(jì)算機(jī)

        闞瑞祥

        摘 要:現(xiàn)實(shí)生活中,數(shù)據(jù)多而復(fù)雜,處理起來有一定難度。針對(duì)這種情況,提出基于概率論中的極大似然估計(jì)的方法進(jìn)行處理。算法首先進(jìn)行相關(guān)指標(biāo)的快速求解,然后基于紋理分析進(jìn)行模擬的類的劃分,判定分類是否合理并統(tǒng)計(jì)分類合理的數(shù)據(jù)的個(gè)數(shù),最后上述結(jié)果為基礎(chǔ),計(jì)算數(shù)據(jù)分類的合理率。實(shí)驗(yàn)結(jié)果表明,在本組的數(shù)據(jù)中,準(zhǔn)確率高的達(dá)98%,低的也有80%,可信度較高。通過實(shí)驗(yàn)筆者得出構(gòu)建正態(tài)分布模型、提供利用極大似然估計(jì)的思想對(duì)木條相關(guān)的屬性數(shù)據(jù)進(jìn)行計(jì)算從而判決其合理與否的方法是可行的、合理的、有效的。

        關(guān)鍵詞:計(jì)算機(jī);MATLAB;正態(tài)分布;機(jī)器學(xué)習(xí);極大似然估計(jì)

        中圖分類號(hào): TP302.7 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-7394(2017)02-0028-06

        21世紀(jì)信息與數(shù)據(jù)被當(dāng)作重要的資源。但是數(shù)據(jù)本身具有抽象性,如同本文所舉的木條相關(guān)數(shù)據(jù),非專業(yè)人士,難以洞見其價(jià)值。針對(duì)這個(gè)棘手的情況,機(jī)器學(xué)習(xí)是方法,模式識(shí)別是目的。對(duì)數(shù)據(jù)挖掘而言,數(shù)據(jù)庫提供數(shù)據(jù)管理技術(shù),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)提供數(shù)據(jù)分析技術(shù)。本文借助于數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)的知識(shí),通過相關(guān)軟件建立模型,通過計(jì)算判決其是否合理,解決這個(gè)問題。

        1 理論基礎(chǔ)

        在數(shù)據(jù)挖掘或者是機(jī)器學(xué)習(xí)(machine learning)里面,數(shù)據(jù)的簇(cluster)處理成矩陣是一個(gè)創(chuàng)舉——它強(qiáng)調(diào)了數(shù)據(jù)的巨大的不相關(guān)性。如對(duì)于某學(xué)院,絕大多數(shù)情況下,無法從姓名推斷出其成績、性別身高一樣,一個(gè)類中的數(shù)據(jù)往往毫無相關(guān)性,這巨大的不相關(guān)性正好適合推廣到N維的空間中?;诰€性代數(shù)知識(shí),為數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)奠定了堅(jiān)實(shí)的思想基礎(chǔ)。

        2 重要的工具——MATLAB

        MATLAB是進(jìn)行相關(guān)研究的不可或缺的重要的工具。[1]本文基于大量的數(shù)學(xué)理論的基礎(chǔ),先進(jìn)行推導(dǎo),然后進(jìn)行大量的計(jì)算,再進(jìn)行比較。人力計(jì)算,耗時(shí)費(fèi)力而且無法保證準(zhǔn)確度。面向?qū)ο蟮母呒?jí)編程語言諸如Java、Python確實(shí)可以定義相關(guān)的函數(shù)與算法,但是代碼冗長且易出錯(cuò)。所以冗長復(fù)雜的數(shù)學(xué)計(jì)算的最佳辦法就是編寫MATLAB程序進(jìn)行運(yùn)算。

        MATLAB在這個(gè)時(shí)代已經(jīng)為越來越多的計(jì)算機(jī)學(xué)院的學(xué)生所熟知,它的代碼簡潔易懂而且定義了很多復(fù)雜的數(shù)學(xué)運(yùn)算類庫。MATLAB作為一個(gè)研究問題分析的工具簡直再適合不過了。對(duì)于大多數(shù)人而言,算出十維以及十維以上的矩陣的相關(guān)性矩陣以及逆矩陣的工作量都是驚人的,這一定會(huì)使得研究陷入瓶頸。然而使用MATLAB就沒有這些的困擾。[2]

        本文將會(huì)用到的函數(shù)有如下幾個(gè):MATLAB本身含有cov()求一個(gè)簇的協(xié)方差矩陣(臺(tái)灣地區(qū)譯作特異性矩陣), det表示求得模的值,inv表示求逆序列,“'”就表示轉(zhuǎn)置直接帶入即可。[3-4]

        3 相關(guān)數(shù)學(xué)基礎(chǔ)知識(shí)

        對(duì)于一個(gè)雜亂無章的簇(cluster),從數(shù)理統(tǒng)計(jì)的角度講,都可以默認(rèn)它是服從正態(tài)分布的。[1]正態(tài)分布在概率論中有著十分重要的地位,在各種的分布中也是具有首要的地位。

        正態(tài)分布可以寫作:[P(x)=12πe-(x-μ)22σ2]

        其中[μ]表示期望,[σ2]表示方差

        上文提到的所謂數(shù)據(jù)的極不相關(guān)性,好比在一個(gè)學(xué)生的信息表中,除非極其特殊的情況,其他情況均認(rèn)為各個(gè)屬性是沒有關(guān)系的,這里就可以理解成class,即面向?qū)ο笾刑岬降念悺O挛木鶎㈩惐硎緸閇C]。

        這里還需要使用到條件概率,所謂條件概率指的是在滿足一定條件下某事件發(fā)生個(gè)概率,例如在滿足[Ci]條件下[P]發(fā)生的概率就可以表示為[5-6]:[p(xCi)]

        便有:

        [p(xCi)p(Ci)=P(x)]。

        最后一個(gè)概念是極大似然估計(jì)(也譯作是最大似然估計(jì))。這是一種求參數(shù)的經(jīng)典的方法,無論對(duì)于實(shí)踐還是理論研究都有重大的意義,它最早是高斯(Gauss)提出來的,1912年被重新發(fā)表。它的直接想法其實(shí)是若一個(gè)隨機(jī)事件有若干個(gè)可能的結(jié)果A,B,C……,若在一次試驗(yàn)中A出現(xiàn)了,則一般認(rèn)為對(duì)于A的出現(xiàn)有利,也就是A出現(xiàn)的概率可能是最大的,在此思想基礎(chǔ)上,通過相關(guān)運(yùn)算求出最合理的參數(shù)。

        至此理論準(zhǔn)備部分完成。

        4 數(shù)學(xué)推導(dǎo)敘述

        在機(jī)器學(xué)習(xí)或者是數(shù)據(jù)挖掘中,很多時(shí)候其實(shí)找的最根本的東西就是所謂邊界函數(shù)。如圖1:

        左右兩端有兩個(gè)簇(cluster),而中間的直線就是邊界函數(shù),這是通過相關(guān)的方法,諸如最小二乘法、拉普拉斯雙曲型方程等方法無限趨近來的。筆者這里的推導(dǎo),極大似然估計(jì)只是一個(gè)工具,這里用它的算法進(jìn)行筆者需要的推導(dǎo)。

        首先,對(duì)于一個(gè)大的類(class),它可以由很多的參數(shù),用矩陣表示可以寫作:

        [X=X11 X12 … X1DX21 X22 … X2D ?XN1 XN2 … XND]

        這里的計(jì)算一律使用矩陣的原因是更加具有一般性,通常的概率論書中的例題中,無法符合筆者強(qiáng)調(diào)的多組數(shù)據(jù)的不相關(guān)性的要求。[7-8]基于此,對(duì)傳統(tǒng)的概率論相關(guān)的量進(jìn)行推廣是必要的,體現(xiàn)在維度的擴(kuò)充,期望就變?yōu)榱薣μ=μ1,…μdT],相關(guān)性(correlation,臺(tái)灣地區(qū)譯作相互性)就推廣成了

        [CORR(Xi,Xj)=pij=σijσiσj]

        在這個(gè)基礎(chǔ)之上,維度的N重性得到了必要的強(qiáng)調(diào),協(xié)方差矩陣就變成了:

        [=COV(X)=E((X-μ)(X-μ)T)]

        [X=σ11 σ12 … σ1Dσ21 σ22 … σ2D ?σN1 σN2 … σND],

        于是傳統(tǒng)意義上的計(jì)算公式就被筆者擴(kuò)充,對(duì)于某樣本它的期望就變?yōu)?/p>

        [mi=1NxTiN, i=1…,d]

        對(duì)于某一樣本,它的協(xié)方差矩陣就變?yōu)?/p>

        [Sij=1N(xti-mi)(xtj-mj)N],

        上文提到的正態(tài)分布的定義式

        [P(x)=12πe-(x-μ)22σ2],在這里就可以進(jìn)行推廣,

        對(duì)于[x~Nd(μ,)]得到: [ P(x)=1(2π)d212e-12(x-μ)T-1(x-μ)],

        使用MATLAB做出相關(guān)圖像,如圖2。

        而后便是對(duì)其進(jìn)行連乘運(yùn)算,[p(x)=1dpi(xi)],由于使用了經(jīng)典的極大似然估計(jì)的算法,通常使用的是左式、右式同時(shí)取對(duì)數(shù)的辦法,使得計(jì)算量大大減少。于是對(duì)于[p(xCi)~N(μi,i)],筆者得到

        [P(x)=1(2π)d2i12e-12(x-μ)T-1(x-μi)],

        通過條件概率的公式以及Ethem Alpaydin先生的《MIT.Introduction.to.Machine.Learning.3rd.Edition》一書中的結(jié)論[2]。

        于是有:

        [gi(x)=Inp(xCI)]+In[p(Ci)=-d2In2π-12Ini]

        [-12(x-μi)Ti-1(x-μi)+Inp(Ci)]

        然后根據(jù)此進(jìn)行大小的比較,這里的比較指的是與剩下的類分別進(jìn)行比較,及時(shí)統(tǒng)計(jì)合理的數(shù)據(jù)的個(gè)數(shù),根據(jù)個(gè)數(shù)求出準(zhǔn)確率,進(jìn)而決定數(shù)據(jù)的可信度。

        5 代碼敘述部分

        本算法的核心語句便是上述算式的大小比較,比較的對(duì)象在MATLAB分別由mean()與sigma求得,然后統(tǒng)計(jì)個(gè)數(shù)。大小的比較是建立在快速求出各類的期望以及方差、標(biāo)準(zhǔn)差的基礎(chǔ)之上。將這些數(shù)據(jù)進(jìn)行多維的比較,統(tǒng)計(jì)合理的數(shù)據(jù)的個(gè)數(shù),從而求得分類的正確率。所以在

        [gi(x)=Inp(xCI)]+In[p(Ci)=-d2In2π-12Ini][-12(x-μi)Ti-1(x-μi)+Inp(Ci)],等式中的[-d2In2π],它僅僅是個(gè)常數(shù),比較的時(shí)候?qū)⑵浜雎浴K闶椒g成MATLAB代碼,可以寫作:d1=-1/2*log(det(sigma1))-(x-mu1)*inv(sigma1)*(x-mu1)'[7];

        det用來求得模的值,inv表示求逆序列,“'”就表示轉(zhuǎn)置直接帶入即可,特別聲明:注意字母編碼,否則程序無法運(yùn)行。

        所得的數(shù)據(jù)直接使用循環(huán)跟if判斷用來比較大小,為了減少書寫量,本文不窮舉相關(guān)中間步驟的數(shù)據(jù)。

        木條(或者說是軟木塞)的相關(guān)數(shù)據(jù)均來自于臺(tái)灣中華大學(xué)的官網(wǎng)。

        MATLAB按照常理,只需手動(dòng)將excel文件放到與.m文件同一目錄下就可以實(shí)現(xiàn)導(dǎo)入,甚至可以實(shí)際一個(gè)圖形界面直接手動(dòng)導(dǎo)入,然而在實(shí)際操作的過程中卻遇到了意想不到的麻煩:MATLAB與excel間隔每個(gè)數(shù)據(jù)使用的字符不一樣,導(dǎo)致數(shù)據(jù)無法分開。筆者之前在建立hadoop的云空間的時(shí)候也遇到了類似的情況,發(fā)現(xiàn)無法帶入excel表格,關(guān)鍵是要使用split()將數(shù)據(jù)進(jìn)行再次分割,這里亦如此。

        關(guān)于這個(gè)實(shí)驗(yàn)最后說兩點(diǎn):

        1.不同的數(shù)值如果單位是不能求均值的,所以這里所求的均值指的是列向量元素求均值。

        這里面還有一個(gè)理想的情況:分類錯(cuò)誤的所謂“損失函數(shù)”必須跟分類的具體的錯(cuò)誤無關(guān)。

        2.如果分類的錯(cuò)誤是有區(qū)別的,那么還需要引入相關(guān)的常數(shù)或者是函數(shù)。所謂“損失函數(shù)”可以將其視作是某種權(quán)重,比如說登記入住酒店的時(shí)候,如果客戶的姓名弄錯(cuò)可能影響不大,但是性別弄錯(cuò)就會(huì)出現(xiàn)大麻煩。

        3.本代碼將具體的合理數(shù)據(jù)的個(gè)數(shù)分別放在了3*3矩陣的主對(duì)角線上,只是因?yàn)檫@樣美觀,便于觀察,實(shí)際上放在哪里與最終的運(yùn)算結(jié)果是沒有影響的。

        由于本文的篇幅有限,此處只是摘錄部分代碼,具體如下:

        mu1=mean(a);

        mu2=mean(b);

        mu3=mean(c);

        sigma1=cov(a);

        sigma2=cov(b);

        sigma3=cov(c);

        cc1=0;cc2=0;cc3=0;

        cc11=0;cc22=0;cc33=0;

        cc111=0;cc222=0;cc333=0;

        for i=1:1:50

        x=a(i,:);

        d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

        d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

        d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

        if d1>d2 && d1>d3

        cc1=cc1+1;

        end

        cc1;

        if d2>d3 && d2>d1

        cc2=cc2+1;

        end

        cc2;

        if d3>d2 && d3>d1

        cc3=cc3+1;

        end

        cc3;

        end

        c1=[cc1,cc2,cc3];

        for i=1:1:50

        x=b(i,:);

        d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

        d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

        d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

        if d1>d2 && d1>d3

        cc11=cc11+1;

        end

        cc11;

        if d2>d3 && d2>d1

        cc22=cc22+1;

        end

        cc22;

        if d3>d2 && d3>d1

        cc33=cc33+1;

        end

        cc33;

        end

        c2=[cc11,cc22,cc33];

        for i=1:1:50

        x=c(i,:);

        d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

        d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

        d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

        if d1>d2 && d1>d3

        cc111=cc111+1;

        end

        c1;

        if d2>d3 && d2>d1

        cc222=cc222+1;

        end

        cc222;

        if d3>d2 && d3>d1

        cc333=cc333+1;

        end

        cc333;

        end

        c3=[cc111,cc222,cc333];

        C=[c1;c2;c3];

        disp(C);

        代碼中的a、b、c分別放了三個(gè)大類的木條的相關(guān)的數(shù)據(jù),MATLAB導(dǎo)入數(shù)據(jù)的方法有很多,根本版本的不同而略有不同。筆者導(dǎo)入數(shù)據(jù)使用的方法是將所有的數(shù)據(jù)全部粘貼進(jìn)一個(gè)數(shù)組內(nèi),本文代碼中將此部分略去。

        不同的MATLAB版本以及內(nèi)存的大小、CPU運(yùn)算速度會(huì)對(duì)數(shù)據(jù)的時(shí)間產(chǎn)生影響,但是結(jié)果相同。運(yùn)行結(jié)果如圖3。

        利用主對(duì)角線上的元素直接求正確率,可得:第一組數(shù)據(jù)分類正確的概率是94%,第二組數(shù)據(jù)分類正確的概率是80%,第三組數(shù)據(jù)分類正確的概率是98%。

        具體效果如何,有點(diǎn)類似運(yùn)用泰勒(Taylor)公式求等價(jià)無窮小的時(shí)候——只需要根據(jù)自己的要求來決定精確的位數(shù)[8],這里與之類似,根據(jù)自己的目標(biāo)決定所得的正確率合理與否。

        6 結(jié)果與展望

        本文較好地解決了三類木條且每一類含有50組數(shù)據(jù)的合理性的判決,本文代碼可以將之視為判決合理性的重要依據(jù)。根據(jù)實(shí)驗(yàn)結(jié)果可知:第二類的正確率偏低而第一類、第三類的正確率非常高。

        但本代碼是有其局限性的,根本原因在于,逆矩陣運(yùn)算時(shí)的條件——必須是方陣。這一點(diǎn)使得本代碼在推廣的時(shí)候遇到瓶頸,需要考慮逆矩陣的運(yùn)算條件以及一個(gè)類(class)中的數(shù)據(jù)的個(gè)數(shù),這個(gè)需要在代碼之中進(jìn)行必要的修改。

        雖然有局限性,但是筆者仍然欣喜地將其視作具有巨大潛能的代碼,以后可以將這個(gè)代碼進(jìn)行升級(jí),它的應(yīng)用將不僅僅局限于此,還可以進(jìn)行學(xué)科交叉,應(yīng)用于物聯(lián)網(wǎng)、數(shù)字信號(hào)處理、電子信息處理等學(xué)科中。比如:現(xiàn)如今諸多音樂播放器都有音樂的推薦,但往往不十分準(zhǔn)確,可不可以用類似的代碼對(duì)于推薦音樂的算法進(jìn)行優(yōu)化呢?將音樂播放器用戶喜歡的音樂進(jìn)行分析,主要分析其頻譜以及相關(guān)的一些音樂參數(shù),之后在云空間中對(duì)于所有的歌曲進(jìn)行此算法的識(shí)別,正確率大于90%的推薦,否則,不予推薦,也許這樣會(huì)取得意想不到的成功。在此基礎(chǔ)上,也可能寫出相關(guān)的APP,進(jìn)而推廣的速度大大加快。

        參考文獻(xiàn) :

        [1] 張心心.MATLAB軟件在信號(hào)與系統(tǒng)在實(shí)踐教學(xué)中的意義[J].通訊世界,2016(12),DOI:10.3969/j.issn.1006-4222.2

        016.12.048.

        [2] 生靜.高職院校數(shù)學(xué)計(jì)算軟件MATLAB教學(xué)研究[J].山東農(nóng)業(yè)工程學(xué)院學(xué)報(bào),2016(4)69-70.

        [3] 張志涌.精通MATLAB R2011a[M].北京:北京航空航天大學(xué)出版社,2011.

        [4] 張建勇,陳亮,陳雨兒,等.基于MATLAB的微分方程課堂教學(xué)設(shè)計(jì)[J].教育教學(xué)論壇,2014(52):168-169.

        [5] 湯大林.概率論與數(shù)理統(tǒng)計(jì)[M].天津:天津大學(xué)出版社,2009.

        [6] ETHEM Alpaydin.MIT.Introduction.to.Machine.Learning. [M].3rd. ed.The MIT Press:Cambridge Massachusetts,2014.

        [7] 張建勇、肖慧娟、趙一方,等.MATLAB繪圖功能在高等數(shù)學(xué)教學(xué)中的應(yīng)用[J].臺(tái)州學(xué)院學(xué)報(bào),2016(3):63-68.

        [8] 茍長義.高等數(shù)學(xué)分級(jí)指導(dǎo)與提高[M].天津:天津大學(xué)出版社,2008.

        Based on MATLAB and the Analysis of the Maximum Likelihood Estimation Batten Data Rationality Kan Ruixiang

        KAN Rui-xiang

        (Tianjin Technology University Computer and communication engineering institute of Internet of things engineerings Tianjin 300380,China)

        Abstract:There are too many complicated data in our daily life and processing up has the certain difficulty. For this kind of situation, based on the theory of maximum likelihood estimation method is proposed for processing. Fast solving algorithm firstly on relevant indicators, and then simulated class division based on texture analysis, determine the reasonable classification and the number of statistical classification and data, finally based on the above results, calculate the data classification. The experimental results show that in this group of data, high accuracy of 98%, low of 80%, being of higher credibility. Through the experiment the author concluded construction of normal distribution model by using the maximum likelihood estimation, the method of providing the attribute data of wood related calculation and judging whether it is reasonable or not is feasible and reasonable

        Key words:computer ; MATLAB;normal distribution;machine learning;maximum likelihood estimation

        責(zé)任編輯 祁秀春

        猜你喜歡
        機(jī)器學(xué)習(xí)正態(tài)分布計(jì)算機(jī)
        計(jì)算機(jī)操作系統(tǒng)
        基于計(jì)算機(jī)自然語言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡介
        科技傳播(2019年22期)2020-01-14 03:06:34
        信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
        基于對(duì)數(shù)正態(tài)分布的出行時(shí)長可靠性計(jì)算
        正態(tài)分布及其應(yīng)用
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        正態(tài)分布題型剖析
        亚洲国产精品ⅴa在线观看| 日韩精品一区二区三区免费观影| 国产91精品一区二区麻豆亚洲| 国产麻豆精品精东影业av网站| 国产suv精品一区二人妻| 无码在线观看123| 亚洲av成人波多野一区二区| 久久亚洲精品国产亚洲老地址| 亚洲欧美日韩中文在线制服| 精品亚洲女同一区二区| 亚洲一区免费视频看看| 精品av熟女一区二区偷窥海滩| 国产精品久久久久电影网| 国产成人亚洲综合小说区| 最新在线观看免费的a站国产| 国产精品特级毛片一区二区三区| 亚洲一区二区三区偷拍女厕| 日韩精品人妻中文字幕有码| 高清日韩av在线免费观看| 国产裸体xxxx视频在线播放| 亚洲AV无码精品蜜桃| 国内自拍偷拍一区二区| 偷拍综合在线视频二区| aaa级久久久精品无码片| 亚洲国产精品久久九色| 我揉搓少妇好久没做高潮 | 亚洲人成色7777在线观看不卡| 国产成人精品三级91在线影院| 一区二区三区人妻在线| 国产av一区二区三区无码野战| 精品国产18久久久久久| 91极品尤物在线观看播放| 中文字幕有码人妻在线| 亚洲av无码av制服另类专区 | 日韩精品成人一区二区三区久久久 | 亚洲女av中文字幕一区二区| 亚洲av日韩av在线观看| 国产女高清在线看免费观看| 字幕网中文字幕精品一区| 亚洲国产一区二区三区在线观看| 国内精品久久久影院|