謝沛潔
關鍵詞: 但因素差異性檢驗;分布規(guī)律;灰色預測;主成分分析;多元線性回歸分析
針對問題一,想要確定合成阿片類藥物的傳播規(guī)律,無非就是確定藥量隨空間和時間變化的增長規(guī)律,理想情況下,我們需要準確的知道各州甚至各縣不同年份的阿片類藥物的數量-時間尺度,以及個各州甚至各縣的相對位置-空間尺度。在時間尺度上,對五個州合成阿片類藥物的增長趨勢進行觀察,并對個州每一年逐一進行單因素差異性檢驗,發(fā)現OH州和ky州隨年份的增長,差異性逐漸怎大,我們即可將范圍縮小到OH州和KY州的縣中,在通過時間序列模型,對其藥量有短時間內大程度變化的縣進行鎖定分析,確定最早發(fā)生阿片類藥物的地方是OH州的OC縣;在空間尺度上,根據NFLIS提供的數據,但我們并不能得到各個縣的相對位置,經過查閱資料和思考,我們發(fā)現,毒品的傳播并不太依賴于空間概念上距離,他的傳播更依賴于人口素質,社會治安等一系列復雜的因素,于是我們定義了一個抽象的概念-相對傳播距離,其反應一種毒品傳播泛濫在某個城市的難易程度,其跟一些隱含而復雜的社會因素成一定的函數關系,在第一問,我們并不深入討論相對傳播距離的影響因素,而僅僅簡化的根據毒品檢測量的多少對461個縣進行排名,概括地了解毒品在州之間的分布規(guī)律,用排名的序列抽象地代表相對傳播距離,并根據時間序列(專有名詞),計算出其分布規(guī)律的變化規(guī)律,我們發(fā)現其分布規(guī)律大致成Y=AX^B+C的形式,并通過最小二乘法對其進行擬合,置信度r^2可達0.95,我們通過對每年的分布規(guī)律的擬合確定每年的分布律的參數,我們通過G(1,1)灰色預測模型(專有名詞)對參數進行預測,以達到對毒品在各縣分布的預測,即達到對傳播規(guī)律進行描述的目的。在分析過程中,我們對并對藥片進行K-MEANS聚類分析,找出較為代表性的藥品 海洛因和 Oxy 的分布規(guī)律作為毒品泛濫程度的依據,根據灰色預測模型通過matlb進行仿真,得到7年內美國政府不采取措施抑制該毒品的傳播模式,海洛因和Oxy 中高含量的縣將達1/3,這將是十分危險的。
針對第二問,我們在第一問中,已經定義了相對傳播距離的概念,在第二問中我們將深入探討相對距離與社會因素之間的關系,首先,我們對596組社會因素的數據進行主成分分析進行降維,驚人的發(fā)現,某合成因素的貢獻率可達99.8,所以我們將數據降至一維進行分析,發(fā)現該合成因素的分布律與毒品數量分布規(guī)律極為相似。為了找出那些因素致使阿片類藥物的泛濫,我們通過多元線性回歸分析,找出5個相對重要且相關的社會因素-家庭人口數,年齡,婚姻狀況,家庭構成,受教育程度、用以描述其與“相對傳播距離“的關系以完善第一部分的模型。
針對問題三,基于第一問和第二問的研究結果,我們發(fā)現一種新型毒品Oxy 對毒品分布有及其大的影響,為了驗證抑制該類新型毒品對毒品傳播的影響,通過matlab對其進行仿真,發(fā)現如果將其增長速率抑制在(1475單位/年)的水平下,阿類藥片的分布將維持在一個比較穩(wěn)定的情況。
1 問題重述
本題主要告訴我們位于美國五個洲(俄亥俄州、肯塔基州、西弗吉尼亞州、弗吉尼亞州和田納西州)的各個縣的毒品案件的藥物鑒定結果和相關信息。希望你們通過數據分析和建模能夠有效防止阿片類藥物非法使用對美國帶來的負面影響。
Part I:
●使用NFLIS的數據,描述五個州及其縣之間的合成阿片和海洛因事件(病例)的特點;
●建立關于如上所述特點的模型,用以描述每個州及其縣在2010-2017 年間合成阿片和海洛因事件(病例)的特點的變化情況。分析并解釋建模結果;
●確定五個州中最早發(fā)生阿片類藥物使用的具體位置,解釋你們的選擇和選擇標準;
●根據如上所述各州及其縣之間的合成阿片和海洛因事件的特點的變化情況,指出美國政府應該有什么具體的擔憂以及在什么藥物識別閾值的水平,這些事件會發(fā)生并預測在何時何地發(fā)生。
Part II:
●使用美國人口普查的提供的社會經濟數據,判斷阿片類藥物的使用或趨勢在某種程度上與美國人口普查提供的社會經濟數據有關嗎;
●如果有關,則修改Part I中的模型使之包含次數據集中的重要因素。
Part III:
●根據Part I和Part II,確定一個方案用以對抗阿片類藥物危機;
●根據你的模型測試該方案的有效性并確定成功(或失?。┮蕾嚨闹匾獏捣秶?。
本文除了主要報告還要提供1-2頁備忘錄,DEA/NFLIS數據庫,總結在建模工作期間確定的任何重要見解或結果。
2 部分符號說明
3 模型假設
假設每個州的數據表現形式為隨機分布;
假設drug的數量每年的變化與其前年的值和其周圍距離有關;
假設毒品對周邊的影響主要是與周圍的距離和周邊人口數量和年齡有關;
4 模型建立
4.1對第一部分的求解
第一部分主要是利用 NFLIS 提供的數據,通過所建立的模型進行分析出報告的五個州及其縣之間的合成阿片和海洛因事件 (病例) 的特點.
4.1.1時間序列模型的建立與求解[13][9]
針對于這個問題,本題給出了相對應的數據,所以此題主要是考察對于數據的處理,本文使用的是MATLAB軟件[7]對于數據進行合理的處理:
首先構建了5個三維矩陣,分別代表這五個州矩陣:
代表每個縣的傳播距離,藥品種類,毒品事件年份的儲存數據,將五個州的毒品事件和年份匯總,如圖所示:
以毒品事件數目的對數作為縱軸,分析數量和隨時間的變化趨勢,可以得到將69種毒品分為4類:
類別四:趨勢隨年份變化減小,我們稱之為舊型毒品。
例如:自2010年起一直下降的有Hydrocodone (10)和Oxycodone (6)。
對于地理位置的分析我們通過建立Dx-Qc 的模型,Dx 為從D0 開始從高到低排序的毒品事件數量的傳播距離,Qc 為毒品事件數量。通過曲線擬合可以得到 。
●當 時,我們認為毒品在地理上具有區(qū)域性,特異性,只有在特定區(qū)域有范圍傳播和流行。
●當 時,我們認為毒品在地理上具有普及性,廣泛性,在這五個州有大范圍的傳播和流行。
通過分析461個縣的阿片類藥物隨年份的變化和趨勢,毒品事件數目曲線增長率大,則該縣越容易成為毒品的泛濫的區(qū)域,同時也可以認為該縣時毒品發(fā)生的發(fā)源地。
通過分析五個州的阿片類藥物隨年份的增長趨勢,我們可以發(fā)現,OH州最先在2012年毒品事件的數量呈現上升趨勢,隨后PA州在2015年的時候毒品事件的數量呈現上升趨勢,KY州和VA州的毒品發(fā)生事件相對穩(wěn)定,WV州處于一個較低的水平。我們可以從州的角度,推斷出最有可能最先發(fā)生毒品事件的縣的大概I地理位置。
通過 的擬合曲線,我們可以推測Ds 趨近于D0 時,毒品事件Qc 的數量越大。故我們篩選越趨近于D0 的縣Dx ,同時通過年份的排序,重點篩選OH州,PA州的縣,篩選出Dx 上升趨勢越快的縣,通過數據分析便可以得出最有可能最先發(fā)生毒品事件的縣。
如圖所示是各種阿片類藥物與其前40名毒品事件數量的縣的分布圖,我們可以從461個縣中篩選出前40名作為重點關注和監(jiān)管的對象,作為給美國政府的建議。
4.1.2 模型的建立與求解——GM(1,1)模型[14]
有關建模的問題說明如下:
定原始序列X(0) 中的數據不一定要全部用來建模,對原始數據的取舍不同,可得模型不同,即a和b不同。
模的數據取舍應保證建模序列等時距、相連,不得有跳躍出現。
一般建模數據 序列應當由最新的數據及其相鄰數據構成,當再出現新的數據時,可采用兩種方法處理:一是將新信息加入原始序列中,重估參數;二是去掉原始序列中最老的一個數據,再加上最新的數據,所形成的序列和原序列維數相等,再重估參數。
4.1.2.1 模型結果
Fig. 7 G(1,1)grey forecast chart for drug independence in five states
通過建立灰色模型,我們預測了從2018年到2022年時,5個州毒品事件隨年份變化的曲線圖,通過圖像我們可以看出OH州的毒品事件發(fā)生數量隨著年份上升極快,預計在2019年就可以超過50000起,PA州的毒品事件發(fā)生也呈現上升趨勢,預計在2022年就可以超過25000起;VA州呈現平穩(wěn)的趨勢,毒品事件發(fā)生數量變化不大;KY州和WV州毒品事件發(fā)生數量有下降的趨勢。美國政府應該主要擔心OH州和PA州的毒品事件的泛濫,如果不加以監(jiān)管很可能會導致毒品犯罪大幅上升。
同時,我們在前述中將毒品分為4類,美國政府應該將大眾性毒品和新型毒品作為重點監(jiān)管對象,大眾毒品可能在各個州都有普遍的傳播;新型毒品可能突然出現在某個州縣,出現井噴式增長。
4.2對問題二的求解
對于第二部分的問題,本文所建立的模型和前一問相同通過擬合曲線Qc=cDsb+c 函數關系,其參數(a,b,c)通過前一問具體可以表示出來,但是對于Ds 在考慮到社會因素的情況下便會引入新的參數來影響其傳播距離的值,其附件所給的社會數據是比較多的,每一個縣均含有較多的因素指標,所以這里便不能直接使用其大數據集,本文引入了新的模型——主成分分析模型對數據進行合理的降維處理,使得大數據集降為簡單的數據集,用于分析處理模型便可以得到較為準確的結果。
4.2.1 主成分模型的建立[15]
4.2.1.1 主成分分析原理
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。在統計學中,主成分分析(principal?components?analysis,PCA)是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特征.這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面.但是,這也不是一定的,要視具體應用而定。
基于這樣的設定和要求,對于n個樣本:
其主成分的計算過程如下:
●對樣本數據的標準化:
為了實現樣本數據的標準化,應求樣本數據的平均和方差。樣本數據的標準化是基于數據的平均和方差進行的。標準化的實質是將樣本變換為平均為0,方差為1的標準化數據。
●計算相關矩陣:
對于給定的n個樣本,求樣本間的相關系數。相關矩陣中的每一個元素由相應的相關系數所表示
●求特征值和特征向量:
設求得的相關矩陣為R,求解特征方程:
(12)
通過求解特征方程,可得到m個特征值(i=1~m),和對應于每一個特征值的特征向量:
i=1~m (13)
且λ1>λ2>λ3>λm>0 與之對應的特征向量相互正交。
求主成分
根據求得的m個特征向量,m個主要成分分別為:
… …
以上求得的主成分相互正交且每一個主成分的方差等于對應的特征向量λ。顯然,各主要成分對應的方差是逐次遞減的。
4.2.1.2 求特征值和特征向量
通過上述方法可求得m(m≤p )個主成分。我們稱第i個主成分的λ1 與 之比為第i個主成分的貢獻率。
在m個主成分中,前q個主成分的貢獻率之和為:
(14)
我們稱a為前q個主成分的累積貢獻率。
主成分的個數可以通過累積貢獻率來確定。通常以累積貢獻率 為標準。對于選定的q個主成分,若其累積貢獻率達到了85%,即 ,則主成分可確定為q個。它表示,所選定的q個主成分,基本保留了原來p個變量的信息。在決定主成分的個數時,應在 的條件下,盡量減少主成分的個數。
主成分分析以較少的m個指標代替了原來的p個指標對系統進行分析,這給我們對系統的綜合評價帶來了很大的方便。
4.2.1.3 模型的求解
通過MATLAB軟件進行主成分降維后的圖像如下所示:
Fig. 8 降維數據圖
4.2.2對問題二的求解
這里帶有部分主觀因素,同時結合數據的降維分類后的結果來看,其影響毒品總量本文提出了以下幾個主要指標人口的種族,婚姻狀況、受教育程度、家庭人口數、年齡。
4.3對問題三的求解
本文結合問題一和問題二的結果先給出一個策略,即如何有效地解決阿片類藥物危機。再根據問題一和問題二所建立的模型,確定該策略是否有效,并確定成功(或失?。┮蕾嚨娜魏沃匾獏捣秶?。
4.3.1 方案的提出
由問題一的結果可以得出:我們將毒品分為4類,美國政府應該將大眾性毒品和新型毒品作為重點監(jiān)管對象,大眾毒品可能在各個州都有普遍的傳播;新型毒品可能突然出現在某個州縣,出現井噴式增長。問題一得出了各種阿片類藥物與其前40名毒品事件數量的縣的分布圖。因此,美國政府應該將這461個縣中篩選出的前40名作為重點關注和監(jiān)管的對象并對已分析的井噴式增長的毒品進行有效抑制。從而有效抑制阿片類藥物的傳播速率。
由問題二的結果可以得出:導致阿片類藥物的使用泛濫的原因不僅有部分主觀因素,還有人口的種族,婚姻狀況、受教育程度、家庭人口數、年齡等主要指標。美國政府應該對存在種族歧或婚姻狀況不良或受教育程度不夠或家庭人口數過多家庭經濟負擔大或年齡較小的青少年等人群進行重點監(jiān)管,防止由于如上所述客觀因素導致其非法使用阿片類藥物。
因此,本文的策略具體為:美國聯邦局(FBI)和美國緝毒局(DEA)對新型毒品進行嚴格監(jiān)管并且對已篩選 出的40個縣進行重點關注和監(jiān)管,對受人口的種族,婚姻狀況、受教育程度、家庭人口數、年齡等因素影響的易涉毒人群進行重點監(jiān)管。
4.3.2方案有效性的檢驗
通過建立灰色模型,我們預測出通過對美國政府應該將這461個縣中篩選出的前40名作為重點關注和監(jiān)管的對象并對已分析出存在井噴式增長可能的新型毒品進行有效抑制后美國毒品事件數量會大幅度衰減(如右圖);美國政府對存在種族歧或婚姻狀況不良或受教育程度不夠或家庭人口數過多家庭經濟負擔大或年齡較小的青少年等人群進行重點監(jiān)管后美國毒品事件數量會大幅度衰減。(如左圖)。并且兩個圖具有高度重合性,由此可以看出,通過對如上兩個方面進行有效控制,美國阿片類藥物危機問題將得到有效解決。
4.3.3 重要參數范圍的確定
根據問題一和問題二的結論及本文所提出策略有效性在模型中成功得到檢驗可以得出重要參數范圍有如下兩個方面:新型毒品的種類和主要傳播區(qū)域;美國社會人為因素:受教育程度、種族問題、婚姻狀況、家庭人口數、年齡等指標。
5 模型優(yōu)缺點及推廣
5.1優(yōu)點
論文進行大量的圖像擬合,較為生動,圖文并茂。
對數據進行了較好的處理并將其分別存儲在5個矩陣中,便于后續(xù)的提取使用。
由于毒品總量的對比差異比較大,所以在構建圖像時使得圖像的變化將及其不明顯,本文采用了對數據進行取對數的方法,進行降維處理后,便可以比較方便的得到曲線的變化趨勢。
由于其社會因素比較多,這里通過對比數據本文尋找到主要的幾個指標來確定社會因素對毒品使用量的影響,這樣使得本文在其誤差范圍內使得計算更為的簡單。
本文引進了一個新的概念——地理位置Dx-Qc 模型,曲線擬合得到Qc=aDsb+c ,其曲線擬合度R2 作為判斷毒品在地理上具有區(qū)域性或者普及性。
5.2 缺點
模型進行定量的描述,沒有很確定的精確到每一個州。
對于預測模型的建立的精準度沒有控制到很高,所以其預測的結果存在著一定偏離正確結果。
5.3推廣
本文對與求解毒品過程所建立的模型其具有代表性和廣泛性,對于毒品特性的描述只是其中的一種表述,Qc=aDsb+c 對于其中的參數是根據具體的事物來確定其值的,所以本文建立的是一個大眾化的模型,比如說對于槍支,彈藥這一類的武器也可以采用相同的模型,只是對于其中某部分的參數進行相應的對照改變,便可以得到其變化的特性以及 傳播的特點。
6 備忘錄
在對本題求解的過程中,最初始的一步是通過MATLAB軟件構造了5個州的各個縣的三維矩陣分別存儲各個縣的毒品事件數量Qc,距離毒品事件最多的縣的傳播距離Ds和年份變化Yi 這三個數據。在考慮到多方面的因素下合理的構造了時間序列模型用于對毒品進行分類描述其特性,首先,通過在毒品的性質分類,我們將毒品分為四類:
類別一:logQc≥3 ,趨勢隨年份變化平穩(wěn),我們稱這類藥物為大眾毒品。
類別二:logQc≥3 ,趨勢隨年份變化平穩(wěn),我們稱這類藥物為小眾毒品。
類別三:趨勢隨年份變化增加,我們稱之為新型毒品。
類別四:趨勢隨年份變化減小,我們稱之為舊型毒品。
美國政府應該將大眾性毒品和新型毒品作為重點監(jiān)管對象,大眾毒品可能在各個州都有普遍的傳播;新型毒品可能突然出現在某個州縣,出現井噴式增長。
同時,我們擬合了毒品事件數量和毒品事件傳播距離的曲線,滿足 Qc=aDsb+c
的曲線規(guī)律,當R2≥0.98 時,通過圖像分析可以知道,隨著Ds 傳播距離增大,Qc迅速減小,此時我們認為毒品在地理上具有區(qū)域性,特異性,只有在特定區(qū)域有范圍傳播和流行。
R2<0.98 時,隨著Ds 傳播距離增大,Qc 緩慢減少,我們認為毒品在地理上具有普及性,廣泛性,在這五個州有大范圍的傳播和流行。
分析五個州的阿片類藥物事件數量隨年份的變化規(guī)律,我們知道了OH州最先在2012年毒品事件的數量呈現上升趨勢,隨后PA州在2015年的時候毒品事件的數量呈現上升趨勢,KY州和VA州的毒品發(fā)生事件相對穩(wěn)定,WV州處于一個較低的水平。對此,我們進一步分析各個縣的傳播距離隨年份變化的趨勢,如果Ds 隨年份增長減小,那么我們可以認為該縣的毒品事件發(fā)生數量呈現增長趨勢。通過提取分析這些縣,我們提取了40個主要毒品事件泛濫的縣,進而建議美國政府最需要的監(jiān)管的州和縣。
通過灰色預測模型,我們預測了2019到2022年的五個州的毒品數量變化趨勢,OH州的毒品事件發(fā)生數量隨著年份上升極快,預計在2019年就可以超過50000起,PA州的毒品事件發(fā)生也呈現上升趨勢,預計在2022年就可以超過25000起;VA州呈現平穩(wěn)的趨勢,毒品事件發(fā)生數量變化不大;KY州和WV州毒品事件發(fā)生數量有下降的趨勢。美國政府應該主要擔心OH州和PA州的毒品事件的泛濫。
對于第二部分的問題,本文所建立的模型和前一問相同通過擬合曲線Qc=aDsb+c 函數關系,其參數(a,b,c)通過前一問具體可以表示出來,但是對于Ds 在考慮到社會因素的情況下便會引入新的參數來影響其傳播距離的值,其附件所給的社會數據是比較多的,每一個縣均含有較多的因素指標,所以這里便不能直接使用其大數據集,本文引入了新的模型——主成分分析模型對數據進行合理的降維處理,使得大數據集降為簡單的數據集,用于分析處理模型便可以得到較為準確的結果。其影響毒品總量本文指出了以下幾個主要指標:人口的種族,婚姻狀況、受教育程度、家庭人口數、年齡。
本文的策略具體為:通過建立灰色模型,我們預測出通過對美國政府應該將這461個縣中篩選出的前40名作為重點關注和監(jiān)管的對象并對已分析出存在井噴式增長可能的新型毒品進行有效抑制后美國毒品事件數量會大幅度衰減(如右圖);美國政府對存在種族歧或婚姻狀況不良或受教育程度不夠或家庭人口數過多家庭經濟負擔大或年齡較小的青少年等人群進行重點監(jiān)管后美國毒品事件數量會大幅度衰減。(如左圖)。并且兩個圖具有高度重合性,由此可以看出,通過對如上兩個方面進行有效控制,美國阿片類藥物危機問題將得到有效解決。
參考文獻:
[1]Magdalena Sikora,Urszula Skupio,Kamila Jastrzebska,Jan Rodriguez Parkitna,Ryszard Przewlocki. Antagonism of μ-opioid receptors reduces sensation seeking-like behavior in mice[J]. Behavioural Brain Research,2019,359.
[2]侯臣平,矯媛媛.Matlab在《概率論與數理統計》教學中的應用[J].教育教學論壇,2019(05):156-157.
[3]Thomas Bothner,Alexander Its,Andrei Prokhorov. On the analysis of incomplete spectra in random matrix theory through an extension of the Jimbo–Miwa–Ueno differential[J]. Advances in Mathematics,2019,345.
[4]陳甜甜.基于Matlab的動態(tài)規(guī)劃算法的實現及應用[J].中國校外教育,2019(03):96-97.
[5]https://blog.csdn.net/sunjihoufeng/article/details/80849840 MATLAB與數據預處理
[6]陳明《MATLAB神經網絡原理與實例精講》清華大學出版社. 2013-3 ISBN 978-7-302-30741-9
[7]陳小娥.基于MATLAB的圖像信息隱藏算法研究與實現[J].紹興文理學院學報(自然科學),2018(03):86-92.
[8]湯名權.Matlab軟件在數學建模中的應用分析[J].電子測試,2017(12):49-50.
[9]劉曉燕.美國《國家地理標準》中腦中地圖的標準及解讀[J].中學地理教學參考,2002(Z2):107-109.
[10]Sharma S P, PurkaitB C, Lahirl S C. Qualitative and quantita- tive analysis of seizes street drug samples and identification of source[ J]. Forensic Science Internationa,l 2005, 152.
[11]丁慧劍.數學算法對計算機編程的優(yōu)化作用探討[J].信息技術與信息化,2018(12):208-210.
[12]王軍鷹.數學軟件在數學建模中的運用[J].電子技術與軟件工程,2018(21):57-58.
[13]Ronghui Qi,Chuanshuai Dong,Li-Zhi Zhang. Wave-wise falling film in liquid desiccant dehumidification systems: Model development and time-series parameter analysis[J]. International Journal of Heat and Mass Transfer,2019,132.
[14]成樞,馮子帆,郭祥琳,邱建.不同灰色GM(1,1)模型預測中的效果分析[J].測繪信息,2019,44(01):14-17.
[15]韓小孩,張耀輝,孫福軍,王少華. 基于主成分分析的指標權重確定方法[J]. 四川兵工學報,2012,33(10):124-126.
[16]林海明,杜子芳. 主成分分析綜合評價應該注意的問題[J]. 統計研,2013,30(08):25-31