吳海峰,何 坪△,鄧 宇,潘 倫,周天寒,何麗芳,方明金
(1.重慶醫(yī)藥高等專科學校 401331;2.重慶市衛(wèi)生局 401147)
中醫(yī)藥學是中華民族、中國文化的寶貴遺產,是流傳數千年至今仍在發(fā)揮作用的學科。重慶是傳統(tǒng)的中醫(yī)藥強市,人民群眾對中醫(yī)藥有廣泛的需求。重慶直轄以來,全市經濟社會事業(yè)突飛猛進,但中醫(yī)藥事業(yè)發(fā)展緩慢,中醫(yī)藥人才數量緊缺且質量較低,難以適應本市經濟社會的快速發(fā)展。針對本市中醫(yī)藥衛(wèi)生人才數量緊缺的現狀[1-4],需對其需求進行預測研究。而數據預測領域,預測方法多種多樣,本文采用常用的幾種預測方法,對中醫(yī)類衛(wèi)生人員需求進行預測,以此為中醫(yī)類衛(wèi)生人員需求預測提供方法學參考。
1.1 一般資料 資料來源于2001~2010年重慶市統(tǒng)計年鑒、重慶市衛(wèi)生統(tǒng)計年鑒。
1.2 方法 建立3個預測模型,預測本市中醫(yī)藥專業(yè)技術人才需求,采用相關統(tǒng)計量指標對各模型的預測效果進行評價以尋求最佳預測模型。另外,在建立各預測模型時,還需將研究數據分為2個部分,即內樣本(訓練樣本)數據用于建立模型,而外樣本(預測樣本)數據用于驗證已建立的預測模型的預測效果。取2001~2008年本市衛(wèi)生人員數據為研究內樣本,而2009~2010年本市衛(wèi)生人員數據為研究外樣本。
1.2.1 多元線性回歸預測模型(模型Ⅰ)的建立 多元線性回歸模型分析預測法[5-7],通過對2個或2個以上的自變量(影響因素)與1個因變量(預測變量)的相關分析,建立預測模型進行預測的方法。當自變量與因變量之間存在線性關系時,稱為多元線性回歸模型分析。在建模過程中,由于初選的影響因素眾多(通過查閱統(tǒng)計年鑒,本文初選16個因素),需對其進行篩選,篩選方法為“向前選擇法”,即根據各自變量對因變量的影響顯著性,若符合入選標準(入選標準為0.4),則依次進入模型方程。
1.2.2 主成分回歸預測模型(模型Ⅱ)的建立 主成分回歸模型分析法[8-10],先對各自變量進行主成分分析,避開自變量之間的相關性,進而分析各自變量對因變量的影響。即它先將原來的指標通過主成分分析重新組合成一組新的相互獨立的綜合指標來代替原來的指標,同時根據實際需要從中提取較少的幾個綜合指標來盡可能多地反映原指標的信息;之后將這些綜合指標看作自變量建立回歸方程,實現預測。該方法避開了多元回歸分析中自變量間的多重共線性。本研究選取2個主成分,此時方差累積貢獻率為94.82%,通過2個主成分的線性表達式計算主成分得分,之后將2個主成分看做自變量參與多元回歸模型分析。在2個主成分的多元回歸分析中,仍選擇“向前法”篩選變量,入選標準為0.4。
1.2.3 前饋型(back prpagation,BP)人工神經網絡(artificial neural networks,ANN)預測模型(模型Ⅲ)的建立 ANN近年來在預測領域中一直是研究的熱點,建立模型Ⅲ時,首先應考慮網絡結構,由于具有一個單隱含層的3層前饋型神經網絡能以任意精度逼近任一研究數據,因此,選擇3層前饋型神經網絡結構,即1個輸入層,1個隱含層,1個輸出層;其次應考慮網絡各層節(jié)點數、激勵函數及訓練函數。本文通過實驗法驗證,即先根據經驗確定范圍,然后在此范圍內選擇不同的節(jié)點數目,選擇不同的激勵函數和訓練函數,以最終預測誤差為評選標準,選擇最佳節(jié)點數、激勵函數及訓練函數,最終所選的BP神經網絡結構如表1所示。
1.2.4 效果評價 采用均方根誤差(root mean square error,RMSE)以及平均絕對百分 比誤差(mean absolute percentage error,MAPE)2個指標來考察各模型對研究數據泛化能力。RMSE和MAPE的值越小,說明預測值與實測值之間的差別越小,預測效果就越好。
1.3 統(tǒng)計學處理 采用SAS8.2統(tǒng)計分析軟件及MATLAB數據處理軟件。
模型Ⅲ對重慶市中醫(yī)藥類專業(yè)衛(wèi)生技術人員需求的預測效果比模型Ⅰ、Ⅱ好,見圖1和表2。模型Ⅲ對本市2011~2013年中醫(yī)藥類衛(wèi)生專業(yè)技術人員總數預測結果見表3。
表1 模型Ⅲ網絡最終結構
圖1 3個模型預測2009、2010年中醫(yī)藥類衛(wèi)生專業(yè)技術人員總數預測值與實際值對比圖
表2 3個模型預測2009~2010年中醫(yī)藥類衛(wèi)生專業(yè)技術人員總數預測值與實際值比較
表3 模型Ⅲ對本市2001~2010年中醫(yī)藥類衛(wèi)生專業(yè)技術人員總數預測結果
為了探討尋求最佳模型預測重慶市中醫(yī)藥類衛(wèi)生技術人員總數,分別建立了3個預測模型,即多元線性回歸預測模型、主成分回歸預測模型、BPANN預測模型,各模型的優(yōu)缺點:(1)當研究各影響因素與因變量之間的關系,并通過這些影響因素預測因變量時,多元線性回歸模型是較常采用的研究方法。但多元線性回歸需要因變量數據呈正態(tài)性分布、各影響因素之間相互獨立且與因變量之間呈線性變化趨勢,眾多限制條件不僅限制了多元線性回歸的應用,更影響其預測效果。(2)主成分回歸模型先將原來的影響因素指標通過主成分分析重新組合成一組新的相互獨立的綜合指標來代替原來的指標,同時根據實際需要從中提取較少的幾個綜合指標來盡可能多地反映原指標的信息;之后將這些綜合指標看作自變量進行多元線性回歸,從而建立回歸方程,實現預測,可見該方法既避開了多元回歸分析中自變量間的多重共線性問題,也能在盡量保留原始數據信息前提下,達到減少自變量個數的目的,因而與多元線性回歸相比,具有一定優(yōu)勢。但主成分回歸同樣也要求各主成分指標與因變量之間線性相關要求,且通過綜合原始數據信息而得到的主成分,反而使得其與因變量線性相關性判斷更加困難。(3)不管是多元線性回歸模型,還是主成分回歸模型,在建模預測時,都要求因變量滿足正態(tài)性和自變量相互獨立性,且要求自變量與因變量須呈線性相關關系,而ANN無此限制[11-13]。并且加入隱含層的ANN可以逼近從輸入到輸出間的任意非線性映射,避開類復雜的參數估計過程,直接給出結果,簡單直觀,易于操作,因而更具有優(yōu)勢。但ANN是基于自動學習理論而提出的灰色學習系統(tǒng),它直接給出結果,不能通過具體模型方程確切表達出輸入與輸出之間的映射關系,這與回歸預測模型有所區(qū)別;并且ANN存在不穩(wěn)定性現象[14],即對同一訓練數據重復運行模型程序后得到的結果并不總是一樣,不穩(wěn)定性現象主要是由于初始網絡參數為隨機數,而不同的初始網絡參數又會導致網絡不同的輸出造成的。此外,人工神經網絡理論尚不十分成熟,如隱含層節(jié)點數的選擇目前尚無統(tǒng)一認可的選擇依據或公式,本研究所建立的人工神經網絡在選擇隱含層節(jié)點時,先給出最佳隱含層節(jié)點所在大致區(qū)間,然后分別取該區(qū)間的任一整數為隱含層神經元的個數,分別建立神經網絡模型,通過同一研究數據的計算與分析,以最終的網絡訓練誤差為選擇標準,以決定最優(yōu)隱含層節(jié)點數目。
[1]王淑軍.從“十二五”規(guī)劃看中醫(yī)藥新布局[J].中國中醫(yī)藥導報,2011(3):65-66.
[2]武繼彪,徐傳庚,宋永剛,等.中醫(yī)相關類職業(yè)教育現狀分析與人才需求預測[J].中醫(yī)教育,2010,29(1):80-83.
[3]裘索.中醫(yī)藥人才培養(yǎng)現狀及對策探討[J].中醫(yī)藥學刊,2005,23(3):146-148.
[4]張學清,席晶晶,崔穎.西部四省村衛(wèi)生室基本衛(wèi)生服務能力現況調查[J].中華醫(yī)院管理雜志,2009,25(5):353-355.
[5]楊月,沈進.多元線性回歸模型分析在人才需求預測中的應用[J].商場現代化,2006(32):40-41.
[6]袁海平,趙科,王繼倫.多元線性回歸地應力場反演方法研究[J].有色金屬科學與工程,2011,2(1):61-64.
[7]劇瑁.基于多元線性回歸模型與應用軟件對世博會影響力評估研究[J].自動化與儀器儀表,2011(2):106-107.
[8]龍德江.基于主成分回歸模型分析的城市需水量預測[J].水科學與工程技,2010(1):17-19.
[9]姜信君,佟瑞洲.大氣污染主成分回歸預報模型及試報分析[J].遼寧大學學報:自然科學版,2010,37(2):92-94.
[10]尹元福.影響吉林省農村地區(qū)生活水準因素的主成分回歸模型分析[J].中國農學通報,2011,27(4):418-423.
[11]林和平,朱道敏,劉慶超.二次回歸模型分析人工神經網絡[J].信息技術,2011(9):38-41.
[12]裴志.BP人工神經網絡隱層結構設計的思考[J].科技研究,2011(10):44-45.
[13]周利鋒,高爾生.人工神經網絡的應用[J].現代預防醫(yī)學,1998,25(3):272-274.
[14]Chiang JH.A hybrid neural network in handwriting word recognition[J].Neural Networks,1998,11(3):337-346.