劉拓 侯學(xué)文 李寧 俞鋮航 黃烈雨
衛(wèi)生健康標(biāo)準(zhǔn)是我國標(biāo)準(zhǔn)體系的重要組成部分,其在保障人民生命健康方面發(fā)揮著重要的作用。從形式上來說,我國的衛(wèi)生健康標(biāo)準(zhǔn)是一種半結(jié)構(gòu)式文本。除了技術(shù)內(nèi)容之外,標(biāo)準(zhǔn)中還包含豐富的關(guān)系型的數(shù)據(jù),如起草人、起草單位和規(guī)范性引用文件等。對此類關(guān)系型數(shù)據(jù)的分析,可以從不同維度刻畫標(biāo)準(zhǔn)之間的相互關(guān)系,為完善標(biāo)準(zhǔn)體系提供技術(shù)支撐;如采用社會網(wǎng)絡(luò)分析法可以對標(biāo)準(zhǔn)中規(guī)范性引用文件關(guān)系型數(shù)據(jù)進行描述性分析,歸納處于互引關(guān)系網(wǎng)絡(luò)中的中心位置的標(biāo)準(zhǔn),為修訂完善標(biāo)準(zhǔn)提供參考[1]。然而,既往涉及衛(wèi)生健康標(biāo)準(zhǔn)的研究多集中在對其涉及技術(shù)內(nèi)容的比較和分析,對標(biāo)準(zhǔn)中包含的關(guān)系型數(shù)據(jù)研究較少。參考其他領(lǐng)域的關(guān)系型數(shù)據(jù)分析思路,其在分析之前均需要構(gòu)建分析對象的共現(xiàn)矩陣[2-6],但是專門探討衛(wèi)生健康標(biāo)準(zhǔn)中關(guān)系型數(shù)據(jù)中如何計算的文章極少。本研究借鑒其他領(lǐng)域的關(guān)系型數(shù)據(jù)分析過程中共現(xiàn)矩陣的計算思路,設(shè)計衛(wèi)生健康標(biāo)準(zhǔn)類似共現(xiàn)矩陣的求解路徑及其SAS 實現(xiàn)方法,以期為衛(wèi)生健康標(biāo)準(zhǔn)的分析提供新的技術(shù)工具。
共現(xiàn)矩陣是一種描述不同指標(biāo)共同出現(xiàn)的頻率的二維表格,其行和列標(biāo)題為不同指標(biāo),表中數(shù)據(jù)為該數(shù)據(jù)所在行列指標(biāo)共同出現(xiàn)的頻次。本文以計算一組標(biāo)準(zhǔn)的起草單位共現(xiàn)矩陣為例,標(biāo)準(zhǔn)中其他的關(guān)系型數(shù)據(jù),如起草人、規(guī)范性引用文件也可以參考此方法計算共現(xiàn)矩陣。
假設(shè)“標(biāo)準(zhǔn)-起草單位”二維表格有M 行和N 列,二維表格的第i 行j 列(1 ≤i ≤M,1 ≤j ≤N)數(shù)值為Xi,j,Xi,j取值為0 或1。二維表格中每一行代表一項標(biāo)準(zhǔn),記為Si;每一列代表一個起草單位,記為Aj。如Xi,j=1,則表示第i 標(biāo)準(zhǔn)的起草單位名單中有第j 個起草單位;反之如Xi,j=0,則沒有第 j 個起草單位。第j 個起草單位與第k個起草單位(1 ≤j ≤N,1 ≤k ≤N)的共現(xiàn)頻次Cj,k=SUM(X1,j×X1,k+X2,j×X2,k…+Xi,j×Xi,k…+Xm,j×Xm,k)。以此類推,計算出所有的Cj,k,并整理為起草單位共現(xiàn)矩陣。共現(xiàn)矩陣示例見表1。
表1 共現(xiàn)矩陣示例表
整理后的“標(biāo)準(zhǔn)-起草單位”矩陣導(dǎo)入SAS(版本號:9.4),按照計算思路自行設(shè)計宏程序計算起草單位之間的共現(xiàn)矩陣。
為了方便演示,本文采用自行構(gòu)建的模擬數(shù)據(jù)進行演示。假設(shè)現(xiàn)有4 項標(biāo)準(zhǔn)分別為S1、S2、S3 和S4;共計涉及3 家起草單位,分別為A1、A2 和A3,兩者構(gòu)成一個M 行×N 列的“標(biāo)準(zhǔn)-起草單位”二維表,其中M =4,N =3。表中“0~ 1”數(shù)值表示某個起草單位是否在某項標(biāo)準(zhǔn)的起草單位名單中,如X1,1=1,即S1 標(biāo)準(zhǔn)的起草單位名單中有A1,X1,2=0,即S1 標(biāo)準(zhǔn)的起草單位名單中無A2,見表2。
表2 “標(biāo)準(zhǔn)-起草單位”導(dǎo)入數(shù)據(jù)示例表
將上述數(shù)據(jù)導(dǎo)入到SAS 中,并命名為test_1_0。程序如下。
定義計算起草單位共現(xiàn)矩陣的SAS 宏程序名稱compute,其包含4 個參數(shù),分別為i_start_num、i_end_num、j_start_num 和j_end_num,本文中分別取值為1、3、1 和3,具體宏程序及其注釋如下。
具體的計算結(jié)果見圖1。
圖1 標(biāo)準(zhǔn)中起草單位共現(xiàn)矩陣SAS 計算結(jié)果示意圖
可以進一步用PROC EXPORT 直接導(dǎo)出數(shù)據(jù)集,也可以在SAS 菜單欄中選擇“文件”→“導(dǎo)出數(shù)據(jù)”,按照菜單提示選擇需要導(dǎo)出的數(shù)據(jù)集。經(jīng)整理后,最終的起草單位共現(xiàn)矩陣見表3。
表3 標(biāo)準(zhǔn)中起草單位共現(xiàn)矩陣示意表
在測試SAS 宏程序的時候,可以增加部分選項用于程序的調(diào)試,如可以增加“option mlogic;”,SAS 會提供每一步宏程序運行的結(jié)果,方便發(fā)現(xiàn)宏程序哪些地方存在問題,以便于及時修改。在SAS 宏程序調(diào)試完成后,可以選擇運行“option nomlogic;”語句關(guān)閉該項功能,以提升SAS 宏程序運行速度。此外,還可以運行“option nonotes;”語句,關(guān)閉SAS 宏程序在運行過程中輸出日志,以進一步提升SAS 宏程序的運行速度。
作為一種在衛(wèi)生健康領(lǐng)域應(yīng)用廣泛的權(quán)威統(tǒng)計分析軟件,SAS 宏程序靈活高,在處理批量化的數(shù)據(jù)整理和分析過程中優(yōu)勢明顯,可以實現(xiàn)DATA 步和PROC 步的任意組合[7-8]。對于共現(xiàn)矩陣的計算來說,計算量隨著指標(biāo)數(shù)量增加而快速增加,如對于一組衛(wèi)生健康標(biāo)準(zhǔn)有n 個起草單位,則起草單位共現(xiàn)矩陣具有n2個數(shù)據(jù)需要計算。對于較大規(guī)模數(shù)據(jù)的計算,SAS 宏程序具有一定的優(yōu)勢,如不依賴內(nèi)存、運行效率高等;而R 語言在處理數(shù)據(jù)時是先把數(shù)據(jù)讀取到內(nèi)存,當(dāng)數(shù)據(jù)大小接近或超過內(nèi)存大小時,會導(dǎo)致計算機死機或程序閃退。
共現(xiàn)矩陣基于一個簡單假設(shè),即如果兩個對象經(jīng)常同時出現(xiàn),那么它們之間可能存在某種關(guān)聯(lián)性[9]。如果將這種關(guān)聯(lián)進行整理,就可以得到共現(xiàn)矩陣。其優(yōu)點是不要求必須事先對這種關(guān)聯(lián)性進行假設(shè)或理論建模,因此可以在沒有明確研究問題的情況下進行探索性數(shù)據(jù)分析,進而發(fā)現(xiàn)新的規(guī)律和關(guān)系;但是另一方面,由于共現(xiàn)矩陣反映的只是2 組對象之間的關(guān)聯(lián)性,如果沒有事先的研究假設(shè)、邏輯推導(dǎo)以及共現(xiàn)矩陣分析之后的補充分析,得到的關(guān)系并不足支持因果判斷,提示筆者需要根據(jù)具體問題和數(shù)據(jù)特點選用合適的分析方法,結(jié)合共現(xiàn)矩陣分析結(jié)果,獲得綜合全面的研究結(jié)論。共現(xiàn)矩陣常用的于社會網(wǎng)絡(luò)分析(共同關(guān)系等)、自然語言處理(語義相似等)、生物信息學(xué)(相互作用等)等領(lǐng)域的研究中。
社會網(wǎng)絡(luò)分析(social network analysis,SNA)是一種針對不同事物之間關(guān)聯(lián)型數(shù)據(jù)的專用方法,其既可以用中心度、相對中心度和中間中心度等統(tǒng)計指標(biāo),描述分析不同事務(wù)之間的互動關(guān)系;也可以發(fā)現(xiàn)社會網(wǎng)絡(luò)中聯(lián)系相對頻繁、密切、存在較多互動的個體之間構(gòu)成的凝聚子群[10-12]。該方法廣泛應(yīng)用于信息情報、醫(yī)療衛(wèi)生、產(chǎn)業(yè)發(fā)展和社會經(jīng)濟等領(lǐng)域的研究,而現(xiàn)行主流的SNA 軟件,多以共現(xiàn)矩陣為輸入數(shù)據(jù)開展各項分析[5,13-15]。既往研究中,已經(jīng)有學(xué)者探索將SNA 方法引入標(biāo)準(zhǔn)相關(guān)的分析中,如馮婉怡等[16]基于SNA 視角分析87 項旅游標(biāo)準(zhǔn)及260 項引用標(biāo)準(zhǔn)的互動關(guān)系,發(fā)現(xiàn)旅游標(biāo)準(zhǔn)引用范圍廣泛,但尚未形成次級標(biāo)準(zhǔn)引用網(wǎng)絡(luò);劉拓等[1]探索269 項國家職業(yè)衛(wèi)生標(biāo)準(zhǔn)及其涉及的361 項規(guī)范性引用文件之間的互動關(guān)系,提煉國家職業(yè)衛(wèi)生標(biāo)準(zhǔn)體系中的中心度較高的標(biāo)準(zhǔn)。魯洋等[17]對我國115 項職業(yè)病診斷標(biāo)準(zhǔn)及其146 項規(guī)范性引用文件進行分析,量化評估職業(yè)病診斷標(biāo)準(zhǔn)之間的關(guān)聯(lián)程度;并歸納其關(guān)鍵節(jié)點標(biāo)準(zhǔn),為職業(yè)病診斷標(biāo)準(zhǔn)的實施追蹤提供技術(shù)線索。除了通過規(guī)范性引用文件構(gòu)建的標(biāo)準(zhǔn)互引網(wǎng)絡(luò)之外,SNA 法還可以利用標(biāo)準(zhǔn)起草單位共現(xiàn)矩陣分析標(biāo)準(zhǔn)起草單位之間互動關(guān)系,如劉思薇等[18]利用標(biāo)準(zhǔn)起草單位共現(xiàn)矩陣,對人工智能產(chǎn)業(yè)技術(shù)標(biāo)準(zhǔn)合作網(wǎng)絡(luò)特征及演化規(guī)律和趨勢進行探討,歸納該網(wǎng)絡(luò)中的核心主體、合作深度和多元化趨勢。因此,建議共現(xiàn)矩陣后續(xù)可用于SNA,探索諸如起草單位、規(guī)范性引用文件等事物之間的互聯(lián)互動關(guān)系,為完善標(biāo)準(zhǔn)體系及衛(wèi)生健康標(biāo)準(zhǔn)化工作提供針對性的建議。
除了SNA,共現(xiàn)矩陣還可以作為關(guān)聯(lián)型數(shù)據(jù)在時間、地域或性質(zhì)上分布和演進規(guī)律的數(shù)據(jù)基礎(chǔ),如張正峰等[10]分析京津冀地區(qū)碳排放空間關(guān)聯(lián),李永立等[19]利用SNA 對研究對象的多屬性關(guān)聯(lián)規(guī)則進行挖掘,賀鈺等[20]分析主產(chǎn)區(qū)柑橘價格的空間關(guān)聯(lián)。具體到衛(wèi)生健康標(biāo)準(zhǔn)領(lǐng)域,其中的關(guān)系型數(shù)據(jù)共現(xiàn)矩陣從如下角度繼續(xù)深入分析:從時間規(guī)律上,可以分析不同時間,不同標(biāo)準(zhǔn)或不同起草單位之間的互動關(guān)系,歸納其演進規(guī)律和未來發(fā)展趨勢;從空間維度,可以分析來自不同地域起草單位之間的互動聯(lián)系,探索與我國社會經(jīng)濟發(fā)展之間的關(guān)聯(lián)性;從性質(zhì)維度,可以分析不同性質(zhì)的標(biāo)準(zhǔn),如強制性標(biāo)準(zhǔn)和推薦性標(biāo)準(zhǔn),國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)和團體標(biāo)準(zhǔn)之間的互動聯(lián)系,研究之間的信息傳遞與互動聯(lián)系,為發(fā)現(xiàn)核心標(biāo)準(zhǔn)、完善標(biāo)準(zhǔn)體系提供參考。
綜上所述,SAS 宏程序計算標(biāo)準(zhǔn)中關(guān)系型數(shù)據(jù)共現(xiàn)矩陣具有靈活高效的優(yōu)勢,可用于社會網(wǎng)絡(luò)分析和互動演進規(guī)律總結(jié)。