劉江濤,趙 潔,吳發(fā)富
1.中國(guó)地質(zhì)調(diào)查局武漢地質(zhì)調(diào)查中心, 湖北 武漢 430205;
2.中國(guó)地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083
隨著計(jì)算機(jī)科學(xué)和工程技術(shù)的發(fā)展,特別是近年來(lái),由于具有友好用戶界面的結(jié)構(gòu)方程模型軟件大量出現(xiàn) (常用的分析軟件如LISREL、AMOS、EQS等),使得結(jié)構(gòu)方程模型(Structural Equation Modeling, 以下簡(jiǎn)稱SEM)的應(yīng)用得到了極大的擴(kuò)展。SEM在多個(gè)研究領(lǐng)域都得到了廣泛應(yīng)用,特別是在教育學(xué)、心理學(xué)、社會(huì)學(xué)、流行病學(xué)等領(lǐng)域 (Muthén, 1984; Browne and Arminger, 1995; Yuan and Bentler, 1997, 2000; Sánchez et al., 2005; ?akit et al., 2020; Osman et al., 2020; Wang and Rhemtulla, 2021)。近些年,又逐步擴(kuò)展到森林環(huán)境生態(tài)學(xué) (Jaafari et al., 2020)以及新冠病毒疫情的研究 (Xiao et al., 2020;Barillari et al., 2021; Plohl and Musil, 2021)。結(jié)構(gòu)方程模型理論還通過均值、協(xié)方差分析以及潛變量模型等術(shù)語(yǔ)出現(xiàn)在主流統(tǒng)計(jì)期刊上 (J?reskog, 1970; Sammel and Ryan, 1996; Bandeen-Roche et al., 1997; Yuan and Bentler, 1997; Lee and Shi, 2001; McArdle and Kadlec, 2013)。
結(jié)構(gòu)方程模型允許研究人員在模型中使用由觀察變量間接表達(dá)的不可觀察變量(潛變量,Latent Variable, 簡(jiǎn)稱LV;Hair et al., 2016)。它也可以方便地解釋觀測(cè)變量中的測(cè)量誤差(Chin, 1998)。SEM主要應(yīng)用方式為驗(yàn)證性因子分析,這些應(yīng)用需要清晰的初始模型以及針對(duì)模型精心設(shè)計(jì)的調(diào)查統(tǒng)計(jì)數(shù)據(jù)。模型假設(shè)必須清楚地概述,這構(gòu)成了計(jì)算和估計(jì)的基礎(chǔ)。結(jié)構(gòu)方程模型在以上研究中被廣泛接受一般認(rèn)為是由于以下三個(gè)原因(McArdle and Kadlec, 2013):①SEM可以檢查真實(shí)數(shù)據(jù)中的先驗(yàn)思想,如果提出了一些想法,這些想法超出了方差分析 (Analysis of Variance,簡(jiǎn)稱 ANOVA)和所謂的通用線性模型(Generalized Linear Models,簡(jiǎn)稱GLMs)框架的范圍,并且需要進(jìn)行驗(yàn)證,則SEM可以通過統(tǒng)計(jì)指標(biāo)和總體方法擬合優(yōu)度指標(biāo)進(jìn)行驗(yàn)證;②SEM可以直接估算潛變量(LV)的得分,盡管潛變量無(wú)法直接觀察或測(cè)量,但在模型中包含潛變量可以提高模型的清晰度;③SEM可以幫助為數(shù)據(jù)集選擇真實(shí)、正確或至少適當(dāng)?shù)哪P?適當(dāng)?shù)哪P突诓皇軜颖净驊?yīng)用場(chǎng)景差異影響的固定參數(shù),在線性回歸中,解釋數(shù)據(jù)中最大方差的模型并非總是可取的;相反,對(duì)于數(shù)據(jù)分析而言,更需要能夠在不同的應(yīng)用中復(fù)用的模型,SEM具有從數(shù)據(jù)集中找到這樣的模型的能力。
檢測(cè)技術(shù)和地理信息系統(tǒng)(GIS)近些年得到了飛躍式發(fā)展,地理數(shù)據(jù)的收集和處理變得越來(lái)越方便 (Hart and Martinez, 2006; Ali et al., 2007; Atekwana and Slater, 2009; Jensen, 2009; Del Campo, 2016; 劉江濤等, 2017; 陳國(guó)旭等, 2019; 楊峰等, 2019;劉剛等, 2020;孫東生等, 2020;吳沖龍等, 2020; 趙風(fēng)順等, 2021;辛磊等, 2021; 張迪等, 2021)。近年來(lái),來(lái)自多源的地理數(shù)據(jù)(例如實(shí)時(shí)洪水?dāng)?shù)據(jù)、地表水和地下水?dāng)?shù)據(jù)以及與自然災(zāi)害有關(guān)的信息等)的數(shù)量迅速增加?,F(xiàn)代網(wǎng)絡(luò)及大數(shù)據(jù)存儲(chǔ)技術(shù)使得地質(zhì)和地理空間數(shù)據(jù)的利用日益全球化,實(shí)時(shí)便捷地訪問各類地學(xué)數(shù)據(jù)成為可能。此外,全球能源和礦物危機(jī),氣候異常和自然災(zāi)害等又迫使科學(xué)家從海量數(shù)據(jù)庫(kù)中能夠?qū)崟r(shí)篩選、提取出及時(shí)有效的信息。毫無(wú)疑問,提取和融合信息并用于解決地球科學(xué)中的各種問題是一個(gè)巨大的挑戰(zhàn),這可以結(jié)合使用計(jì)算機(jī)硬件 (例如云技術(shù))、地理信息軟件 (例如ArcGIS)和統(tǒng)計(jì)方法來(lái)實(shí)現(xiàn)??紤]到從海量數(shù)據(jù)庫(kù)中提取有用信息的重要性,美國(guó)地質(zhì)調(diào)查局在《美國(guó)地質(zhì)調(diào)查局能源和礦產(chǎn)資源科學(xué)戰(zhàn)略(2013—2023年) 》 (Ferrero et al., 2013) 中將地理數(shù)據(jù)處理技術(shù)列為解決全球挑戰(zhàn)的未來(lái)方向之一。
數(shù)十年來(lái),數(shù)學(xué)方法在地理數(shù)據(jù)處理中扮演者著舉足輕重的作用。定量地質(zhì)學(xué)中的大多數(shù)技術(shù)都涉及統(tǒng)計(jì)方法。采礦業(yè)對(duì)區(qū)域內(nèi)平均或塊狀儲(chǔ)量的興趣極大地促進(jìn)了20世紀(jì)50年代地質(zhì)統(tǒng)計(jì)學(xué)的發(fā)展,其目的是對(duì)空間和(或)時(shí)間分布的自然變量進(jìn)行定量描述。個(gè)人計(jì)算機(jī)的發(fā)展和擴(kuò)散,統(tǒng)計(jì)軟件和可共享地學(xué)數(shù)據(jù)在互聯(lián)網(wǎng)上的廣泛分發(fā)也極大地推動(dòng)了地質(zhì)統(tǒng)計(jì)學(xué)的進(jìn)展。一些數(shù)學(xué)技術(shù)已成為某些地理數(shù)據(jù)處理中的標(biāo)準(zhǔn)實(shí)踐。例如,使用主成分分析 (Principal Component Analysis,簡(jiǎn)稱PCA)方法提取地球化學(xué)因子(Wang and Cheng, 2008;Cheng et al., 2011),證據(jù)權(quán)重 (Weight of Evidence, 簡(jiǎn)稱WofE) 方法用于礦物勘探 (Bonham-Carter et al., 1988, 1989; Agterberg, 1989; Agterberg and Bonham-Carter, 1990; Bandeen-Roche et al., 1997; Bonham-Carter, 2014),以及濃度域頻譜地域(CA或SA)方法已廣泛應(yīng)用于地質(zhì)異常的檢測(cè)(Cheng, 1994, 1999, 2007a, 2007b, 2008, 2012a, 2012b, 2014)。
SEM是基于變量的協(xié)方差矩陣來(lái)分析變量之間關(guān)系的一種統(tǒng)計(jì)方法,是一般線性模型的拓展,包括因子模型與結(jié)構(gòu)模型,體現(xiàn)了傳統(tǒng)路徑分析與因子分析的完美結(jié)合。結(jié)構(gòu)方程模型并非單指某一種特定的統(tǒng)計(jì)方法,而是包含驗(yàn)證性因子分析、驗(yàn)證性綜合分析、路徑分析、偏最小二乘路徑建模和潛伏增長(zhǎng)建模等一系列用以分析共變結(jié)構(gòu)技術(shù)的總稱,被認(rèn)為是第二代統(tǒng)計(jì)技術(shù)(表1;Fornell and Wernerfelt, 1987; Lohm?ller, 2013; Hair et al., 2016)。SEM一般使用最大似然法估計(jì)模型(Maxi-Likelihood,簡(jiǎn)稱ML) 分析結(jié)構(gòu)方程的路徑系數(shù)等估計(jì)值,因?yàn)镸L法使得研究者能夠基于數(shù)據(jù)分析的結(jié)果對(duì)模型進(jìn)行修正。SEM將因素分析和路徑分析有機(jī)結(jié)合,相較于傳統(tǒng)的回歸分析方法,它具有能處理多個(gè)因變量、考慮測(cè)量誤差影響等優(yōu)勢(shì),更適合用于解決實(shí)際模型中的統(tǒng)計(jì)數(shù)據(jù)誤差問題。結(jié)構(gòu)方程模型由兩部分組成,即測(cè)量模型(Measurement Model)和結(jié)構(gòu)模型(Structural Model)。其變量類型有觀測(cè)變量和潛變量。觀測(cè)變量是指可以直接測(cè)量的變量,如閱讀理解分?jǐn)?shù)、造句得分、詞義理解得分等。潛變量是指無(wú)法準(zhǔn)確、直接地測(cè)量的變量,例如學(xué)生的語(yǔ)言能力。
表1 多元統(tǒng)計(jì)方法的分類 (Hair et al., 2016)Table 1 Classification of multivariate statistical methods (Hair et al., 2016)
地學(xué)數(shù)據(jù)處理中的多種多元統(tǒng)計(jì)分析方法,如因子分析、PCA、多元線性回歸、路徑分析、潛變量分析都可以看作SEM的一種特例,SEM可以看做是這些多元統(tǒng)計(jì)模型的組合。例如,在SEM中,測(cè)量模型類似于因子分析,結(jié)構(gòu)模型可以視為類似于多線性回歸。實(shí)際上,SEM在許多學(xué)科中得到了廣泛研究與應(yīng)用,自2000年以來(lái),已經(jīng)發(fā)表了數(shù)百篇有關(guān)SEM的論文。統(tǒng)計(jì)數(shù)據(jù)表明,盡管它已被深入應(yīng)用于社會(huì)科學(xué)、藝術(shù)和人文科學(xué)領(lǐng)域;但在地球科學(xué)領(lǐng)域,與SEM相關(guān)的論文卻相對(duì)較少(圖1;McArdle and Kadlec,2013)。結(jié)構(gòu)方程模型在地學(xué)數(shù)據(jù)建模中主要面臨以下三個(gè)方面的挑戰(zhàn),一是從主要面向驗(yàn)證性建模分析的方式向探索性建模分析的方式轉(zhuǎn)變;二是從有完整地學(xué)模型約束的建模型方式向弱模型/無(wú)模型約束的地學(xué)數(shù)據(jù)建模方式轉(zhuǎn)變;三是從無(wú)空間屬性的統(tǒng)計(jì)變量建模向空間統(tǒng)計(jì)變量建模的轉(zhuǎn)變。這對(duì)模型本身和數(shù)據(jù)建模的方法都提出了新的要求。
圖1 2000—2018年結(jié)構(gòu)方程模型有關(guān)論文在期刊上的發(fā)表數(shù)量(2000—2009數(shù)據(jù)來(lái)自McArdle and Kadlec,2013;2009年后數(shù)據(jù)來(lái)自谷歌學(xué)術(shù)搜索統(tǒng)計(jì))Fig.1 Number of papers about structural equation models published in journals (2000-2018). (Data of 2000-2009 comes from McArdle and Kadlec,2013, data after 2009 comes from Google Scholar)
結(jié)構(gòu)方程模型被認(rèn)為是路徑分析的一種擴(kuò)展(Hair et al., 2016, 2019),如圖2所示,一個(gè)簡(jiǎn)單的結(jié)構(gòu)方程模型包含m+1個(gè)測(cè)量模型(從觀察變量x1—xp中提取ξ1—ξm以及從y1中提取η的因子分析過程)和1個(gè)結(jié)構(gòu)模型(從ξ1—ξm到η的路徑/回歸分析過程),其測(cè)量模型得到的潛變量ξ1—ξm與η同時(shí)作為結(jié)構(gòu)模型的輸入變量。
在實(shí)際研究中,并非所有的概念都是可以被直接觀察和測(cè)量的。比如在調(diào)研買家的體驗(yàn)時(shí),這里的買家體驗(yàn)其實(shí)就是一個(gè)抽象的概念,是買家對(duì)平臺(tái)所有可觀測(cè)量化指標(biāo)的綜合反映,這些指標(biāo)可能會(huì)包括買家通過平臺(tái)獲得的詢盤量、訂單量、主要權(quán)益的滿意度、接收到的服務(wù)速度和質(zhì)量等等。在SEM中,如用戶體驗(yàn)這些抽象且無(wú)法直接測(cè)量的概念,被稱作潛變量 (Latent Variable),而那些能被直接觀測(cè)的變量,如詢盤量,則稱為觀察變量(Observed Variable)或外顯變量 (Manifest Variable)。
測(cè)量模型表達(dá)的是觀察變量和潛變量之間的關(guān)系,一個(gè)包含有q個(gè)外源觀察變量x1—xq和p個(gè)內(nèi)源觀察變量y1—yp的測(cè)量模型,其外源觀察變量建模誤差為δ1—δq,內(nèi)源觀察變量建模誤差為ε1—εp,且其外源潛變量ξ有m個(gè),內(nèi)源潛變量η有n個(gè),則數(shù)學(xué)表達(dá)如下:
公式(1)和(2)中,X和Y分別表示外源觀察變量向量和內(nèi)源觀察變量向量;Ξ和H分別是外源潛變量向量和內(nèi)源潛變量向量;Λ和M為因子載荷矩陣,其分別表示觀測(cè)變量x1—xq、y1—yp和潛變量ξ1—ξm及η1—ηm之間的關(guān)系。Δ與Ε分別為外源與內(nèi)源觀察變量建模誤差向量:
更多參數(shù)說(shuō)明見表2。
表2 文中數(shù)學(xué)符號(hào)說(shuō)明Table 2 Definition of notations in the paper
通常,有兩種不同的方法來(lái)測(cè)量潛變量:形成性測(cè)量或反映性測(cè)量。形成性測(cè)量模型在社會(huì)科學(xué)領(lǐng)域也很常見。例如,工作滿意度和社會(huì)支持水平的概念。通常一個(gè)組織成員的工作滿意度取決于他對(duì)薪水、工作環(huán)境、同事、上司、升職空間和個(gè)人發(fā)展等多方面的滿意度,此時(shí)這些單個(gè)領(lǐng)域的滿意度作為工作滿意度的形成性指標(biāo)而共同決定其整體滿意度水平。社會(huì)支持水平是另外一個(gè)常見的形成性測(cè)量模型的例子。研究者將個(gè)體社會(huì)支持水平劃分為不同的來(lái)源,如同事/同學(xué)、親戚、朋友、鄰居、社區(qū)、政府和教會(huì)等,這些不同來(lái)源的支持水平?jīng)Q定了個(gè)體的社會(huì)支持總水平,而不是個(gè)體的社會(huì)支持總水平?jīng)Q定不同來(lái)源的支持水平。類似的概念還有社會(huì)經(jīng)濟(jì)地位等。
在反映性測(cè)量模型中,箭頭的方向從構(gòu)造的變量到指標(biāo)變量(潛變量指向觀察變量),這表明假定的構(gòu)造變量導(dǎo)致了指標(biāo)變量的差異(協(xié)方差)。如圖2所示,變量ξ1—ξm使用了形成性測(cè)量模型。方向箭頭從指標(biāo)變量x1—xp指向構(gòu)造的變量,這指示該方向上的因果關(guān)系(預(yù)測(cè)性)。心理學(xué)領(lǐng)域的測(cè)驗(yàn)使用反映性測(cè)量模型多數(shù)情況是合適的,然而Bollen et al. (1991)指出,項(xiàng)目選擇和量表評(píng)價(jià)必須考慮指標(biāo)和潛變量間的方向性,應(yīng)該采用形成性測(cè)量模型;而使用反映性測(cè)量模型將會(huì)嚴(yán)重影響量表的結(jié)構(gòu)效度和潛在構(gòu)念的屬性。
與檢驗(yàn)觀測(cè)變量和潛變量之間關(guān)系的測(cè)量模型不同,結(jié)構(gòu)模型主要用于檢驗(yàn)潛變量間的關(guān)系。如果單獨(dú)看待結(jié)構(gòu)模型,就是傳統(tǒng)的路徑分析(Path Analysis),旨在解釋變量間的因果或預(yù)測(cè)關(guān)系。結(jié)構(gòu)模型的含義可以通過不同的方式定義。Hair et al.(2016)將結(jié)構(gòu)模型定義為幾個(gè)線性模型,這些模型顯示了潛在變量如何相互關(guān)聯(lián)。結(jié)構(gòu)模型建??梢愿鶕?jù)理論或研究人員的經(jīng)驗(yàn)和知識(shí)來(lái)構(gòu)造不同子模型的位置和順序。路徑模型左側(cè)和右側(cè)的變量分別是自變量和因變量。就像線性回歸一樣,左側(cè)的變量顯示為順序在前面并預(yù)測(cè)右側(cè)的變量。但是,與單個(gè)線性回歸模型不同,變量還可以同時(shí)用作自變量和因變量。當(dāng)潛變量?jī)H用作自變量時(shí),它們稱為外源性潛變量ξ1—ξm。當(dāng)潛變量?jī)H用作因變量或既是自變量又是因變量時(shí)(圖2中的η1),它們被稱為內(nèi)源性潛變量。任何僅帶有單頭箭頭的潛變量都是外源性的潛變量。相反,內(nèi)源性潛變量可以具有單向箭頭進(jìn)入和退出 (η1)。
圖2中結(jié)構(gòu)模型的數(shù)學(xué)定義如下:
Γ和B分別為結(jié)構(gòu)模型中與外源潛變量向量Ξ和內(nèi)源潛變量向量H相關(guān)的系數(shù)矩陣;符號(hào)Z代表結(jié)構(gòu)模型中的建模誤差向量;更多參數(shù)說(shuō)明參見表2。
如今在社會(huì)學(xué)、心理學(xué)以及其他社會(huì)科學(xué)所使用的結(jié)構(gòu)方程模型概念起源于Sewall Wright遺傳路徑建模 (Wright, 1918, 1920, 1921a, 1921b),并在20世紀(jì)60—70年代隨著計(jì)算機(jī)算法的發(fā)展得到了不斷地實(shí)現(xiàn)。這種發(fā)展大部分發(fā)生在計(jì)算機(jī)技術(shù)獲得突破的時(shí)候,計(jì)算機(jī)硬件的發(fā)展為結(jié)構(gòu)方程模型的發(fā)展提供了契機(jī)。
LISREL(Linear Structural Relations)和偏最小二乘路徑分析PLS-PA (Partial Least Square-Path Analysis)軟件都被視為迭代計(jì)算機(jī)算法,從一開始就著重于創(chuàng)建交互式圖形和數(shù)據(jù)輸入界面,其本質(zhì)是Wright的路徑分析算法的擴(kuò)展 (Wright, 1921a, 1921b)。早期的考爾斯委員會(huì)致力于Koopman and Hood(1953)算法中聯(lián)立方程求解的工作,但由于迭代求解技術(shù)在計(jì)算機(jī)出現(xiàn)之前不具備技術(shù)實(shí)現(xiàn)的可能性,因此考爾斯委員會(huì)主要專注于最大似然估計(jì)和閉式代數(shù)計(jì)算算法(Christ, 1994)。Anderson and Rubin(1949, 1950) 針對(duì)單個(gè)結(jié)構(gòu)方程的參數(shù)開發(fā)了有限信息最大似然估計(jì)器,間接包括了兩階段最小二乘估計(jì)器及其漸近分布(Farebrother, 1999; Anderson, 2005)。其中,兩步式最小二乘估計(jì)器最早由Theil(1953)獨(dú)立于Basmann (1957)和Sargan(1958)提出。為與其他SEM迭代算法競(jìng)爭(zhēng),Anderson有限信息最大似然估計(jì)算法通過計(jì)算機(jī)得到了實(shí)現(xiàn)。其中用到的兩階段最小二乘法是迄今為止使用最廣泛的結(jié)構(gòu)方程算法。
計(jì)算機(jī)的進(jìn)步使新手可以輕松地將結(jié)構(gòu)方程方法應(yīng)用到復(fù)雜、非結(jié)構(gòu)化問題的大型數(shù)據(jù)集的分析中。主要包含三類算法:
①獨(dú)立應(yīng)用于每個(gè)路徑的普通最小二乘算法,例如使用OLS(Ordinary least squares,普通最小二乘)進(jìn)行估計(jì)的PLS路徑分析包中應(yīng)用的算法;
②由Hermann Wold和他的學(xué)生Karl Gustav J?reskog的開創(chuàng)性工作演變而來(lái)的協(xié)方差分析算法,該算法在LISREL、AMOS和EQS中實(shí)現(xiàn);
③由Koopmans在考爾斯委員會(huì)開發(fā)的聯(lián)立方程回歸算法。
隨后,Pearl (2009)將SEM從線性模型擴(kuò)展到非參數(shù)模型,并提出了方程的因果關(guān)系和反事實(shí)解釋。Bollen et al.(2013)研究了SEM的因果解釋的歷史,以及為什么它成為引起混淆和爭(zhēng)議的根源,至此,結(jié)構(gòu)方程模型理論和算法的框架基本確定。
結(jié)構(gòu)方程型在地學(xué)數(shù)據(jù)應(yīng)用中的挑戰(zhàn)主要來(lái)自以下兩個(gè)方面:一是傳統(tǒng)結(jié)構(gòu)方程的研究和應(yīng)用主要是利用數(shù)據(jù)建立模型并對(duì)假設(shè)概念進(jìn)行檢驗(yàn),而地學(xué)數(shù)據(jù)中以探索性分析為主,從豐富海量的地學(xué)數(shù)據(jù)中挖掘出有效的信息和概念,即需要從概念—數(shù)據(jù)—校正/驗(yàn)證概念轉(zhuǎn)變?yōu)閿?shù)據(jù)—建?!拍畹哪J睫D(zhuǎn)變,這使得地學(xué)數(shù)據(jù)處理中建模成為了第一個(gè)需要解決的問題;二是現(xiàn)有的結(jié)構(gòu)方程模型軟件其算法和參數(shù)求解主要是面向驗(yàn)證性分析,其在探索性結(jié)構(gòu)方程模型分析中的應(yīng)用有限,如何估計(jì)模型參數(shù)也是結(jié)構(gòu)方程模型在地學(xué)數(shù)據(jù)處理中的挑戰(zhàn)之一。文中介紹的三個(gè)案例分別從地學(xué)數(shù)據(jù)建模、模型參數(shù)求解、地學(xué)數(shù)據(jù)的非空間化三個(gè)方面剖析了結(jié)構(gòu)方程模型在地學(xué)數(shù)據(jù)處理中的探索。
在礦產(chǎn)勘察與資源定量評(píng)價(jià)中,地球化學(xué)數(shù)據(jù)通常被用來(lái)識(shí)別控礦因子,圈定找礦遠(yuǎn)景區(qū),以及作為找礦證據(jù)。通常方法是利用地球化學(xué)數(shù)據(jù)進(jìn)行主成分分析,找到和目標(biāo)礦種相關(guān)的地球化學(xué)因子作為礦化內(nèi)生因子。由于其算法簡(jiǎn)潔且不依賴于先驗(yàn)假設(shè),主成分析方法得到了普遍應(yīng)用,但其不足是主成分中提取出來(lái)的主要信息和礦化信息往往并不一致,因?yàn)榈V化信息在地質(zhì)數(shù)據(jù)中往往表現(xiàn)為一種弱緩異常。如何提取地球化學(xué)信息中代表弱緩異常的因子,是此次結(jié)構(gòu)方程建模的主要目的。
此次模型可以理解為一種有結(jié)構(gòu)模型回歸約束的地球化學(xué)因子提取。與主成分所不同的是,結(jié)構(gòu)模型綜合了經(jīng)典統(tǒng)計(jì)方法中的因子分析和路徑分析方法,以與研究對(duì)象具有較好的擬合度為標(biāo)準(zhǔn)來(lái)確定最優(yōu)解,并通過模型最優(yōu)解來(lái)確定新的成分組合,因此結(jié)構(gòu)模型所確定的成分變量不一定是具有最大變化性,而是與研究對(duì)象最接近的因子變量,該因子能夠更好地反映研究對(duì)象。
該研究利用加拿大Nova Scotia省西南部湖泊沉積物地球化學(xué)數(shù)據(jù)(測(cè)量了16種元素),通過主成分分析與聚類分析初步確定地球化學(xué)數(shù)據(jù)中可能存在三個(gè)與金礦成礦密切相關(guān)的外源潛變量LV1—LV3,從而在結(jié)構(gòu)方程模型中構(gòu)建了三個(gè)潛變量用來(lái)代表地球化學(xué)控礦因子。由于該地區(qū)的金元素測(cè)量精度有限,內(nèi)源觀察變量選定為與Au分布關(guān)系密切的As,并用潛變量LV4代表砷元素中與金成礦相關(guān)的內(nèi)源潛變量。除砷元素外剩余的15個(gè)元素用作外源觀察變量,并選擇在主成分分析中貢獻(xiàn)最大的元素分別作為三個(gè)潛變量識(shí)別元素(LV1:Rb;LV2:Cu;LV3:Au、W),其他元素作為三個(gè)潛變量的共有觀察變量。從而建立了與熱液型金礦有關(guān)的地球化學(xué)元素結(jié)構(gòu)方程模型,進(jìn)而研究了結(jié)構(gòu)方程模型所給出的組合變量空間分布規(guī)律以及與金礦床的關(guān)系,具體模型結(jié)構(gòu)見圖3。
圖3 基于砷元素約束的地球化學(xué)內(nèi)生因子識(shí)別模型Fig.3 Geochemical endogenous factor identification model based on arsenic constraints.The input external observation variables are Rb, F, Li, Nb, Sn, Zr, Ti, Cu, Pb, Zn, Th, Ag, Sb, Au, W. The latent exogenous variables are LV1-LV3. Rb, Cu, (Au, W) are the unique identification elements of the latent variables LV1, LV2 and LV3 respectively, and the other elements are the common input elements of the three latent variables. LV4 is a latent endogenous variable, and its exogenous observed variable is As. The latent variables LV1, LV2 and LV3 respectively represent the ore-forming transport channel, the stratum where the related elements of oreforming occur, and the magmatism related to ore-forming.
該模型以該地區(qū)金礦成礦具有密切聯(lián)系的砷元素作為路徑分析的因變量,以從其他15個(gè)地球化學(xué)元素中提取的控礦因子為潛變量,以潛變量與因變量之間的回歸擬合度為約束,通過不斷調(diào)整潛變量的組成(因子旋轉(zhuǎn)),從而得到模型參數(shù)的最優(yōu)解。
這種同時(shí)代表與內(nèi)源潛變量具有最大相關(guān)性、彼此之間具有最大差異性的因子在向量空間的分布表示為圖4,可以描述為以下兩個(gè)特點(diǎn):①提取的因子之間彼此之間盡量獨(dú)立,即LV1—LV3之間盡量正交;②提取的因子和約束變量具有最好的相關(guān)性,即LV1—LV3與As的夾角盡量小。
圖4 基于砷元素的三個(gè)潛變量結(jié)構(gòu)方程模型的潛變量向量空間Fig.4 The latent variable vector space of SEM with three latent variables based on As. LV1-LV3 represent the exogenous latent variables that need to be estimated. Since LV4 has only one endogenous observation variable-As, As is used directly as the constraint variable in the path analysis. The ideal relationships among LV1-LV3 and As in the vector space are: LV1-LV3 are orthogonal to each other, and the angles between LV1-LV3 and As are as small as possible
潛變量LV1—LV3與As在向量空間的這種描述可以表達(dá)為估計(jì)公式(7)的極大值F:
其中,y為約束變量As;η為提取的潛變量LV1—LV3;d(y,ηi)為約束變量與潛變量之間的歐氏距離;d(ηj,ηi)為不同潛變量之間的歐氏距離。
應(yīng)用結(jié)果顯示,提取出來(lái)的三個(gè)潛變量分別代表了該地區(qū)與成礦事件密切相關(guān)的熱液運(yùn)輸通道、控礦地質(zhì)構(gòu)造、成礦物質(zhì)來(lái)源因子,其向量夾角為62°(圖5),且都與約束元素砷相關(guān),其三個(gè)潛變量包含了15個(gè)元素中所有與砷相關(guān)的變化性(圖6)。與主成分分析方法所給出的計(jì)算結(jié)果進(jìn)行對(duì)比發(fā)現(xiàn),結(jié)構(gòu)模型所計(jì)算的與金礦相關(guān)的組合變量與礦床的空間相關(guān)性較高,并且對(duì)金礦床(礦點(diǎn))也具有較好的預(yù)測(cè)性,具體研究成果可查閱相關(guān)文獻(xiàn) (Liu et al., 2015)。
圖5 基于結(jié)構(gòu)方程模型提取的潛變量與約束變量砷元素的關(guān)系(Liu et al., 2015)Fig.5 The relationship between the latent variable extracted based on SEM and the constrained variable arsenic(Liu et al., 2015)
圖6 基于15種地球化學(xué)元素(不含砷)和三個(gè)潛變量的預(yù)測(cè)砷元素得分與觀測(cè)砷元素回歸關(guān)系Fig.6 Regression relationship between observed arsenic and predicted arsenic score based on 15 geochemical elements (without arsenic) and 3 latent variables. (a) Predicted and observed arsenic based on 15 elements. (b) Predicted and observed arsenic based on extracted latent variables
證據(jù)權(quán)重(WofE)建模是一種基于貝葉斯規(guī)則的定量方法,該規(guī)則通過集成給定證據(jù)或一組證據(jù)層來(lái)預(yù)測(cè)事件的存在與否,是一種目前廣泛應(yīng)用于礦產(chǎn)資源定量預(yù)測(cè)與評(píng)價(jià)的信息綜合方法之一。但證據(jù)層之間的條件獨(dú)立性(CI)問題一直是困擾證據(jù)權(quán)方法應(yīng)用的問題之一,許多學(xué)者也對(duì)該問題的解決進(jìn)行了研究與討論,結(jié)構(gòu)方程模型提供了一種新的檢驗(yàn)/校正證據(jù)權(quán)重建模中CI問題的方法。
傳統(tǒng)的WofE包含了多個(gè)關(guān)于礦點(diǎn)事件在條件上彼此獨(dú)立的證據(jù)層。這些證據(jù)的模式無(wú)法直接測(cè)量和觀察,是一種只能從原始數(shù)據(jù)中提取的潛變量。因此建立證據(jù)的過程類似于從各種觀察變量中提取潛變量的因子分析。當(dāng)在WofE中用于估計(jì)礦點(diǎn)事件的后驗(yàn)概率時(shí),它被視為自變量,這又是一個(gè)邏輯回歸過程。傳統(tǒng)的WofE是通過兩個(gè)獨(dú)立的建模過程實(shí)現(xiàn)的(圖7a):從地球化學(xué)、遙感和地球物理數(shù)據(jù)中提取證據(jù),然后通過邏輯模型結(jié)合證據(jù)。由于此方法依據(jù)源數(shù)據(jù)中主要信息估計(jì)證據(jù),因此除非證據(jù)來(lái)源彼此獨(dú)立,否則將使提取的證據(jù)難以滿足WofE方法的CI假設(shè)。通過創(chuàng)建SEM模型可以結(jié)合因子分析和回歸分析,并使用包含有回歸擬合參數(shù)和礦點(diǎn)過估率的目標(biāo)函數(shù)來(lái)估計(jì)參數(shù),從而解決WofE應(yīng)用過程中的CI問題(圖7b)。
圖7 傳統(tǒng)證據(jù)權(quán)建模過程與基于結(jié)構(gòu)方程模型優(yōu)化的證據(jù)權(quán)方法的建模過程(Liu and Cheng, 2019)Fig.7 The classical weight of evidence modeling process (a) and the modeling process of the weight of evidence method optimized based on SEM (b) (Liu and Cheng, 2019)
此研究以加拿大Nova Scotia省西南部金成礦區(qū)為例,選擇了地球化學(xué)、斷裂/褶皺、地質(zhì)界線、重力共四個(gè)因子為輸入數(shù)據(jù),建立了該地區(qū)金礦的評(píng)價(jià)預(yù)測(cè)模型。該地區(qū)以往的研究表明,地球化學(xué)控礦因子和該地區(qū)的斷裂以及地質(zhì)界線等都具有較為復(fù)雜的相關(guān)關(guān)系,重力分布也受到了巖體及地質(zhì)單元分布的影響,其造成的結(jié)果就是會(huì)對(duì)該地區(qū)的金礦礦點(diǎn)數(shù)的估計(jì)遠(yuǎn)大于實(shí)際。通過建立結(jié)構(gòu)方程模型,調(diào)整地質(zhì)因子有利/不利區(qū)劃分的閾值,新的模型對(duì)礦點(diǎn)數(shù)的過估比率由1.66(圖8a)下降到1.29(圖8b),在不同概率區(qū)間預(yù)測(cè)礦點(diǎn)數(shù)與實(shí)際礦點(diǎn)數(shù)的擬合度也由0.9(圖8a)提高到了0.94(圖8b),在評(píng)價(jià)精確度和概率分布合理性上都得到了顯著的改善。具體研究成果可查閱相關(guān)文獻(xiàn)(Liu and Cheng, 2019)。
圖8 經(jīng)典證據(jù)權(quán)和基于結(jié)構(gòu)方程模型約束的證據(jù)權(quán)模型中預(yù)測(cè)礦點(diǎn)數(shù)-觀測(cè)礦點(diǎn)數(shù)回歸模型(Liu and Cheng, 2019)Fig.8 Regression model of predicted and observed deposits in the classical weight of evidence model (a) and weight of evidence model (b) based on SEM constraints (Liu and Cheng, 2019). The ordinate is the predicted number of deposits, and the abscissa is the observed number of deposits.
墨西哥生態(tài)系統(tǒng)狀態(tài)的研究主要是一種基于描述性指標(biāo)的定性分析,SEM提供了一種利用定量數(shù)據(jù)進(jìn)行定性研究新的工具,其有助于理解變量之間的直接和間接相互作用,因此可以檢測(cè)環(huán)境變化的根本原因。在這項(xiàng)研究中,通過創(chuàng)建結(jié)構(gòu)方程模型來(lái)集成與環(huán)境壓力-狀態(tài)-響應(yīng)模型(pressure-state-response)有關(guān)的指標(biāo),并將其應(yīng)用于墨西哥城馬格達(dá)萊納流域的森林環(huán)境保護(hù)研究中。研究中使用21個(gè)環(huán)境單元(樣本),17個(gè)生物多樣性狀態(tài)指標(biāo)(評(píng)估生態(tài)系統(tǒng)的3個(gè)方面:結(jié)構(gòu)、組成和功能),13個(gè)環(huán)境指標(biāo)(非生物變量)和6個(gè)人為壓力指標(biāo)(表3)構(gòu)建了3個(gè)生態(tài)響應(yīng)模型(圖9)。隨后,基于多重共線性測(cè)試,消除了多余的指標(biāo),進(jìn)行規(guī)范對(duì)應(yīng)分析以建立不同指標(biāo)與SEM可能的生態(tài)聯(lián)系之間的關(guān)系。利用先前的信息,開發(fā)了壓力和環(huán)境指標(biāo)對(duì)生態(tài)系統(tǒng)的結(jié)構(gòu)、組成和功能的影響的先驗(yàn)?zāi)P汀?/p>
圖9 生物多樣性狀態(tài)指標(biāo)、環(huán)境指標(biāo)、人類壓力指標(biāo)與森林狀態(tài)關(guān)系模型(Santibá?ez-Andrade et al., 2015)Fig.9 Three relationship models based on biodiversity status index, environmental index, human pressure index and forest status(Santibá?ez-Andrade et al., 2015)
表3 森林單元觀測(cè)指標(biāo)Table 3 Indicators of biophysical units
研究結(jié)果表明,一些環(huán)境因素,例如全球場(chǎng)所因素、濕度、空氣溫度、土壤中的有機(jī)物、坡度和土壤pH值,比其他因素對(duì)流域環(huán)境單元中的結(jié)構(gòu)、組成和功能指標(biāo)的影響更大。對(duì)生態(tài)系統(tǒng)3個(gè)方面影響最大的壓力因素是訪客、垃圾、火災(zāi)和人類活動(dòng)。其結(jié)論是盡管生態(tài)系統(tǒng)似乎受到某些干擾因素的影響,但這些因素尚未改變生態(tài)系統(tǒng)的功能。并基于該結(jié)論提出了一套管理建議和策略,這些策略可用于維持每個(gè)環(huán)境單元的生物多樣性。具體研究成果可查閱相關(guān)文獻(xiàn)(Santibá?ez-Andrade et al., 2015)。
該研究利用區(qū)內(nèi)研究對(duì)象的空間分布特征將研究區(qū)劃分成若干單元(樣本),綜合這些單元的統(tǒng)計(jì)特征(指標(biāo)),通過知識(shí)模型來(lái)構(gòu)建結(jié)構(gòu)方程模型進(jìn)行驗(yàn)證/探索性的路徑分析,通過數(shù)據(jù)-模型擬合后得到的路徑參數(shù),得出和數(shù)據(jù)相匹配的結(jié)論,并為環(huán)境保護(hù)決策提供支持和建議,是一種驗(yàn)證性結(jié)構(gòu)方程模型的典型應(yīng)用。
知識(shí)驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)類方法的綜合建模技術(shù),被認(rèn)為是解決未來(lái)地學(xué)數(shù)據(jù)分析中諸多挑戰(zhàn)的主要研究方向,而結(jié)構(gòu)方程模型作為具有知識(shí)模型和數(shù)據(jù)模型混合建模特點(diǎn)的多元統(tǒng)計(jì)方法,有望為此類問題提供一種可行的解決方案。結(jié)構(gòu)方程模型可以被看作為一類方法論,它利用少量通過基礎(chǔ)概念或理論模型定義的“結(jié)構(gòu)”參數(shù)來(lái)表示關(guān)于觀察數(shù)據(jù)的均值、方差和協(xié)方差的假設(shè),從而提供一種統(tǒng)計(jì)方法來(lái)檢驗(yàn)關(guān)于觀察變量和潛在變量、潛變量與潛變量之間因果關(guān)系的假設(shè)。利用先驗(yàn)物理模型建模,通過對(duì)收集到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,自動(dòng)提取潛變量的特點(diǎn),用于解決地學(xué)數(shù)據(jù)處理中的多層次和多模型的潛變量提取和模型參數(shù)求解問題,是一種非常具有應(yīng)用潛力的數(shù)據(jù)處理方法。
但同時(shí)也要看到,該方法在地學(xué)數(shù)據(jù)探索性分析中的應(yīng)用尚不成熟,應(yīng)用范圍和案例并不豐富。這是由于地學(xué)數(shù)據(jù)的不確定性決定的。地學(xué)過程本身具有多過程、多期次的特征,利用有限的(時(shí)間窗口/區(qū)域窗口)地學(xué)數(shù)據(jù)來(lái)建立普適的數(shù)據(jù)-模型的匹配往往十分困難,目前有限的探索性應(yīng)用主要集中于典型研究區(qū)內(nèi)成礦模型分析,控礦因子提取等。在其他地學(xué)相關(guān)領(lǐng)域的研究也偏重于利用路徑分析探索和驗(yàn)證不同指標(biāo)之間的因果關(guān)系。
隨著機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析技術(shù)的完善,結(jié)構(gòu)方程模型在地學(xué)數(shù)據(jù)處理中具有良好的前景。機(jī)器學(xué)習(xí)目前已成為地學(xué)數(shù)據(jù)分析與挖掘的重要手段,尤其是隨著地學(xué)數(shù)據(jù)的爆炸性增長(zhǎng),其重要性日益突出,其計(jì)算對(duì)先驗(yàn)?zāi)P偷囊蕾囆暂^低,計(jì)算的結(jié)果可優(yōu)化性好(通過提高訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量),但也存在計(jì)算過程的物理意義不明確、過度擬合等缺陷。而這些恰恰也是結(jié)構(gòu)方程模型的優(yōu)勢(shì),如何能夠利用深度學(xué)習(xí)來(lái)改善結(jié)構(gòu)方程模型的建模和參數(shù)估計(jì),使得結(jié)構(gòu)方程模型在保持明確模型意義的同時(shí),減少建模復(fù)雜度,降低計(jì)算迭代時(shí)間,優(yōu)化計(jì)算結(jié)果,可能是結(jié)構(gòu)方程模型在地學(xué)數(shù)據(jù)處理中發(fā)展的重要方向之一。
地質(zhì)力學(xué)學(xué)報(bào)2021年3期