亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        理論與數(shù)據(jù)雙驅(qū)動的社會分層研究

        2022-02-18 02:47:50梁玉成賈小雙
        關(guān)鍵詞:測量資源模型

        梁玉成,賈小雙

        中山大學(xué) 社會學(xué)與人類學(xué)學(xué)院,廣東 廣州 510275

        社會結(jié)構(gòu)是社會學(xué)的核心議題。作為社會結(jié)構(gòu)最重要的維度,階層結(jié)構(gòu)的研究對于理解社會現(xiàn)象和社會變遷有著重要的意義,一直以來廣受國內(nèi)外社會學(xué)家的關(guān)注,發(fā)展出了豐富的社會分層理論,并在此基礎(chǔ)上提出了不同的階層測量方法。總體來看,國內(nèi)外學(xué)者對階層的理解可分為兩種:一種認(rèn)為階層是等級不同的群體,只需確定一定的數(shù)量標(biāo)準(zhǔn)就可以對社會階層進(jìn)行區(qū)分,例如按照收入的高低劃分為低收入群體、中等收入群體和高收入群體;另一種認(rèn)為階層是社會性質(zhì)、社會屬性完全不同的群體,而不僅僅是簡單的上下排列的等級層次,因此需要找到階層之間屬性差異的指標(biāo)來界定。傳統(tǒng)的社會分層理論(如馬克思、韋伯和涂爾干的分層理論)都體現(xiàn)了將階層看作屬性不同的群體這一階層視角,即根據(jù)生產(chǎn)資料的占有、勞動分工等差異來界定階層[1]。

        社會學(xué)對階層結(jié)構(gòu)的測量常常將兩種視角結(jié)合起來,既考慮群體的社會屬性差異,也關(guān)注社會屬性的等級層次,而用于分層的社會屬性常常被理解為“對各類資源的占有”。李強(qiáng)[1]認(rèn)為,社會分層的本質(zhì)是資源在不同群體中的分布。因此,資源的種類和占有水平是階層和社會地位劃分的依據(jù)。他將格倫斯基提出的用于分層的七種資源[2]擴(kuò)展為十種,分別是生產(chǎn)資料資源、財(cái)產(chǎn)或收入資源、市場資源、職業(yè)或就業(yè)資源、政治權(quán)力資源、文化資源、社會關(guān)系資源、主觀聲望資源、公民權(quán)利資源以及人力資源。這十種資源各有側(cè)重,其不同組合可以形成不同的分層標(biāo)準(zhǔn),而不同的分層組合所劃分的階層群體又常常相互交叉,即在一種標(biāo)準(zhǔn)下被劃分為同一個階層的群體在另一種標(biāo)準(zhǔn)下可能被分為不同的階層群體?;诓煌馁Y源組合和不同的劃分標(biāo)準(zhǔn),社會學(xué)發(fā)展出了不同的階層測量方法。但筆者發(fā)現(xiàn),這些方法都存在一定的局限性:一方面,不同分層模型測量階層地位時選用的維度(資源種類)和劃分標(biāo)準(zhǔn)(資源占有水平)不同;另一方面,這些方法都面臨著“分層結(jié)果無法在現(xiàn)實(shí)中驗(yàn)證”的批判。因此,本文嘗試提出一種理論和數(shù)據(jù)雙驅(qū)動的階層測量,在更全面地考慮階層測量維度的基礎(chǔ)上,使用數(shù)據(jù)驅(qū)動的方式從現(xiàn)實(shí)出發(fā)進(jìn)行階層劃分。

        一、兩種階層測量范式

        社會分層研究的首要任務(wù)是界定社會階層,階層測量需要研究者制定出分層的指標(biāo)對社會階層進(jìn)行劃分。自馬克思以來,社會理論家和社會學(xué)研究者提出了大量的階層測量理論和方法,對社會分層指標(biāo)、測量方法和劃分方式進(jìn)行了界定和討論,發(fā)展出了理論驅(qū)動和數(shù)據(jù)驅(qū)動兩種研究范式。

        (一)理論驅(qū)動的階層測量

        傳統(tǒng)的階層測量均屬于理論驅(qū)動范式。在這一范式下,社會分層的研究者在階層測量上存在兩種不同的取向:一種是階級分析,另一種是職業(yè)分層。前者多使用類別型(categorical)的階級測量方法,本文稱之為階層歸類法;后者多使用連續(xù)型(continuous)的階層測量方法,本文稱之為數(shù)值測量法。

        階層歸類法是指研究者基于社會分層理論探索出一些有重要經(jīng)濟(jì)社會差異的大的階級類別,然后將社會人群納入這些大的類別,社會學(xué)分層理論最重要的兩種階層圖示——賴特階級分類模型和誒里克森-戈德索普層圖式(EGP)都屬于這一類測量方法[1,3-4]。賴特階級分類模型是根據(jù)不同社會群體圍繞物質(zhì)生產(chǎn)資料、勞動力、組織和技術(shù)四種資產(chǎn)所產(chǎn)生的占有(控制)和剝削關(guān)系進(jìn)行的階級分類[3];戈德索普等提出的EGP圖式主要是依據(jù)職業(yè)信息進(jìn)行的階層劃分,根據(jù)職業(yè)聲望、職業(yè)的市場地位(職業(yè)的經(jīng)濟(jì)收入來源和收入水平、經(jīng)濟(jì)保障狀況和經(jīng)濟(jì)提升、職業(yè)的技術(shù)能力等)、工作地位(管理權(quán)限、工作自主程度等)以及雇傭關(guān)系等特征對職業(yè)社會階層地位進(jìn)行劃分[4-7]。

        數(shù)值測量法是指研究者基于特定的特征計(jì)算出一個有高低等級的、連續(xù)的數(shù)值作為界定階層地位的指標(biāo),其典型代表是職業(yè)聲望量表(occupation prestige scale,OPS)和社會經(jīng)濟(jì)地位指數(shù)(socioeconomic index,SEI)。職業(yè)聲望量表是通過調(diào)查的方式來了解人們對國家或國際職業(yè)分類標(biāo)準(zhǔn)中的職業(yè)評價,從而計(jì)算出職業(yè)聲望的評估標(biāo)準(zhǔn)[8]。目前大多數(shù)學(xué)者使用的職業(yè)聲望量表是特萊曼整合60個國家與地區(qū)的85套職業(yè)聲望調(diào)查數(shù)據(jù)所提出的較為穩(wěn)定的、可以用于跨國比較分析的國際標(biāo)準(zhǔn)職業(yè)聲望量表(standard international occupational prestige scale,SIOPS)[9-11]。社會經(jīng)濟(jì)地位測量則是使用每一類職業(yè)的平均教育水平和平均收入對該類型的職業(yè)聲望進(jìn)行回歸,并基于回歸方程來估計(jì)所有職業(yè)的社會經(jīng)濟(jì)地位指數(shù)[12-15],目前所使用的社會經(jīng)濟(jì)地位指數(shù)是1992年甘澤布姆等根據(jù)國際標(biāo)準(zhǔn)職業(yè)編碼(international standard classification of occupations,ISCO)提出的國際標(biāo)準(zhǔn)社會經(jīng)濟(jì)地位量表(international socio-economic index of occupational status,ISEI)。這一量表給出了每一個職業(yè)對應(yīng)的ISCO、ISEI、SIOPS,并與十等級的EGP階層分類相對應(yīng)[16-17]。隨著社會的發(fā)展,國際標(biāo)準(zhǔn)職業(yè)編碼在不斷更新,IESI和SIOPS也進(jìn)行了相應(yīng)的更新。

        (二)數(shù)據(jù)驅(qū)動的階層測量

        隨著大數(shù)據(jù)和計(jì)算社會科學(xué)的發(fā)展,數(shù)據(jù)驅(qū)動的階層測量方法逐漸興起,并在學(xué)術(shù)界和業(yè)界得到了廣泛應(yīng)用。與傳統(tǒng)階層測量方法不同,數(shù)據(jù)驅(qū)動的階層測量主要是用于估計(jì)個體或家庭的社會經(jīng)濟(jì)地位(socioconomic status,SES),而不以研究整個社會的階層結(jié)構(gòu)為目的。社會經(jīng)濟(jì)地位是指基于個體或家庭的受教育水平、收入水平和職業(yè)水平而形成的在經(jīng)濟(jì)層面和社會層面相對于他人的社會位置,并且通常被劃分為高、中、低三個等級[18]。傳統(tǒng)的SES測量主要使用調(diào)查數(shù)據(jù)來獲取決定SES的教育、收入、職業(yè)等傳統(tǒng)社會分層理論所關(guān)心的階層測量維度直接進(jìn)行劃分,而數(shù)據(jù)驅(qū)動的階層測量主要依據(jù)大數(shù)據(jù)來測量個體的社會經(jīng)濟(jì)地位。

        由于大數(shù)據(jù)難以獲取經(jīng)濟(jì)資源、職業(yè)資源、聲望資源等理論驅(qū)動分層所關(guān)注的數(shù)據(jù),而更多地包含社交網(wǎng)絡(luò)和生活方式等社會資本和文化資本信息,因此,基于不同社會經(jīng)濟(jì)地位的群體擁有不同生活方式和社會網(wǎng)絡(luò)的觀點(diǎn)[19-20]。數(shù)據(jù)驅(qū)動的階層測量主要使用手機(jī)或互聯(lián)網(wǎng)獲取的用戶行為、社交網(wǎng)絡(luò)以及環(huán)境(如居住區(qū)域)數(shù)據(jù)等,通過一定的算法對個體或家庭的社會經(jīng)濟(jì)地位進(jìn)行預(yù)測和估計(jì)。

        在使用生活方式特征預(yù)測階層地位的研究中,研究者從多個生活方式的多個維度預(yù)測個體的SES,如活動軌跡、電話溝通模式、消費(fèi)模式、社交媒體上討論的話題以及使用的語言和社交媒體上的表現(xiàn)等。其方法一般是將手機(jī)或社交媒體上記錄的海量個體行為數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)(即個案—變量式的數(shù)據(jù)),用以刻畫個體生活方式的特征,然后根據(jù)這些特征來預(yù)測個體的SES等級、收入或職業(yè)類別[21-25]。在使用社會網(wǎng)絡(luò)特征進(jìn)行預(yù)測時,研究者通常依據(jù)社會網(wǎng)絡(luò)分析(social network analysis,SNA)中整體網(wǎng)分析的各項(xiàng)網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)(如中心性、度分布等)[26],而非個體及其朋友的社會人口屬性來預(yù)測個體的SES。

        根據(jù)生活方式或社會網(wǎng)絡(luò)特征預(yù)測個體或家庭的SES等級以后,還需要結(jié)合直接測量SES的相關(guān)數(shù)據(jù)——如用戶居住小區(qū)的房價、普查或社會調(diào)查發(fā)布的地區(qū)社會經(jīng)濟(jì)水平、用戶的職業(yè)類別等作為用戶的“真實(shí)”SES,來驗(yàn)證基于行為和網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性。由此可見,數(shù)據(jù)驅(qū)動的階層測量實(shí)際上把階層測量作為一個分類任務(wù)去完成,研究者基于個體的行為或社會網(wǎng)絡(luò)特征,采用機(jī)器學(xué)習(xí)的方法對用戶進(jìn)行分類,并通過特征篩選、優(yōu)化算法等方式來提高分類的準(zhǔn)確性。在實(shí)際操作中,支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林(random forest)等有監(jiān)督機(jī)器學(xué)習(xí)分類方法和詞聚類與詞嵌入(word cluster and embedding)、K均值聚類(K-means clustering)等無監(jiān)督聚類方法常被用于劃分用戶的SES等級。

        (三)兩種階層測量范式的比較

        如表1所示,通過對理論與數(shù)據(jù)驅(qū)動的階層測量方法及其理論依據(jù)進(jìn)行梳理,發(fā)現(xiàn)理論驅(qū)動的階層測量更關(guān)注經(jīng)濟(jì)資源(如生產(chǎn)資料的占有、收入與財(cái)富等)、與經(jīng)濟(jì)資源直接相關(guān)的資源(如職業(yè)類別、市場資源、勞動關(guān)系等權(quán)力資源以及受教育程度、技能水平等人力資本)以及聲望資源,而并未將(除人力資本外的)文化資本和社會網(wǎng)絡(luò)資源納入社會分層的維度;而數(shù)據(jù)驅(qū)動的階層測量正好相反,只考慮文化資本和社會網(wǎng)絡(luò)資源,實(shí)際上這種分異的產(chǎn)生是由于數(shù)據(jù)和方法的局限性。

        表1 理論與數(shù)據(jù)驅(qū)動的階層測量方法比較

        在理論驅(qū)動的階層測量發(fā)展之時,研究者只能使用調(diào)查數(shù)據(jù)進(jìn)行研究,調(diào)查數(shù)據(jù)中更多地包含教育、收入、職業(yè)等核心變量,而較少包含生活方式數(shù)據(jù);在分析方法上,由于人腦的思考維度是有限的,理論驅(qū)動的分層模型只能考慮有限維度的社會屬性,無法處理高維的特征,加之傳統(tǒng)的實(shí)證分析大多采用線性模型,由于存在地位不一致的可能,階層地位并不一定是各種資源的線性組合。因此,研究者只能選用更重要的維度對階層進(jìn)行測量。由于每種理論驅(qū)動的方法都只考慮特定維度的資源,在階層劃分的方式上也存在差異,因此不同流派的分層研究者對究竟應(yīng)該如何進(jìn)行劃分爭論不休[27-29]。此外,不同國家或地區(qū)、不同時期的社會發(fā)展情況存在差異[30],研究者基于不同的數(shù)據(jù)測量出的階層結(jié)構(gòu)能在多大程度上反映社會現(xiàn)實(shí)也難以驗(yàn)證[31]。

        對于數(shù)據(jù)驅(qū)動的階層測量而言,手機(jī)和互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)主要是對個體使用痕跡的記錄,通過這些記錄很容易得出個體的移動軌跡、通話模式以及社交媒體上的信息。因此,基于大數(shù)據(jù)的階層測量只能根據(jù)文化和社會網(wǎng)絡(luò)等信息來推測。但由于大數(shù)據(jù)很難獲取教育程度、收入、職業(yè)等隱私信息,通常用社區(qū)房價、地區(qū)SEL等作為替代,因此對SES的預(yù)測結(jié)果難以驗(yàn)證。此外,若特征維度較高,過于復(fù)雜的黑箱算法也使得分層結(jié)果難以解釋。

        實(shí)際上,很多大型社會綜合調(diào)查的數(shù)據(jù)包含行為、態(tài)度、生活方式等文化資本和社會網(wǎng)絡(luò)的數(shù)據(jù),只是因方法的限制使得研究者未能將其納入階層測量中;而機(jī)器學(xué)習(xí)方法和技術(shù)不僅可以用于大數(shù)據(jù)的分析,同樣可以用于調(diào)查數(shù)據(jù)的分析。為克服純理論和純數(shù)據(jù)驅(qū)動的階層測量方法的不足,本文嘗試將兩種方法的優(yōu)勢結(jié)合起來,提出一種理論與數(shù)據(jù)雙驅(qū)動的階層測量方法。

        二、理論與數(shù)據(jù)雙驅(qū)動的階層測量方法——基本框架設(shè)計(jì)

        階層測量的目的是分析社會的階層結(jié)構(gòu),從而分析結(jié)構(gòu)形成的原因及其影響。因此,研究者所得出的階層結(jié)構(gòu)必須符合社會現(xiàn)實(shí)。然而,有學(xué)者對我國分層研究的四種模式進(jìn)行分析后提出了尖銳的批評,認(rèn)為“關(guān)于中國分層的幾種不同模型只不過是幾種不同的關(guān)于當(dāng)前中國社會分層狀況的概念或分類游戲而已,并且四種模型經(jīng)過一番操作能夠?qū)崿F(xiàn)相互轉(zhuǎn)化”,并認(rèn)為“關(guān)于當(dāng)代中國社會分層狀況的幾種模式,其是非對錯本質(zhì)上與‘事實(shí)’(1)因?yàn)殛憣W(xué)藝的階層劃分是根據(jù)十大階層在經(jīng)濟(jì)資源、組織資源、文化資源上的差異來劃分的,謝立中認(rèn)為,若要證明這一分層符合現(xiàn)實(shí),也應(yīng)該證明十大階層經(jīng)濟(jì)資源、組織資源、文化資源上的差異,但李春玲卻分析了十大階層在收入、聲望、社會經(jīng)濟(jì)地位指數(shù)、消費(fèi)等方面的差異,所以這里的“事實(shí)”標(biāo)了引號。無關(guān),因而也不可能通過將它們與‘事實(shí)’對比,看誰更符合‘事實(shí)’(或能獲得更多‘事實(shí)’支持)的方法來對它們的是非對錯加以判斷。它們之間的差異,實(shí)質(zhì)上只是幾種關(guān)于社會分層之話語系統(tǒng)之間的差異”[31-32]。這一觀點(diǎn)啟發(fā)了筆者,即在進(jìn)行階層劃分時應(yīng)該從社會事實(shí)出發(fā)進(jìn)行階層結(jié)構(gòu)測量,避免從理論上對階層進(jìn)行定性的分類。但如何根據(jù)社會事實(shí)來劃分階層呢?前文提到,階層是社會屬性和等級不同的群體,是對不同資源占有水平不同的群體,那么階層劃分就是根據(jù)社會成員的屬性和等級將社會成員劃分為不同的群體,而如何選擇用于區(qū)分階層的屬性和等級,則需要借助分層理論的幫助。基于這一觀點(diǎn),本文建構(gòu)了理論和數(shù)據(jù)雙驅(qū)動的階層測量框架。

        (一)社會結(jié)構(gòu)、布勞空間與社會階層

        布勞在《不平等與異質(zhì)性》中建構(gòu)了其宏觀社會結(jié)構(gòu)理論,認(rèn)為社會結(jié)構(gòu)可以用類別參數(shù)和等級參數(shù)來描述。類別參數(shù)是指將人口平行地劃分為界限明確的若干個亞群體的特征,包括性別、種族、宗教、國籍、居住地、語言、職業(yè)、婚姻狀況等;等級參數(shù)是將人口按高低秩序劃分為若干層次的特征,包括教育、收入、財(cái)富、權(quán)力等。布勞認(rèn)為,社會結(jié)構(gòu)的分化一般有異質(zhì)性和不平等兩種形式,異質(zhì)性是水平分化,指人口在由類別參數(shù)所表示的各群體之間的分布;不平等是垂直分化,指由等級參數(shù)所表示的地位分布。此外,他還用相交性表示社會結(jié)構(gòu)中幾條軸線的人口分布共變情況。類別參數(shù)和等級參數(shù)構(gòu)成了多維空間,而人口在這一多維空間中的分布則構(gòu)成社會結(jié)構(gòu)[33-34]。這一“多維空間”被命名為布勞空間,所有社會人口特征都是布勞空間的潛在坐標(biāo)軸[35-36]。

        社會階層是社會結(jié)構(gòu)最核心的維度,因此可以認(rèn)為,社會階層是由類別參數(shù)和等級參數(shù)共同決定的。如上文所述,不同社會階層既是異質(zhì)性的群體,也是在等級秩序的階梯中占有不同位置的群體。因此,參照社會結(jié)構(gòu)的定義,可以將社會階層看作人口在由類別參數(shù)和等級參數(shù)所構(gòu)成的高維社會空間中的分布所形成的次級群體,那么階層劃分就是去識別這些群體。基于這一思想,本文建構(gòu)了理論與數(shù)據(jù)雙驅(qū)動的階層測量框架:第一步,建構(gòu)社會階層空間,即基于分層理論提出的對階層劃分有意義的資源(階層測量的維度),將其操作化為可測量的變量作為社會空間的維度,建構(gòu)出社會空間;第二步,使用無監(jiān)督聚類的方法識別在高維社會空間中形成的次級群體,從而進(jìn)行階層劃分。

        (二)社會階層空間的建構(gòu)與分割

        建構(gòu)社會階層空間需要先描繪出社會空間的“軸線”,即定義用于階層劃分的維度。李強(qiáng)總結(jié)了過往分層理論所使用的階層劃分的10種資源:生產(chǎn)資料資源、財(cái)產(chǎn)或收入資源、市場資源、職業(yè)或就業(yè)資源、政治權(quán)力資源、文化資源、社會關(guān)系資源、主觀聲望資源、公民權(quán)利資源以及人力資源。但這一分類過于細(xì)致,導(dǎo)致這10種資源并非互斥,如文化資源包含了人力資本,職業(yè)或就業(yè)資源中也包含收入、生產(chǎn)資料和市場資源等信息,在操作化時較難進(jìn)行測量。陸學(xué)藝[27]根據(jù)我國特色,將階層劃分要素綜合為5個:職業(yè)或勞動分工、經(jīng)濟(jì)資源、組織資源(也稱權(quán)力資源)、文化(技術(shù))資源和單位地位或制度分割,但這種歸類也忽視了社會網(wǎng)絡(luò)資源、除人力資本外的文化資本以及聲望資源和公民權(quán)力。在對二者進(jìn)行綜合的基礎(chǔ)上,本文將用于社會分層的要素歸納為7類,分別是:(1)經(jīng)濟(jì)資源,主要指收入狀況,包括個人收入與家庭收入;(2)職業(yè)與聲望,整合了組織資源(有無管理權(quán)限)、職業(yè)資源(職業(yè)類型、工作狀況)和職業(yè)聲望;(3)單位地位或制度分割,包括戶口、單位類型、體制以及黨員身份等;(4)社會資本;(5)民權(quán)資源;(6)人力資本;(7)文化資本,主要包括人力資本以外的其他文化資本,如生活方式、消費(fèi)結(jié)構(gòu)等。結(jié)合獲取數(shù)據(jù)的情況將上述要素操作化為可測量的變量,即社會空間的坐標(biāo)軸。

        構(gòu)建好社會空間的下一步是進(jìn)行階層劃分。由于本文沒有理論預(yù)設(shè),并不清楚人口在這個高維空間中是如何分布的,因此并不知道社會可以劃分為多少個階層以及每個階層擁有什么樣的特征。為此,本文采用數(shù)據(jù)驅(qū)動的方式,使用無監(jiān)督(unsupervised)的機(jī)器學(xué)習(xí)聚類(clustering)算法來幫助識別人口在這個空間中的分布狀況,尋找高維空間中聚集在一起的一個個“團(tuán)體”來進(jìn)行階層劃分。

        聚類算法的目標(biāo)是將樣本劃分為若干個不相交的子集,每個子集叫作一個“簇”(cluster),每個簇對應(yīng)這個子集一些潛在的特質(zhì),如高教育程度、高收入等。聚類算法事先并不清楚這些特質(zhì)的存在,而是通過學(xué)習(xí)數(shù)據(jù)的分布結(jié)構(gòu)找到內(nèi)在性質(zhì)和規(guī)律而自動形成的簇。聚類算法的聚類邏輯是“物以類聚”,即將擁有相似特征的樣本劃分到同一個簇,而不同簇的樣本之間盡可能不同,即簇內(nèi)相似度(intra-cluster similarity)高而簇間相似度(inter-cluster similarity)低。因而,“相似度”或稱“距離”是聚類算法簇劃分的重要依據(jù)。常見的相似度或距離測量方式有歐式距離(Euclidean distance)、曼哈頓距離(Manhattan distance)、余弦相似性、圖中連邊概率等。不同的聚類算法采取不同的相似度或距離計(jì)算方式,當(dāng)前常見的聚類算法可以分為5類:劃分式的聚類(如K-means聚類算法及其變種)、層次聚類、基于密度的聚類、基于網(wǎng)格的聚類、基于圖的聚類(如譜聚類)和基于模型的聚類(如采用最大期望算法的高斯聚類)。在實(shí)際應(yīng)用中,選擇哪種聚類算法取決于數(shù)據(jù)特征和算法的性能表現(xiàn)。而在運(yùn)行完聚類算法對樣本進(jìn)行簇劃分之后,還需要選取適當(dāng)?shù)男阅芏攘恐笜?biāo)對聚類的效果進(jìn)行評估,以分析聚類算法是否實(shí)現(xiàn)了簇內(nèi)相似度最高而簇間相似度最低的目標(biāo)。值得一提的是,無監(jiān)督的聚類算法需要研究者自己定義簇的個數(shù),因此在實(shí)際研究中需要通過不斷調(diào)試模型參數(shù)來找到最佳的聚類簇?cái)?shù)[37-38]。

        在提出理論與數(shù)據(jù)雙驅(qū)動階層測量方法的基本框架后,如何對7個分層要素進(jìn)行操作化以建構(gòu)社會空間、選取何種聚類算法以及如何設(shè)定模型參數(shù)還需要研究者根據(jù)具體數(shù)據(jù)所包含的信息和模型的表現(xiàn)來決定。為此,本文使用中國社會綜合調(diào)查(CGSS)2017年數(shù)據(jù)(2)在比較了CLDS、CGSS等全國大型綜合調(diào)查歷年數(shù)據(jù)后發(fā)現(xiàn),CGSS 2017數(shù)據(jù)能夠更加全面地涵蓋上述社會分層的7個要素,而其他年份的CGSS數(shù)據(jù)以及CLDS的數(shù)據(jù)存在關(guān)鍵模塊的缺失,故選用CGSS 2017數(shù)據(jù)。來建構(gòu)我國的社會階層空間,并通過聚類算法來對我國的社會階層進(jìn)行劃分。

        三、我國的社會分層——理論與數(shù)據(jù)雙驅(qū)動階層測量方法的應(yīng)用

        CGSS 2017共收集了12 582個樣本,根據(jù)上述社會分層的7大要素,筆者在數(shù)據(jù)中選出相關(guān)變量對每個要素進(jìn)行操作化,操作化過程見表2。其中,CGSS 2017的職業(yè)編碼采用ISCO-08編碼,為獲得職業(yè)聲望和職業(yè)社會經(jīng)濟(jì)地位,本文使用R語言中的ISCO08 ConveRsions程序來生成SIOPS-08和ISEI-08;社會資本的測量參考邊燕杰[39]測量城市居民社會資本的方法;網(wǎng)絡(luò)異質(zhì)性的測量根據(jù)受訪者所認(rèn)識的人中有幾個列出的職業(yè)類別:網(wǎng)頂為受訪者的社會網(wǎng)絡(luò)中的最高聲望,平均網(wǎng)絡(luò)質(zhì)量為受訪者網(wǎng)絡(luò)中的平均聲望;閱讀習(xí)慣包括月均讀書本數(shù)、電子書本數(shù),日均看報(bào)紙/雜志數(shù)以及日均手機(jī)閱讀新聞咨詢小時數(shù);生活方式來源于問卷A部分生活方式模塊中對媒體的使用情況、閑暇時間的活動、在空閑時間做什么事情三個量表,本文將量表進(jìn)行重新編碼,轉(zhuǎn)換成虛擬變量(3)A28、A31題答案中的1~2編碼為0,3~5編碼為1;A30題答案中的1~3編碼為1,4~5編碼為0。。

        表2 分層要素的操作化

        因聚類模型不允許數(shù)據(jù)存在缺失值,但有些樣本在職業(yè)類型等關(guān)鍵變量上的答案缺失且無法填補(bǔ),因此本文刪除了關(guān)鍵變量缺失的樣本,最后得到9 726個樣本。為檢驗(yàn)清理后樣本是否會導(dǎo)致關(guān)鍵變量與原樣本在分布上的差異,選取收入、受教育程度兩個常用于測量社會階層的重要指標(biāo)進(jìn)行檢驗(yàn)。從分布形態(tài)上看,清理后樣本的收入、教育年限(4)本文將受教育程度處理成了受教育年限(連續(xù)變量)。和原樣本分布形態(tài)較為一致,如圖1所示。同時對原樣本和清理后樣本進(jìn)行了獨(dú)立樣本T檢驗(yàn),結(jié)果顯示二者在收入和教育程度的分布沒有顯著差異(5)篇幅所限,T檢驗(yàn)結(jié)果未列出,如有需要可向筆者索取。。綜上,可以認(rèn)為刪除職業(yè)等關(guān)鍵信息缺失的樣本并不會導(dǎo)致清理后樣本重要指標(biāo)分布與原樣本的之間的偏差,本文對樣本的清理沒有損害原樣本的代表性。

        圖1 清理后樣本與原樣本的收入與教育程度分布對比

        (一)社會經(jīng)濟(jì)地位分層與地位不一致

        為驗(yàn)證在社會階層空間中通過無監(jiān)督聚類算法所劃分的簇是否能夠作為社會階層,本文先在低維度的社會空間進(jìn)行探索,以便分析每個簇的階層特征,并與傳統(tǒng)階層測量方法進(jìn)行對比。具體而言,以數(shù)值型階層測量方法——社會經(jīng)濟(jì)地位指數(shù)模型為基準(zhǔn),首先使用社會經(jīng)濟(jì)地位理論中考慮的4個關(guān)鍵變量:收入、職業(yè)類別、職業(yè)聲望、受教育年限進(jìn)行階層劃分,并將結(jié)果與國際社會經(jīng)濟(jì)地位指數(shù)(ISEI)進(jìn)行對比。

        在模型選擇上,首先使用K均值聚類算法、高斯混合聚類算法和凝聚層次聚類算法對樣本進(jìn)行聚類。這些聚類算法需要事先設(shè)定聚類的簇?cái)?shù),為便于后期對每一類別的特征描述,本文將聚類簇?cái)?shù)控制在10類以下,因此模型的簇參數(shù)(n-cluster)被設(shè)定為3~10共8種選擇。此外,凝聚層次聚類算法可以選用不同的相似性(距離)測量方式和凝聚(合并)的規(guī)則,本文對三種相似性(距離)測量方式(歐氏距離、曼哈頓距離和余弦相似性)和所有的凝聚規(guī)則(計(jì)算簇間鄰近性的規(guī)則,包括單鏈、全鏈、組平均和ward方法)都進(jìn)行了嘗試,從中選擇聚類效果最好的模型進(jìn)入下一步分析。聚類的效果使用CH得分(Calinski Harabasz Score)來衡量,得分越高表示簇內(nèi)相似性越大而簇間相似性越小,即聚類效果越好。圖2是三種聚類模型在不同參數(shù)設(shè)置下的聚類效果展示。

        圖2 不同模型的聚類效果

        由圖2可知,總體而言K-means算法的聚類效果最好,其中簇?cái)?shù)為7的K-means聚類模型與其他模型相比能夠最大限度地將相似的人劃分在同一個子群體,并將不同的子群體分開。因此本文選用簇?cái)?shù)為7的K-means聚類模型來進(jìn)一步分析不同子群體在各個維度上的特征。由于聚類模型所產(chǎn)生的類別編號沒有實(shí)際意義,為更直觀地觀察每個子群體在不同屬性上的差異,需要對簇標(biāo)簽進(jìn)行重新排序。為此,本文選用社會經(jīng)濟(jì)地位得分作為排序的標(biāo)準(zhǔn),以計(jì)算每一簇社會經(jīng)濟(jì)地位得分的均值,并按照從小到大的順序?qū)?個簇進(jìn)行排序,按照順序?qū)Υ貥?biāo)簽進(jìn)行重新編碼,然后考察這7個子群體在收入、社會經(jīng)濟(jì)地位得分、職業(yè)聲望得分和教育程度4個維度上的差異,從而評估模型是否實(shí)現(xiàn)了階層劃分。

        總體而言,該模型從收入、教育、聲望和職業(yè)所構(gòu)成的社會階層空間中識別出了屬性和等級不同的7個子群體。由表3可看出,7個階層的規(guī)模差異較大,其中第六階層的規(guī)模最小,僅占總?cè)丝?.61%,而第五階層人數(shù)最多,占總?cè)丝?3.29%。

        表3 7個階層的人數(shù)分布

        如圖3所示,在特征分布上,7個子群體的社會經(jīng)濟(jì)地位水平(ISEI得分的分布)和社會聲望存在較大的階梯式差異,根據(jù)社會聲望分層和社會經(jīng)濟(jì)地位分層理論可以認(rèn)為這7個子群體即可作為7個不同的階層,但是7個階層的收入水平和教育程度并不完全與階層等級相符合,尤其是第3和第6階層的收入水平與其階層地位完全不匹配,這兩個階層中大多數(shù)人的收入為0。

        圖3 7個階層的社會經(jīng)濟(jì)地位特征

        產(chǎn)生這種結(jié)果是因?yàn)镃GSS 2017詢問的是受訪者去年的收入,而有些受訪者2016年處于無工作狀態(tài),筆者在處理職業(yè)數(shù)據(jù)時,將目前無工作但是曾經(jīng)有工作的受訪者曾經(jīng)的職業(yè)作為其職業(yè)編碼,主要是考慮到在現(xiàn)實(shí)中職業(yè)地位在時間上更具有穩(wěn)定性,曾經(jīng)處于高職業(yè)地位的個體,其社會經(jīng)濟(jì)地位很難因目前收入的減少而產(chǎn)生大幅波動。

        如圖4所示,當(dāng)具體分析收入為0的第3階層和第6階層的職業(yè)類型時,由于職業(yè)編碼大致是按照職業(yè)等級從高到低的順序進(jìn)行編碼,ISCO的數(shù)值越小,說明職業(yè)的等級越高,通過對比兩個階層的職業(yè)類型分布,無需查看職業(yè)編碼表便可發(fā)現(xiàn),同樣是收入均值和中位數(shù)為的兩個群體,第6階層的職業(yè)類型相較于第3階層的職業(yè)類型而言等級更高。也就是說,本文的模型自動識別出了無收入人群中的職業(yè)社會經(jīng)濟(jì)地位和職業(yè)聲望不同的兩個社會階層。而在職業(yè)社會地位和職業(yè)聲望相似的第2、3階層中,模型又通過收入和教育信息識別出了同樣處于較低職業(yè)地位的兩個不同的社會階層。

        圖4 第3和第6階層的職業(yè)分布

        以上這種收入與職業(yè)的社會經(jīng)濟(jì)地位和聲望不匹配現(xiàn)象在社會分層理論中被稱為“地位不一致”。當(dāng)使用多個維度進(jìn)行社會分層時,階層群體在不同維度上的等級排序可能存在在差異,當(dāng)這種差異過大時,即可以認(rèn)為產(chǎn)生了地位不一致。地位一致和不一致的程度可以用“地位結(jié)晶化”的概念來衡量。高地位結(jié)晶化(地位一致)指運(yùn)用各種分層標(biāo)準(zhǔn)得到的結(jié)果都是一致的;低地位結(jié)晶化(地位不一致)指運(yùn)用各種分層標(biāo)準(zhǔn)得到的結(jié)果都是不一致的[40]。根據(jù)個人在n個地位測量維度和m個等級排序體系下所取得的地位排序組合狀況,人們的地位一致性程度又可進(jìn)一步劃分,有學(xué)者根據(jù)三個維度和三個等級將其劃分為地位一致者、中等地位不一致者、絕對地位不一致者和兩個地位差四種不同的類型[41]。吉登斯認(rèn)為,地位一致性程度是判斷群體已經(jīng)形成了階層還是只是利益群體的關(guān)鍵,如果某個群體各個維度的地位水平高度相關(guān),那么該群體就可以稱作一個邊界相對清晰的、定型化的階層;如果某個群體各個維度的地位水平相關(guān)程度不明顯,那么該群體還不能稱作一個相對封閉的、定型化的階層,只能說該群體在某個維度上成為一個利益群體但沒有形成階層[42-43]。按照上述觀點(diǎn),在以上7個階層中,第1、2、4、5、7階層地位一致性程度較高,是邊界相對清晰、定型化的階層;而第3、6階層的地位一致性相對較低,其階層的邊界相對不夠清晰,這恰好體現(xiàn)出本文提出的分層模型的優(yōu)勢。因?yàn)槿绻凑章殬I(yè)劃分,第3階層的成員可能被歸到第2階層,而第6階層可能被分到第5和第7階層;而若按照經(jīng)濟(jì)進(jìn)行分層,第3、6階層會被劃分到同一個階層中,而本文的分層模型既識別出了定型化的階層,也識別出了這兩個特殊的階層邊界不夠清晰的群體。

        (二)高維社會階層空間的階層劃分

        在使用簡潔模型驗(yàn)證了理論與數(shù)據(jù)雙驅(qū)動模型的分層效力之后,筆者根據(jù)分層理論所涵蓋的7大要素將樣本映射到高維空間進(jìn)行階層劃分。由于CGSS問卷的B、C、D部分是隨機(jī)抽樣填答,位于C部分的社會資本和位于D部分的消費(fèi)結(jié)構(gòu)相關(guān)問題并非所有受訪者都進(jìn)行了回答,因此,本文構(gòu)建了以下三個數(shù)據(jù)集分別進(jìn)行分析。(1)全樣本數(shù)據(jù):包含所有個案但不使用社會資本和消費(fèi)結(jié)構(gòu)變量的數(shù)據(jù)集,有9 726個樣本和除社會資本外6大分層要素共52個變量。(2)社會資本數(shù)據(jù)集:包含除消費(fèi)結(jié)構(gòu)變量外所有變量的數(shù)據(jù)集,樣本量為3 430,變量數(shù)為55。(3)消費(fèi)結(jié)構(gòu)數(shù)據(jù)集:包含除社會資本變量外所有變量的數(shù)據(jù)集,樣本量為2 897,變量數(shù)為64。圖5是不同聚類模型在高維空間中的聚類效果展示。

        圖5 不同聚類模型在高維空間中的聚類效果

        首先使用全樣本數(shù)據(jù)集建構(gòu)社會階層空間來進(jìn)行階層劃分。為避免各變量的量綱不同對計(jì)算聚類所造成的偏差,在對數(shù)據(jù)進(jìn)行零均值(Z-score)標(biāo)準(zhǔn)化(6)首先將類別變量按照一定順序重新編碼成定序變量,然后使用零均值標(biāo)準(zhǔn)化的方法將轉(zhuǎn)化后的類別變量和連續(xù)變量標(biāo)準(zhǔn)化為Z-score值,其計(jì)算方式為Z-score=(原始值-均值)/標(biāo)準(zhǔn)差。后,使用與簡潔模型相同的算法和參數(shù)設(shè)置對7大分層要素所構(gòu)成的52維空間中的樣本進(jìn)行聚類。結(jié)果顯示,在這一空間中,使用K-means聚類算法將樣本聚集成3個子群體的CH得分最高,聚類效果最好。因此,本文采納最佳模型的結(jié)果將群體劃分為三個階層,并按照三個子群體的平均社會經(jīng)濟(jì)地位得分高低進(jìn)行排序,以此順序?qū)⑵涠x為低、中、高三個階層。表4為三個階層的人數(shù)分布情況,其中,中等階層規(guī)模最大,占總?cè)丝诘?2.22%;高階層的規(guī)模相對較小,占總?cè)丝诘?4.86%。

        表4 三個階層的人數(shù)分布

        然后考察不同階層在各維度上的特征,從而評估模型的社會分層效果。如圖6所示,模型所劃分出的低、中、高三個階層在經(jīng)濟(jì)收入水平、職業(yè)社會經(jīng)濟(jì)地位、職業(yè)聲望、受教育程度和閱讀習(xí)慣等經(jīng)濟(jì)資源、職業(yè)資源、人力資本和文化資本四大階層要素8個維度上的等級次序完全一致。

        圖6 不同階層的經(jīng)濟(jì)、職業(yè)、文化、技能資源分布

        表5描述了三個階層在制度與民權(quán)資源上的差異。首先,高、低兩個階層的成員呈現(xiàn)出明顯的城鄉(xiāng)二元分割,低階層中91%的成員為農(nóng)業(yè)戶口,74%居住在農(nóng)村地區(qū);而高階層中80%以上成員為非農(nóng)業(yè)戶口,且僅有8%的成員當(dāng)前居住在農(nóng)村地區(qū)。其次,在黨員身份和工作單位體制方面,各階層黨員和體制內(nèi)人員的比例隨著階層等級的升高而上升。最后,在養(yǎng)老和醫(yī)療保險方面,高階層參與基本養(yǎng)老保險、商業(yè)醫(yī)療和養(yǎng)老保險的比例更高。此外,三個階層在職業(yè)資源和文化資源其他方面也存在較大差別:(1)在工作經(jīng)歷及當(dāng)前工作狀況方面,低階層主要由從未工作過和曾經(jīng)務(wù)農(nóng)現(xiàn)在無工作的人口組成,而高階層和中等階層的大部分人當(dāng)前正在從事非農(nóng)工作,對于中高階層當(dāng)前無工作的人,曾經(jīng)也都擁有非農(nóng)工作。(2)在工作管理權(quán)限方面,階層越高,在工作中擁有管理權(quán)限的比例越大,低階層幾乎在工作中沒有任何管理權(quán)(7)篇幅所限,三個階層階層工作經(jīng)歷及當(dāng)前工作狀況分析結(jié)果未列出,感興趣的讀者可向筆者索要。。(3)在生活方式上,低階層對媒體的使用和空閑時間從事的活動都較為單一;而階層越高,使用媒體和空閑時間從事活動的多樣化程度越高。其中,低階層在空閑時間主要以看電視等娛樂為主,而高階層則更多從事閱讀、鍛煉身體、聽音樂等能夠?yàn)樽约骸俺潆姟钡幕顒?8)篇幅所限,三個階層休閑方式差異分析結(jié)果未列出,感興趣的讀者可向筆者索要。。

        表5 三大階層制度與民權(quán)資源占有情況

        由此可見,模型所劃分的三個階層既在等級參數(shù)分布上存在著低、中、高的差異,且在8個維度上的等級次序完全一致,同時在類別參數(shù)的分布上存在明顯差別,因此可以認(rèn)為這三個群體的階層地位一致性程度較高,形成了邊界清晰的階層。

        為評估社會資本和消費(fèi)結(jié)構(gòu)對階層測量的影響,本文繼續(xù)加入社會資本特征和消費(fèi)結(jié)構(gòu)特征進(jìn)行階層劃分,并用“類別不一致率”作為測量社會資本特征與消費(fèi)結(jié)構(gòu)對階層劃分的指標(biāo)。類別不一致率的計(jì)算方式是:以上述全樣本數(shù)據(jù)的階層劃分結(jié)果為基準(zhǔn)階層類別C,類別不一致率即為使用其他特征(數(shù)據(jù)集)進(jìn)行階層劃分之后的類別Ci與基準(zhǔn)類別C不一致成員的比例(9)為消除樣本量變化所帶來的差異,本文也測試了以去掉這兩個樣本中的社會資本和消費(fèi)結(jié)構(gòu)特征的數(shù)據(jù)所得出的分層結(jié)果作為基準(zhǔn),并與社會資本模型和消費(fèi)結(jié)構(gòu)模型的結(jié)果進(jìn)行對比,其類別一致性均比較高。。

        分別使用社會資本數(shù)據(jù)集和消費(fèi)結(jié)構(gòu)數(shù)據(jù)集來建構(gòu)階層社會空間,為與基準(zhǔn)類別進(jìn)行對比,同樣使用簇?cái)?shù)為3的K-means聚類模型進(jìn)行階層劃分,且按照ISEI對模型所得出的簇標(biāo)簽進(jìn)行排序,得到低、中、高三個階層,如表6所示。總體而言,兩個模型的分類不一致率較低,對樣本的階層劃分均與全樣本模型的階層劃分相差不大,加入社會資本和消費(fèi)結(jié)構(gòu)特征后,分別僅有5.9%和7.5%的成員階層類別發(fā)生了變化。從模型的表現(xiàn)上來看,加入社會資本和消費(fèi)結(jié)構(gòu)變量后,模型的CH得分相較于全樣本模型(CH得分為2 098.67)大幅降低,模型聚類效果變差(10)CH得分的差異也可能是因?yàn)槟P偷臉颖玖坎煌鶎?dǎo)致。。因此可以認(rèn)為,對于CGSS 2017所調(diào)查的這一部分人而言,社會資本和消費(fèi)結(jié)構(gòu)對于階層測量和階層劃分而言作用不大(11)這一結(jié)論還需要更多數(shù)據(jù)驗(yàn)證,因CGSS 2017對社會資本的測量比較簡略,且回答了社會資本和消費(fèi)結(jié)果問題的樣本量較少。。

        表6 社會資本和消費(fèi)結(jié)構(gòu)階層劃分模型分類

        (三)區(qū)分社會階層最重要的維度

        上文通過聚類模型將社會劃分為低、中、高三個階層,并在模型對比中發(fā)現(xiàn)社會資本和文化資本中的消費(fèi)結(jié)構(gòu)特征并未對階層劃分起到重要作用。那么在其他特征中,什么才是區(qū)分不同社會階層最重要的維度呢?由于聚類模型的類別劃分原理綜合了所有特征屬性來計(jì)算樣本之間的相似性,是一個“黑箱操作”,故無法得知人們哪些特征上的相似或差異在決定被劃分到哪個群體時的作用更大。為了找出社會分層最重要的維度,本文將這個問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)分類模型的特征選擇問題,即從個體的階層類別來反推識別階層類別最重要的特征。具體而言,以全樣本聚類模型對個體的階層歸類作為個體的真實(shí)階層類別,然后基于全樣本數(shù)據(jù)中的52個特征訓(xùn)練出能夠準(zhǔn)確識別每個個體階層類別的決策樹模型,最后比較每個特征對于模型分類的重要性,重要性最高的特征便是判斷個體階層類別的最重要特征。

        在訓(xùn)練決策樹時,首先將全部樣本按照1∶1的比例隨機(jī)劃分成訓(xùn)練集和測試集兩個部分,用訓(xùn)練集訓(xùn)練模型,用測試集評估模型預(yù)測效果。在不經(jīng)過任何調(diào)參的情況下,使用不同的初始狀態(tài)運(yùn)行1 000次,模型均可達(dá)到90%左右的準(zhǔn)確率(12)1 000個模型準(zhǔn)確率均值為0.91,標(biāo)準(zhǔn)差為0.005,最大值為0.92,最小值為0.89。,因此可以認(rèn)為該簡潔模型對個體階層的識別能力可以達(dá)到分析要求(13)由于本文關(guān)注的是特征的重要性而不是模型的預(yù)測準(zhǔn)確率,模型能夠識別絕大多數(shù)樣本的階層,說明當(dāng)前的特征分析機(jī)制已經(jīng)滿足了模型預(yù)測的需求。。

        通過對全樣本階層聚類模型中所使用的52個特征(變量)的重要性進(jìn)行分析,發(fā)現(xiàn)絕大部分(96%)特征對判斷個體階層的重要性都不足0.1。筆者選取了對預(yù)測階層類別的重要程度大于0.01的特征(變量)在圖7中進(jìn)行展示,預(yù)測個體階層類別最重要的是“單位類型”,其次是“職業(yè)社會經(jīng)濟(jì)地位得分”。也就是說,當(dāng)前在我國階層測量中最重要的因素是單位類型和職業(yè)社會經(jīng)濟(jì)地位得分。筆者通過僅使用以上兩個特征對全樣本數(shù)據(jù)進(jìn)行簇?cái)?shù)為3的K-means聚類分析來對這一發(fā)現(xiàn)進(jìn)行進(jìn)一步驗(yàn)證,結(jié)果發(fā)現(xiàn),僅使用兩個特征的聚類模型的平均類別不一致性為27.2%,也就是說,僅使用單位類型和職業(yè)社會經(jīng)濟(jì)地位便能夠?qū)崿F(xiàn)對70%以上的人口群體進(jìn)行準(zhǔn)確的階層劃分。并且,模型對低階層的識別更好(低階層的類別不一致性低至6%)。此外,該模型按兩個特征聚類模型的階層分類在全樣本數(shù)據(jù)的所有特征上計(jì)算CH得分,所得出的CH得分(1 458.51)甚至比上述社會資本模型和社會網(wǎng)絡(luò)模型的CH得分都要高。因此可以基本確認(rèn)單位類型和職業(yè)社會經(jīng)濟(jì)地位是我國階層劃分最重要的維度。

        圖7 階層測量特征的重要性

        那么,各階層的單位類型到底存在何種差異呢?如表7所示,三個階層成員的單位類型均有各自的特征:低階層主要由務(wù)農(nóng)和無工作的人口構(gòu)成,高階層則有50%以上的成員主要來自國家機(jī)關(guān)、事業(yè)單位、國企、集體企業(yè)等體制內(nèi)的工作單位,且有部分(30%左右)成員來自民營企業(yè)、私企和外企;而中等階層的單位類型則以個體工商戶和自由職業(yè)者(34.61%)以及民營、私企(25.6%)為主,也有一部分成員(35.7%)來自體制內(nèi)工作單位。

        表7 各階層單位類型占比 %

        需要說明的是,雖然單位類型是劃分我國社會階層最重要的維度,且三個階層的單位類型構(gòu)成的確存在差異,但這并不意味著可以依據(jù)單位類型直接對社會階層進(jìn)行劃分,這也是本文構(gòu)建的模型和傳統(tǒng)分層模型的最大差別,即傳統(tǒng)的分層方法是以變量為中心,即可以根據(jù)一些有重要經(jīng)濟(jì)社會差異的類別變量(如單位類型)對模型進(jìn)行定類劃分,或者根據(jù)可以反映社會經(jīng)濟(jì)等級的連續(xù)變量(如ISEI)進(jìn)行“劃線切割”,但由圖8可知,單位類型相同的人可能會被劃分到不同的階層,職業(yè)社會經(jīng)濟(jì)地位得分相同的人也可能被劃分到不同的階層。而本文構(gòu)建的理論與數(shù)據(jù)雙驅(qū)動模型的分層是以人群為中心,根據(jù)不同的特征計(jì)算出人與人之間的距離,并將類別和等級屬性相似的人聚集在一起,從而保證階層內(nèi)部成員盡可能相似且不同階層之間差異的最大化。

        四、結(jié)論與討論

        如何測量和劃分社會階層是社會分層研究者長期爭論的焦點(diǎn)。我國社會學(xué)研究者對如何分層作出了許多嘗試,提出了豐富的階層測量方法和分層體系,得出了對我國社會階層結(jié)構(gòu)的不同看法,但這些研究都面臨一個問題——階層測量和階層劃分的真實(shí)性和有效性難以在現(xiàn)實(shí)中得到驗(yàn)證。在大數(shù)據(jù)時代,盡管一些研究者作出了基于社會現(xiàn)實(shí)(大量的、真實(shí)的數(shù)據(jù))測量階層的嘗試,但由于其數(shù)據(jù)的限制導(dǎo)致其測量指標(biāo)可能并不是區(qū)分階層的關(guān)鍵。本文在回顧社會分層理論和研究中的經(jīng)典分層理論、方法模型和具有代表性的分層研究后,將當(dāng)前的社會分層方法歸納為理論和數(shù)據(jù)驅(qū)動的兩種階層測量范式,通過對比兩種范式下的分層方法,發(fā)現(xiàn)二者各自存在弊端。為此,嘗試提出將二者結(jié)合起來的理論與數(shù)據(jù)雙驅(qū)動的階層測量框架:理論驅(qū)動在于根據(jù)過往分層理論中提出的對階層劃分有意義的資源(要素)整合了7種分層要素及其操作化方法,基于布勞的宏觀社會結(jié)構(gòu)理論來構(gòu)建分層的社會階層空間;數(shù)據(jù)驅(qū)動在于使用無監(jiān)督聚類方法,完全由機(jī)器決定社會應(yīng)該分為幾個階層,以及每個階層包含哪些人。

        在數(shù)據(jù)與理論雙驅(qū)動的階層測量框架下,本文使用CGSS 2017數(shù)據(jù)對中國的社會階層進(jìn)行劃分。首先使用簡潔模型來驗(yàn)證所提出的分層框架和方法的有效性,發(fā)現(xiàn)使用無監(jiān)督聚類模型可以有效識別出社會空間中的不同階層,并且發(fā)現(xiàn)了現(xiàn)實(shí)中存在階層地位不一致現(xiàn)象。本文所構(gòu)建的模型既可以識別出已經(jīng)形成階層邊界的高地位一致性的階層,也可以識別出階層邊界尚不清晰的低地位一致性的利益群體。

        之后建構(gòu)了包含經(jīng)濟(jì)資源、職業(yè)資源、人力資本、文化資源、單位地位和制度分割、民權(quán)資源6大分層要素共52個維度的高維社會階層空間,并使用聚類模型進(jìn)行階層劃分,結(jié)果顯示,高維空間中的人口可被劃分為三個子群體,通過比較三個子群體在收入、聲望、職業(yè)社會經(jīng)濟(jì)地位、人力資本和文化資本上的差異,發(fā)現(xiàn)這三個邊界清晰的群體代表著我國社會低、中、高三個階層,且這三個階層具有高地位一致性。接著使用社會資本模型和消費(fèi)結(jié)構(gòu)模型對人口進(jìn)行分層,通過對比這兩個模型與全樣本模型的分類一致性,發(fā)現(xiàn)加入社會資本和消費(fèi)結(jié)構(gòu)的相關(guān)變量并不會引起分層結(jié)果的改變,并且在考慮更多特征后,模型的性能反而下降。也就是說,社會資本和消費(fèi)結(jié)構(gòu)特征對社會分層的作用不大。

        那么社會分層最重要的指標(biāo)究竟為何呢?本文進(jìn)一步使用機(jī)器學(xué)習(xí)的決策樹模型分析了每個指標(biāo)(特征)對于測量(預(yù)測)個體階層等級的重要性。結(jié)果發(fā)現(xiàn),在我國,單位類型是社會分層最重要的指標(biāo),職業(yè)社會經(jīng)濟(jì)地位次之,而其他特征對估計(jì)個體社會階層的重要性微乎其微。進(jìn)一步使用僅含有單位類型和社會經(jīng)濟(jì)地位得分的模型進(jìn)行階層劃分,結(jié)果鞏固了這一結(jié)論:當(dāng)僅考慮單位類型和職業(yè)社會經(jīng)濟(jì)地位水平時,模型對70%人口的階層劃分與考慮52個指標(biāo)時并無差異。

        本研究還存在一些需要改進(jìn)之處。首先,在分層指標(biāo)的操作化上,由于數(shù)據(jù)的局限性,對社會資本的測量較為簡單,只考慮了個體的網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)所蘊(yùn)含資源的最高可達(dá)性和異質(zhì)性,還需要收集更多社會網(wǎng)絡(luò)結(jié)構(gòu)和整體網(wǎng)的數(shù)據(jù),將個體網(wǎng)絡(luò)結(jié)構(gòu)和個體在整體網(wǎng)絡(luò)結(jié)構(gòu)中所處的位置納入社會資本的測量中。其次,本文所得出的“社會資本和消費(fèi)結(jié)構(gòu)特征對于階層劃分意義不大”的結(jié)論是基于CGSS 2017的數(shù)據(jù)得出的結(jié)果,但由于CGSS 2017在詢問社會網(wǎng)絡(luò)相關(guān)議題時,只是隨機(jī)選擇了1/3的受訪者進(jìn)行填答,因此樣本量較全樣本而言有較大損失。雖然進(jìn)行了多種驗(yàn)證發(fā)現(xiàn)這一結(jié)論具有穩(wěn)健性,但若條件允許,在同一個樣本上進(jìn)行比較更為嚴(yán)謹(jǐn)。最后,本研究只是基于CGSS 2017數(shù)據(jù),得出結(jié)論的穩(wěn)健性還需要進(jìn)一步使用其他數(shù)據(jù)進(jìn)行驗(yàn)證。

        此外,本研究僅僅是對社會分層方法上的探索,并基于這一方法對我國的社會階層劃分作出嘗試。今后可以努力的方向還有很多,例如使用其他國家的數(shù)據(jù),利用這一方法進(jìn)行國際社會分層的比較等。同時,階層是一種社會結(jié)構(gòu)的維度,當(dāng)前對社會階層的劃分主要采取的是地位結(jié)構(gòu)觀這一理論視角,即把階層視為屬性和等級不同的群體,但社會結(jié)構(gòu)還有另外一種理論視角——網(wǎng)絡(luò)結(jié)構(gòu)觀,在這一視角下,對群體的劃分一般采用社團(tuán)分割的辦法——基于人與人之間實(shí)際存在的交往關(guān)系所形成的群體分化來進(jìn)行階層劃分,這種方法仍然值得探索。社會分層包含兩個層面,一是測量和劃分階層,本文已進(jìn)行了探索;二是理解階層結(jié)構(gòu)是如何形成的以及如何隨著社會的發(fā)展而產(chǎn)生變化的,這也是筆者下一步努力的方向。

        猜你喜歡
        測量資源模型
        一半模型
        基礎(chǔ)教育資源展示
        重要模型『一線三等角』
        一樣的資源,不一樣的收獲
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        把握四個“三” 測量變簡單
        滑動摩擦力的測量和計(jì)算
        資源回收
        滑動摩擦力的測量與計(jì)算
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        青青自拍视频成人免费观看| 亚洲一区二区三区无码国产| 欧美综合自拍亚洲综合图片区 | 人人爽久久涩噜噜噜av| 四虎影视永久在线精品| 69av视频在线| 国产在线观看一区二区三区av| 亚洲国产精品久久无人区| 久久人人爽爽爽人久久久| www插插插无码免费视频网站 | 欧美成人网视频| 你懂的视频在线看播放| 亚洲人成影院在线无码按摩店 | 一区二区三区日韩亚洲中文视频| 日韩女优中文字幕在线| 一级内射免费观看视频| 人人鲁人人莫人人爱精品| 国产色综合天天综合网| 亚洲国产精品无码久久九九大片健| 午夜一区二区在线视频| av成人综合在线资源站| 精品国产免费一区二区三区香蕉| 小宝极品内射国产在线| 91久久久久无码精品露脸| 人妻乱交手机在线播放| 黑人大群体交免费视频| 国产超碰人人做人人爱ⅴa| 亚洲无码视频一区:| 日本韩国亚洲三级在线| 人禽交 欧美 网站| 91国视频| 亚洲国产免费一区二区| 天天做天天爱夜夜夜爽毛片 | 一区二区高清视频免费在线观看| 图片小说视频一区二区| 风韵饥渴少妇在线观看| 熟妇人妻不卡中文字幕| 亚洲一区二区三区精品视频| 国产裸体舞一区二区三区| 四虎精品影视| 国产又色又爽的视频在线观看91 |