亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)研究中信息的提取與壓縮

        2011-02-20 00:56:30侯燕芳
        陜西科技大學(xué)學(xué)報 2011年4期
        關(guān)鍵詞:科技人才維數(shù)特征值

        鄭 勇, 侯燕芳

        (1.陜西科技大學(xué)圖書館, 陜西 西安 710021;2.陜西省社會科學(xué)院, 陜西 西安 710065)

        0 引 言

        共引分析自誕生以來,其理論和方法逐漸成熟,由于分析結(jié)果的客觀性,使得它已成為一種可靠實用的情報研究方法.目前共引分析的應(yīng)用范圍還主要集中在情報學(xué)、生物、醫(yī)學(xué)、農(nóng)業(yè)等學(xué)科領(lǐng)域,尚少見有與工業(yè)等第二產(chǎn)業(yè)直接掛鉤的[1].特別是在陜西省,這方面的應(yīng)用研究尚處于空白,因此如能將其應(yīng)用范圍擴大到產(chǎn)業(yè)領(lǐng)域,研究產(chǎn)業(yè)發(fā)展與科技人員群體結(jié)構(gòu)特征之間的直接關(guān)聯(lián),則對于促進(jìn)某些產(chǎn)業(yè)的健康、快速發(fā)展將是一件很有意義的工作.

        我們已經(jīng)利用作者同被引分析(ACA)技術(shù)[2]完成了對我省典型學(xué)科專業(yè)的演進(jìn)研究和典型行業(yè)的科技人才群體結(jié)構(gòu)特征的提取方法及地區(qū)間的比較研究[3-5].本文將進(jìn)一步深入地討論產(chǎn)業(yè)發(fā)展指標(biāo)的選取、高維數(shù)據(jù)集的降維等關(guān)聯(lián)研究中的若干特征之表征問題,并對關(guān)聯(lián)的計算方法進(jìn)行初步的探討.

        1 產(chǎn)業(yè)發(fā)展指標(biāo)的選取與分類

        產(chǎn)業(yè)和科技人才群體是社會-經(jīng)濟(jì)大系統(tǒng)里的兩個小“系統(tǒng)”,我們可以分別研究這兩個系統(tǒng),也可以在更廣大的范圍的大系統(tǒng)中將它們作為兩個“子系統(tǒng)”來研究它們之間的關(guān)聯(lián).要想研究產(chǎn)業(yè)發(fā)展與科技人才群體結(jié)構(gòu)之間的關(guān)聯(lián),首先要搞清每個系統(tǒng)中包含有哪些起決定性作用的要素,分別提取系統(tǒng)的特征或表征,確定系統(tǒng)內(nèi)部和它們之間關(guān)聯(lián)的途徑,即可確定系統(tǒng)的結(jié)構(gòu),然后對于表明這些關(guān)聯(lián)的“鏈條”上的作用強度進(jìn)行量化和計算,并作出人文社會科學(xué)意義下的詮釋.只有全部完成了上述任務(wù),才能說是對關(guān)聯(lián)做了完整的、充分的分析與研究.

        在科技人才群體這個系統(tǒng)中,要素即是核心作者.在本課題的研究中,認(rèn)為核心作者之間是以同被引關(guān)系作為關(guān)聯(lián)的途徑和鏈條的.正是通過這種同被引關(guān)系構(gòu)成了一種網(wǎng)狀結(jié)構(gòu),組成了一個“群體”,即所謂的“系統(tǒng)”.關(guān)于科技人才群體結(jié)構(gòu)的特征及其提取問題,我們已經(jīng)做過詳細(xì)的研究,此處不再重復(fù).這些特征可以被用來研究與產(chǎn)業(yè)發(fā)展的關(guān)聯(lián).現(xiàn)在的問題是要考察和提取哪些可以表征產(chǎn)業(yè)發(fā)展的要素與指標(biāo).

        在國民經(jīng)濟(jì)中,產(chǎn)業(yè)通常被劃分為第一產(chǎn)業(yè)、第二產(chǎn)業(yè)和第三產(chǎn)業(yè).第一產(chǎn)業(yè)是指農(nóng)、林、牧、漁業(yè).第二產(chǎn)業(yè)是指采礦業(yè)、制造業(yè)、電力、燃?xì)饧八纳a(chǎn)和供應(yīng)業(yè)、建筑業(yè).第三產(chǎn)業(yè)是指除第一、二產(chǎn)業(yè)以外的其他行業(yè).我們將以第二產(chǎn)業(yè)(除了建筑業(yè))的工業(yè)企業(yè)作為“產(chǎn)業(yè)”的代表進(jìn)行其發(fā)展表征與關(guān)聯(lián)研究.國民經(jīng)濟(jì)的一些產(chǎn)業(yè)的主要經(jīng)濟(jì)指標(biāo)可以從各種統(tǒng)計年鑒等出版物或相關(guān)的數(shù)據(jù)庫中找到,但其指標(biāo)非常龐雜,常給研究工作帶來許多困擾,因此需要經(jīng)過仔細(xì)挑選,才能確定對于某項研究所需的要素.

        2004年,我國曾開展了第一次全國經(jīng)濟(jì)普查,獲得了大量翔實、準(zhǔn)確的資料.后來,依據(jù)這些資料匯編成《中國經(jīng)濟(jì)普查年鑒-2004》一書出版.全書共3卷4冊,即綜合卷、第二產(chǎn)業(yè)(上、下冊)和第三產(chǎn)業(yè)卷,并隨書提供光盤載體的數(shù)據(jù)庫.我們擬以此年鑒及其數(shù)據(jù)庫作為最主要的數(shù)據(jù)源之一,給出數(shù)字示例來說明產(chǎn)業(yè)發(fā)展的表征問題.為了研究產(chǎn)業(yè)發(fā)展的表征及其與科技人才群體結(jié)構(gòu)特征之間的關(guān)聯(lián),我們擬截取一個橫斷面,即對全國31個省、市、自治區(qū)(不包括臺、港、澳地區(qū))的全部工業(yè)企業(yè)的主要經(jīng)濟(jì)指標(biāo)進(jìn)行考察,從中選出與科學(xué)研究和技術(shù)開發(fā)等方面活動的關(guān)系比較密切的項目作為對象進(jìn)行研究.

        表1 選出的主要經(jīng)濟(jì)指標(biāo)

        如果我們進(jìn)一步地考察產(chǎn)業(yè)系統(tǒng),就會發(fā)現(xiàn)其內(nèi)部的結(jié)構(gòu)是十分復(fù)雜的.因此,在選定其要素時不僅要注意其總的數(shù)目,而且要注意到它們的類別.這種類別的區(qū)分雖然可以借助于多元統(tǒng)計分析的方法,但更多的時候可能需要經(jīng)濟(jì)學(xué)方面的知識.通常,我們可以把產(chǎn)業(yè)的主要經(jīng)濟(jì)指標(biāo)劃分為投入項和產(chǎn)出項,分別選取要素以研究變量間的相關(guān)關(guān)系.經(jīng)過縝密地考慮和仔細(xì)地挑選,我們選取16個投入項,同時選出對于經(jīng)濟(jì)效益比較重要的6個產(chǎn)出項作為對象進(jìn)行研究(表1).

        一般來講,如果“類”劃分得正確,那么同一類樣品的類內(nèi)平均距離應(yīng)當(dāng)比較小,而類間的平均距離則應(yīng)當(dāng)較大.

        我們按文獻(xiàn)[4]推薦的方法,以上面選出的產(chǎn)業(yè)的16個投入項和6個產(chǎn)出項分別作為兩“類”,計算類內(nèi)和類間的平均距離,得到的結(jié)果是投入項和產(chǎn)出項的類內(nèi)平均距離分別為4.51和3.83,而兩類間的平均距離則為7.24.由此可見,從產(chǎn)業(yè)系統(tǒng)地內(nèi)部結(jié)構(gòu)來看,投入項與產(chǎn)出項是明顯分開的,各自成類的,因此要分別進(jìn)行研究和應(yīng)用.

        2 數(shù)據(jù)集的降維與約簡

        按照我們選取的產(chǎn)業(yè)的投入項與產(chǎn)出項的數(shù)目,得出所采集到的投入項的數(shù)據(jù)集是16維的,其矩陣形式為31行×16列;類似地,產(chǎn)出項的數(shù)據(jù)集是6維的,其矩陣形式為31行×6列.可見,一個產(chǎn)業(yè)的主要經(jīng)濟(jì)指標(biāo)的數(shù)據(jù)集的維數(shù)是比較高的.

        顯然,隨著數(shù)據(jù)集維數(shù)的不斷提高,數(shù)據(jù)將提供有關(guān)客觀現(xiàn)象更加豐富、細(xì)致的信息,但同時又會給隨后的數(shù)據(jù)處理工作帶來前所未有的困難.這是因為常用的多元統(tǒng)計分析等方法只在數(shù)據(jù)集的維數(shù)不太高時才能有效地工作.當(dāng)維數(shù)較高時,就必須采取一定的措施才能使處理和計算正常地進(jìn)行,這類措施就是人們現(xiàn)在越來越多提及的數(shù)據(jù)集降維方法.

        一般地,我們可以認(rèn)為,無論何時,數(shù)據(jù)集的“本征維數(shù)”(或稱作“固有維數(shù)”)總是比其“表象維數(shù)”小的多.通常的降維處理就是將原始數(shù)據(jù)集約簡成只具有本征維數(shù)的新數(shù)據(jù)集,然后再進(jìn)行處理.降維處理不僅可獲得計算上的優(yōu)勢,還可大大改善數(shù)據(jù)的可理解性.實際的降維處理中,可采用線性方法,如主成分分析(PCA,Principal Component Analysis)具有簡單性、易解釋性、可延展性等優(yōu)點.現(xiàn)今,如何將高維數(shù)據(jù)表示在低維空間中,并由此發(fā)現(xiàn)其內(nèi)在結(jié)構(gòu)是有關(guān)高維信息處理的研究中關(guān)鍵的問題之一[6].

        依照高維數(shù)據(jù)集的降維理論,我們可以推知:并不一定需要將產(chǎn)業(yè)的主要經(jīng)濟(jì)指標(biāo)的數(shù)據(jù)集中的所有變量均作為要素加以收入.實際上,這些數(shù)據(jù)常被一定數(shù)目的基本參數(shù)所控制.為說明觀察到的數(shù)據(jù)的基本性質(zhì)所需要的參數(shù)的最小數(shù)目被稱之為數(shù)據(jù)集的“固有維數(shù)”,也就是所謂的“本征維數(shù)”,這些基本參數(shù)可能是單一的測量指標(biāo),也可能是它們的線性或非線性組合.

        在實際問題中,有效的特征主要都是通過研究者的直覺而找到的.固有維數(shù)在本質(zhì)上是數(shù)據(jù)集在空間中分布的局部特征.因此,如用聚類分析先進(jìn)行初步的聚類和分類, 適當(dāng)選取某些類中有代表性的樣品點作為中心,并在它的周圍建立一些小區(qū)域,則較容易估計其固有維數(shù).而估計局部區(qū)域固有維數(shù)最直接的方法是在該區(qū)域中計算樣本的協(xié)方差或相關(guān)系數(shù)矩陣的諸特征值,然后設(shè)定一個閾值,把大于此閾值的特征值的數(shù)目作為其固有維數(shù).閾值的選擇會影響到對維數(shù)的估計,其大小可根據(jù)情況取最大特征值的10%,5%或1%.

        如果我們根據(jù)對數(shù)據(jù)集固有維數(shù)的估計能找到真正有代表性的特征的話, 那么對于減少所需測量指標(biāo)的數(shù)目以及快速、深入地研究系統(tǒng)內(nèi)部之間的關(guān)聯(lián)等都是很有好處的.我們可以依據(jù)數(shù)據(jù)集的固有維數(shù)選定此數(shù)目的主要經(jīng)濟(jì)指標(biāo)或其組合作為產(chǎn)業(yè)系統(tǒng)的要素,并以其數(shù)值作為產(chǎn)業(yè)發(fā)展之表征.

        表2 投入項和產(chǎn)出項數(shù)據(jù)集矩陣的前3個特征值

        我們對所采集到的投入項和產(chǎn)出項的數(shù)據(jù)集分別采用PCA方法進(jìn)行了處理[7].投入項和產(chǎn)出項數(shù)據(jù)集矩陣的前3個特征值列于表2,而投入項和產(chǎn)出項各自的前2個因子的載荷則分別列于表3和表4.要指出的是,這些載荷都是因子經(jīng)過方差最大正交旋轉(zhuǎn)后的載荷,因此較大的載荷向少數(shù)幾個變量上轉(zhuǎn)移和集中,從而可以獲得更明晰的解釋.

        表3 投入項數(shù)據(jù)集的因子載荷

        由表2可以看到:對于投入項而言,第三特征值的數(shù)值已不到最大特征值的5%,第一(最大的)特征值的累積方差貢獻(xiàn)就達(dá)85.08%,即已超過了閾值85%,前二個特征值的累積方差貢獻(xiàn)更是超過了90%.因此可以推知,投入項數(shù)據(jù)集的固有維數(shù)最多只有1~2維,也就是說,可能只需一、二個指標(biāo)或其組合就可以把投入項數(shù)據(jù)集的變化解釋清楚.我們還檢查過這16個投入項之間的相關(guān)系數(shù),其數(shù)值都很高,絕大部分都在0.90以上.因此,可以說它們是“共線性”的,只需根據(jù)研究工作的實際需要任意地選定其中的一、二個指標(biāo)作為系統(tǒng)的要素,應(yīng)該都是可行的.如果我們再來看表3因子載荷表,根據(jù)其固有維數(shù)為1~2維,可以選因子Ⅰ作為系統(tǒng)的要素.在因子Ⅰ的變量組合中,依照載荷從大到小的排序,可以推知重要的及對于因子Ⅰ所起作用之強度較大的前5項是:1.技術(shù)改造經(jīng)費支出(XA03,因子載荷 0.905),2.(科技活動經(jīng)費外部支出) 對研究院所和高校支出(XA10,因子載荷 0.877),3.新產(chǎn)品開發(fā)項目數(shù)(XA07,因子載荷 0.845),4.R & D 項目數(shù)(XA14,因子載荷 0.821),5.企業(yè)單位數(shù)(XA02,因子載荷 0.792).

        同樣地,由表2還可以看到:對于產(chǎn)出項而言,第三特征值的數(shù)值也已不到最大特征值的5%,且第一(最大的)特征值的累積方差貢獻(xiàn)就高達(dá)91.43%.因此可以推知:產(chǎn)出項數(shù)據(jù)集的固有維數(shù)也只有1~2維.若再參看表4,可以判定產(chǎn)出項數(shù)據(jù)集的因子Ⅰ應(yīng)該是可以作為系統(tǒng)要素的一個變量組合,其中重要的,且作用強度較大的前3名指標(biāo)是:1.新產(chǎn)品產(chǎn)值(XA26,因子載荷 0.847),2.主營業(yè)務(wù)收入(XA23,因子載荷 0.684),3.全部工業(yè)總產(chǎn)值(XA21,因子載荷 0.674).

        通過以上分析和討論可見,利用高維數(shù)據(jù)集降維理論及多元統(tǒng)計分析技術(shù)確實可以使產(chǎn)業(yè)系統(tǒng)大為簡化,使我們有可能只用很少數(shù)的幾個指標(biāo)就可以完整地表征該系統(tǒng)的特征.而且,也使我們有可能去進(jìn)一步地探究該系統(tǒng)的內(nèi)部結(jié)構(gòu).

        3 關(guān)聯(lián)研究的方法

        產(chǎn)業(yè)發(fā)展之表征與科技人才群體結(jié)構(gòu)特征之間的關(guān)聯(lián),從數(shù)學(xué)上講也主要是一種相關(guān)關(guān)系.對于變量(組)之間的相關(guān)關(guān)系,過去多采用相關(guān)分析或方差分析等方法進(jìn)行研究.但由于一個完整的多元回歸分析中包含了相關(guān)分析、方差分析和回歸分析等幾方面的內(nèi)容,因此研究人員越來越愿意使用多元回歸分析及其衍生方法進(jìn)行計算與分析.在考察這種特定的關(guān)聯(lián)時,對于單(因變量)對多(自變量)的關(guān)聯(lián),可借用多元回歸分析等方法進(jìn)行計算,而對于多(變量)對多(變量)的兩組變量間的關(guān)聯(lián),則可以采用典型相關(guān)分析方法進(jìn)行計算.

        表4 產(chǎn)出項數(shù)據(jù)集的因子載荷

        在上面的工作中,我們已經(jīng)確認(rèn)在產(chǎn)業(yè)系統(tǒng)中,不論是投入項還是產(chǎn)出項,它們的數(shù)據(jù)集的固有維數(shù)都只有1~2維,因而數(shù)據(jù)結(jié)構(gòu)可以被大大地簡化.一般地,只要選1~2個指標(biāo)就已經(jīng)有了充分的代表性.這就使我們有可能借用多元回歸分析方法,將產(chǎn)業(yè)系統(tǒng)中的投入項或產(chǎn)出項中的某一項假設(shè)作“因變量”,而把幾個群體結(jié)構(gòu)特征設(shè)為“自變量”來考察因變量與自變量群之間的相關(guān)關(guān)系.我們知道:相關(guān)緊密程度的度量,并不會因為被設(shè)作因變量或自變量而改變,更不因此而改變變量間固有的、內(nèi)在的因果關(guān)系.所以,如果僅僅是為了考察其相關(guān)關(guān)系的話,那么回歸分析方法應(yīng)當(dāng)是可以借用的.由這些相關(guān)分析的結(jié)果,使我們有可能去進(jìn)一步地探究該系統(tǒng)內(nèi)部的關(guān)聯(lián)狀況,即系統(tǒng)的結(jié)構(gòu).有關(guān)系統(tǒng)結(jié)構(gòu)的研究將另文專述. 總之,要想研究產(chǎn)業(yè)發(fā)展與科技人才群體結(jié)構(gòu)之間的關(guān)聯(lián),首先要搞清每個系統(tǒng)中包含有哪些起決定性作用的要素,分別提取系統(tǒng)的特征或表征,確定系統(tǒng)內(nèi)部和它們之間的關(guān)聯(lián)的途徑,即確定系統(tǒng)的結(jié)構(gòu),然后對表明這些關(guān)聯(lián)的“鏈條”上的作用強度進(jìn)行量化和計算,并作出人文社會科學(xué)意義下的詮釋.只有全部完成了上述任務(wù),才能說是對關(guān)聯(lián)做了完整的、充分的分析與研究.

        4 結(jié)束語

        本工作以系統(tǒng)論的觀點,從情報學(xué)領(lǐng)域的引文分析入手,利用作者同被引分析(ACA)技術(shù),將產(chǎn)業(yè)和科技人才群體作為兩個系統(tǒng)一起放入社會-經(jīng)濟(jì)大系統(tǒng)中來考察它們之間的關(guān)聯(lián).本文介紹了產(chǎn)業(yè)發(fā)展指標(biāo)的選取,并應(yīng)用數(shù)理統(tǒng)計方法,更多地參照實際情況,對表征產(chǎn)業(yè)系統(tǒng)發(fā)展數(shù)據(jù)集進(jìn)行了降維處理,找出其固有維數(shù).因為該固有維數(shù)較低或很低,從而可大大簡化產(chǎn)業(yè)系統(tǒng)的結(jié)構(gòu),僅用少數(shù)或極少數(shù)指標(biāo)即可表征系統(tǒng)的特性,從而使后面的關(guān)聯(lián)研究變得十分簡單.只需調(diào)用一些比較簡單的多元統(tǒng)計分析方法,如多元回歸分析等就可定量地研究產(chǎn)業(yè)發(fā)展與科技人才群體結(jié)構(gòu)特征之間關(guān)聯(lián)的作用強度.還可以使研究者有可能進(jìn)一步構(gòu)建起社會-經(jīng)濟(jì)大系統(tǒng)的因果關(guān)系模型,并且更容易給出在人文社會科學(xué)意義下的詮釋.這一技術(shù)路線的成功實現(xiàn),對于關(guān)聯(lián)研究是至關(guān)重要的.

        參考文獻(xiàn)

        [1] 耿海英,肖仙桃.國外共引分析研究進(jìn)展及發(fā)展趨勢[J].情報雜志,2006,(12):68-69,72.

        [2] 馬費成,宋恩梅.我國情報學(xué)研究分析:以ACA為方法[J].情報學(xué)報,2006,25(3):259-268.

        [3] 方小容,艾學(xué)濤,蔣林宙,等.陜西皮革科技人才群體兩個十年的同被引分析與比較[J].陜西科技大學(xué)學(xué)報,2010,28(3):175-180.

        [4] 方小容.利用作者同被引分析技術(shù)對科技人才群體結(jié)構(gòu)特征提取方法的研究[J].現(xiàn)代圖書情報技術(shù),2010,(s):58-62.

        [5] 方小容,高檔妮.基于同被引技術(shù)的科技人才群體結(jié)構(gòu)特征的比較研究[J].情報雜志,2010,29(9):21-24.

        [6] 譚 璐.高維數(shù)據(jù)的降維理論及應(yīng)用[D].長沙:國防科學(xué)技術(shù)大學(xué)博士學(xué)位論文,2005.

        [7] 郭志剛.社會統(tǒng)計分析方法——SPSS軟件應(yīng)用[M].北京:中國人民大學(xué)出版社,1999:87-115.

        猜你喜歡
        科技人才維數(shù)特征值
        β-變換中一致丟番圖逼近問題的維數(shù)理論
        一類帶強制位勢的p-Laplace特征值問題
        單圈圖關(guān)聯(lián)矩陣的特征值
        一類齊次Moran集的上盒維數(shù)
        科技人才是發(fā)展的推動力
        商周刊(2018年18期)2018-09-21 09:14:44
        寧陜農(nóng)業(yè)科技人才助產(chǎn)業(yè)脫貧
        深入推進(jìn)科技人才組團(tuán)式援藏模式
        西藏科技(2016年10期)2016-09-26 09:01:49
        關(guān)于齊次Moran集的packing維數(shù)結(jié)果
        涉及相變問題Julia集的Hausdorff維數(shù)
        基于商奇異值分解的一類二次特征值反問題
        色偷偷888欧美精品久久久| 久久老子午夜精品无码| 国产高清亚洲精品视频| 亚洲国产精品av麻豆网站| 国产毛多水多高潮高清| 朝鲜女子内射杂交bbw| 国产一区二区精品久久凹凸| 后入少妇免费在线观看| 国产一区二区自拍刺激在线观看| 少妇我被躁爽到高潮在线影片| 寂寞人妻渴望被中出中文字幕| 国产精品无码午夜福利| 无码免费人妻超级碰碰碰碰| 亚洲人成18禁网站| 亚洲第一大av在线综合| 国产不卡视频在线观看| 美女网站免费福利视频| 女人与牲口性恔配视频免费| 无码国产一区二区色欲| 久久亚洲中文字幕精品二区| 精品国内在视频线2019| 在线观看午夜亚洲一区| 四虎成人精品国产一区a| 久久青青草原一区网站| 日日噜噜夜夜狠狠va视频v| 久久婷婷香蕉热狠狠综合| 中文字幕无码人妻丝袜| 日本一区中文字幕在线播放| 精品午夜福利在线观看| 狠狠色婷婷久久综合频道日韩| 五月天久久国产你懂的| 中文字幕乱码琪琪一区| 精品人妻av一区二区三区| 99re热视频这里只精品| 人妻少妇一区二区三区| 青青草视全福视频在线| 国产成人精品无码免费看| 97伦伦午夜电影理伦片| 精品综合久久久久久99| 丝袜美腿制服诱惑一区二区| 日本乱偷人妻中文字幕|