亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚類分析在高考成績研究主題發(fā)現(xiàn)中的應(yīng)用

        2017-05-31 19:39:38曹樹貴李文陳軍霞
        軟件導(dǎo)刊 2017年5期
        關(guān)鍵詞:類團(tuán)矩陣文獻(xiàn)

        曹樹貴 李文 陳軍霞

        摘要摘要:2006年以來,高考成績研究的學(xué)術(shù)關(guān)注度呈直線上升趨勢,探究該領(lǐng)域研究的主題分布,有助于對高考成績的深入研究及開發(fā)利用。以中國知網(wǎng)(CNKI)高考成績相關(guān)研究文獻(xiàn)為數(shù)據(jù)源,在對關(guān)鍵詞進(jìn)行數(shù)據(jù)清洗的基礎(chǔ)上,構(gòu)建高頻詞共現(xiàn)矩陣,繼而對共現(xiàn)矩陣進(jìn)行聚類分析,從而發(fā)現(xiàn)了高考成績相關(guān)研究的10個(gè)主題方向。

        關(guān)鍵詞關(guān)鍵詞:高考成績;共詞分析;聚類分析

        DOIDOI:10.11907/rjdk.171095

        中圖分類號(hào):TP319

        文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005013503

        0引言

        利用中國知網(wǎng)(CNKI)對高考成績相關(guān)文獻(xiàn)進(jìn)行指數(shù)分析,可以發(fā)現(xiàn)2006年以前,高考成績研究的學(xué)術(shù)關(guān)注度較低,且發(fā)展平穩(wěn),而2006年以后,高考成績研究的學(xué)術(shù)關(guān)注度呈現(xiàn)直線增長。探究該領(lǐng)域研究的主題分布,有助于對高考成績的深入廣泛研究及開發(fā)利用。

        1研究理論與方法

        本文以文獻(xiàn)關(guān)鍵詞為數(shù)據(jù)對象,采用聚類分析方法對高考成績相關(guān)研究文獻(xiàn)進(jìn)行分析,從而發(fā)現(xiàn)該領(lǐng)域的研究主題及分布。這里的關(guān)鍵詞指文獻(xiàn)中作者指定的旨在反映文章主題內(nèi)容的詞。當(dāng)兩個(gè)關(guān)鍵詞在同一篇文獻(xiàn)中出現(xiàn)時(shí),表明這兩個(gè)詞之間具有一定的內(nèi)在關(guān)系,并且出現(xiàn)次數(shù)越多,表明關(guān)系越密切、距離越近[1]。聚類分析是數(shù)據(jù)挖掘的典型方法,該方法根據(jù)數(shù)據(jù)對象的特征對研究個(gè)體進(jìn)行劃分,同一類中的個(gè)體具有較大相似性,而不同類的個(gè)體之間存在不同程度的差異[2]。聚類分析可根據(jù)文獻(xiàn)關(guān)鍵詞的距離,將關(guān)鍵詞分成不同類團(tuán),從而有助于發(fā)現(xiàn)所研究領(lǐng)域的主題分布情況。

        具體研究過程如下:①數(shù)據(jù)準(zhǔn)備:包括文獻(xiàn)題錄數(shù)據(jù)收集、文獻(xiàn)關(guān)鍵詞抽取、關(guān)鍵詞數(shù)據(jù)清洗、共現(xiàn)矩陣生成等環(huán)節(jié);②聚類分析:對關(guān)鍵詞共現(xiàn)矩陣采用SPSS聚類分析方法生成類團(tuán),對各類團(tuán)進(jìn)行解析,從而確定高考成績研究的主題。

        2數(shù)據(jù)準(zhǔn)備

        2.1數(shù)據(jù)收集

        文章以中國知網(wǎng)(CNKI)為文獻(xiàn)數(shù)據(jù)源,以“TI=高考 and主題=(成績+數(shù)據(jù)+分?jǐn)?shù))*(分析+統(tǒng)計(jì)+剖析+挖掘+評價(jià)+預(yù)測+實(shí)證+差異)”為檢索式,限定時(shí)間從2006~2015年,共獲得期刊文獻(xiàn)530篇,會(huì)議文獻(xiàn)25篇,博碩論文359篇。在此基礎(chǔ)上參照題名、關(guān)鍵詞、摘要進(jìn)行人工篩選,共獲得380篇文獻(xiàn)的題錄信息作為研究的數(shù)據(jù)對象,其中期刊文獻(xiàn)293篇,會(huì)議文獻(xiàn)19篇,博碩論文69篇。

        2.2數(shù)據(jù)清洗

        將采集到的文獻(xiàn)題錄導(dǎo)入到國內(nèi)學(xué)者劉啟元[3]開發(fā)的文獻(xiàn)題錄信息統(tǒng)計(jì)分析軟件SATI3.2中,抽取到文獻(xiàn)關(guān)鍵詞994個(gè),累計(jì)頻次1 640次。這些關(guān)鍵詞存在著過于寬泛、主題不相關(guān)、不規(guī)范、一意多詞等問題,因此利用3種方式對數(shù)據(jù)進(jìn)行清洗。

        (1) 舍棄。舍去過于寬泛的詞,如 “分析”;舍去與主題無關(guān)的詞,如“高潮期”。

        (2) 合并。合并意義相同或相近的詞,如將“相關(guān)性分析”、“相關(guān)分析”合并為“相關(guān)分析”。

        (3) 集中。將一些出現(xiàn)頻次較少但反映特定內(nèi)容的詞,集中起來用上位詞代替[4]。如將低頻詞“皮爾遜相關(guān)分析”、“偏相關(guān)分析”集中到高頻上位詞“相關(guān)分析”。

        2.3高頻關(guān)鍵詞提取

        高頻關(guān)鍵詞是出現(xiàn)頻率較高的關(guān)鍵詞,能很好地反映領(lǐng)域內(nèi)的關(guān)注點(diǎn)。數(shù)據(jù)清洗后,取頻次大于等于5的42個(gè)關(guān)鍵詞作為數(shù)據(jù)對象,表1列舉了部分高頻關(guān)鍵詞。

        2.4共現(xiàn)矩陣建立

        針對以上高頻關(guān)鍵詞建立高頻詞共現(xiàn)矩陣,矩陣數(shù)據(jù)為兩詞共現(xiàn)的頻次,對角線上數(shù)據(jù)為該詞出現(xiàn)總頻次,如表2所示。

        為避免關(guān)鍵詞共現(xiàn)頻次受各自詞頻大小的影響,采用Equivalence等價(jià)系數(shù)將共現(xiàn)矩陣轉(zhuǎn)化為元素值在[0,1]區(qū)間的相關(guān)矩陣。在此基礎(chǔ)上,用1與相似矩陣中的各個(gè)數(shù)字相減,以減小因0值過多帶來的計(jì)算誤差,得到高頻詞相異矩陣,如表3所示。相異矩陣中元素越接近于1,所對應(yīng)的行列關(guān)鍵詞相似度越?。辉浇咏?,所對應(yīng)的行列關(guān)鍵詞相似度越大[2]。

        Equivalence等價(jià)系數(shù)計(jì)算方式為[5]:

        Eij=CijCi×CijCj(1)

        其中,Eij為相似矩陣中第i個(gè)詞與第j個(gè)詞的等價(jià)系數(shù),即相似矩陣中對應(yīng)的元素值,Cij為共現(xiàn)矩陣中第i個(gè)詞與第j個(gè)詞的共現(xiàn)次數(shù),Ci、Cj分別為第i個(gè)詞與第j個(gè)詞的頻次。

        3聚類分析

        將相異矩陣導(dǎo)入SPSS20.0,進(jìn)行層次聚類分析(采用組間連接法,Euclidean區(qū)間距離)得到聚類樹,根據(jù)聚類樹可以獲得10個(gè)分別代表不同研究主題的關(guān)鍵詞類團(tuán):T1,T2,……T9,T10(見圖1)。

        現(xiàn)對各類團(tuán)關(guān)鍵詞及其代表的研究主題進(jìn)行詳細(xì)解析:

        (1)T1類團(tuán)關(guān)鍵詞包括:高考志愿、數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則、決策樹,代表數(shù)據(jù)挖掘相關(guān)技術(shù)在高考志愿分析中的應(yīng)用。數(shù)據(jù)倉庫與OLAP是商務(wù)智能領(lǐng)域的重要技術(shù)方法,采用數(shù)據(jù)倉庫及OLAP技術(shù)可以對大規(guī)模高考數(shù)據(jù)進(jìn)行有效集成,并進(jìn)行多維度分析;關(guān)聯(lián)規(guī)則挖掘、決策數(shù)挖掘是數(shù)據(jù)挖掘的常用技術(shù),可發(fā)現(xiàn)隱藏在高考成績、報(bào)考學(xué)校、專業(yè)、考生信息等多維度之間的規(guī)則,建立基于考生信息、成績信息、招生學(xué)校及專業(yè)信息的高招錄取預(yù)測模型,從而為志愿填報(bào)提供知識(shí)支撐。

        (2)T2類團(tuán)關(guān)鍵詞包括:高考英語、效度、信度,代表高考英語效度和信度研究。效度是衡量考試有效性和正確性的指標(biāo),信度是衡量考試可靠性、穩(wěn)定性和一致性程度的指標(biāo)[6]。在高考科目中,英語作為高考的重要考試科目,其效度及信度研究倍受關(guān)注。

        (3)T3類團(tuán)關(guān)鍵詞包括:高中生、自我效能,代表高中生自我效能對高考成績的影響研究。自我效能指人們對自己實(shí)現(xiàn)特定領(lǐng)域行為目標(biāo)所需能力的信心或信念[7]。在所考察的文獻(xiàn)中,高中生的自我效能對高考成績影響的研究文獻(xiàn)只有3篇,但已形成一個(gè)新的方向,受到一些學(xué)者的關(guān)注。

        (4)T4類團(tuán)關(guān)鍵詞包括:學(xué)業(yè)成績、差異分析、性別差異、城鄉(xiāng)差異、教育公平、高考改革,代表高考成績?nèi)后w差異研究。該主題關(guān)注的是高考成績中體現(xiàn)出不同群體學(xué)生的差異性,如性別差異、城鄉(xiāng)差異、區(qū)域差異、學(xué)校差異(如重點(diǎn)高中、普通高中)等,而群體差異的顯著性,引發(fā)了學(xué)者關(guān)于教育公平及高考改革的問題探討。

        (5)T5類團(tuán)關(guān)鍵詞包括:體育高考、影響因素、評分標(biāo)準(zhǔn),代表體育高考成績影響因素及評分標(biāo)準(zhǔn)研究。該主題主要探尋體育高考成績與項(xiàng)目內(nèi)容之間的關(guān)系及其它影響因素。另外,測試項(xiàng)目評分標(biāo)準(zhǔn)的制定及實(shí)施如何體現(xiàn)科學(xué)、合理、公平競爭的原則,也是研究方向之一。

        (6)T6類團(tuán)關(guān)鍵詞包括:模擬考試、預(yù)測、線性回歸、灰色系統(tǒng),代表報(bào)考預(yù)測研究,包括高考成績預(yù)測、分?jǐn)?shù)線預(yù)測、命題分布預(yù)測、報(bào)到率預(yù)測等。線性回歸模型是經(jīng)典預(yù)測模型之一,在高考成績預(yù)測中得到了較多的應(yīng)用。灰色系統(tǒng)理論則更適用于部分信息已知、部分信息未知的預(yù)測系統(tǒng)。對于高考預(yù)測而言,影響因素很多,但可度量的因素不多,解決這樣的問題,灰色預(yù)測模型具有一定優(yōu)勢。

        (7)T7類團(tuán)關(guān)鍵詞包括:教育質(zhì)量評價(jià)、增值評價(jià)、教育測量理論、Rasch模型、貝葉斯網(wǎng)絡(luò),代表教育質(zhì)量評價(jià)研究。教育測量理論是教育質(zhì)量評價(jià)的理論體系,Rasch測量是具有客觀等距量尺的測量,可克服經(jīng)典測量的測驗(yàn)工具依賴和樣本依賴的局限[8]。貝葉斯網(wǎng)絡(luò)是基于概率推理,并以圖論的形式來表達(dá)和描述數(shù)據(jù)實(shí)例中的關(guān)聯(lián)或因果關(guān)系的方法[9],可對教育質(zhì)量評價(jià)系統(tǒng)進(jìn)行建模,從而對教育質(zhì)量各影響因素進(jìn)行分析。

        (8)T8類團(tuán)關(guān)鍵詞包括:大學(xué)成績、大學(xué)英語、高等數(shù)學(xué)、相關(guān)分析、回歸分析、SPSS,代表高考成績與大學(xué)成績的相關(guān)性研究。該主題關(guān)注的是大學(xué)成績與高考成績的相關(guān)性,尤其是大學(xué)英語、高等數(shù)學(xué)等基礎(chǔ)課程與高考成績的相關(guān)性。建立高考成績與大學(xué)成績的回歸模型,可依據(jù)高考成績對大學(xué)成績作出預(yù)測,為高校招生或教學(xué)管理提供參考。SPSS在該類團(tuán)出現(xiàn),說明了該軟件在相關(guān)分析及回歸分析中得到了普遍應(yīng)用。

        (9)T9類團(tuán)關(guān)鍵詞包括:大學(xué)生、高等學(xué)校、高考招生、錄取、生源質(zhì)量,代表高考招生生源質(zhì)量研究。高考招生分?jǐn)?shù)在一定程度上代表了學(xué)校的生源質(zhì)量,對它的研究可以得出高校生源質(zhì)量的規(guī)律性認(rèn)識(shí)[10]。因此,基于高考成績的生源質(zhì)量分析、評價(jià)、規(guī)律探索等研究文獻(xiàn)近年來呈現(xiàn)增長趨勢。

        (10)T10類團(tuán)關(guān)鍵詞包括:難度、區(qū)分度,代表高考試卷區(qū)分度與難度研究。對于高考而言,難度是非常敏感的問題,受到考試設(shè)計(jì)者、教育考試機(jī)構(gòu)、學(xué)校、考生、教研部門的普遍關(guān)注[11],因而是試題分析的重要功能指標(biāo)。區(qū)分度,又稱為鑒別力,指試題對不同水平考生的區(qū)分程度,同樣是選拔性考試的另一個(gè)重要指標(biāo)。

        綜上所述,根據(jù)聚類分析所發(fā)現(xiàn)的高考成績研究主題如表4所示。

        另外,從聚類分析所得到的研究主題中,也可以發(fā)現(xiàn)目前研究的一些不足,主要表現(xiàn)在:①數(shù)據(jù)挖掘技術(shù)研究主要集中在高考志愿分析上,而在其它方面的研究不足;②高考信度和效度研究,集中在高考英語科目上,而對其它科目的研究不足;③針對體育高考成績的研究較多,而對藝術(shù)類高考成績研究很少;④高考成績與大學(xué)成績相關(guān)性研究主要體現(xiàn)在高等數(shù)學(xué)與英語等基礎(chǔ)課程上,而高考成績與專業(yè)課成績的相關(guān)性研究則相對較弱。

        4結(jié)語

        文章采用聚類分析方法發(fā)現(xiàn)了10個(gè)高考成績研究主題,以及高考成績研究方向上的不足。需要說明的是,以下因素或?qū)Ρ疚慕Y(jié)論的嚴(yán)謹(jǐn)性產(chǎn)生一定影響:①檢索文獻(xiàn)所采用的檢索式不能找到所有符合要求的文獻(xiàn);②在對關(guān)鍵詞的舍棄、合并、集中過程中帶有一定主觀性;③剔除低頻關(guān)鍵詞或共現(xiàn)強(qiáng)度弱的共詞對,將不利于探測潛在主題或處于上升期的主題[5] 。

        盡管受到以上因素的影響,本文結(jié)論或存在一定誤差,但總體方向上是正確的。筆者將在此基礎(chǔ)上,繼續(xù)探析高考成績研究主題的核心邊緣分布,從而發(fā)現(xiàn)哪些是核心主題,哪些是邊緣性主題,哪些是熱點(diǎn)主題以及有潛力的主題等。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]朱慶華, 彭希羨, 劉璇. 基于共詞分析的社會(huì)計(jì)算領(lǐng)域的研究主題[J]. 情報(bào)理論與實(shí)踐, 2012,35(12):711, 6.

        [2]王一博, 郭鑫, 王繼民. 國際大數(shù)據(jù)研究主題的可視化分析[J]. 數(shù)字圖書館論壇, 2014(7):5257.

        [3]劉啟元, 葉鷹. 文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)——以中外圖書情報(bào)學(xué)為例[J]. 信息資源管理學(xué)報(bào), 2012(1):5058.

        [4]錢澄, 李剛. 國內(nèi)近十年檔案網(wǎng)站研究的核心問題與熱點(diǎn)分析——基于2000-2011年學(xué)術(shù)文獻(xiàn)共詞分析[J]. 檔案與建設(shè), 2012(5):1317.

        [5]唐果媛, 張薇. 基于共詞分析法的學(xué)科主題演化研究進(jìn)展與分析[J]. 圖書情報(bào)工作, 2015(5):128136.

        [6]陳亞麗. 關(guān)于教育測量的要素分析[J]. 無錫商業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào), 2005(1):8384.

        [7]田常琴. 高三學(xué)生自我效能、自我妨礙對高考成績的影響[D]. 重慶:西南大學(xué), 2011.

        [8]王蕾. Rasch測量原理及在高考命題評價(jià)中的實(shí)證研究[J]. 中國考試:研究版, 2008(1):3239.

        [9]謝斌, 劉長建. 基于貝葉斯網(wǎng)絡(luò)構(gòu)建的學(xué)生成績評價(jià)系統(tǒng)及影響分析[J]. 中國科教創(chuàng)新導(dǎo)刊, 2011(31):3435.

        [10]羅良針, 張陽. 普通高校本科生源質(zhì)量規(guī)律研究——基于江西24所高校招生數(shù)據(jù)的實(shí)證分析[J]. 教育學(xué)術(shù)月刊, 2013(6):8689.

        [11]趙海燕, 臧鐵軍. CTT框架下基于數(shù)據(jù)分析的高考試題質(zhì)量評價(jià)標(biāo)準(zhǔn)——對20042008年高考北京卷的實(shí)證研究[J]. 中國考試:研究版, 2009(8):316.

        責(zé)任編輯(責(zé)任編輯:黃?。?

        猜你喜歡
        類團(tuán)矩陣文獻(xiàn)
        基于PubMed數(shù)據(jù)庫病人報(bào)告結(jié)局研究熱點(diǎn)的共詞聚類分析
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        初等行變換與初等列變換并用求逆矩陣
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        基于共詞分析和可視化的我國神經(jīng)病學(xué)領(lǐng)域熱點(diǎn)監(jiān)測
        中文字幕日本最新乱码视频| 精品一区二区三区人妻久久福利 | 国产免费一区二区三区在线视频| 亚洲国产天堂久久综合网| 国内嫩模自拍偷拍视频| 男女肉粗暴进来动态图| 成 人免费va视频| 狠狠色综合播放一区二区| 亚洲高清在线观看免费视频| 国产伦理自拍视频在线观看| 国产av天堂一区二区二区| 一本色道久久hezyo无码| 亚洲avav天堂av在线网爱情| 亚洲另类激情综合偷自拍图| 夫妻一起自拍内射小视频| 国产白浆流出一区二区| 久久精品国产亚洲av影院毛片| 精品国产免费一区二区三区香蕉| 人妻少妇精品视频专区| 久久日本三级韩国三级| 含羞草亚洲AV无码久久精品| 黄色三级视频中文字幕| av在线不卡一区二区| 精品久久久少妇一区二区| 国产精品毛片一区二区三区| 色狠狠一区二区三区香蕉| 国产不卡视频一区二区在线观看| 日本高清不卡二区三区| 狠狠色欧美亚洲狠狠色www| 欧美在线 | 亚洲| 天天躁日日躁狠狠躁av中文| 国产丝袜精品不卡| 青青草视全福视频在线| 国产一区二区三区仙踪林| 国产在线观看无码免费视频| 末发育娇小性色xxxxx视频| mm在线精品视频| 亚洲中文字幕在线第六区| 日韩在线精品视频一区| 久久午夜福利电影| 无码人妻精品一区二区三区不卡|