亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)規(guī)則的科研項(xiàng)目申報(bào)信息挖掘技術(shù)①

        2024-02-26 03:32:04高大菊
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

        高大菊

        (滁州城市職業(yè)學(xué)院,安徽 滁州 239000)

        0 引 言

        高校科研的核心力量是教師隊(duì)伍,科研項(xiàng)目的立項(xiàng)是評價(jià)教師科研能力的主要依據(jù),也是學(xué)??蒲泄芾砉ぷ鞯囊环N重要方式。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展為教師科研工作提供了強(qiáng)大支撐,通過關(guān)聯(lián)規(guī)則技術(shù)可以對科研數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)影響科研結(jié)果的關(guān)鍵性因素,并根據(jù)這些因素之間的聯(lián)系規(guī)律,為高校組織、協(xié)調(diào)和評價(jià)教師科研工作、作出科研決策提供科學(xué)依據(jù)。因此,如何從眾多科研項(xiàng)目申報(bào)資料中挖掘出隱藏的規(guī)律與知識,為高校教育和科研決策提供支持成為重要的研究項(xiàng)目。

        1 關(guān)聯(lián)規(guī)則數(shù)據(jù)概述

        1.1 基本概念

        1.1.1 數(shù)據(jù)項(xiàng)與數(shù)據(jù)項(xiàng)集

        假設(shè)I={i1,i2,…,im}為m個(gè)項(xiàng)目的集合,其中ix(k=1,2,…,m)被稱作數(shù)據(jù)項(xiàng) (Item),I為數(shù)據(jù)項(xiàng)集,簡稱項(xiàng)集(Itemset),項(xiàng)集的元素?cái)?shù)量被稱作該項(xiàng)集的長度,如長度為k的項(xiàng)集簡稱為k-項(xiàng)集[1]。

        1.1.2 事務(wù)

        事務(wù)T表示項(xiàng)集I中的子集,兩者關(guān)系表示為T?I,所有事務(wù)有且只有一個(gè)關(guān)聯(lián)的標(biāo)識符TID,不同事務(wù)組合成事務(wù)數(shù)據(jù)庫D。

        1.1.3 項(xiàng)集支持度

        假設(shè)X?I表示數(shù)據(jù)項(xiàng)集,B表示事務(wù)集D中包含項(xiàng)數(shù)據(jù)項(xiàng)集X的事務(wù)數(shù)量,A表示事務(wù)集D包含的事務(wù)總數(shù)量,數(shù)據(jù)項(xiàng)集X的支持度Support表示為:

        其中,Support(X)表示項(xiàng)集X的重要性。

        1.1.4 關(guān)聯(lián)規(guī)則

        關(guān)聯(lián)規(guī)則的表達(dá)式為:R:X?Y,其中X?I,Y?I,同時(shí)X∩Y=Φ,表示項(xiàng)集X如包含在某一事務(wù),則項(xiàng)集Y必定也包含在同一事務(wù)中。X為關(guān)聯(lián)規(guī)則先決條件,Y為關(guān)聯(lián)規(guī)則結(jié)果[2]。

        1.1.5 關(guān)聯(lián)規(guī)則置信度

        關(guān)聯(lián)規(guī)R的置信度(Confidence)可表示為:

        規(guī)則置信度衡量的是關(guān)聯(lián)規(guī)則的可靠程度。

        1.1.6 最小支持度與頻繁項(xiàng)集

        最小支持度表示發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的情況下,數(shù)據(jù)項(xiàng)需要滿足的最低支持門限值,衡量的是項(xiàng)集的最低重要程度。只有滿足最小支持度的情況下,數(shù)據(jù)項(xiàng)集才可能出現(xiàn)在關(guān)聯(lián)規(guī)則中,支持度高于最小支持度的數(shù)據(jù)項(xiàng)集叫做頻繁項(xiàng)集,反之,則為非頻繁項(xiàng)集。

        1.1.7 最小置信度

        最小置信度表示關(guān)聯(lián)規(guī)則需要達(dá)到的最低可信度,衡量的是關(guān)聯(lián)規(guī)則的最小可靠性。

        1.2 挖掘關(guān)聯(lián)規(guī)則的基本過程

        挖掘關(guān)聯(lián)規(guī)則基本流程如下[3]:

        (1)對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)填充、數(shù)據(jù)離散化;

        (2)確定支持門限最小值,置信度的最小值;

        (3)基于關(guān)聯(lián)規(guī)則挖掘算法挖掘出頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則;

        (4)對關(guān)聯(lián)規(guī)則進(jìn)行可視化生成和評價(jià)。

        可見,將關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘涉及以下兩個(gè)關(guān)鍵問題:

        (1)查找所有能符合最小支持度要求的頻繁項(xiàng)集,這一過程是數(shù)據(jù)挖掘中最關(guān)鍵的環(huán)節(jié);

        (2)基于最小置信度生成頻繁項(xiàng)集的決策規(guī)則。

        1.3 關(guān)聯(lián)規(guī)則算法研究

        Apriori是最典型的關(guān)聯(lián)法則的數(shù)據(jù)挖掘方法,該算法通過多趟掃描事務(wù)集D的方式找出全部頻繁項(xiàng)集[4]。其運(yùn)算主要基于以下兩個(gè)基本性質(zhì):

        (1)一個(gè)頻繁項(xiàng)集的子集必然也是頻繁項(xiàng)集。

        (2)一個(gè)非頻繁項(xiàng)集的超集必然也是非頻繁項(xiàng)集。

        如圖1所示,應(yīng)用Apriori算法進(jìn)行第一趟數(shù)據(jù)庫掃描時(shí),需計(jì)算項(xiàng)集I中所有數(shù)據(jù)項(xiàng)的支持度,找出符合最小支持度要求的1-頻繁項(xiàng)集L1。在接下來的第k趟掃描中,先將第k-1趟掃描找出的包含k-1個(gè)元素的頻繁項(xiàng)集的集合Lk-1組做為種子集,據(jù)此產(chǎn)生新的潛在k頻繁項(xiàng)集的集合,也就是候選集Ck,接著對數(shù)據(jù)庫進(jìn)行掃描,計(jì)算候選項(xiàng)的支持度,從中選出一組符合最小支持度要求的k頻繁項(xiàng)集集合Lk,并將其用作下一次掃描的種子集,不斷重復(fù)直到產(chǎn)生最后一個(gè)頻繁項(xiàng)集[5]。

        假定在數(shù)據(jù)庫中,所有事務(wù)的數(shù)據(jù)項(xiàng)均按字母次序排列,對于一個(gè)事務(wù)數(shù)據(jù)庫D,一個(gè)數(shù)據(jù)項(xiàng)集的支持度可被視為包括這個(gè)數(shù)項(xiàng)集的事務(wù)數(shù)。每個(gè)數(shù)據(jù)項(xiàng)集都有一個(gè)域Count用于存儲(chǔ)其支持度。

        2 基于關(guān)聯(lián)規(guī)則的科研項(xiàng)目申報(bào)信息挖掘

        挖掘過程包括數(shù)據(jù)準(zhǔn)備、關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)、規(guī)則解釋與表達(dá)三個(gè)部分[6]。以高校全部科研項(xiàng)目申報(bào)書中的信息為關(guān)聯(lián)規(guī)則挖掘?qū)ο?從多個(gè)相關(guān)數(shù)據(jù)表中挖掘出合適的屬性,構(gòu)建源數(shù)據(jù)表,并實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、離散化,進(jìn)而得到相應(yīng)的事務(wù)數(shù)據(jù)庫。

        2.1 數(shù)據(jù)準(zhǔn)備

        2.1.1 數(shù)據(jù)收集

        收集廣州城市職業(yè)學(xué)院2021年度的所有科研申報(bào)信息以及研人員人事數(shù)據(jù),并整理導(dǎo)出到excel表中,數(shù)據(jù)源主要包括教師個(gè)人信息表、立項(xiàng)科研項(xiàng)目信息表、未立項(xiàng)科研項(xiàng)目信息表。其中教師個(gè)人信息表主要包括員工編號、姓名、部門號、性別、出生日期、學(xué)位、學(xué)歷、專業(yè)、專業(yè)技術(shù)任職資格等;立項(xiàng)科研項(xiàng)目信息表主要包括項(xiàng)目編號、項(xiàng)目名稱、項(xiàng)目負(fù)責(zé)人編號、項(xiàng)目來源、項(xiàng)目級別、立項(xiàng)時(shí)間、計(jì)劃結(jié)項(xiàng)時(shí)間、資助經(jīng)費(fèi)、學(xué)校配套等;未立項(xiàng)科研項(xiàng)目信息表主要包括項(xiàng)目編號、項(xiàng)目名稱、負(fù)責(zé)人編號、項(xiàng)目來源、項(xiàng)目級別、計(jì)劃開始時(shí)間、計(jì)劃結(jié)項(xiàng)時(shí)間、申請經(jīng)費(fèi)等。

        圖1 Apriori算法流程

        2.1.2 數(shù)據(jù)預(yù)處理

        實(shí)踐中收集的數(shù)據(jù)往往存在噪聲、空缺、不一致等情況,需對其進(jìn)行預(yù)處理,以清楚噪聲,糾正不一致,確保數(shù)據(jù)挖掘效果。常用的預(yù)處理技術(shù)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。

        (1)數(shù)據(jù)清理。數(shù)據(jù)清理的方式主要包括填補(bǔ)空缺值,平滑噪聲數(shù)據(jù),識別、刪除孤立點(diǎn)等。采用計(jì)算機(jī)檢查和人工檢查結(jié)合的方式進(jìn)行數(shù)據(jù)清理。用屬性平均值或典型值填補(bǔ)空缺值,如年齡可用平均年齡填補(bǔ)空缺,職稱信息可用無職稱填補(bǔ)空缺,同時(shí)鏟掉冗余數(shù)據(jù),糾正數(shù)據(jù)不一致。

        (2)數(shù)據(jù)集成。集成不同數(shù)據(jù)源中的數(shù)據(jù)并存儲(chǔ)在同一個(gè)數(shù)據(jù)存儲(chǔ)中。如將已立項(xiàng)、未立項(xiàng)的科研項(xiàng)目信息、人員信息、申報(bào)書中的項(xiàng)目基礎(chǔ)數(shù)據(jù)集成構(gòu)成數(shù)據(jù)表,其結(jié)構(gòu)如表1所示。

        表1 集成后的科研項(xiàng)目數(shù)據(jù)表

        (3)數(shù)據(jù)歸約。集成后的數(shù)據(jù)量非常大,對其進(jìn)行分析挖掘需很大的資源開銷,為節(jié)省資源,提高挖掘效率,需進(jìn)行數(shù)據(jù)歸約,在保證數(shù)據(jù)完整性的前提下盡量縮小數(shù)據(jù)挖掘規(guī)模。數(shù)據(jù)歸約方法主要包括立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化等。本次研究采用維歸約、數(shù)值壓縮、離散化三種方式縮減數(shù)據(jù)量。

        維規(guī)約,對于項(xiàng)目編號、項(xiàng)目名稱、負(fù)責(zé)人編號、負(fù)責(zé)人姓名等對項(xiàng)目是否立項(xiàng)沒有顯著影響的屬性可刪除;而副高職稱以上人員的比例及碩士學(xué)位以上人員的比例與人員的絕對數(shù)相比較,更能體現(xiàn)項(xiàng)目成員結(jié)構(gòu),因此可刪除副高以上人數(shù)、碩士以上人數(shù)者兩個(gè)屬性;此外,該高校只有少量項(xiàng)目存在合作單位,故刪除該屬性。

        先選取一批凝聚點(diǎn),再使樣品向最近凝聚點(diǎn)凝聚成類,得到原始分類,樣品歸入后重新計(jì)算分類的重心,替換原有的凝聚點(diǎn),再計(jì)算下一個(gè)樣品的歸類,直至全部樣品均歸類。動(dòng)態(tài)聚類的基本原理如圖2所示。

        圖2 動(dòng)態(tài)聚類基本原理

        合理劃分屬性區(qū)間,建立各屬性對應(yīng)的變量映射表,逐條掃描數(shù)據(jù)庫記錄,按照映射表中的對應(yīng)變量名填充到事務(wù)數(shù)據(jù)表中的對應(yīng)位置,掃描完整個(gè)數(shù)據(jù)庫時(shí)即完成了關(guān)系數(shù)據(jù)庫到事務(wù)數(shù)據(jù)庫的轉(zhuǎn)換。

        2.2 科研項(xiàng)目申報(bào)信息挖掘過程

        運(yùn)用Apriori算法,結(jié)合實(shí)際數(shù)據(jù)以及經(jīng)試驗(yàn)得到最小支持度閾值為0.10,最小置信度閾值為0.80進(jìn)行關(guān)聯(lián)規(guī)則挖掘,同時(shí)滿足上述閾值要求的為強(qiáng)關(guān)聯(lián)規(guī)則,共計(jì)得到973條強(qiáng)關(guān)聯(lián)規(guī)則。

        2.3 規(guī)則的解釋及表達(dá)

        由于本次研究重點(diǎn)在于各指標(biāo)和項(xiàng)目是否立項(xiàng)的關(guān)聯(lián),故以是否立項(xiàng)作為約束條件,篩選出前、后條件包含項(xiàng)目是否立項(xiàng)的關(guān)聯(lián)規(guī)則,共計(jì)11條,如表2所示。

        表2 關(guān)聯(lián)規(guī)則的解釋及表達(dá)

        3 結(jié) 論

        根據(jù)上述關(guān)聯(lián)規(guī)則可得如下結(jié)論:

        (1)項(xiàng)目負(fù)責(zé)人學(xué)歷均為碩士以上,職稱均為講師以上,因此,教師需重視自己的學(xué)歷、學(xué)位和職稱的提高,同時(shí)學(xué)校應(yīng)該采取合理的激勵(lì)措施,促進(jìn)青年教師的專業(yè)發(fā)展,促進(jìn)高??蒲兴降奶嵘?

        (2)項(xiàng)目組人員結(jié)構(gòu):市廳級項(xiàng)目組人員數(shù)量通常為5-7個(gè),其它項(xiàng)目可以適當(dāng)增減,其中副高級以上的人員占比應(yīng)不低于29%,碩士以上學(xué)位的人員占比應(yīng)不低于49%,否則不大可能立項(xiàng)。審核科研申報(bào)項(xiàng)目時(shí)可以參考這個(gè)結(jié)論給負(fù)責(zé)人提出人員結(jié)構(gòu)優(yōu)化建議;

        (3)研究依據(jù):對相關(guān)研究成果的數(shù)量要求因人而異,其中,中級職稱教師的相關(guān)研究成果數(shù)應(yīng)不低于6個(gè),副高級教師的相關(guān)研究成果數(shù)應(yīng)不低于12個(gè);

        由于抽樣資料來自于單一高校的單年度科研項(xiàng)目申報(bào)數(shù)據(jù),研究結(jié)論存在局限,受最小支持度和最小置信度的閾值選擇的影響,產(chǎn)生的關(guān)聯(lián)規(guī)則不夠全面精準(zhǔn)。

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨(dú)的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        国产亚洲精品在线视频| 亚洲AⅤ永久无码精品AA| 亚洲av永久青草无码精品| 不卡av一区二区在线| www国产亚洲精品久久麻豆| 精品少妇人妻av一区二区| 无码人妻少妇久久中文字幕蜜桃 | 日本一区二区三区爱爱视频| 天天躁日日躁狠狠躁av麻豆| 摸进她的内裤里疯狂揉她动视频 | 日韩人妻无码精品久久免费一| 99re在线视频播放| 国产一区二区三区免费主播| 久久婷婷综合激情五月| 亚洲av鲁丝一区二区三区黄| 麻豆国产高清精品国在线| 日本福利视频免费久久久| 91自拍视频国产精品| 色偷偷噜噜噜亚洲男人| 国产欧美精品一区二区三区, | 91精品啪在线观看国产色| 日本免费三片在线视频| 无码人妻丰满熟妇啪啪网不卡| 成人做爰视频www| 欧美亚洲国产丝袜在线| 在线成人影院国产av| 欧美亚洲国产一区二区三区| 日韩手机在线免费视频| 91亚洲国产成人久久精品网站 | 蜜臀av一区二区| 激情亚洲综合熟女婷婷| 成人大片免费观看视频| 一品二品三品中文字幕| 亚洲VA中文字幕欧美VA丝袜| 隔壁人妻欲求不满中文字幕| 浪货趴办公桌~h揉秘书电影| 亚洲av区无码字幕中文色| 在线一区二区三区视频观看| 午夜免费观看日韩一级视频| 国产人妻精品一区二区三区| 国产国拍亚洲精品福利|