亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科研管理信息系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用探討

        2013-04-11 11:49:39

        王 鳴

        (華南師范大學(xué)經(jīng)濟(jì)與管理學(xué)院,廣東 廣州 510006)

        數(shù)據(jù)挖掘應(yīng)該更準(zhǔn)確地被命名為“從數(shù)據(jù)中挖掘知識(shí)”,在產(chǎn)業(yè)界、媒體和研究界,“數(shù)據(jù)挖掘”通常被用來(lái)表示整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程??梢砸暈榱硗庖粋€(gè)流行術(shù)語(yǔ)數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KDD)的同義詞,因此,廣義的數(shù)據(jù)挖掘的定義是:從大量數(shù)據(jù)中發(fā)掘有趣模式和知識(shí)的過(guò)程,數(shù)據(jù)源包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、Web、其他信息存儲(chǔ)庫(kù)或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)。

        一、科研管理信息系統(tǒng)的數(shù)據(jù)特征

        (一)標(biāo)準(zhǔn)性。數(shù)據(jù)多為標(biāo)準(zhǔn)字段,而不是文字描述。比如人員信息中,姓名、單位名稱、單位屬性、職稱、學(xué)歷、畢業(yè)院校等;成果中論文作者、論文名稱、發(fā)表時(shí)間、發(fā)表刊物等;項(xiàng)目成果里的項(xiàng)目名稱、立項(xiàng)時(shí)間、項(xiàng)目起止時(shí)間、經(jīng)費(fèi)等。標(biāo)準(zhǔn)數(shù)據(jù)有利于數(shù)據(jù)的收集、比對(duì)和整理。

        (二)延續(xù)性。連續(xù)的科研過(guò)程很重要。比如一般的系統(tǒng),都是記錄該人員已發(fā)表或立項(xiàng)了的成果,這類信息不夠全面。特別是對(duì)于項(xiàng)目申報(bào)、課題立項(xiàng),到課題完成這些時(shí)間點(diǎn)的記錄比較零散。如果數(shù)據(jù)能記錄時(shí)間上的屬性,則可以挖掘出很多有用的信息。隨著科研管理信息系統(tǒng)的使用,院校每年在各類科研申報(bào)中都能產(chǎn)生大量具備時(shí)間屬性的數(shù)據(jù)。

        (三)周期性。數(shù)據(jù)產(chǎn)生有一定的周期性。比如各類型科研項(xiàng)目的申報(bào)、立項(xiàng)、管理在每年不同時(shí)段都有較固定的時(shí)間。以科研項(xiàng)目為例,國(guó)家社會(huì)科學(xué)基金項(xiàng)目申請(qǐng)時(shí)間一般為每年的2-3月,國(guó)家自然科學(xué)基金項(xiàng)目 (管理科學(xué))一般為3月,全國(guó)教育科學(xué)規(guī)劃項(xiàng)目一般為3-5月,等等,這些數(shù)據(jù)隨著年份的推進(jìn),其產(chǎn)生具有一定的周期性。

        (四)實(shí)時(shí)性。科研管理信息系統(tǒng)能提供數(shù)據(jù)的實(shí)時(shí)錄入和實(shí)時(shí)查詢。系統(tǒng)是以人員、管理單位為用戶。教師個(gè)人、各級(jí)管理單位都通過(guò)賬戶登錄系統(tǒng)填報(bào)或查詢。由此產(chǎn)生實(shí)時(shí)性、標(biāo)準(zhǔn)化的數(shù)據(jù)。同時(shí)各級(jí)管理用戶都能查看到這些實(shí)時(shí)數(shù)據(jù),包括用戶的操作記錄,比如用戶登錄、查詢和點(diǎn)擊記錄等。

        (五)關(guān)聯(lián)性。科研管理信息系統(tǒng)的數(shù)據(jù)由于具有人員、成果、活動(dòng)、時(shí)間四個(gè)維度的多種組合,具有高度的關(guān)聯(lián)性。特定的人員與特定的成果、活動(dòng)、時(shí)間相關(guān)聯(lián),同理兩兩相關(guān),共可衍生出16類數(shù)據(jù),如人員-成果、人員-活動(dòng)、人員-時(shí)間、人員-人員;等等。以人員-成果為例,用于分析特定人員范圍的成果,而成果-人員則用于分析特定成果的人員組成。其他潛在的關(guān)聯(lián)性可通過(guò)數(shù)據(jù)挖掘來(lái)揭示。

        二、科研數(shù)據(jù)挖掘的主題目的

        (一)以科研成果匯總為主題。這是利用科研數(shù)據(jù)的首要主題,也是目前最為普遍應(yīng)用的主題。科研成果的匯總主要以三個(gè)維度為基礎(chǔ):(1)時(shí)間范圍;(2)人員范圍;(3)成果范圍。這些匯總可提供各類統(tǒng)計(jì)數(shù)據(jù)。首先是常規(guī)性的科研業(yè)績(jī)考核,需要將每年度每個(gè)單位的科研成果匯總。其次是項(xiàng)目性的整體績(jī)效反饋,比如211三期驗(yàn)收、第九輪省重點(diǎn)學(xué)科建設(shè)總結(jié)等,需要提供整體績(jī)效數(shù)據(jù)。

        (二)以學(xué)科建設(shè)支持為主題。在各高等院校、科研院所越來(lái)越重視學(xué)科建設(shè)的背景下,這一主題越來(lái)越得到關(guān)注。通過(guò)收集單位內(nèi)外科研活動(dòng)、科研成果等信息,包括人才引進(jìn)、團(tuán)隊(duì)組建、沙龍活動(dòng)、信息平臺(tái)(QQ群、微博、其他學(xué)習(xí)型社區(qū))等,結(jié)合科研單位的學(xué)科發(fā)展情況,可以得出一些學(xué)科發(fā)展規(guī)律,為單位的學(xué)科建設(shè)提供決策支持,有意識(shí)地引導(dǎo)單位的學(xué)科發(fā)展,從而更好地指導(dǎo)未來(lái)的學(xué)科建設(shè)。

        (三)以科研人員培養(yǎng)為主題??蒲腥藛T的成才成長(zhǎng)規(guī)律一直是高等教育學(xué)、人才學(xué)等學(xué)科關(guān)注的主題,然而以往難以找到合適的定量技術(shù)加以研究。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)和成熟,為這一主題提供了工具。以人員活動(dòng)為主題的挖掘也有一些有用的應(yīng)用,比如:記錄教師的一些重要的科研活動(dòng)信息,包括學(xué)術(shù)交流(內(nèi)容、日期)、發(fā)表論文的日期、創(chuàng)建科研團(tuán)隊(duì)等,再結(jié)合一些成果信息或?qū)W界對(duì)其評(píng)價(jià)肯定[1],也可得出一些規(guī)律。

        三、科研數(shù)據(jù)的挖掘

        (一)挖掘的內(nèi)容??蒲袛?shù)據(jù)中可供挖掘的各類相關(guān)、關(guān)聯(lián)關(guān)系:

        (1)人員信息與科研成果關(guān)系

        (2)本單位發(fā)表的期刊偏好,這里指發(fā)表單位與期刊之間的雙向選擇

        (3)個(gè)人與單位整體的科研成果關(guān)系

        (4)科研成果與科研活動(dòng)的關(guān)系

        (5)學(xué)科發(fā)展與各類科研活動(dòng)關(guān)系

        (6)各類成果之間的關(guān)系,包括時(shí)間先后關(guān)系、相關(guān)相似關(guān)系、緊密或松散關(guān)系

        (7)人員操作習(xí)慣隱含的科研導(dǎo)向性,比如通過(guò)點(diǎn)擊頻率或查詢?cè)~頻,可揭示某類主題的受關(guān)注度,從而更好地為科研人員提供該方面的管理服務(wù)

        (8)每個(gè)科研信息在發(fā)布過(guò)程中被關(guān)注的過(guò)程,比如響應(yīng)的快慢等,依此完善系統(tǒng)

        以申報(bào)國(guó)家基金為例,如果能記錄申報(bào)項(xiàng)目和該項(xiàng)目最后是否立項(xiàng),再匹配上人員的各種背景信息(比如學(xué)歷、學(xué)位、畢業(yè)院校類型、研究基礎(chǔ)等等),則能挖掘出很多具有指導(dǎo)性的信息。比如國(guó)家自然科學(xué)基金的立項(xiàng)偏好,每個(gè)教師的科研成長(zhǎng)規(guī)律。等等。

        (二)挖掘的方法。數(shù)據(jù)挖掘是使用智能的方法提取數(shù)據(jù)的模式。一般來(lái)說(shuō),數(shù)據(jù)挖掘采用以下幾種方法:描述統(tǒng)計(jì)、分類和聚類、關(guān)聯(lián)和相關(guān)、預(yù)測(cè)、優(yōu)化、結(jié)構(gòu)方程模型。此外,挖掘方法還需考慮諸如數(shù)據(jù)的噪聲、不確定性和不完全性等問(wèn)題。

        (三)挖掘的準(zhǔn)備。(1)數(shù)據(jù)清理,主要是消除噪聲和刪除不一致數(shù)據(jù)。比如教師在填報(bào)過(guò)程中的漏登漏報(bào)或錯(cuò)等錯(cuò)報(bào)的數(shù)據(jù)。

        (2)數(shù)據(jù)集成,這里指把不同來(lái)源、格式、特點(diǎn)、性質(zhì)的數(shù)據(jù)有機(jī)地集中,從而為科研院所提供全面的數(shù)據(jù)共享。

        (3)數(shù)據(jù)選擇,主要是指從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù)。比如選擇所有廣東省哲學(xué)社會(huì)科學(xué)項(xiàng)目獲資助者的情況等。

        (4)數(shù)據(jù)變換,主要是通過(guò)匯總或聚焦操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式。[2]

        (四)挖掘的評(píng)估。模式評(píng)估是指根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣的模式。指示有趣的模式聯(lián)系,常見的有全置信度、最大置信度、Kulczynski、余弦、提升度和χ2這幾種度量方法。在這些方法中,只有后四種具有零不變性。值得推薦的度量是Kluz與不平衡配合使用。[3]

        (五)挖掘的可視化展現(xiàn)。知識(shí)表示,這里主要指使用可視化和知識(shí)表示技術(shù),向系統(tǒng)用戶提供挖掘的知識(shí)。數(shù)據(jù)可視化最直觀的形式就是圖形,有些甚至是動(dòng)態(tài)圖形。最簡(jiǎn)單的應(yīng)用,比如科研院所最近10年發(fā)表的CSSCI學(xué)術(shù)論文數(shù)可用坐標(biāo)曲線展現(xiàn)出來(lái),由此反映科研總體實(shí)力在各年間的變化;而最近10年國(guó)家社會(huì)科學(xué)基金申請(qǐng)數(shù)和立項(xiàng)數(shù)也可用兩條曲線表示出來(lái),以反映本單位該項(xiàng)目的立項(xiàng)申報(bào)比,從一個(gè)側(cè)面反映申報(bào)的質(zhì)量。后者如果加進(jìn)第三維數(shù)據(jù)如這10年間的科研活動(dòng),則可探尋科研活動(dòng)與立項(xiàng)申報(bào)比的關(guān)系。

        此外,科研數(shù)據(jù)可視化展現(xiàn)還有以下幾個(gè)方面的應(yīng)用:

        (1)科研成果的關(guān)聯(lián)性展示

        各類成果之間的關(guān)聯(lián),比如立項(xiàng)項(xiàng)目的關(guān)鍵詞,與當(dāng)期教師發(fā)表論文的主題關(guān)鍵詞一致性,或滯后性,相關(guān)性等。由此有意識(shí)地指導(dǎo)項(xiàng)目申報(bào)或論文發(fā)表。

        (2)基于地理位置的標(biāo)注

        直觀地展示成果的地理環(huán)境關(guān)聯(lián),是可視化技術(shù)的一大應(yīng)用。比如可將近5年本單位教師的橫向項(xiàng)目簽約單位的輻射區(qū)域在地圖上標(biāo)注出來(lái)。顏色表示年度,大小表示每個(gè)項(xiàng)目的經(jīng)費(fèi)數(shù),可直觀地展示有關(guān)社會(huì)服務(wù)的某些規(guī)律。

        (3)基于上下文的內(nèi)容推薦

        在系統(tǒng)用戶查詢特定內(nèi)容時(shí),能將“用戶可能關(guān)心的內(nèi)容”展現(xiàn)出來(lái)。采用基于上下文的查詢擴(kuò)展方法,解決用戶信息檢索查詢所使用的詞可能與文檔集中使用的詞不匹配從而影響檢索效果的問(wèn)題。

        (4)最新信息的實(shí)時(shí)顯示

        在科研交流信息,可實(shí)時(shí)顯示更新的“最新最熱門關(guān)鍵詞或主題”等。這將有助于教師及時(shí)、實(shí)時(shí)了解科研動(dòng)態(tài)。

        (六)挖掘的優(yōu)化。在大數(shù)據(jù)的情況下,保證科研數(shù)據(jù)查詢、處理等的效率不會(huì)顯著降低,是必須要考慮和解決的重要問(wèn)題,也是影響架構(gòu)設(shè)計(jì)的重要因素。特別是隨著時(shí)間累積,系統(tǒng)產(chǎn)生越來(lái)越大量數(shù)據(jù)的情況下,還應(yīng)該針對(duì)大數(shù)據(jù)的查詢、處理等可能導(dǎo)致系統(tǒng)瓶頸的問(wèn)題進(jìn)行分析,提出優(yōu)化解決方案。因此,需保證系統(tǒng)能夠滿足硬件條件(包括主機(jī)系統(tǒng)、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)配置等)的約束,在目前的基礎(chǔ)設(shè)施上流暢運(yùn)行,并且能適應(yīng)未來(lái)若干年科研發(fā)展的要求。

        四、結(jié)語(yǔ)

        科研管理信息系統(tǒng)已越來(lái)越在各大科研院所普及,然而傳統(tǒng)的科研成果數(shù)據(jù)匯總已不能滿足為學(xué)科建設(shè)提供決策依據(jù)的需要。對(duì)系統(tǒng)產(chǎn)生的大量科研數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,具有重要的應(yīng)用前景。數(shù)據(jù)自身的標(biāo)準(zhǔn)性、延續(xù)性、周期性、實(shí)時(shí)性、關(guān)聯(lián)性為數(shù)據(jù)挖掘提供基礎(chǔ),通過(guò)應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)科研數(shù)據(jù)進(jìn)一步分析,有益于更科學(xué)地了解科研規(guī)律,指導(dǎo)科研活動(dòng),促進(jìn)學(xué)科建設(shè)。

        [1]吳小妹,陳敏玲,繆仁炳.基于科技創(chuàng)新人才信息平臺(tái)數(shù)據(jù)挖掘的科研能力評(píng)價(jià)模型研究.科技通報(bào),2011(1):154-160

        [2]胡佳.數(shù)據(jù)挖掘技術(shù)在高??蒲泄芾硐到y(tǒng)中的應(yīng)用研究.華東師范大學(xué)碩士學(xué)位論文,2011:36-39.

        [3]Jiawei Han,Micheline Kamber,Jian Pei著.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)(原書第3版).北京:機(jī)械工業(yè)出版社,2012.173-175.

        国产中文三级全黄| 男女上床视频在线观看| av国产免费在线播放| 在线精品亚洲一区二区动态图| 日本老熟妇毛茸茸| 国内精品一区二区2021在线 | 国产精品成人久久一区二区| 国产亚洲成人精品久久久| 亚洲av无码av在线播放| 麻豆精产国品| 中文字幕在线人妻视频| 少妇免费av一区二区三区久久 | 国产在线精品成人一区二区三区| 国产成人小视频| 乱码一二三入区口| 日本视频精品一区二区| 日本视频一区二区三区在线观看| 国产产区一二三产区区别在线| 久久ri精品高清一区二区三区| 福利一区二区三区视频在线 | 尹人香蕉久久99天天拍| 国产va在线观看免费| 久久精品国产亚洲综合色| 五月婷婷丁香视频在线观看| 国产亚洲精品成人aa片新蒲金| 国产精品99久久久久久宅男| 蜜桃视频中文在线观看| 在线播放草猛免费视频| 亚洲h在线播放在线观看h| 无码中文av有码中文av| 一区二区三区四区午夜视频在线| 国产成人av在线免播放观看新| 国产成人无码精品午夜福利a| 国产人成视频免费在线观看| 大香蕉av一区二区三区| 人妻丰满熟妇av无码区hd| 国产又黄又爽又无遮挡的视频| 亚洲av无一区二区三区综合| 精品欧洲av无码一区二区14| 亚洲人免费| 国产av在线观看91|