竇芳
摘 要: 傳統(tǒng)的科研成果管理多利用數(shù)據庫將成果數(shù)據存儲起來,由于科研成果的數(shù)據類型多,存儲方式不統(tǒng)一,在決策分析時會成為獲得有效成果數(shù)據的障礙,同時傳統(tǒng)的科研成果系統(tǒng)只能單一提取成果信息。針對上述問題,研究提出了基于數(shù)據倉庫的科研成果管理決策支持系統(tǒng),結合數(shù)據倉庫,聯(lián)機分析處理以及關聯(lián)規(guī)則挖掘算法,該系統(tǒng)支持管理人員發(fā)現(xiàn)成果的潛在趨勢、評估科研項目工作組的能力、合理分配人力資源等,通過對學校論文庫中的數(shù)據進行關聯(lián)規(guī)則的挖掘,發(fā)現(xiàn)了論文數(shù)量與時間維度之間的關系,且與實際培養(yǎng)情況符合,驗證了Apriori在系統(tǒng)中的有效性。
關鍵詞: 科研成果管理; 決策支持; 數(shù)據倉庫; 聯(lián)機分析處理; 數(shù)據挖掘
中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)07?0120?04
Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.
Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining
0 引 言
傳統(tǒng)的科研項目管理過程費時費力,且浪費了大量的人力資源??蒲羞^程中產生的有價值的信息,也被這樣死板的管理方法給淹沒了,人們不能也不愿意從紙質的資料文獻中去發(fā)現(xiàn)價值??蒲泄芾矸绞叫实蜁乐赜绊懙娇蒲许椖块_發(fā)的進度。隨著科學技術的快速發(fā)展,科研單位雖然對傳統(tǒng)方法進行了改進,開始建立管理系統(tǒng),但是還遠遠不能滿足要求[1]。
近年來,國內研究機構也開始重視科研項目管理方面的研究,目的多是為了提高項目管理的水平,對優(yōu)秀的科研成果進行公示,共同分享研究信息[2]??蒲谐晒芾頉Q策支持系統(tǒng)的目的是為了解決傳統(tǒng)科研管理系統(tǒng)對成果資源的浪費情況,加強對科研成果信息中潛在知識的利用,提高科研項目管理中對成果管理的有效性,利用數(shù)據挖掘充分發(fā)揮成果數(shù)據的潛力,為管理層提供決策支持依據[3]。
1 SRAM?DSS的需求分析
1.1 功能需求
科研成果管理決策支持系統(tǒng)主要面向科研項目的成果進行管理,這些成果包括學術論文、著作、期刊、專利等。數(shù)據倉庫的應用可以對成果數(shù)據采取智能的分析,將成果數(shù)據進行歸類和按照成果數(shù)據的分析要求進行整理,從中發(fā)現(xiàn)成果與項目、人員之間的聯(lián)系和潛在的規(guī)律,幫助決策者調整科研定位,做出科學的決策。
基本管理功能要求用戶可以利用本系統(tǒng)完成對成果的基本管理,包括成果提交、 審核、審批等流程的規(guī)范管理,還有對保密項目成果的加密處理,不僅要系統(tǒng)能夠保存使用過程中存入的成果,還可以導入外部數(shù)據庫的成果數(shù)據,為數(shù)據挖掘功能提供數(shù)據基礎,對數(shù)據的集成程度要求很高,因此需要利用數(shù)據倉庫存放成果數(shù)據[4]。
1.2 用戶需求
系統(tǒng)的主要角色包括科研員,科研管理員,決策員,數(shù)據管理員,系統(tǒng)管理員。
2 總體設計
2.1 科研成果數(shù)據倉庫的設計
對于科研成果數(shù)據倉庫從概念模型、邏輯模型、物理模型三方面進行建模。需要根據不同的主題把數(shù)據倉庫中的數(shù)據劃分好具體的維度[5]。以成果主題為例,成果數(shù)據包括成果名稱,成果類型,成果來源,成果性質,成果作者,成果審核結果,所屬項目,成果完成時間,成果數(shù)量等,以此作為分析的依據。因為數(shù)據倉庫是多維的,OLAP要在多維數(shù)據集之上才能進行,成果數(shù)據要滿足分析的要求可以根據維層次繼續(xù)劃分,成果類型包括論文,專利,專著,軟件成果等;成果性質包括科技,醫(yī)藥,航天等[6]。
(1) 邏輯模型
系統(tǒng)主要用戶利用成果信息進行分析,以此來評估科研項目,并為決策者提供決策支持。分析成果事實表中的數(shù)據信息有用戶維、成果維、時間維。在OLAP分析時可以按照不同的層次進行分析,如圖2所示。
(2) 物理模型
在設計數(shù)據倉庫的物理模型時,定義成果數(shù)據的數(shù)據標準是需要注意的重點,目的是使成果數(shù)據在數(shù)據倉庫中都有一個統(tǒng)一的格式,定義表示成果的相關屬性來描述成果邏輯關系,得到對成果數(shù)據倉庫的特征進行完整描述。系統(tǒng)采用SQLServer2008建立數(shù)據庫[7]。利用AnalysisServices獲得后臺數(shù)據庫里面的信息,這樣建立的數(shù)據倉庫可以滿足需求。
2.2 SRAM?DSS功能的設計
為實現(xiàn)科研成果管理科學,全方位管理,設計成果管理,決策支持,用戶管理,系統(tǒng)管理四個模塊的內容,并且用戶在登陸系統(tǒng)之前要進行身份驗證。
(1) 成果管理模塊
成果管理主要包括成果查詢,添加成果,申報成果,成果審核,成果加密以及成果導出等功能,系統(tǒng)采用分組加密方式進行加密。
(2) 決策支持模塊
數(shù)據倉庫是決策支持功能的數(shù)據基礎,有了數(shù)據就需要更多的操作來完成決策支持。對于系統(tǒng)中不同的數(shù)據來源,包括外部導入數(shù)據利用ETL過程,實現(xiàn)規(guī)范化。然后將符合標準的數(shù)據裝入數(shù)據倉庫中。然后針對用戶的要求進行聯(lián)機分析處理和關聯(lián)規(guī)則挖掘。
(3) 用戶管理模塊
用戶在Web地址欄輸入URL進入登錄,用戶名文本框內輸入用戶姓名,在密碼框內輸入密碼。系統(tǒng)認證平臺會判斷用戶身份,若是新用戶要完成注冊才能登陸,注冊時要填寫用戶真實的信息,才能獲得登陸權利,若用戶輸入的用戶信息正確,登錄成功。用戶可以在用戶管理中進行創(chuàng)建,添加到用戶數(shù)據表中,也能獲得系統(tǒng)的使用權限[8]。
(4) 系統(tǒng)管理模塊
系統(tǒng)管理模塊主要是針對系統(tǒng)的權限分配,系統(tǒng)維護以及一些常用工具的設計。不同的用戶進行的操作不同,能夠看到的信息不同,就要求系統(tǒng)控制權限,建立權限分配制度,有利于對用戶權限進行合理的分配也保證了系統(tǒng)的安全運行。系統(tǒng)維護是管理系統(tǒng)中必不可少的關鍵功能,包括對系統(tǒng)用戶數(shù)據,成果信息數(shù)據等的備份工作,實現(xiàn)數(shù)據庫的安全管理,管理相應功能結構規(guī)范性,為系統(tǒng)的更新與升級提供支持。
3 系統(tǒng)實現(xiàn)
3.1 基于數(shù)據倉庫的OLAP模型
聯(lián)機分析處理技術能夠高效的分析數(shù)據,發(fā)現(xiàn)事物發(fā)展規(guī)律,捕獲異常和細節(jié)。OLAP支持數(shù)據分析,而數(shù)據倉庫里的數(shù)據是經過ETL處理后集成到一起,保證了分析在一個快速的時間內給予響應。所以本階段就是基于數(shù)據倉庫建立OLAP模型,從而得到更為可靠的數(shù)據立方體,既降低了刷新代價又提高了響應速度。
OLAP包括了維和度量,在前面建立數(shù)據倉庫時已經完成。利用SQL Server中的Analysis Services項目模板建立多維數(shù)據集,定義數(shù)據源以及建立事實表與維表之間的關系。
OLAP模型對數(shù)據倉庫中的數(shù)據利用MDX進行多維查找,可以有效分析多維數(shù)據集。MDX是OLAP的查詢語句,語法與結構化查詢語言SQL很類似。在成果管理系統(tǒng)中,通過MDX語言把科研員和決策者需要的成果數(shù)據查詢出來,展現(xiàn)在前臺界面里。
利用OLAP模型進行分析,決策者可以依據分析要求,選擇更多角度去分析數(shù)據,能得到的分析也更多,如下:
(1) 由科研成果的類型分布來看整體項目的側重重點,以及在成果突出領域的發(fā)展機會和潛力;
(2) 由科研成果參與者和第一申請單位作者與項目之間的關系,可以看到參與者職稱水平,技術支持水平對成果完成數(shù)量與質量的關系,并不是參與者越多的成果越完善,可以以此作為合理分配人才資源參與項目開發(fā)的依據,也可以以此評估參與人員的水平,作為考核參考;
(3) 以科研成果在一定時間內的增長,作為項目進度和發(fā)展的一個參考標準。也可以看到成果的趨勢和項目完成單位的能力和業(yè)務的提升;
(4) 可以利用數(shù)據庫,對以往成果信息進行分析,由于在傳統(tǒng)的數(shù)據庫中不具備OLAP的功能。
3.2 基于數(shù)據倉庫的關聯(lián)規(guī)則挖掘
基于數(shù)據倉庫的關聯(lián)規(guī)則挖掘,Apriori算法的核心是提高關聯(lián)規(guī)則產生的效率。利用Apriori算法對科研成果數(shù)據進行分析的時候要明確成果的特征,根據成果特征描述來看,適合利用Apriori算法進行關聯(lián)規(guī)則的挖掘??蒲谐晒麛?shù)據的特征如下:成果數(shù)據是按照項目進程時間節(jié)點進行錄入的,存儲在成果庫中;成果評估方式不統(tǒng)一,對成果的評估應采取統(tǒng)一的標準;科研成果的數(shù)據存儲在數(shù)據庫中,每一個成果都對應一條記錄,每一個記錄的屬性都一樣。
以本校論文庫的數(shù)據為實驗數(shù)據,在論文管理系統(tǒng)中可導出相關TXT文檔數(shù)據,利用系統(tǒng)成果導入功能,添加到系統(tǒng)中,對數(shù)據進行統(tǒng)一的處理。選取2012—2015年間,數(shù)學、物理、計算機、兵器學科的論文成果數(shù)據。論文所屬學科層次劃分到一級子學科,時間層次按照年→學年,繼續(xù)劃分下去。
(1) 數(shù)據預處理
數(shù)據經過清洗,轉換,去掉無效的數(shù)據,采用統(tǒng)一的數(shù)據編碼規(guī)則,用離散字母代替時間層次,同時將學科按照統(tǒng)一的編碼規(guī)則,重新編碼。進一步按照論文數(shù)量劃分等級,五份為一級,等級越高代表論文數(shù)量越多。
(2) 算法實現(xiàn)
設置最小支持度 min_sup=4,支持度=40%,置信度=80%,通過Apriori算法計算出的關聯(lián)規(guī)則信任度見表2。
(3) 結果分析
采用的實驗數(shù)據來自于論文數(shù)據庫,由于學校畢業(yè)論文按照培養(yǎng)計劃有周期性,學術性碩士的培養(yǎng)周期為2.5學年,所以碩士畢業(yè)多集中于第一學年3月份左右,工程碩士的培養(yǎng)周期為第二學年9月份,所以對數(shù)據的分析結果多集中于上半年。
規(guī)則1表示,在2012年第一學年發(fā)表論文在5篇以內且2013年第一學年畢業(yè)論文在5篇以內的學科專業(yè),則在2013年第二學年發(fā)表論文在5篇左右的支持度為40%,信任度為80%。
規(guī)則2表示,在2013年第一學年發(fā)表論文在5篇以內且2013年第二學年畢業(yè)論文在5篇以內的學科專業(yè),則在2012年第一學年發(fā)表論文在5篇左右的支持度為40%,信任度為80%。
規(guī)則3表示,在2012年第一學年發(fā)表論文在5篇以內且2013年第一學年畢業(yè)論文在5篇以內的學科專業(yè),則在2014年第二學年發(fā)表論文在5篇左右的支持度為40%,信任度為80%。
3.3 關聯(lián)規(guī)則說明
由于系統(tǒng)中的測試數(shù)據多來自網絡和本校的數(shù)據庫,對關聯(lián)規(guī)則的挖掘也許存在偏差,但是整體提供的關聯(lián)規(guī)則數(shù)據信息還是符合實際的。簡要介紹以下幾點:
(1) 選取成果完成人的職稱級別和所提交的成果類型與數(shù)量作為關聯(lián)規(guī)則挖掘的維度,發(fā)現(xiàn)成果完成人職稱較低的發(fā)表論文數(shù)量較多,存在關聯(lián)規(guī)則;
(2) 選取固定時間內論文數(shù)量和專利數(shù)量進行關聯(lián)規(guī)則挖掘,發(fā)現(xiàn)時間維度與論文數(shù)量多,關聯(lián)較高;
(3) 對不同高校的成果數(shù)量進行關聯(lián)分析,985與211高校的科研論文,期刊發(fā)表數(shù)量多具有關聯(lián)規(guī)則。
4 界面展示
用戶登陸界面:輸入正確的用戶名和密碼登陸系統(tǒng),用戶可以選擇“記住我”,在下次進入系統(tǒng)時可以免登陸,若是新用戶第一次登陸系統(tǒng),需要注冊,完成注冊后即獲得登陸權限。
登陸后看到的首頁,左側導航欄顯示了主要的功能,成果展示系統(tǒng)中的成果數(shù)量以及系統(tǒng)中的成果列表。
5 結 論
本文在調研了解科研成果管理的決策分析需求的基礎上,認真研究了數(shù)據倉庫的有關技術知識,聯(lián)機分析處理技術的應用以及數(shù)據挖掘關聯(lián)規(guī)則算法的原理。提出了基于數(shù)據倉庫的科研成果管理決策支持系統(tǒng)。
開發(fā)系統(tǒng)應用的主要技術包括OLAP和Apriori算法,將OLAP和Apriori算法結合運用于實際的系統(tǒng)開發(fā)中,關聯(lián)規(guī)則計算在OLAP物化了的多維數(shù)據集基礎上進行,減少了重新計算的時間,使決策分析更加智能化,使數(shù)據挖掘的步驟更具目標化,全面提升輔助決策在科研成果管理中的實用價值。
參考文獻
[1] 賀建英.大數(shù)據下MongoDB數(shù)據庫檔案文檔存儲去重研究[J].現(xiàn)代電子技術,2015,38(16):51?55.
[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.
[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.
[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.
[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.
[6] 趙維寧.運用數(shù)據倉庫技術構建電信企業(yè)經營分析系統(tǒng)[J].中文信息,2014(8):22?26.
[7] 辛金國,柯芳,李紹君,等.數(shù)據挖掘技術在經濟統(tǒng)計中的應用探索[J].財經界(學術版),2014(5):24?27.
[8] 王輝鵬,董春游.決策支持系統(tǒng)發(fā)展研究[J].應用能源技術,2009(6):48?50.