李善青,趙 輝,宋立榮
基于大數(shù)據(jù)挖掘的科技項目查重模型研究*
李善青,趙 輝,宋立榮
科技項目查重是避免重復立項、重復建設的重要措施之一,目前缺乏行之有效的方法。文章提出基于大數(shù)據(jù)挖掘和多源信息整合的項目查重方法,以科技項目的基本信息、發(fā)表論文信息、關鍵詞、負責人信息和承擔機構等要素構建的大數(shù)據(jù)網(wǎng)絡為研究對象,利用多源信息整合方法構建科技項目的相似度判別模型,并采用Hadoop框架實現(xiàn)海量數(shù)據(jù)的快速挖掘。文章介紹項目查重模型,重點討論需要解決的關鍵問題,為解決項目查重問題提供一種全新的思路和方法。
大數(shù)據(jù)挖掘 多源信息整合 科技項目查重 Hadoop架構
為推動科技創(chuàng)新,我國不斷加大對科研的資助規(guī)模和強度,科技項目的數(shù)量和經(jīng)費在近年均得到顯著提升,形成多層次的國家科技計劃資助體系。隨之而來的重復立項問題日趨嚴重。據(jù)統(tǒng)計,我國科研項目重復率達40%,另外60%中與國外重復約占30%以上[1]。重復立項不僅造成科技資源的浪費,也導致惡性科研競爭,損害開拓創(chuàng)新的科研精神,對科技創(chuàng)新危害極大。早在2006年,科技部前部長徐冠華在《關于建設創(chuàng)新型國家的幾個重要問題》講話中指出,切實加強科技宏觀統(tǒng)籌協(xié)調的重要舉措之一就是“積極推動建立跨部門的科技項目數(shù)據(jù)庫。針對科技項目立項中多頭立項、重復立項的問題,推進科技項目共享數(shù)據(jù)庫的建立,為解決重復問題提供必要的技術支撐”。各級科技計劃主管部門對重復立項問題十分重視,研究了一些項目查重的方法和機制問題,取得了一定的進展,但總體效果并不明顯。究其原因,主要在于以下3個方面:
(1)項目數(shù)量呈現(xiàn)逐年快速增長的態(tài)勢。僅國家自然科學基金委員會2013年度資助的項目就達3.5萬余項。數(shù)量龐大的項目為查重工作帶來很大挑戰(zhàn)。此外,基礎科學研究具有創(chuàng)新性、不確定性、學科交叉融合等特點,不同學科領域的新觀點、新概念和新知識不斷涌現(xiàn),科研項目管理人員需要越來越多的專業(yè)知識才能準確判斷項目的相似性,這也給項目查重工作帶來很大的困難。
(2)項目信息公開、共享和整合程度較低??萍加媱澋捻椖啃畔⒑蛯嵤┣闆r主要分散掌握在各計劃主管部門內部,對外開放和共享的程度低,各計劃之間的項目信息無法進行有效整合。如國家自然科學基金在立項審查時只能在該基金資助的項目范圍內進行重復性檢測,而幾乎無法與其他科技計劃項目進行檢測和查重。解決該問題的方法是在國家層面上建立統(tǒng)一的可對外公開的項目信息檢索平臺,實現(xiàn)項目信息的共享和整合。
(3)項目相似性判別方法單一。目前科研重復立項檢測主要通過比對項目標題或者比對項目申請書的內容進行甄別。前者只是進行簡單的關鍵詞匹配,將項目標題中包含指定關鍵詞集的項目定義為相似項目。一旦項目更換標題,該方法則會失效。后者能夠較準確地發(fā)現(xiàn)相關/相似的項目,但算法實現(xiàn)難度較大,并且項目申請書因涉密或保護知識產(chǎn)權等原因一般不對外公開,很難從公開渠道獲取這些信息。因此該方法只適用于在單個計劃主管部門內部實現(xiàn)項目查重。
文獻調研發(fā)現(xiàn),國外沒有項目查重的概念,但在數(shù)據(jù)挖掘、文檔檢索等方面的研究起步早,進行了大量的研究和探索,積累了豐富的經(jīng)驗和成熟的技術[2-5]。國內在方法研究方面起步晚,但有針對性地開展文本挖掘方法在科技項目管理中的應用研究。姜韶華[6]提出一種基于文本挖掘的科研項目管理原型系統(tǒng),重點研究和解決科研項目文本的切分和特征建模等問題;左川[7]提出一種基于非分詞技術解決科技項目查重問題的方法,該方法不需要對文本進行分詞處理,利用頻繁閉項集構造向量空間模型對項目申請書進行建模并計算相似度;方延風[8]提出將一種改進的TF-IDF方法用于科技項目查重,考慮了特征詞的位置和長度兩種因素;吳燕[9]提出一種基于層次聚類的科技項目分類和查重方法,在計算科技項目相似性時綜合考慮了應用領域、研究內容和技術來源等因素;林明才等[10]提出一種改進的模糊聚類算法RM-FCM,在計算項目相似度時考慮了不同屬性的特征項對科研項目的重要性;劉蔭明等[11]從科技查新實踐、地區(qū)和部門多頭管理、科研論文所依托的基金項目數(shù)量等方面研究我國科研的重復立項現(xiàn)象,通過對科研項目的申報與審批流程進行分析,提出避免重復立項的具體措施。
上述研究工作基本都是從項目申請書入手,對申請書進行分詞或將其作為整體處理,然后提取特征向量,利用特征向量的相似度表示項目的相似度。一方面不同計劃的申請書格式不同,學科領域差別較大,很難找到統(tǒng)一的描述模式;另一方面,項目申請書一般不對外公開,獲取難度很大。因此,該方法適應于在單個計劃內部進行項目查重,很難進行跨計劃的項目查重?;谏鲜龇治?,本文采用一種全新的思路解決項目查重問題,首先收集項目的標題、項目所發(fā)表的論文、關鍵詞、負責人和承擔機構等要素的海量信息,構建與項目查重相關的大數(shù)據(jù)網(wǎng)絡,為后續(xù)的分析和挖掘提供數(shù)據(jù)支撐;然后利用多源信息整合技術構建項目相似度模型,綜合考慮項目的研究內容、負責人和承擔單位3種因素以提高計算項目相似度的準確性和可靠性;最后采用Hadoop分布式處理技術加速項目相似度的計算過程,實現(xiàn)對海量數(shù)據(jù)的快速挖掘。
隨著海量數(shù)據(jù)獲取、存儲與處理方法與技術的飛速發(fā)展,大數(shù)據(jù)時代來臨,并對眾多領域產(chǎn)生影響[12]。2007年計算機圖靈獎得主Jim Gray在NRC-CSTB的演講報告中提出科學研究的第四范式[13]—數(shù)據(jù)密集型科學研究,以協(xié)同化、網(wǎng)絡化與數(shù)據(jù)驅動為其主要特征,在學術界引起很大關注。世界頂尖科學期刊《Nature》和《Science》分別推出專刊,圍繞科學研究中的大數(shù)據(jù)問題展開專題討論。美國政府于2012年3月29日發(fā)布的“大數(shù)據(jù)研究與發(fā)展計劃”[14]更是將大數(shù)據(jù)的發(fā)展和研究提高到國家戰(zhàn)略的層面,將其視為信息科學領域內繼信息高速公路計劃之后的又一重大發(fā)展戰(zhàn)略。
大數(shù)據(jù)挖掘在近年發(fā)展迅速,基本思想是通過包括互聯(lián)網(wǎng)在內的多種渠道收集研究對象的多維度數(shù)據(jù),通過對海量數(shù)據(jù)的關聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對象的潛在行為模式或規(guī)律。大數(shù)據(jù)挖掘的經(jīng)典應用有Google公司推出的“流感趨勢預報服務”[15]和奧巴馬競選團隊的“大數(shù)據(jù)選舉”[16]。Google公司認為,用戶搜索的關鍵詞代表了他們的即時需求,通過對流感進行關鍵詞建模,并對搜索這些關鍵詞的海量用戶進行跟蹤分析,創(chuàng)建流感地圖?!肮雀枇鞲汹厔荨痹跍y試過程中還顯示出反應迅速的優(yōu)勢,甚至能夠比疾病控制和預防中心提前1個星期到10天時間公布流感預報。美國總統(tǒng)奧巴馬的競選團隊利用大數(shù)據(jù)驅動的分析和決策為其成功連任發(fā)揮巨大的作用,競選團隊創(chuàng)建了龐大的數(shù)據(jù)系統(tǒng),將民調者、注資者、工作人員、消費者、社交媒體及“搖擺州”主要民主黨投票人的信息進行關聯(lián)及整合,然后通過大量的數(shù)據(jù)挖掘和模擬運算,對籌集競選資金、競選廣告精準投放、模擬競選等提供決策支持服務,取得了立竿見影的效果。
國內的學者也開展了相關研究。孟小峰等[17]對大數(shù)據(jù)管理的概念、技術和挑戰(zhàn)等問題進行了系統(tǒng)化的梳理和總結;侯經(jīng)川等[18]研究了大數(shù)據(jù)時代的數(shù)據(jù)引證問題,對其研究現(xiàn)狀、最新進展和未來展望進行了深入的分析和討論??傮w來看,大數(shù)據(jù)挖掘的相關研究處于起步階段,國內與國外差距還不大,這是我國在該領域追趕國際先進國家的重要機遇。利用大數(shù)據(jù)的思想解決科技項目查重問題是一個全新的研究課題,有重要的理論和實踐意義。本文重點介紹基于大數(shù)據(jù)挖掘的項目查重模型,并探討其中涉及的關鍵問題,為解決項目查重問題提供一種新的視角和方案。
本文提出的項目查重方法的基本思路是從海量數(shù)據(jù)中挖掘出與項目查重緊密相關的研究內容、負責人和承擔單位等信息,采用多源信息整合技術對上述信息進行整合并判定項目的相似度。為加速海量數(shù)據(jù)的挖掘,筆者采用Hadoop分布式技術提高項目查重的計算速度。項目查重的架構框圖如圖1所示,可分為任務解析、大數(shù)據(jù)文件、項目相似度判別模型、分布式調度和結果展示等5部分。任務解析模塊在收到用戶的查詢請求后將其解析和翻譯為機器可執(zhí)行的指令,并提交給分布式調度模塊執(zhí)行;分布式調度模塊負責利用Hadoop框架管理和調度計算機集群系統(tǒng)協(xié)同完成項目查重任務;大數(shù)據(jù)文件模塊存儲了與項目查重相關的海量數(shù)據(jù),是該模型的數(shù)據(jù)基礎;項目相似度判別模型通過綜合關鍵詞、負責人和承擔單位等因素計算項目與查詢條件的相似度;結果展示模塊則通過可視化等手段將查詢結果反饋給用戶。
圖1 項目查重的架構框圖
本查重模型所處理的數(shù)據(jù)對象包括5類:項目信息、論文題錄、關鍵詞、負責人和承擔單位。5種數(shù)據(jù)對象間存在網(wǎng)狀的關聯(lián)關系,如圖2所示。通過對上述網(wǎng)狀數(shù)據(jù)進行加工處理,提取出與項目查重密切相關的元數(shù)據(jù)描述:項目ID是項目的唯一標識,是實現(xiàn)各類數(shù)據(jù)之間關聯(lián)的紐帶;關鍵詞集是一組用于描述項目研究內容的術語,是對研究內容的凝練和概括。該數(shù)據(jù)來源于兩部分:一部分來自于項目標題,可通過自動切分詞技術獲?。涣硗庖徊糠謩t來源于由項目資助所發(fā)表論文的關鍵詞,可通過論文的資金資助信息建立項目ID與論文關鍵詞的關聯(lián)關系。由于項目數(shù)量和論文數(shù)量都十分龐大,關鍵詞集的構建首先通過文本智能挖掘和抽取技術完成,然后輔以人工校驗的方式保證數(shù)據(jù)的準確性;負責人信息則直接從項目信息數(shù)據(jù)庫中抽取,但由于信息缺失,負責人身份的唯一性識別仍然是尚未得到有效解決的難題;承擔單位信息也存在上述類似的問題,機構的更名、重組、簡稱全稱混用等因素為設定承擔單位的唯一性識別帶來很大的困難。
圖2 大數(shù)據(jù)構建的示意圖
圖3 相似度判別模型
項目的相似度判別模型分別計算研究內容、負責人和承擔單位3方面的相似度,并對上述結果進行加權整合得到項目最終的相似度。其中,項目的研究內容由一組關鍵詞進行描述,因此其相似性轉化為檢索詞集合與項目關鍵詞集合之間的相似性。項目負責人和承擔單位存在的重復性直接通過檢索詞匹配的方式計算,即兩個項目的負責人或承擔單位相同,則存在重復立項問題的可能性較高。三個維度的匹配度計算完成后,通過加權的方式進行整合,最終得到與檢索條件匹配度由高到低排序的項目集合。
本模型解決的是大數(shù)據(jù)場景下的項目查重問題,要在短時間內完成對海量數(shù)據(jù)的檢索,需要借助于分布式計算技術。筆者采用Hadoop框架完成項目查重任務的分布式處理,其原理如圖4所示。JobTracker是管理者的角色,負責任務的拆分和調度,維持與TaskTracker通訊并記錄其最新狀態(tài)信息。TaskTracker是工人的角色,負責具體子任務的執(zhí)行,從指定的位置讀取待處理的數(shù)據(jù),完成任務后保存中間結果,并向JobTracker提交狀態(tài)更新。子任務的類型有兩種:Map操作和Reduce操作。Map操作處理相應的片段數(shù)據(jù),即對指定片段計算項目的相似度,并保存中間結果。Reduce操作則對中間結果進行收集和合并,即對指定的項目集合完成相似度的加權計算,得到最終的判別結果。
圖4 Hadoop分布式調度原理
本文從大數(shù)據(jù)挖掘的角度提出了一種全新、可行的項目查重模型,能夠解決目前項目查重的諸多難題。然而,該方法涉及海量數(shù)據(jù)的采集、加工、關聯(lián)和挖掘等內容,需要建立規(guī)范的工作機制和采用智能的挖掘技術以保證查重方法的切實可行。下面將重點介紹該模型需要解決的幾個關鍵問題:
(1)海量數(shù)據(jù)的采集和加工需要建立一系列的標準和規(guī)范來保證數(shù)據(jù)的準確性。處理的數(shù)據(jù)涉及項目信息、論文題錄、關鍵詞、負責人和承擔單位等,數(shù)據(jù)量龐大,種類較多,且沒有固定的格式,因此,需要建立一套規(guī)范的工作機制,并嚴格按照指定的標準對數(shù)據(jù)進行加工和處理。此外,由于數(shù)據(jù)量巨大,需要大量的人力和財力作為支撐。
(2)數(shù)據(jù)的標識、描述和關聯(lián)機制問題。數(shù)據(jù)標識解決數(shù)據(jù)的唯一性標志問題,目前在如何解決負責人、承擔單位的唯一標識上仍存在很大的困難;數(shù)據(jù)描述用于揭示數(shù)據(jù)的內容/屬性,需要對5種數(shù)據(jù)對象建立統(tǒng)一的元數(shù)據(jù)標準;關聯(lián)機制則重點解決不同類型數(shù)據(jù)之間的關聯(lián)關系問題,如項目與發(fā)表論文如何建立準確的對應關系等。
(3)研究文本智能抽取技術是處理海量數(shù)據(jù)必不可少的手段之一。該技術主要用于解決關鍵詞集的自動生成問題:一方面,針對科技項目標題的特點設計針對性的切分詞技術,自動從項目標題中抽取關鍵詞;另一方面,從論文題錄的項目資助信息中自動抽取項目編號,建立項目與論文的關聯(lián)關系,并將論文的關鍵詞自動加入到項目的關鍵詞集合中。關鍵詞集構建的準確與否直接關系到項目查重效果的優(yōu)劣。
(4)大數(shù)據(jù)挖掘需要處理海量的數(shù)據(jù),為提高項目查重的速度,需要分布式的處理架構對海量數(shù)據(jù)進行檢索和挖掘。Hadoop是一套通用的技術框架,應用到項目查重場景中需要根據(jù)業(yè)務邏輯進行適應性改造。如何將項目查重的業(yè)務邏輯設計為分布式處理模式,并盡可能提高查重效率是需要解決的關鍵問題。
本文提出一種基于大數(shù)據(jù)挖掘的項目查重方法,利用大數(shù)據(jù)挖掘和多源信息整合等技術解決項目查重問題。該方法提供了一種全新的思路和方法,是對現(xiàn)有項目查重方法的促進,具有重要的理論意義與應用價值?;谠撃P蜆嫿ㄇ袑嵖捎玫牟橹叵到y(tǒng)需要解決一系列關鍵的機制問題和技術問題,包括建立海量數(shù)據(jù)采集和加工標準;構建數(shù)據(jù)的標識、描述和關聯(lián)機制;研究文本智能抽取技術和改進Hadoop框架以適應項目查重的業(yè)務需求等。
[1]張金玲,黃長,陳如好,等.深化科技查新工作 擴展社會化服務[J].圖書館論壇,2011(5):122-124,137.
[2]H.Zhang,T.Chow,A multi-level matching method with hybrid similarity for document retrieval[J],Expert Systems with Applications,2012,39(3):2710-2719.
[3]J.Reid,M.Lalmas,K.Finesilver,M.Hertzum,Best entry points for structured document retrieval—Part II:Types,usage and effectiveness[J],Information Processing&Management,2006,42(1):89-105.
[4]J.Reid,M.Lalmas,K.Finesilver,M.Hertzum,Best entry points for structured document retrieval—Part I:Characteristics[J],Information Processing& Management,2006,42(1):74-88.
[5]P.Kalczynski,A.Chou,Temporal Document Retrieval Model for business news archives[J], Information Processing&Management,2005,41(3):635-650.
[6]姜韶華.科研項目管理中文本挖掘方法研究及應用[D].大連:大連理工大學,2006.
[7]左川.基于非分詞技術的科技項目查重研究與實現(xiàn)[D].重慶:重慶大學,2010.
[8]方延風.科技項目查重中特征詞TF-IDF值計算方法的改進[J].情報探索,2012(1):1-3.
[9]吳燕.基于層次聚類的科技項目分類與查重研究[D].天津:天津財經(jīng)大學,2008.
[10]林明才,康耀紅,張誠一.基于科研立項管理應用的模糊C均值算法研究[J].計算機工程與設計,2010,31(7):1570-1572.
[11]劉蔭明,張??。瑒⒅t.淺析科研管理之避免重復立項[J].科技管理研究,2010(21):198-200.
[12]L.Steve.The age of big data[N/OL].The New York Times.(2012-02-12)[2013-03-06].http://www. nytimes.com/2012/02/12/sunday-review/big-datasimpact-in-the-world.html.
[13]H.Tony,T.Stewart,T.Kirstin.The fourth paradigm:Data-intensive scientific discovery[M].Redmond,WA:Microsoft Research,2009:19-33.
[14]Fact Sheet:Big Data Across the Federal Government [EB/OL].(2012-03-29)[2013-03-06].http://www. whitehouse.gov/sites/default/files/microsites/ostp/big_ data_fact_sheet_final.pdf.
[15]Google Flu Trends.[EB/OL].http://www.google. org/flutrends.
[16]M.Scherer.Inside the Secret World of the Data Crunchers WhoHelpedObamaWin.[EB/OL].(2012-11-07)[2013-03-06].http://swampland.time. com/2012/11/07/inside-the-secret-world-of-quants -and-data-crunchers-who-helped-obama-win/.
[17]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[18]侯經(jīng)川,方靜怡.數(shù)據(jù)引證研究:進展與展望[J].中國圖書館學報,2013(1):112-118.
Study on Detection Model of Similar Scientific Project Based on Big Data Mining
LI Shan-qing,ZHAO Hui,SONG Li-rong
Checking out similar project is very important to avoid repetition in project approval.However,there is no way to find out similar project effectively for the moment.This paper proposes a novel method of detecting scientific projects similitude based on big data mining and multi-source information integration.Using that method,the authors studied the huge data network consisting of the information about the project,published papers,experts and institutions,as well as the keywords;built up a detection model of project similitude by integrating multi-source information;and adopted the Hadoop to speed up big data mining.This paper presents the detection model of project similitude and its key issues;in hope of providing brand-new thinking and methods for detecting similar projects in scientific project management.
big data mining;multi-source information integration;similarity detection for scientific projects;Hadoop architecture
格式 李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項目查重模型研究[J].圖書館論壇,2014(2):78-83.
李善青(1981-),男,博士,中國科學技術信息研究所助理研究員;趙輝(1971-),女,碩士,中國科學技術信息研究所副研究館員;宋立榮(1971-),男,博士,中國科學技術信息研究所高級工程師。
2013-07-26
*本文系中國科學技術信息研究所科研項目預研基金“面向重復立項檢測的多源信息整合機制研究”(項目編號:YY201214),國家自然科學基金項目“大數(shù)據(jù)挖掘在科技項目查重中的應用研究”(項目編號:71303223),國家社會科學基金項目“網(wǎng)絡環(huán)境下科技信息資源建設中的質量元數(shù)據(jù)及評估應用研究”(項目編號:12BTQ016) 研究成果之一