趙亮等
摘 要:創(chuàng)新方法是創(chuàng)新經(jīng)驗和技巧的高度總結(jié),是技術(shù)創(chuàng)新的“孫子兵法”,傳統(tǒng)創(chuàng)新方法在互聯(lián)網(wǎng)技術(shù)推動下的“大數(shù)據(jù)”時代,在創(chuàng)新資源相關(guān)數(shù)據(jù)的獲取和融合效率方面面臨新的機遇與挑戰(zhàn)。文章通過對大數(shù)據(jù)技術(shù)與方法以及圍繞著大數(shù)據(jù)環(huán)境下的企業(yè)技術(shù)創(chuàng)新與管理決策相關(guān)技術(shù)與方法的研究,通過院校合作,構(gòu)建起大數(shù)據(jù)環(huán)境下的技術(shù)創(chuàng)新與決策的技術(shù)框架體系,依據(jù)技術(shù)創(chuàng)新“雙向決策模型”,通過數(shù)據(jù)的在線收集與預(yù)處理、大數(shù)據(jù)存儲與預(yù)處理技術(shù)體系、創(chuàng)新資源數(shù)據(jù)的可視化技術(shù)與決策技術(shù)方法和創(chuàng)新應(yīng)用工具的開發(fā)四個子項的實施,實現(xiàn)技術(shù)創(chuàng)新的“評估與預(yù)測”和“監(jiān)測與預(yù)警”。結(jié)合企業(yè)研發(fā)與技術(shù)創(chuàng)新實踐,希望能幫助企業(yè)實現(xiàn)更加精準(zhǔn)的技術(shù)創(chuàng)新決策。
關(guān)鍵詞:創(chuàng)新方法;大數(shù)據(jù);技術(shù)創(chuàng)新管理
引言
提高國家與企業(yè)的自主創(chuàng)新能力是建設(shè)創(chuàng)新型國家發(fā)展戰(zhàn)略的核心和提高綜合國力的關(guān)鍵。國家、企業(yè)間的競爭既要依靠創(chuàng)新,也受到創(chuàng)新效率的影響。先進的創(chuàng)新方法是保證創(chuàng)新效率的基礎(chǔ)。創(chuàng)新方法是創(chuàng)新經(jīng)驗和技巧的高度總結(jié),是創(chuàng)新的兵法。如何將創(chuàng)新方法的最新研究成果轉(zhuǎn)化為現(xiàn)實生產(chǎn)力是當(dāng)前高效創(chuàng)新驅(qū)動面臨的挑戰(zhàn)。另一方面,互聯(lián)網(wǎng)技術(shù)推動下的“大數(shù)據(jù)”時代的來臨,企業(yè)通過從海量的數(shù)據(jù)中萃取有效知識并將其轉(zhuǎn)化為新的商業(yè)競爭優(yōu)勢[1]的信息管理思想和技術(shù)方法正在實現(xiàn)。如何有效使用“大數(shù)據(jù)”來實現(xiàn)對創(chuàng)新方法的創(chuàng)新,則成為了目前學(xué)術(shù)界與企業(yè)界廣泛關(guān)注的焦點。因此,文章希望通過大數(shù)據(jù)技術(shù)與方法的深入研究,利用大數(shù)據(jù)技術(shù)來變革和提升創(chuàng)新方法、思維體系與管理模式,并促進企業(yè)自主創(chuàng)新和生產(chǎn)力的快速提高,使技術(shù)創(chuàng)新管理工作適應(yīng)企業(yè)創(chuàng)新實踐的新需求。
1 研究背景
1.1 大數(shù)據(jù)的研究進展與趨勢
自1998年美國硅圖公司(SGI)的首席科學(xué)家John R.Masey提出了大數(shù)據(jù)概念以來,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展人們在近年來從海量數(shù)據(jù)分析的角度轉(zhuǎn)向大數(shù)據(jù)。其中,以Facebook為代表的社交網(wǎng)絡(luò)軟件的應(yīng)用,直接導(dǎo)致大量非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn),并促進了針對非結(jié)構(gòu)化數(shù)據(jù)查詢與處理技術(shù)快速發(fā)展。2008年,《Nature》雜志出版??禕ig Data》針對多個學(xué)科的實際研究現(xiàn)狀系統(tǒng)地介紹了“大數(shù)據(jù)”所蘊含的潛在價值和挑戰(zhàn)。2011年,《Science》雜志出版的??禗ealing with Data》標(biāo)志著“大數(shù)據(jù)”時代的到來[2]。隨后,美國奧巴馬政府在2012年3月推出“大數(shù)據(jù)研究開發(fā)計劃”(Big Data Research and Development Initiative)。該計劃的目標(biāo)是改進現(xiàn)有人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,從而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強國家安全,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式[3],從而實現(xiàn)從“數(shù)據(jù)分析能力”向“數(shù)據(jù)決策能力與優(yōu)勢”的轉(zhuǎn)化[4]。
目前,針對大數(shù)據(jù)的概念與定義還存在著許多不同的分析角度。其中,大數(shù)據(jù)研究機構(gòu)Gartner對“大數(shù)據(jù)”的定義為:需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”的資產(chǎn)屬性暗含了通過“分析”可以給其擁有和控制者帶來預(yù)期的利益,它是從數(shù)據(jù)中萃取知識,并將其轉(zhuǎn)化為商業(yè)競爭優(yōu)勢的智能化活動。麥肯錫公司(McKinsey)看到了個人海量信息具備潛在的商業(yè)價值,成為最早應(yīng)用“大數(shù)據(jù)”的公司,并發(fā)布了關(guān)于“大數(shù)據(jù)”的麥肯錫報告[5]。
我國在2011年12月,國家工業(yè)和信息化部發(fā)布的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》上,將信息處理技術(shù)作為四項關(guān)鍵技術(shù)創(chuàng)新工程之一被提出,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分[6]。2012年5月,主題為“網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與工程─一門新興的交叉學(xué)科?”的香山科學(xué)會議在北京召開,隨后以李國杰院士為核心的計算機學(xué)科專家學(xué)者紛紛就圍繞“大數(shù)據(jù)”定義的“數(shù)據(jù)科學(xué)”的理論框架與算法應(yīng)用等問題進行了綜合性的歸納研究與討論[7]。北京航空航天大學(xué)馬帥教授等就對“大數(shù)據(jù)”的異構(gòu)數(shù)據(jù)模型與存儲、復(fù)雜數(shù)據(jù)智能分析、數(shù)據(jù)質(zhì)量以及大數(shù)據(jù)安全性等問題也進行了分析和討論[8]。如何合理高效的利用這些海量的數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)創(chuàng)新與決策提供優(yōu)化的服務(wù),則是目前企業(yè)創(chuàng)新過程中面臨的一個重要的挑戰(zhàn)。
1.2 大數(shù)據(jù)環(huán)境下創(chuàng)新管理的雙向決策模型
針對大數(shù)據(jù)環(huán)境對科技創(chuàng)新決策管理帶來的挑戰(zhàn),中國科學(xué)院的王飛躍教授在處理與分析大數(shù)據(jù)使其有效支撐科技決策問題中構(gòu)建了面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務(wù)[9]。而北京理工大學(xué)朱東華教授針對美國“大數(shù)據(jù)研究開發(fā)計劃”項目的深入調(diào)研,尤其是針對大數(shù)據(jù)計劃最核心的美國國防部及國防部高級研究計劃局在相關(guān)立項中的側(cè)重點與項目目標(biāo)的分析,發(fā)現(xiàn)從傳統(tǒng)的“目標(biāo)驅(qū)動決策”向“數(shù)據(jù)驅(qū)動決策”的重大轉(zhuǎn)型是美國國家戰(zhàn)略應(yīng)對大數(shù)據(jù)環(huán)境的最直接變化之一。而基于傳統(tǒng)數(shù)據(jù)分析方法的“評估與預(yù)測”理念也正在向“監(jiān)測與預(yù)警”轉(zhuǎn)化。有效地利用大數(shù)據(jù)環(huán)境,深入挖掘與分析潛在技術(shù)競爭情報,監(jiān)測技術(shù)的發(fā)展動態(tài),分析潛在的網(wǎng)絡(luò)威脅與攻擊,正是大數(shù)據(jù)環(huán)境下美國政府的全新國家戰(zhàn)略思維與部署。同時,研究團隊在整合技術(shù)創(chuàng)新管理現(xiàn)有理論方法的基礎(chǔ)上,構(gòu)建了面向技術(shù)創(chuàng)新管理的雙向決策模型,即目標(biāo)驅(qū)動模式與數(shù)據(jù)驅(qū)動模式并行的雙向決策模型[10](見圖1)。一方面,以傳統(tǒng)目標(biāo)驅(qū)動為基礎(chǔ),形成以傳統(tǒng)數(shù)據(jù)挖掘技術(shù)與方法為核心的數(shù)據(jù)獲取、處理、分析、支持決策的技術(shù)評估與預(yù)測模型。另一方面,圍繞大數(shù)據(jù)環(huán)境下的復(fù)雜數(shù)據(jù)特征與環(huán)境,采用當(dāng)前數(shù)據(jù)挖掘領(lǐng)域應(yīng)用于大數(shù)據(jù)處理的新方法、新思路,形成以自組織動態(tài)實時監(jiān)測為核心,能夠有效預(yù)警并積極處理突發(fā)事件的技術(shù)監(jiān)測與預(yù)警模型。
技術(shù)評估與預(yù)測模型圍繞雙向決策中的“目標(biāo)驅(qū)動決策”展開,在大數(shù)據(jù)環(huán)境下,采用常規(guī)的數(shù)據(jù)挖掘方法,通過數(shù)據(jù)采集、加工與分析計算等步驟,將數(shù)據(jù)轉(zhuǎn)化為可供技術(shù)創(chuàng)新決策目標(biāo)支持的有效知識或觀點。具體運用在技術(shù)創(chuàng)新管理工作中,“目標(biāo)驅(qū)動決策”模型通過有目的的對大數(shù)據(jù)環(huán)境下科技、網(wǎng)絡(luò)以及其他數(shù)據(jù)中的潛在信息進行有效萃取與分析,實現(xiàn)對具體技術(shù)領(lǐng)域的“知識發(fā)現(xiàn)”與“可視化”,從而達到評估技術(shù)發(fā)展?fàn)顟B(tài),預(yù)測技術(shù)發(fā)展趨勢的最終目的。
技術(shù)監(jiān)測與預(yù)警模型以數(shù)據(jù)為驅(qū)動,不同于事先制定目標(biāo),依目標(biāo)的需求進行相應(yīng)的數(shù)據(jù)挖掘工作。技術(shù)監(jiān)測與預(yù)警模型通過規(guī)則的建立與基于機器學(xué)習(xí)的算法訓(xùn)練,形成專注于“數(shù)據(jù)”本身的實時監(jiān)測模型,通過對小規(guī)模數(shù)據(jù)的訓(xùn)練與學(xué)習(xí),形成反應(yīng)并處理相應(yīng)大數(shù)據(jù)的人工智能。在技術(shù)創(chuàng)新管理工作中,基于傳統(tǒng)數(shù)據(jù)挖掘方法的基礎(chǔ)上,融入能夠響應(yīng)動態(tài)數(shù)據(jù)變化的動態(tài)數(shù)據(jù)挖掘理念,通過提升機器的自組織與自學(xué)能力,從而達到分析潛在新興技術(shù)的發(fā)展動態(tài),挖掘可能促進技術(shù)升級的核心技術(shù),監(jiān)測競爭對手相關(guān)技術(shù)領(lǐng)域的最新進展,并針對這一切可能情況做出及時并有效的反應(yīng),實現(xiàn)技術(shù)監(jiān)測與預(yù)警的目的。面向技術(shù)創(chuàng)新管理的雙向決策模型,整合傳統(tǒng)的“目標(biāo)驅(qū)動決策”與大數(shù)據(jù)環(huán)境下的“數(shù)據(jù)驅(qū)動決策”理念及方法,分別從“技術(shù)評估與預(yù)測”及“技術(shù)監(jiān)測與預(yù)警”兩個方面創(chuàng)造性的構(gòu)建了適用于技術(shù)創(chuàng)新管理的新方案,為應(yīng)對大數(shù)據(jù)環(huán)境,企業(yè)高效實施技術(shù)創(chuàng)新提供了行之有效的新路徑。
2 大數(shù)據(jù)環(huán)境下企業(yè)技術(shù)創(chuàng)新方法
與傳統(tǒng)創(chuàng)新數(shù)據(jù)的獲取相比,大數(shù)據(jù)改變了創(chuàng)新方法與過程的數(shù)據(jù)來源以及環(huán)境基礎(chǔ),為挖掘知識數(shù)據(jù)中隱藏的價值帶來了新的機遇和新的挑戰(zhàn)。創(chuàng)新方法需要數(shù)據(jù)的支持,而大數(shù)據(jù)技術(shù)通過對海量數(shù)據(jù)的分析可以最大程度地降低創(chuàng)新過程中的不確定性,以及知識轉(zhuǎn)化和推理過程中的難題。甚至以數(shù)據(jù)為基礎(chǔ)的定量分析方法也有逐步取代耗時耗力的以專家為基礎(chǔ)的定性分析方法的趨勢。為了更好地將技術(shù)創(chuàng)新工作與大數(shù)據(jù)應(yīng)用環(huán)境相結(jié)合,以應(yīng)對大數(shù)據(jù)條件下,復(fù)雜的國際間以及企業(yè)之間的競爭,本研究試圖在整合創(chuàng)新方法現(xiàn)有理論方法的基礎(chǔ)上,充分考慮大數(shù)據(jù)環(huán)境帶來的挑戰(zhàn)與機遇,將決策驅(qū)動的根源由傳統(tǒng)的“目標(biāo)驅(qū)動決策”向“目標(biāo)、數(shù)據(jù)雙向驅(qū)動決策”轉(zhuǎn)化。并依據(jù)“雙向決策模型”,一方面,采用傳統(tǒng)目標(biāo)驅(qū)動創(chuàng)新方法時,形成了以傳統(tǒng)數(shù)據(jù)挖掘技術(shù)與方法為核心的數(shù)據(jù)獲取、處理、分析、支持決策的技術(shù)創(chuàng)新模型;另一方面,圍繞大數(shù)據(jù)環(huán)境下的復(fù)雜數(shù)據(jù)特征與環(huán)境,采用當(dāng)前大數(shù)據(jù)處理中海量數(shù)據(jù)提取、分布式數(shù)據(jù)處理和存儲技術(shù)以及大數(shù)據(jù)可視化技術(shù)等,并通過下面四個子項的研究實施,最終實現(xiàn)在大數(shù)據(jù)環(huán)境下為企業(yè)技術(shù)創(chuàng)新與管理創(chuàng)新提供有效的創(chuàng)新決策支持。研究的整體框架如圖2所示。
2.1 數(shù)據(jù)的在線收集與預(yù)處理
基于大數(shù)據(jù)環(huán)境的創(chuàng)新決策主要通過對各種創(chuàng)新數(shù)據(jù)進行動態(tài)分析,將不同領(lǐng)域、不同類型的創(chuàng)新資源進行融合?;诙嘣串悩?gòu)創(chuàng)新資源大數(shù)據(jù)的在線監(jiān)測、自動收集與預(yù)警機制研究主要包含三方面的內(nèi)容:一是利用網(wǎng)絡(luò)數(shù)據(jù)的在線監(jiān)測技術(shù)與主動爬蟲技術(shù),研究大數(shù)據(jù)環(huán)境下創(chuàng)新資源的自動獲取與自動收集機制,特別是在半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中蘊藏的巨大價值;二是自動地識別不同主題下創(chuàng)新資源的內(nèi)容信息,并且將這些信息按照特定的規(guī)則和要求自動地收集與增量式抓?。蝗轻槍ζ诳?、報告等在內(nèi)的傳統(tǒng)科技領(lǐng)域數(shù)據(jù)資源以及網(wǎng)絡(luò)中社交、輿情等數(shù)據(jù)和其它多數(shù)據(jù)來源中的潛在信息進行有效萃取與分析,實現(xiàn)對創(chuàng)新資源與不同創(chuàng)新方法的信息特征分析。技術(shù)難點是對不同數(shù)據(jù)源的技術(shù)創(chuàng)新數(shù)據(jù)識別獲取和融合。
主動爬蟲技術(shù)已被廣泛應(yīng)用在網(wǎng)絡(luò)信息的安全監(jiān)控與信息獲取過程中。監(jiān)測對象主要包括:期刊、專利、技術(shù)研究報告與統(tǒng)計數(shù)據(jù)等在內(nèi)的科技領(lǐng)域數(shù)據(jù)資源,同時也包含了網(wǎng)絡(luò)中發(fā)布的創(chuàng)新政策、社交數(shù)據(jù)、博客與微博數(shù)據(jù)、企業(yè)報表、網(wǎng)絡(luò)輿情數(shù)據(jù)、市場動態(tài)數(shù)據(jù)以及金融交易數(shù)據(jù)等海量數(shù)據(jù)資源。另外,隨著創(chuàng)新方法與工具的發(fā)展,創(chuàng)新方法與創(chuàng)新資源的數(shù)據(jù)量也呈現(xiàn)出爆炸性的增長態(tài)勢。特別是在半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中蘊藏的巨大價值,大量的創(chuàng)新資源與創(chuàng)新方法的實踐結(jié)果往往也分布在網(wǎng)絡(luò)中不同的數(shù)據(jù)系統(tǒng)內(nèi),并且以數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)頁、文件等形式存在。因此,如何自動地識別不同主題下創(chuàng)新資源的內(nèi)容信息,并且將這些信息按照特定規(guī)則和要求來自動地收集與增量式抓取[11],是研究面對的一個重要挑戰(zhàn)。
2.2大數(shù)據(jù)存儲與預(yù)處理技術(shù)體系
基于創(chuàng)新資源與創(chuàng)新方法的大數(shù)據(jù)存儲與預(yù)處理技術(shù)體系研究的主要任務(wù)是利用創(chuàng)新資源的分類特征抽取和信息融合,對創(chuàng)新資源和創(chuàng)新方法中的多源異構(gòu)數(shù)據(jù)進行存儲和預(yù)處理,為創(chuàng)新資源大數(shù)據(jù)分析奠定基礎(chǔ)。主要工作包含三方面的內(nèi)容:一是創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的存儲與并行處理機制研究;二是創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的預(yù)處理技術(shù)方案實現(xiàn);三是根據(jù)創(chuàng)新方法與創(chuàng)新資源的特定需求進行多層聚合,形成統(tǒng)一的創(chuàng)新方法大數(shù)據(jù)資源庫。該工作的技術(shù)難點是創(chuàng)新數(shù)據(jù)本體庫的建立和海量創(chuàng)新資源與創(chuàng)新文本數(shù)據(jù)的特征提取與優(yōu)化。
在創(chuàng)新資源與創(chuàng)新方法大數(shù)據(jù)的存儲與并行處理機制研究方面,針對創(chuàng)新資源與創(chuàng)新方法數(shù)據(jù)的復(fù)雜性、多源異構(gòu)性以及體量巨大等特點,在Hadoop平臺和Hbase數(shù)據(jù)庫基礎(chǔ)上,建立一個創(chuàng)新資源大數(shù)據(jù)的分布式存儲框架。該框架采用HDFS文件系統(tǒng)(Hadoop Distributed File System)來實現(xiàn)高吞吐量的數(shù)據(jù)訪問以及流式的數(shù)據(jù)訪問,適合大規(guī)模創(chuàng)新資源與創(chuàng)新方法數(shù)據(jù)集的應(yīng)用存儲與數(shù)據(jù)的服務(wù)[12]。另外,由于創(chuàng)新資源的文本數(shù)據(jù)體量巨大,采用傳統(tǒng)計算手段無法實現(xiàn)文本建模、特征抽取、特征聚合。因此利用分布式并行計算框架來實現(xiàn)信息內(nèi)容的聚合,一方面,為了提高數(shù)據(jù)分析的效率,在HDFS文件系統(tǒng)上使用HIVE建立分布式數(shù)據(jù)倉庫,并將查詢服務(wù)映射成Map Reduce任務(wù)來執(zhí)行。另一方面,該框架采用Storm流計算、Spark內(nèi)存計算、Map/Reduce并行化編程范式,將多個查詢與信息聚合任務(wù)分解為多個并行任務(wù)同時處理,可實現(xiàn)快速復(fù)雜數(shù)據(jù)運算[13]。
此外,針對科技創(chuàng)新資源與創(chuàng)新方法在應(yīng)用與管理過程中,常常會出現(xiàn)一些臟數(shù)據(jù),需要進行差異識別與數(shù)據(jù)的預(yù)處理。這些數(shù)據(jù)預(yù)處理的方式主要包括了去除無關(guān)數(shù)據(jù)、噪聲數(shù)據(jù)、遺漏數(shù)據(jù)、空值數(shù)據(jù)等臟數(shù)據(jù),把錯誤的、含噪聲的、有沖突的、不一致、有重疊的數(shù)據(jù)轉(zhuǎn)化成可以進一步聚合的數(shù)據(jù)。由于數(shù)據(jù)的規(guī)格、語義的不統(tǒng)一會對后續(xù)的聚合造成影響,因此需要對數(shù)據(jù)進行規(guī)范化與歸一化處理,保障數(shù)據(jù)的一致性。由于創(chuàng)新資源主要以文本的形式存在,這些資源需要通過對創(chuàng)新資源與創(chuàng)新方法特征庫的分類,轉(zhuǎn)變?yōu)閯?chuàng)新資源與創(chuàng)新方法的領(lǐng)域元數(shù)據(jù)庫、領(lǐng)域本體庫、命名實體庫等特征元數(shù)據(jù)庫,并形成統(tǒng)一的數(shù)據(jù)模型和數(shù)據(jù)規(guī)范。同時需要對文本內(nèi)容的分詞和詞頻統(tǒng)計建立文本的主題向量空間模型、“主題詞帶”模型、創(chuàng)新領(lǐng)域知識模型,形成創(chuàng)新資源的特征信息集合。這些數(shù)據(jù)的特征抽取與預(yù)處理對于后續(xù)數(shù)據(jù)處理奠定基礎(chǔ)。
2.3 創(chuàng)新資源數(shù)據(jù)的可視化技術(shù)與決策技術(shù)方法
大數(shù)據(jù)環(huán)境下創(chuàng)新資源的可視化技術(shù)與決策支持方法研究的主要任務(wù)是利用文本挖掘技術(shù)和數(shù)據(jù)可視化技術(shù),對海量文本數(shù)據(jù)進行特征抽取和信息融合。主要工作包含兩方面的內(nèi)容:一是創(chuàng)新資源大數(shù)據(jù)環(huán)境下的數(shù)據(jù)靜態(tài)與動態(tài)分析的可視化分析;二是利用可視化降維技術(shù)對高維度非結(jié)構(gòu)化創(chuàng)新數(shù)據(jù)進行降維處理。工作的技術(shù)難點為多維異構(gòu)創(chuàng)新數(shù)據(jù)可視化技術(shù)實現(xiàn)。在技術(shù)創(chuàng)新活動中需要了解創(chuàng)新數(shù)據(jù)自身的規(guī)律以及創(chuàng)新數(shù)據(jù)之間的相互關(guān)系和發(fā)展趨勢。因此需要利用大數(shù)據(jù)中的可視化技術(shù),提高企業(yè)分析和利用創(chuàng)新數(shù)據(jù)的層次。
文本可視化分析技術(shù)是將文本分析技術(shù)和交互式可視化技術(shù)結(jié)合在一起的產(chǎn)物。它利用人們對圖形的迅速辨識及分析能力,將文本挖掘結(jié)果及相應(yīng)的文本數(shù)據(jù)轉(zhuǎn)換成直觀的、可交互的展現(xiàn)形式,使人們可以通過視覺迅速獲得有用信息,從而達到對大文本數(shù)據(jù)集進一步分析、推理以及理解的目的。已有的可視化分析技術(shù)主要包括靜態(tài)和動態(tài)兩大類方法,其中,靜態(tài)可視方法不關(guān)心文檔的時間屬性,著重研究文檔以及內(nèi)容直接的靜態(tài)關(guān)系;而動態(tài)方法則研究文檔集合中隨著時間變化的內(nèi)容以及相應(yīng)關(guān)系,用于找出一些關(guān)鍵的時刻和事件,并進一步推導(dǎo)相應(yīng)事件產(chǎn)生的原因。例如,利用Circle Packing圖可以圓圈的大小和歸屬表達明確的層級關(guān)系,幫助用戶迅速定位數(shù)據(jù)的聚類,并對離散點進行評估。Stream Graph則通過對一段時間內(nèi),文本特征的變化來展示出動態(tài)的變化行為,從而可以實現(xiàn)對數(shù)據(jù)質(zhì)量分析的優(yōu)化。如圖3是研究團隊針對專利信息以及論壇的主題內(nèi)容進行靜態(tài)與動態(tài)分析的可視化結(jié)果示意圖[14]。
在大數(shù)據(jù)條件下,利用可視化技術(shù)對高維度非結(jié)構(gòu)化創(chuàng)新數(shù)據(jù)進行處理,不僅可以對數(shù)據(jù)特征向量進行降維和簡化,還可對靜態(tài)特征數(shù)據(jù)以及動態(tài)的行為變化過程數(shù)據(jù)與結(jié)果進行可視化顯示。因此,不僅有利于對創(chuàng)新資源與創(chuàng)新成果數(shù)據(jù)進行預(yù)處理與分析,同時也對創(chuàng)新資源之間的關(guān)聯(lián)特征、技術(shù)創(chuàng)新過程中動態(tài)演化行為等關(guān)鍵性問題,起到?jīng)Q策輔助支持的作用,進而提升創(chuàng)新資源與創(chuàng)新方法相關(guān)數(shù)據(jù)的利用價值。
2.4 創(chuàng)新應(yīng)用工具的開發(fā)
大數(shù)據(jù)環(huán)境下創(chuàng)新應(yīng)用工具的開發(fā)與應(yīng)用的主要任務(wù)是在上述研究工作的基礎(chǔ)上,實現(xiàn)創(chuàng)新應(yīng)用工具的開發(fā),并選取應(yīng)用單位進行應(yīng)用驗證。傳統(tǒng)的創(chuàng)新方法都包含有多種工具。文章研究的核心工作是基于Hadoop平臺來完成一個相關(guān)的創(chuàng)新資源分析與創(chuàng)新方法應(yīng)用的軟件工具,并利用該工具來指導(dǎo)企業(yè)實際應(yīng)用。其中,軟件工具主要包括分布式創(chuàng)新數(shù)據(jù)萃取和數(shù)據(jù)融合、創(chuàng)新大數(shù)據(jù)模型變換、流數(shù)據(jù)處理和創(chuàng)新數(shù)據(jù)自動摘要功能等。
根據(jù)數(shù)據(jù)格式的不同,分布式創(chuàng)新數(shù)據(jù)萃取采用不同的算法對其進行處理。分類過后的數(shù)據(jù)還必須遵循統(tǒng)一的數(shù)據(jù)模型進行變換,從而形成統(tǒng)一的創(chuàng)新數(shù)據(jù)存儲。該功能的實現(xiàn)采用使用元數(shù)據(jù)描述創(chuàng)新數(shù)據(jù),從而將所有創(chuàng)新數(shù)據(jù)置于同一標(biāo)準(zhǔn)下。創(chuàng)新數(shù)據(jù)含有獨特的創(chuàng)新信息,在針對需要實時計算的創(chuàng)新流數(shù)據(jù)時,除使用分布式計算架構(gòu)中的流處理技術(shù),還要進行創(chuàng)新數(shù)據(jù)流處理算法的設(shè)計。在企業(yè)進行創(chuàng)新數(shù)據(jù)處理時,除了使用系統(tǒng)提供的自動收集和預(yù)警等功能外,很多情況下還需要人工處理一些數(shù)據(jù),當(dāng)創(chuàng)新數(shù)據(jù)包含大量的非結(jié)構(gòu)化數(shù)據(jù),人工往往無法迅速地獲取最有價值的信息。因此通過實現(xiàn)創(chuàng)新數(shù)據(jù)自動摘要生成技術(shù),能夠方便企業(yè)查找和比對大數(shù)據(jù)環(huán)境下的技術(shù)創(chuàng)新數(shù)據(jù),提升技術(shù)創(chuàng)新活動的效率。
3 結(jié)束語
大數(shù)據(jù)時代的到來,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素。特別是近年來,企業(yè)在激烈的市場競爭中往往由于技術(shù)資源的局限性以及海量數(shù)據(jù)獲取與分析的能力限制而造成技術(shù)創(chuàng)新的成功率較低且管理決策的風(fēng)險較高的影響,大數(shù)據(jù)技術(shù)與應(yīng)用為企業(yè)技術(shù)創(chuàng)新提供了一個全新的機遇。圍繞著大數(shù)據(jù)環(huán)境下對企業(yè)技術(shù)創(chuàng)新與管理決策的相應(yīng)技術(shù)研究,陜西工業(yè)技術(shù)研究院與西安交通大學(xué)軟件學(xué)院在深入合作研究過程中,已建立起來了大數(shù)據(jù)環(huán)境下的技術(shù)創(chuàng)新與決策的技術(shù)框架體系,依據(jù)技術(shù)創(chuàng)新“雙向決策模型”,整合傳統(tǒng)“目標(biāo)驅(qū)動決策”與大數(shù)據(jù)環(huán)境下“數(shù)據(jù)驅(qū)動決策”的理念和方法,通過四個子項的實施,實現(xiàn)技術(shù)創(chuàng)新的“評估與預(yù)測”和“監(jiān)測與預(yù)警”,結(jié)合企業(yè)研發(fā)與技術(shù)創(chuàng)新實踐,希望能幫助企業(yè)實現(xiàn)更加精準(zhǔn)的技術(shù)創(chuàng)新決策。下一步,將大數(shù)據(jù)環(huán)境下的創(chuàng)新方法在企業(yè)中得到應(yīng)用與推廣,為企業(yè)的創(chuàng)新提供新的技術(shù)支撐。
參考文獻
[1]McAfee A,Brynjolfsson E. Big data:The management revolution[J].Harvard Bus Rev,2012,90(10).
[2]陶翔,羅天雨.大數(shù)據(jù)技術(shù)的發(fā)展歷程及其演化趨勢[N].科技日報,2014-08-10(2).
[3]R.Weiss, L.Zgorski,“Obama Administration Unveils 'BigData' Initiative: Announces MYM200 Million in New R&D Investments”, Office of Science and Technology Policy, Washington, DC,2012.
[4]賽迪智庫軟件與信息服務(wù)研究所.美國將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[N].中國電子報,2012-07-17(003).
[5](英)維克托·邁爾-舍恩伯格,(英)肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.浙江人民出版社,2013.
[6]工業(yè)和信息化部.物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃[Z].北京:工業(yè)和信息化部,2011.
[7]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域-大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(6):
647-657.
[8]馬帥,李建新,胡春明.大數(shù)據(jù)科學(xué)與工程的挑戰(zhàn)與思考[J].中國計算機學(xué)會通訊,2012,27(5):527-537.
[9]王躍飛.知識產(chǎn)生方式和科技決策支撐的重大變革:面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務(wù)[J].中國科學(xué)院院刊,2012,
27(5):527-537.
[10]朱東華,張嶷,汪雪鋒,等.大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理.2013,34(4):172-180.
[11]丁杰,徐俊剛.IPSMS:一個網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2010(4):188-190.
[12]李昕娟.基于主題的文本數(shù)據(jù)流實時聚類及演化研究[D].西安交通大學(xué),2014.
[13]黃曉斌,鐘輝新.大數(shù)據(jù)時代企業(yè)競爭情報研究的創(chuàng)新與發(fā)展[J].圖書與情報,2013(6):9-14.
[14]劉大偉.基于文本聚類的專利信息分析與可視化研究與應(yīng)用[D].西安交通大學(xué),2014.
作者簡介:趙亮 (1969-),男,吉林長春,經(jīng)濟師/MBA。陜西工業(yè)技術(shù)研究院技術(shù)創(chuàng)新部,從事創(chuàng)新項目孵化技術(shù)轉(zhuǎn)移研究。