摘要:科技文本挖掘為企業(yè)研發(fā)提供一個很好的了解同業(yè)競爭者研發(fā)知識的工具手段,而共詞分析及其可視化是挖掘企業(yè)基礎研發(fā)信息的重要方法。以國際大企業(yè)IBM公司為例,挖掘其基礎研發(fā)知識結構并對其知識結構進行了可視化展示。
關鍵詞:企業(yè)研發(fā);科技文本挖掘;共詞分析;可視化;IBM公司
中圖分類號:F416 文獻標識碼:A
The Visualized Textual Mining Research of R D in Internatinal Enterprizes Based on Co-word Analysis
YUE Hong-jiang
(School of Economics and Management,Nanjing University of Aeronautics and Astronautics, Nanjing 210016,China)[GK2!2]
Abstract:
Oriented technology RD is the basis of R D in the international enterprises.Science Technology (ST) text mining is used to extract technical intelligence from the open source global anthrax research literature. IBM Co. RD literature infrastructure (prolific authors, key journals/ institutions/countries)is obtained with bibliometrics and literature of the co-keyword network for visualization.
一、前言
研發(fā)是現(xiàn)代大企業(yè)持續(xù)發(fā)展的核心,據(jù)不完全統(tǒng)計,目前世界500強企業(yè)研究開發(fā)的費用(RD)占全球的近70%,并且這一比例還在不斷上升,并壟斷著世界技術創(chuàng)新70%以上的成果。在大企業(yè)技術創(chuàng)新體系中,面向技術的基礎研發(fā)是整個研發(fā)環(huán)節(jié)之一。面向技術的基礎研究是新技術、新發(fā)明的先導,信息技術、生物技術、激光技術、半導體技術、航空航天技術等都是基于基礎研究的重大突破而產生出來的;企業(yè)面向技術的基礎研究的重大進展往往可以推動高技術的重大突破,使公司獲得市場競爭力和超額利潤。
國際研發(fā)活動的一個重要內容就是技術監(jiān)測或技術情報收集。20世紀90年代以來,在技術開發(fā)和市場管理的全球化過程中,特別是世界范圍內的RD資源在全球層面上實現(xiàn)集成管理,突出了了解國外其他公司技術發(fā)展的重要性,相應地也促進了技術情報工作的發(fā)展。
國際RD中技術情報收集的途徑多種多樣,Jokob Edler等列舉了跨國公司所采用的12種途徑[1],其中包括因特網,在線數(shù)據(jù)分析。研發(fā)前沿通過各種不同媒介展現(xiàn)出來,包括各種科學與技術文本,主要有主要各種技術報告、學術論文、專利,以及其它媒體信息,還有研發(fā)的中試產品,等等。科技文獻以每年6%的速度在增長[2]。研發(fā)競爭情報對企業(yè)的競爭越來越重要。在互聯(lián)網時代可以很容易的獲取各種各樣的信息,但面對日益快速發(fā)展的科學技術工業(yè),特別是非結構化的知識數(shù)據(jù)管理仍然是一件復雜和費時的工作。
RD管理是一個長期的勞動密集型過程,主要依靠科技專家廣泛的知識和信息的積累。而隨著全球化的發(fā)展,知識和信息呈爆炸性增長,以前的借助于手工信息處理已不再是主流的方法,隨之而來的是借助于計算機輔助的信息提取、數(shù)據(jù)挖掘、信息處理技術,這些技術的有效運用,大大提高了企業(yè)研發(fā)知識和信息處理能力。
文獻計量學、技術預測、技術評估、技術競爭情報等研究方法被應用到企業(yè)RD管理和評價中去。文獻計量學,特別是內容分析法曾是一種有效的展示企業(yè)研發(fā)信息的手段,但此方法有諸多局限性。近些年學者在關注“科技文本挖掘”(science and technology text mining)方法,用于分析科技文本的摘要和全文,這種方法可以有效的幫助企業(yè)RD管理以及技術競爭情報等。特別是文本挖掘的可視化方法,可以充分展示企業(yè)RD的主流、研究領域的結構動態(tài),以及預測企業(yè)RD技術目標。
而共詞分析作為一種文本知識挖掘方法,也得到了廣泛應用。我們想通過以共詞這種文本挖掘方法在IBM公司研發(fā)中的應用,展示文本挖掘對企業(yè)RD管理的意義。
二、文本挖掘與共詞分析
(一)文本挖掘方法與意義
科技文本挖掘正是通過利用自然語言和統(tǒng)計技術探索半結構化科技文本的收集、分類,并通過可視化的展示,從大量的科技文本中獲得可靠、有價值的信息。通過大量的在線文獻數(shù)據(jù)庫、專利數(shù)據(jù)庫、企業(yè)網站、各類金融報表可以獲得企業(yè)研發(fā)的信息??焖俚募夹g跟蹤要依靠互聯(lián)網來有效的挖掘這些數(shù)據(jù)庫,可以對文本分類、總結、聚類,以及文本的分布和趨勢分析。更主要的是可以獲得該研究主題領域的知識圖譜,如技術突破點以及技術之間的關聯(lián),等等。
科技文本挖掘可以分五步來完成,文獻的檢索、數(shù)據(jù)提取、數(shù)據(jù)預處理、數(shù)據(jù)分析和數(shù)據(jù)可視化[3]。文獻的檢索,依據(jù)要研究的對象,收集有關的文獻條目,并對文獻進行編碼。數(shù)據(jù)提取,通過對重新編碼的文獻自動提取出相關特性,一類文獻特性包括作者、作者單位、日期、作者地址,等等,另一類是通過自然語言技術得到文本的詞、詞的搭配、句子信息等。數(shù)據(jù)預處理,通過一定的運算法則檢測和去處錯誤的數(shù)據(jù),為后面的數(shù)據(jù)分析提供基礎。數(shù)據(jù)分析,通過降維技術,如因子分析、主成分分析和聚類分析等,得到知識之間的關系、構成以及相似性。數(shù)據(jù)可視化,經過對數(shù)據(jù)的降維,可以通過二維或三維圖展示出來,主要有多維尺度(Multidimensional Scaling (MDS))、網絡分析圖(Social Network Analysis),確定文本網絡之間的概念圖譜或知識網絡結構。
目前世界上常用的科技文本數(shù)據(jù)庫主要有SCI(美國科學引文數(shù)據(jù)庫)、EI(美國工程索引數(shù)據(jù)庫)、MEDLINE(美國國家醫(yī)學圖書館醫(yī)學文獻數(shù)據(jù)庫)、INSPEC(英國機電工程師學會科學文摘數(shù)據(jù)庫)、USPTO(美國專利局專利數(shù)據(jù)庫)、ESP(歐洲專利局專利數(shù)據(jù)庫)、PCI(美國德溫特專利引文索引)。這些覆蓋范圍廣的半結構化科技文獻數(shù)據(jù)庫大大提高了對全球范圍內文本挖掘的廣度和深度。
隨著人們對文本挖掘的重視,國內外有許多種文本挖掘計算機程序,其中主要用于科技文本挖掘非商業(yè)軟件主要有SITKIS(http://users.tkk.fi/~hschildt/sitkis/)、ARROWSMITH(http://kiwi.uchicago.edu/)、BIBEXCEL(http://www.umu.se/inforsk/Bibexcel/index.html)、BIBTECHMON(http://www.arcs.ac.at/S/ST/BibTechMon)、T-LAB(http://www.tlab.it)。上述軟件都是針對大型文獻數(shù)據(jù)庫而設計的。
文本挖掘是企業(yè)研發(fā)人員、研發(fā)管理者、研發(fā)管理和資助管理部門以及企業(yè)研發(fā)競爭情報人員獲得有用信息的手段。能夠在企業(yè)制定戰(zhàn)略計劃時提供全面的指示,也能在產品開發(fā)階段提供指導,
在產品開發(fā)過程中導向新的性能和創(chuàng)新,也可以新技術突破的機會以及新研究領域的開辟。
科技文本挖掘增強了人們對全球技術文獻的了解,通過非相關文獻之間的融合可以找到新的突破和創(chuàng)新點??梢澡b別次領域的研究水平,以及幫助研究人員提高他們成果的影響力以及期刊影響力。
(二)共詞分析及可視化
而近年來出現(xiàn)的共詞分析方法屬于內容分析方法的一種,也是科技文本挖掘的重要方法。它通過分析科技文本中關鍵詞、主題詞、索引詞或短語在科技文本中共同出現(xiàn)的形式,統(tǒng)計一組詞或短語兩兩在同一篇文獻中出現(xiàn)的次數(shù)來建立一個矩陣,該矩陣顯示了詞之間的關聯(lián)。關聯(lián)的次數(shù)越多,他們之間的關系就越密切,“距離”也就越近。利用多元統(tǒng)計技術如因子分析、聚類分析和多維尺度分析等,及其相關的可視化方法可以反映一定時期內研究領域的主題及微觀結構,揭示文本所代表的研究領域中主題間的關系。也可以通過比較觀察不同時期研究領域的主題及微觀結構變化。
以共詞矩陣為基礎對這些詞之間的連接強度進行分析,目前主要的分析方法主要是聚類分析法得到研究領域發(fā)展的結構。并且通過多維標度繪制這些詞的結構圖譜,可以直觀的看到該研究主題的結構及變化。
戰(zhàn)略坐標圖是在共詞矩陣和聚類的基礎上,用可視化的形式來綜合表示不同詞團之間的內部聯(lián)系和外部聯(lián)系。所有的詞團以向心度和密度為參數(shù)繪制成的二維坐標, X 軸為向心度(Centrality) , Y 軸為密度(Density) 。向心度用來測量一個詞團和其他詞團之間相互聯(lián)系的程度。取每個詞團與其他詞團的共現(xiàn)次數(shù)的和作為該詞團的向心度。密度用來測量詞團內部詞語之間的共現(xiàn)強度。取詞團內部主題詞共現(xiàn)次數(shù)的平均值作為這個詞團的密度[4]。
該圖以向心度和密度的均值為原點,將所有詞團劃分為四個象限,落入四個象限中的詞團分別表示不同的含義: 第一象限中的詞團密度和向心度都較高,密度高,詞團內部聯(lián)系緊密,說明該詞團組成的研究主題趨向成熟,向心度高,說明這個詞團又與其余各詞團有廣泛的聯(lián)系,即該詞團處于所有研究主題的核心。第二象限中的詞團中心度較高,但密度較低,該詞團與其余各詞團有廣泛的聯(lián)系,但詞團內部聯(lián)系不緊密,由該詞團構成的主題領域也是核心,但是結構不緊密,研究尚不成熟,如果給予更多的關注,他們極有可能沿著研究的主題進一步成熟。位于第三象限中的詞團,與其他詞團團聯(lián)系不密切,在整個研究主題中處于邊緣位置,受到越來越少的關注,這是由于該詞團內部鏈接緊密,說明這些領域的研究已經受到關注,且被很好的研究過;第四象限的詞團研究主題密度和向心度都較低,處于整個研究領域的邊緣,研究不成熟。
以關系作為基本分析單位的社會網絡分析方法今天已經在社會學、心理學與經濟學等諸多學科領域得到了廣泛運用。社會網絡分析是一種對于以關系作為基本單位進行分析的實證研究方法,主要分析的是關系數(shù)據(jù)。此分析方法在科技管理領域也得到了應用,如分析科學研究中的合作關系網絡[5-6]、學科間的引用及被引關系網絡[7]。
共詞矩陣呈現(xiàn)的是詞與詞之間的共現(xiàn)數(shù)據(jù),它代表的是詞與詞之間的共現(xiàn)關系網絡,在共現(xiàn)關系網絡中就形成了頂點和邊的網絡,頂點是那些具有代表性的詞,詞之間存在的連接關系由邊來表示。這樣就可以通過網絡分析方法來研究網絡在頂點的相互作用下的分布情況,共詞網絡分析的一個主要目的是確定這些代表性術語之間的概念圖譜或知識網絡結構,通過一系列類似圖譜就可以相當詳細地描述某一研究領域的主題[8]。
三、結果分析:以IBM公司為例
IBM公司可稱得上是當今世界IT業(yè)的“航母”,它的產業(yè)經營涉及了硬件制造、軟件設計、全球化服務、金融和投資等5大領域,銷售額中有一半以上來自美國以外的國家和地區(qū),屬于典型的規(guī)模經濟與范圍經濟兼具的跨國公司。雖然全球化的規(guī)模經營與多元化經營戰(zhàn)略可以帶來成本領先優(yōu)勢,在IT行業(yè)這種比較優(yōu)勢極易被競爭對手模仿和復制,真正確立和鞏固IBM公司全球競爭優(yōu)勢的決定性因素,是其成功的研發(fā)戰(zhàn)略,保障了IBM的技術領先和技術開拓,能夠源源不斷地向信息產業(yè)市場推出技術最先進的產品。IBM公司每年大約投入RD經費50億美元,在全球設有8個實驗室,擁有3000多名研究人員,研究領域十分廣泛。在2003年公司獲得美國專利3415項。
首先根據(jù)研究對象和目的選擇合適的文獻數(shù)據(jù)庫。我們的目的是探討IBM公司基礎研發(fā),SCIE文獻數(shù)據(jù)庫是比較好的選擇,從Web of Science中提取IBM公司發(fā)表的學術論文,時間是1997-2006年。其次通過計算機程序處理,并把結果圖示出來。
(一)關鍵詞聚類
本研究采用科技文本中的關鍵詞之間的關系作為挖掘的對象。關鍵詞是科技文本的一個重要組成部分,雖然往往只是3-5個詞,在論文中所占篇幅最少,但卻是論文的精髓。不僅可以利用關鍵詞檢索到文獻,還可以通過關鍵詞了解到文獻涉及的領域和內容。
采用了詞頻統(tǒng)計軟件對所選樣本中所有關鍵詞的出現(xiàn)頻次進行統(tǒng)計。本研究所采用的樣本庫中共出現(xiàn)1001個不同的關鍵詞。根據(jù)關鍵詞累積頻次的變化截取高頻關鍵詞。本文將關鍵詞出現(xiàn)的累積頻次達到總關鍵詞頻次的31.9%的前65個關鍵詞作為表征當前IBM基礎研發(fā)的研究熱點。
由于這些關鍵詞是IBM基礎研發(fā)中出現(xiàn)頻次最高的詞,代表了當前IBM基礎研發(fā)研究的熱點。為進一步反映這些關鍵詞之間的關系,我們對這些高頻關鍵詞構建共詞矩陣:兩兩統(tǒng)計它們在同一篇論文中同時出現(xiàn)的次數(shù),我們稱之為共現(xiàn)次數(shù),這樣形成了一個65×65的共詞矩陣。
在共詞矩陣分析中,SPSS 軟件可作為統(tǒng)計分析的工具。利用SPSS中的相關分析,將共詞矩陣轉化為皮爾遜相關系數(shù)矩陣( Pearson correlations),由此能夠消除由共詞次數(shù)差異所帶來的影響。經過轉換的相關矩陣作為后面聚類分析(Cluster Analysis)的數(shù)據(jù)來源。聚類分析采用系統(tǒng)聚類(Hierarchical Cluster),選擇離差平方和法(Ward's method)與歐氏距離平方法(Squared Euclidean distance)。
通過對2002-2006年65個高頻詞共詞矩陣的聚類,在分類閾值1.5水平上得到11個詞團。每個詞團如下:
A:9、12、29、59、48
B:17、21、25、30、31、32、38、52
C:1、2、5
D:3、4、19、35、49、51、58、63、65
E:8、10、14、26、41
F:33、37、53、56、61、64
G:11、27、28、40、50
H:7、18、20、45
I:6、23、34、36、39、42、44、46、60、62
J:15、16、22、54、55、57
K:13、24、43、47
(二)戰(zhàn)略圖分析
通過計算各類詞團的中心度和密度,各詞團的位置展示在圖2中。
從戰(zhàn)略坐標圖可以看出,沒有詞團落在第一象限,C和I詞團位于第二象限,H詞團位于第三象限,其他詞團位于第四象限。
C和I詞團有著較高的中心度,但密度低于H詞團。 H詞團有著較高的密度,但向心度不高。除此之外的其它詞團都位于第四象限,這些詞團的密度和向心度都較低,詞之間聯(lián)系比較松散,還沒有形成體系。
從詞團的分布看,IBM公司研發(fā)領域比較分散,沒有高度成熟的領域。
(三)關鍵詞網絡分析
圖3和圖4分別是IBM公司1997-2001年、2002-2006年65個關鍵詞構成的共現(xiàn)網絡圖。圖中的點數(shù)字分別代表65個關鍵詞,點與點之間連接代表兩個關鍵詞之間存在共現(xiàn)關系,如果沒有連接則表示兩個詞之間不存在線共現(xiàn)關系,連線的粗細則表示關鍵詞之間的共現(xiàn)次數(shù)的多少。
從圖3可以看出,IBM公司SCI論文高頻詞(前65個)共詞圖譜密度不是很緊密。有些詞構成的單鏈條比較突出,這表明這些詞之間的聯(lián)系比較疏松。而圖4共詞圖譜密度卻很緊密,圖中的粗線條較多。這表明IBM公司研發(fā)圍繞這些關鍵詞不斷的深入下去,以尋求某些技術的創(chuàng)新和突破。
為更加清楚地展現(xiàn)核心關鍵詞之間的共現(xiàn)關系,引入社會網絡分析方法: k 核分析。k 核分析是社會網絡研究中凝聚子群的一種,凝聚子群是滿足如下條件的一個行動者子集合,即在此集合中的行動者之間具有相對較強、直接、緊密、經常的或積極的關系。核的概念最早是由Seidman提出的。k 核是建立在點的度數(shù)基礎上的凝聚子群概念,是通過對網絡子群中的每一個成員的鄰點個數(shù)進行限制而得到的。k 核指的是滿足一個條件的子圖,即子圖中的點都至少與該子圖中的k個其它點鄰接。通過改變k 的值,就會得出不同的子圖。隨著k 的增加, k 核的子圖成員會逐漸減少,而成員之間的關系會更緊密。
圖5和圖6分別是1997-2001年、2002-2006年65個關鍵詞構成的k 核共詞網絡圖。圖中每條線的粗細與其在共詞網絡中出現(xiàn)的次數(shù)成正比。
在圖5中,1997-2001年65個關鍵詞構成的k 核的最高的級數(shù)為6。也就是說在k 等于6的核中每一個詞都最少和同一核中的其他詞共同出現(xiàn)的次數(shù)等于或大于6。圖6展示了2002-2006年65個關鍵詞構成的k 核等于7的核的連接情況,也即是說在k 等于7的核中每一個詞都最少和同一核中的其他詞共同出現(xiàn)的次數(shù)等于或大于7。兩圖是整個共詞網絡中連接最強,也是關系最為緊密的一個部分。
在1997-2001年由21個核心關鍵詞構成了最緊密的圖,而到2002-2006年有37個詞成為核心關鍵詞。在21個詞中有4個詞未成為2002-2006年的核心詞,分別是10(SYSTEM)、15(SURFACES)、19(NETWORKS)和64(STATE)。新增加的16個詞分別是20(INTERFACE)、21(DEVICES)、23(TECHNOLOGY)、26(MOSFETS)、27(SCATTERING)、29(DEPENDENCE)、31(DEPOSITION)、
33(STATES)、34(KINETICS)、37(SIMULATIONS)、38(DIFFUSION)、39(MICROSTRUCTURE)、40(LITHOGRAPHY)、43(MEDIA)、46(OXIDE)、53(MOLECULAR-DYNAMICS)、54(PHASE)、55(MICROSCOPY)、57(STRESS)、60(RESOLUTION)。這也預示著下一階段公司研發(fā)重點會出現(xiàn)在65個詞中前兩階段未曾成為核心的詞。
四、結論與討論
科技文本挖掘為企業(yè)研發(fā)提供一個很好的了解同業(yè)競爭者研發(fā)知識的工具手段,而共詞分析及其可視化是挖掘企業(yè)基礎研發(fā)信息的重要方法。以國際大企業(yè)IBM公司為例,挖掘其基礎研發(fā)知識結構并對其知識結構進行了可視化展示。
從對IBM公司的研發(fā)信息挖掘結果來看,對現(xiàn)階段中國大企業(yè)做大作強,成為有核心競爭力的國際化企業(yè)具有重要的借鑒意義。從科技實力來說,中國大企業(yè)還應鍛造世界級的研發(fā)中心,加強研發(fā)管理的能力使散落的技術資源轉化成強勁的研發(fā)合力,使技術真正成為公司有效的資產。
參考文獻:
[1] Jakob Edler, Frieder Meyer-Krahmer, Guido Reger. Changes in the strategic management of technology:results of a global benchmarking study[J]. RD Management, 2002,32(2):149-164
[2] Fernández-Cano A, Torralbo M, Vallejo M. Reconsidering Price's model of scientific growth: An overview[J]. Scientometrics. 2004,61(3):301- 321
[3] Losiewicz, P., Oard, D. W., and Kostoff, R. N.. Textual data mining to support science and technology management[J]. Journal of Intelligent Information Systems, 2000(15):99-119
[4] Callon M, Courtial J P , Laville F. Co-word analysis as a tool for describing the network of interactions between basic and technological research : the case of polymer chemistry[J]. Scientometrics, 1991, 22(1) :155~205
[5] Caroline S. Wagner, Loet Leydesdorff. Mapping the network of global science: comparing international co-authorships from 1990 to 2000[J]. International Journal of Technology and Globalisation, 2005, 1(2):185-208
[6] Newman, M. E. J..The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(2):404-409
[7] Everett,M. .Social network analysis[Z]. Essex: Textbook at Essex Summer School in SSDA,2002
[8] Tor J Larsen,Linda Levine. Searching for management information systems: coherence and change in the discipline[J]. Information Systems Journal, 2005(15): 357-381
[9] Guido Reger. Technology Foresight in Companies: From an Indicator to a Network and Process Perspective[J]. Technology Analysis Strategic Management, 2001,13(4):533 - 553.
(責任編輯:席曉虹)