溫志芳
(山西省信息產業(yè)技術研究院有限公司,山西 太原 030012)
在我國,科技成果應用比例較高,但成果實現(xiàn)產業(yè)化比例較低。提升科技成果轉化水平始終是我國科技體制改革的主攻方向,目前我國相繼出臺了《科學技術進步法》《促進科技成果轉化法》和《關于促進科技成果轉化的若干規(guī)定》等一系列政策法規(guī),形成我國促進科技成果轉化的政策體系基本框架。但目前我國科技成果轉化交易還很不完善,尤其缺少訓練有素的既懂技術又懂經濟的專業(yè)技術經紀人和規(guī)范的技術經營機構,導致供需對接不暢通,供需雙方溝通不良,這是我國的科技成果、知識產權轉化率不高的直接原因。
同時,計算機和信息技術的迅猛發(fā)展和普及應用,人工智能技術等新一代信息技術的迅猛發(fā)展,迅速擴大的企業(yè)行業(yè)及高校的應用系統(tǒng)規(guī)模,使科技成果行業(yè)應用所產生的數(shù)據(jù)呈爆炸性增長,動輒達到數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模,科技成果數(shù)據(jù)已遠遠超出了現(xiàn)有傳統(tǒng)的計算技術和信息系統(tǒng)的處理能力?,F(xiàn)代信息產業(yè)在高速發(fā)展中,智能信息處理成為了炙手可熱的名詞,是一個大樣本和高維變量的數(shù)據(jù)集合,在人們的生活中扮演著越來越重要的角色。因此,尋求有效的智能信息處理技術、方法和手段,促進成果轉化率已經成為現(xiàn)實世界科技成果轉化的迫切需求。
隨著創(chuàng)新驅動發(fā)展戰(zhàn)略的深入推進,本文在科技成果轉化中進行新嘗試、新實踐,探討基于K-近鄰(K-NN,K-Nearest Neighbor)分類算法的供需數(shù)據(jù)智能匹配研究,將智能信息處理技術應用于成果轉化體系建設,切實研究將過去沉睡的科研成果與市場需求進行智能匹配,實現(xiàn)科研成果的激活與轉化,促使其成為市場創(chuàng)新的新動力,助推科技成果轉化體系建設。
本文利用有指導的基于K-近鄰分類算法對所選數(shù)據(jù)進行高維空間分布實驗,通過基于各類高文檔頻率的特征選擇方法、有監(jiān)督K-NN分類方法,進行全封閉在高維空間中進行測試。
供給成果的成果簡介是通過適當?shù)奈淖直磉_成果所要表達的內容,本身文本比較長,疊加了人類語言的多樣性,體現(xiàn)出文本表示的語言的多元化,因此導致數(shù)據(jù)的特征選擇將在很大程度上影響到文本類別判斷的最終結果。本文針對這一特性,采用各類高文檔頻率來作為特征選擇的方法展開研究。
K-NN分類算法的思想是:如果一個文本在特征空間中的k個最相似(即特征空間中最鄰近)的文本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。K-NN算法中,所選擇的點都是已經正確分類的對象。
K-NN方法一般選取k為奇數(shù),跟選舉、投票一樣,避免因兩種票數(shù)相等而難以判斷其所屬類別。
數(shù)據(jù)采集是智能信息處理技術研究的基礎,在成果轉化體系建設中很好地實現(xiàn)供需數(shù)據(jù)智能匹配的一個重要方面就是對供給和需求信息的數(shù)據(jù)收集。隨著物聯(lián)網技術的不斷發(fā)展,成果轉化數(shù)據(jù)結構變得越來越復雜,數(shù)據(jù)類型從以結構化數(shù)據(jù)為主轉向結構化、半結構化。
本文數(shù)據(jù)的采集利用現(xiàn)有的山西科技成果轉化和知識產權交易服務平臺,從網站上獲取數(shù)據(jù)信息,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲。成果轉化數(shù)據(jù)的可用性是數(shù)據(jù)采集的一個關鍵方面,一個正確的數(shù)據(jù)集合至少包含五方面性質:一致性、精確性、完整性、時效性和實體同一性。
采集回來的供給成果數(shù)據(jù)共12 519條,包括專利、平臺基地、軟件著作權、金融服務、人才信息、團隊信息、獲獎成果、鑒定成果、其他成果九大類。本次的樣本數(shù)據(jù)選用九大類的成果簡介字段,即對12 519條成果簡介數(shù)據(jù)進行智能處理。
數(shù)據(jù)預處理研究的復雜性體現(xiàn)在它包含豐富的策略和技術,在數(shù)據(jù)幾個處理階段中非常關鍵的第一步是對成果轉化數(shù)據(jù)來源的真實性、準確性、完整性、時效性等進行研究,只有確保成果轉化數(shù)據(jù)來源的質量,才能發(fā)揮大數(shù)據(jù)處理和分析的作用。現(xiàn)實世界采集回來的數(shù)據(jù)大體上都是不完整、不一致的數(shù)據(jù),無法直接進行數(shù)據(jù)處理,或處理結果差強人意,本研究對數(shù)據(jù)進行清洗與處理,將大大提高數(shù)據(jù)模式的質量,降低實際挖掘所需要的時間。
我們將所有的成果數(shù)據(jù)按照所屬技術領域分為25類:電子信息、現(xiàn)代農業(yè)、煤炭、焦化、冶金、電力、化工、現(xiàn)代煤化工、煤層氣、新能源、新能源汽車、新材料、節(jié)能環(huán)保、裝備制造、交通運輸、新一代信息技術、航空航天、地球、空間與海洋、核應用技術、生物技術、醫(yī)藥衛(wèi)生、食品加工、現(xiàn)代服務業(yè)、其他。
針對特定的需求數(shù)據(jù),將該條數(shù)據(jù)的文本內容表示成數(shù)學上可以處理的形式,即表示成高維空間中的點。該點為測試樣本,訓練集則為25類的成果數(shù)據(jù),通過K-NN分類算法,確定該樣本屬于哪個類別。我們將高維空間兩個點之間的距離定義為:
其中:x、y分別為兩個數(shù)據(jù);T為特征集;t為一個特征;f()為點對應的特征值。
實現(xiàn)智能對接的模型計算步驟如下:
(1) 分別計算該需求與各成果數(shù)據(jù)的距離,同時計算每類距離的平均值。
(2) 確定平均距離最小的類,即表示該需求與該類成果最匹配。
(3) 在該成果與該類的所有距離中,計算距離最小的n條數(shù)據(jù),即表示該條需求與這n條成果最為匹配。
高維空間的點我們是看不到的,只有通過對點的分布考察,才可以得知這些點在空間中的分布情況,進一步了解這些數(shù)據(jù)是否可匹配。
通過數(shù)據(jù)挖掘技術,對互聯(lián)網科技成果轉化的供給與需求數(shù)據(jù)的收集、清洗與融合整理,分析構建成果轉移轉化路線,建立成果與需求的關系網圖元模型,實現(xiàn)海量數(shù)據(jù)下成果供需雙方的智能對接。
本實驗所選的測試數(shù)據(jù)不是從UCI機器學習數(shù)據(jù)集存儲庫中選擇的數(shù)據(jù)集,而是客戶對企業(yè)回饋的科技需求數(shù)據(jù)。選用13 755條需求數(shù)據(jù)集,利用上述的基于各類高文檔頻率的特征選擇方法,以及K-NN分類算法進行實驗。
對于分類算法,我們利用文本分類系統(tǒng)的召回率指標對實驗結果進行系統(tǒng)的分析。召回率(Recall)是所有判斷的文本中正確的文本個數(shù)占應有文本數(shù)的比率,即:
其中:ai為分類器判斷為第i個類別正確的文本數(shù);ci為第i個類別實際文本數(shù)。
計算得到的25類需求數(shù)據(jù)的召回率和總召回率見表1。
表1 25類需求數(shù)據(jù)的召回率和總召回率
由表1可知,電子信息類、煤炭類、醫(yī)藥衛(wèi)生類等實驗效果較好,說明該類數(shù)據(jù)具有部分一致性;對于航空航天類、地球類、空間與海洋類等,實驗的召回率都達不到70%,甚至空間與海洋類結果召回率不超過60%,這與這幾類的本身屬性是相關的,屬于這幾個類別的文本數(shù)少,在空間的分布不均勻,類別信息不明顯,這些原因都使得這幾類的實驗結果偏低。
本文通過從山西科技成果轉化和知識產權交易服務平臺獲取成果和需求數(shù)據(jù),并存儲為計算機可以處理的文本格式,進行了基于各類高文檔頻率的特征選擇方法的分類算法研究,利用數(shù)據(jù)挖掘的分類算法技術對轉化數(shù)據(jù)模型進行智能匹配,分析并建立供給需求數(shù)據(jù)模型,使系統(tǒng)擁有自學習功能,為成果轉化體系建立高效機制。通過對成果轉化數(shù)據(jù)來源的真實性、準確性、完整性、時效性等研究分析得知,在保證數(shù)據(jù)來源質量基礎上可發(fā)揮大數(shù)據(jù)處理和分析的作用,助力科技成果轉化體系建設。