劉應(yīng)潔,楊政
(1.云南電網(wǎng)有限責(zé)任公司,昆明 650032;2.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,昆明 650217)
科技創(chuàng)新管理系統(tǒng)是基于云南電網(wǎng)公司科技創(chuàng)新管理系統(tǒng)中的項目評審歷史信息和專家?guī)煨畔?,通過語義提取、智能推薦、專家檢索網(wǎng)絡(luò)爬蟲等技術(shù)進(jìn)行研究,并針對科技評審專家通過智能分詞和語義解析技術(shù)[2]生成專家關(guān)鍵詞,實(shí)現(xiàn)評審專家的智能推薦和合理選定。
目前檢索技術(shù)主要有限制檢索、布爾檢索、截詞檢索、詞位檢索等技術(shù)。限制檢索:通過限制檢索范圍,達(dá)到優(yōu)化檢索結(jié)果的方法。限制檢索的方式有多種,例如字段限制、匹配度限制、時間限制等;布爾檢索:是數(shù)據(jù)庫檢索最基本的方法,是用邏輯“與”、“或”、“非”等算符對相關(guān)信息進(jìn)行定性選擇;截詞檢索:在檢索詞的適當(dāng)位置進(jìn)行截斷,可以防止漏檢、節(jié)省輸入字符;詞位檢索:又稱位置算符檢索,利用算符限定兩個檢索詞之間的位置關(guān)系,或限定檢索詞在數(shù)據(jù)庫記錄中的位置,彌補(bǔ)了布爾檢索只是定性選擇的限制,從而提高查準(zhǔn)率。
隨著云南電網(wǎng)科技項目、成果申報規(guī)模的擴(kuò)大,科技專家在科技項目立項評審、中期檢查、結(jié)題驗(yàn)收以及科技成果的網(wǎng)絡(luò)評審、專家投票、專業(yè)組表決等環(huán)節(jié)發(fā)揮著重要作用[3]。上述的搜索技術(shù),只能讓相關(guān)人員指派專家或根據(jù)評審目標(biāo)的專業(yè)從系統(tǒng)中進(jìn)行機(jī)械地選取專家,無法快速準(zhǔn)確選定合適評審專家,從而導(dǎo)致專家評審不熟悉的技術(shù)領(lǐng)域,影響科技評審結(jié)果的客觀性和公正性[4]。因此,使用智能檢索技術(shù)遴選科技評審專家是有必要的。
依托于云網(wǎng)大量專家信息,以數(shù)據(jù) + 算法+ 系統(tǒng)為核心,結(jié)合云網(wǎng)在輸變配、營銷、電能計量、通信等多方面深厚的數(shù)據(jù)技術(shù)積累,為科技評審工作提供合適的專家推薦服務(wù)。主要從以下幾個方面進(jìn)行智能推薦技術(shù)的研究:
2.1.1 內(nèi)容分析
1)根據(jù)專家的元數(shù)據(jù)、內(nèi)容以及與內(nèi)容相關(guān)的行為綜合進(jìn)行分析;
2)提供不同的語義處理模型的訓(xùn)練功能,對專家進(jìn)行自動處理,形成專家的專業(yè)、標(biāo)簽等要素;
3)提供專家的相關(guān)行為的分析,得出指定專家在特定時間和特定地域的流行度。
2.1.2 智能配置
1)提供數(shù)據(jù)處理規(guī)則的編輯、管理功能;
2)針對不同的分析內(nèi)容,面向數(shù)據(jù)處理訓(xùn)練可以配置不同的算法;
3)提供算法的參數(shù)配置功能;
4)提供多類別的推薦專家列表;
5)針對不同類別的推薦專家列表,提供配置權(quán)重的功能靈活控制推薦專家列表內(nèi)容。
網(wǎng)絡(luò)爬蟲是遵循h(huán)ttp 協(xié)議, 檢索Web 文檔的軟件。網(wǎng)絡(luò)爬蟲是一個功能強(qiáng)大的自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分[5]。通用網(wǎng)絡(luò)爬蟲隨著網(wǎng)絡(luò)的迅速發(fā)展,網(wǎng)絡(luò)上充斥著大量的有用或垃圾數(shù)據(jù),人員無法進(jìn)行快速有效的篩選,這就需要搜索技術(shù)來自動進(jìn)行提取。網(wǎng)絡(luò)爬蟲可以幫助用戶檢索信息,幫助用戶方便的搜集互聯(lián)網(wǎng)上的相應(yīng)信息。但是,通用網(wǎng)絡(luò)爬蟲也存在著一定的局限性:
1)用戶的需求不一樣,檢索的目標(biāo)內(nèi)容不同,通用網(wǎng)絡(luò)爬蟲的檢索結(jié)果包含大量的干擾內(nèi)容;
2)通用網(wǎng)絡(luò)爬蟲的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率[6-7],但服務(wù)器資源是有限的,這就限制了網(wǎng)絡(luò)數(shù)據(jù)的獲取量;
3)網(wǎng)絡(luò)上的數(shù)據(jù)類型復(fù)雜,網(wǎng)絡(luò)資源類型的不斷增多,圖片、音視頻、壓縮包、加密數(shù)據(jù)等不同格式數(shù)據(jù)越發(fā)龐大,通用網(wǎng)絡(luò)爬蟲往往對這些類型的數(shù)據(jù)識別率不高,造成檢索結(jié)果缺少和偏差;
4)通用網(wǎng)絡(luò)爬蟲一般是基于關(guān)鍵字進(jìn)行檢索,往往無法滿足用戶需求。
專家檢索網(wǎng)絡(luò)爬蟲技術(shù)可以很好的解決通用網(wǎng)絡(luò)爬蟲的問題,該技術(shù)可以定向抓取網(wǎng)絡(luò)上專家資源,根據(jù)需要的技術(shù)領(lǐng)域,有選擇地抓取網(wǎng)絡(luò)上的信息內(nèi)容,獲取所需的專家信息。
與通用網(wǎng)絡(luò)爬蟲相比,專家檢索網(wǎng)絡(luò)爬蟲追求檢索結(jié)果的準(zhǔn)確性,而不是網(wǎng)絡(luò)的大面積覆蓋,從而為云網(wǎng)科技評審工作補(bǔ)充專家資源。
專家智能檢索技術(shù)應(yīng)用的關(guān)鍵是現(xiàn)有專家數(shù)據(jù)的完整和準(zhǔn)確,通過聯(lián)系云網(wǎng)各公司各部門相關(guān)負(fù)責(zé)人搜集專家信息,并聯(lián)系專家本人確認(rèn)、補(bǔ)充相關(guān)信息,形成了一套高質(zhì)量的專家信息。把搜集到的專家基礎(chǔ)信息、擅長領(lǐng)域、工作經(jīng)歷結(jié)合評審歷史信息進(jìn)行智能分詞、語義分析等過程后,生成專家標(biāo)簽,再把這些信息存儲在系統(tǒng)里面,當(dāng)需要的時候可以通過信息檢索器來尋找相應(yīng)的專家;通過專家檢索專用網(wǎng)絡(luò)爬蟲技術(shù),抓取網(wǎng)絡(luò)上的相關(guān)專家信息,經(jīng)過篩選后進(jìn)入專家?guī)?,對現(xiàn)有專家進(jìn)行補(bǔ)充。
本文成果應(yīng)用于云網(wǎng)科技創(chuàng)新管理平臺,有效的解決了科技評審工作分配專家過程中存在的工作繁瑣、專業(yè)不熟悉等問題。
專家智能推薦技術(shù)及專家檢索網(wǎng)絡(luò)爬蟲技術(shù)的研究不僅具有實(shí)際應(yīng)用價值,也同樣具有廣泛的學(xué)術(shù)意義。在現(xiàn)有專家信息、項目評審歷史數(shù)據(jù)的基礎(chǔ)上,進(jìn)行深入挖掘,與定量研究方法相結(jié)合,提出專家智能檢索方法,滿足目前云網(wǎng)范圍內(nèi)科技項目及科技成果評審工作的公平公正、合理科學(xué)的要求,從而促進(jìn)云網(wǎng)科技的創(chuàng)新和現(xiàn)代化管理的需要,這在當(dāng)前具有十分重要的意義和推廣應(yīng)用價值。