薛中玉+李春梅+楊思維
基金項(xiàng)目:國家科技支撐計(jì)劃課題“面向產(chǎn)業(yè)集群的協(xié)同創(chuàng)新服務(wù)平臺(tái)研究與開發(fā)”(課題編號(hào):2012BAH25F07)階段成果之一。
作者簡介:薛中玉(1981-),男,工程師,碩士,研究方向:數(shù)據(jù)挖掘、信息檢索?!ば畔①Y源開發(fā)與利用·
〔摘要〕針對(duì)產(chǎn)業(yè)集群特點(diǎn),面向數(shù)據(jù)檢索要求,對(duì)數(shù)據(jù)挖掘推薦系統(tǒng)需求進(jìn)行分析,研究數(shù)據(jù)挖掘推薦系統(tǒng)相關(guān)技術(shù)和算法,設(shè)計(jì)系統(tǒng)功能模塊架構(gòu),研究分析處理流程,構(gòu)建數(shù)據(jù)挖掘推薦系統(tǒng),實(shí)現(xiàn)產(chǎn)業(yè)集群信息的智能化挖掘推薦服務(wù)。產(chǎn)業(yè)集群數(shù)據(jù)挖掘推薦系統(tǒng)具有用戶需求信息挖掘推薦、相關(guān)服務(wù)信息挖掘、潛在協(xié)作伙伴挖掘推薦及科技成果動(dòng)態(tài)感知等功能,能為用戶推送更多有價(jià)值的信息,便于用戶發(fā)現(xiàn)協(xié)作伙伴和潛在客戶,促進(jìn)產(chǎn)業(yè)集群和集群企業(yè)的協(xié)同創(chuàng)新發(fā)展。
〔關(guān)鍵詞〕產(chǎn)業(yè)集群;協(xié)同創(chuàng)新服務(wù)平臺(tái);數(shù)據(jù)挖掘;推薦系統(tǒng)
DOI:10.3969/j.issn.1008-0821.2014.04.012
〔中圖分類號(hào)〕TP31〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2014)04-0058-04
Research and Design of Data Mining Recommending
System for the Industrial ClusterXue Zhongyu1Li Chunmei2Yang Siwei1
(1.Anhui Jingnuo Technology & Development Co.,Ltd,Bengbu 233010,China;
2.Beijing Zhongjikehai Technology & Development Co.,Ltd,Beijing 100048,China)
〔Abstract〕According to the characteristics of industry cluster and the platform of data retrieval,this paper analyzed data mining recommended system requirements,studied related recommendations technology and relative algorithm of data mining,designed system function module architecture,researched and analyzed process,constructed data mining recommending system,and realized intelligent information recommendation service of industry cluster.The system contains four main functional modules:user demand information mining and recommending,related service information mining,potential partnership mining and recommending and dynamic perception of scientific literature.This system can push more valuable information and find partners and potential customers easily for users,and promotes the innovation development of industrial clusters and enterprises.
〔Keywords〕industrial clusters;collaborative innovation service platform;data mining;recommended system
產(chǎn)業(yè)集群是將區(qū)域集中的特定產(chǎn)業(yè)、具有分工合作關(guān)系和不同規(guī)模等級(jí)的眾多企業(yè)與其發(fā)展有關(guān)的各種機(jī)構(gòu)組織等主體,緊密聯(lián)系在一起的空間積聚體,是經(jīng)濟(jì)發(fā)展過程中形成的一種新形態(tài)。產(chǎn)業(yè)集群形成特點(diǎn)表現(xiàn)在:圍繞特定產(chǎn)業(yè);采購本地化;中小企業(yè)占多數(shù);市場滲透力強(qiáng);自發(fā)形成;學(xué)習(xí)效應(yīng)強(qiáng)。在產(chǎn)業(yè)集群形成的過程中,為了不斷提高集群自身和企業(yè)的競爭力,構(gòu)建了眾多的服務(wù)平臺(tái),這些平臺(tái)為產(chǎn)業(yè)集群和企業(yè)提供信息、知識(shí)、技術(shù)成果等資源協(xié)作共享服務(wù),加強(qiáng)了產(chǎn)業(yè)集群間協(xié)同,推進(jìn)了我國產(chǎn)業(yè)集群信息化的快速發(fā)展。
但是,隨著平臺(tái)服務(wù)信息的累積,用戶無法在海量數(shù)據(jù)中快速、準(zhǔn)確地獲取想要的信息。簡單的信息積累和低效的數(shù)據(jù)檢索缺乏生命力,不利于平臺(tái)長遠(yuǎn)發(fā)展。應(yīng)面向產(chǎn)業(yè)集群平臺(tái),建立專門的數(shù)據(jù)挖掘推薦系統(tǒng),利用有效信息實(shí)現(xiàn)平臺(tái)高效的知識(shí)管理,主動(dòng)提供用戶關(guān)心和有潛在價(jià)值的信息服務(wù),加強(qiáng)用戶間、用戶與平臺(tái)間的聯(lián)動(dòng),從而形成良性發(fā)展趨勢。
本文是“十二五”國家科技支撐計(jì)劃課題“面向產(chǎn)業(yè)集群的協(xié)同創(chuàng)新服務(wù)平臺(tái)研究與開發(fā)”的研究成果。針對(duì)產(chǎn)業(yè)集群特點(diǎn)和檢索需求,基于數(shù)據(jù)挖掘技術(shù),建立了面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng),實(shí)現(xiàn)產(chǎn)業(yè)集群信息智能推薦功能。系統(tǒng)可根據(jù)用戶的基本信息、需求信息、業(yè)務(wù)信息等研究用戶的興趣偏好,進(jìn)行個(gè)性化挖掘,由系統(tǒng)發(fā)現(xiàn)用戶的興趣點(diǎn),將用戶感興趣的信息、產(chǎn)品和服務(wù)等推薦給用戶,為產(chǎn)業(yè)集群用戶提供高效的平臺(tái)服務(wù),促進(jìn)產(chǎn)業(yè)集群的發(fā)展。
1數(shù)據(jù)挖掘推薦系統(tǒng)需求分析
數(shù)據(jù)挖掘是從存儲(chǔ)于數(shù)據(jù)庫、數(shù)據(jù)倉庫或者其他非結(jié)構(gòu)化的信息倉庫的大量數(shù)據(jù)中挖掘出有用知識(shí)的過程,是數(shù)據(jù)處理的高級(jí)階段。面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)根據(jù)產(chǎn)業(yè)集群平臺(tái)不同類型用戶關(guān)注點(diǎn)推送對(duì)其有潛在價(jià)值的信息,主要包括用戶需求信息挖掘推薦、服務(wù)信息相關(guān)關(guān)系挖掘、潛在協(xié)作伙伴挖掘推薦及科技文獻(xiàn)動(dòng)態(tài)感知幾方面需求。
11用戶需求信息挖掘推薦
產(chǎn)業(yè)集群企業(yè)用戶需求可為每個(gè)用戶提供豐富的外部規(guī)模經(jīng)濟(jì),又可形成集群內(nèi)部或外部規(guī)模性、專業(yè)化的生產(chǎn),對(duì)用戶需求的正確把握具有重要作用。通過數(shù)據(jù)挖掘分析,基于用戶發(fā)布的相關(guān)信息、用戶的專業(yè)和研究方向,分析用戶服務(wù)需求,挖掘平臺(tái)服務(wù)庫中相關(guān)信息,向用戶推薦符合的需求信息。
12服務(wù)信息相關(guān)關(guān)系挖掘
產(chǎn)業(yè)集群與服務(wù)信息之間存在著相互促進(jìn)的自增強(qiáng)關(guān)系,在新經(jīng)濟(jì)時(shí)代,產(chǎn)業(yè)布局不再像工業(yè)經(jīng)濟(jì)時(shí)代各行各業(yè)簡單地聚集在一起,而是相互關(guān)聯(lián)、高度專業(yè)化的產(chǎn)業(yè)有規(guī)律地聚集在一個(gè)區(qū)域,形成各具特色的產(chǎn)業(yè)集群。產(chǎn)業(yè)集群平臺(tái)所提供的服務(wù)信息之間具有極強(qiáng)的關(guān)聯(lián)特性,基于對(duì)每條服務(wù)信息內(nèi)容的挖掘分析,尋找與之相關(guān)的服務(wù)信息,通過對(duì)服務(wù)信息的相關(guān)性分析總結(jié),獲取潛在的信息價(jià)值。
13潛在協(xié)作伙伴挖掘推薦
產(chǎn)業(yè)集群企業(yè)間的分工協(xié)作關(guān)系是決定集群效應(yīng)和本質(zhì)的主要特征,對(duì)潛在協(xié)作伙伴的發(fā)掘可帶來巨大的市場效益。系統(tǒng)提供潛在協(xié)作伙伴推薦功能,自動(dòng)將地域相近、業(yè)務(wù)相關(guān)、供應(yīng)鏈上下游關(guān)系、通訊平臺(tái)聯(lián)系的用戶或具有協(xié)作需求互補(bǔ)的用戶彼此添加為潛在合作伙伴。
endprint
14科技文獻(xiàn)動(dòng)態(tài)感知
產(chǎn)業(yè)集群不但有生產(chǎn)性的企業(yè),還有大量為生產(chǎn)提供輔助性科技成果的服務(wù)機(jī)構(gòu),如大學(xué)、研發(fā)機(jī)構(gòu)、咨詢公司等緊密地聯(lián)系在一起,形成利益共同體,互相促進(jìn),協(xié)同發(fā)展。整合各類科技成果服務(wù)機(jī)構(gòu)信息,利用互聯(lián)網(wǎng)信息整合技術(shù),根據(jù)設(shè)定的主題對(duì)常用的科技成果網(wǎng)站進(jìn)行自動(dòng)監(jiān)測,當(dāng)網(wǎng)站數(shù)據(jù)庫中出現(xiàn)與主題相關(guān)的新科技成果時(shí),立即通知,及時(shí)了解相關(guān)主題科技成果變化情況。
2數(shù)據(jù)挖掘推薦系統(tǒng)模型及關(guān)鍵技術(shù)
21系統(tǒng)模型
面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)基本模型如圖1所示,包括3個(gè)重要組成要素:集群用戶、推薦對(duì)象、推薦方法。集群用戶可以向推薦系統(tǒng)主動(dòng)提供個(gè)人偏好信息或推薦請(qǐng)求,系統(tǒng)也可主動(dòng)采集用戶偏好信息需求,將采集到的數(shù)據(jù)分析得到的推薦結(jié)果返回給用戶。
圖1面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)基本模型
22系統(tǒng)關(guān)鍵技術(shù)
221基于內(nèi)容的推薦技術(shù)
基于內(nèi)容的推薦技術(shù)是信息過濾技術(shù)的延續(xù)和發(fā)展,它在內(nèi)容信息上做出推薦,不需要依據(jù)用戶評(píng)價(jià)意見,而是用機(jī)器學(xué)習(xí)的方法從關(guān)于內(nèi)容的特征描述的事例中得到用戶的興趣資料。系統(tǒng)建立用戶偏好資料庫并進(jìn)行學(xué)習(xí),了解用戶興趣方向。如通過用戶發(fā)布的歷史信息、最常瀏覽的信息、近期關(guān)注的信息等,找出用戶可能感興趣的內(nèi)容,為用戶推送相關(guān)信息。
222協(xié)同過濾的推薦技術(shù)
協(xié)同過濾技術(shù)采用最近鄰技術(shù),利用用戶的歷史喜好,計(jì)算用戶之間的距離,然后利用目標(biāo)用戶的最近鄰居用戶,來預(yù)測目標(biāo)用戶對(duì)特定信息的喜好程度,根據(jù)這一喜好程度對(duì)目標(biāo)用戶進(jìn)行推薦。與基于內(nèi)容的推薦技術(shù)不同,協(xié)同過濾推薦技術(shù)關(guān)注的是用戶之間的聯(lián)系,具有相似興趣的用戶關(guān)注的信息也相類似。如產(chǎn)業(yè)集群內(nèi)的兩家汽車配件制造商,在使用平臺(tái)過程中,一方的關(guān)注點(diǎn)也可能是另一方感興趣的,通過協(xié)同過濾推薦技術(shù)可以起到事半功倍的效果。
以上兩種推薦技術(shù)既有區(qū)別又有聯(lián)系,前者利用信息資源與用戶興趣的相似性來過濾信息,后者利用用戶之間興趣的相似性來過濾信息,將二者結(jié)合起來,可以提高推薦系統(tǒng)的可靠性和實(shí)用性。
3數(shù)據(jù)挖掘推薦系統(tǒng)架構(gòu)及功能
31系統(tǒng)架構(gòu)
面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)包括集群用戶界面、集群用戶信息庫、數(shù)據(jù)挖掘分析、數(shù)據(jù)管理、內(nèi)部資源庫及外部數(shù)據(jù)的檢索與獲取等,系統(tǒng)架構(gòu)如圖2所示。
圖2面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)架構(gòu)
32系統(tǒng)功能模塊
321發(fā)布、獲取信息
(1)發(fā)布信息
集群用戶登錄平臺(tái)發(fā)布信息,信息可由信息名稱、一級(jí)欄目、二級(jí)欄目、關(guān)鍵字、信息內(nèi)容等組成,這樣的結(jié)構(gòu)有利于數(shù)據(jù)庫管理與數(shù)據(jù)挖掘推薦。
(2)獲取信息
用戶在平臺(tái)中瀏覽各類信息,每條信息提供相關(guān)信息,方便用戶快速查看。用戶瀏覽系統(tǒng)自動(dòng)生成的推薦資源,包括相關(guān)信息推薦、相關(guān)集群用戶推薦等。相關(guān)信息為符合用戶需求的信息,用戶可查看信息內(nèi)容并留言;相關(guān)集群用戶是與用戶可能有合作價(jià)值的其他用戶,用戶可以采用留言或郵件溝通方式進(jìn)一步了解合作意向;相關(guān)信息是系統(tǒng)根據(jù)用戶專業(yè)領(lǐng)域在外部科技網(wǎng)站搜尋的相關(guān)科技動(dòng)態(tài)、科技成果等信息。
322集群用戶信息庫
集群用戶信息庫是有關(guān)用戶個(gè)性化特征的信息。如用戶姓名、單位、單位地址、專業(yè)、研究方向和職業(yè)等;用戶歷次請(qǐng)求任務(wù)如分類、主題詞、查詢范圍等;IP地址、標(biāo)題、瀏覽時(shí)間、關(guān)鍵詞頻率等;請(qǐng)求時(shí)間、被請(qǐng)求信息URL等一系列特征信息。
323數(shù)據(jù)挖掘分析
數(shù)據(jù)挖掘分析包括用戶需求分析和智能推薦。系統(tǒng)要為不同集群用戶推薦不同對(duì)象,需要直接或間接得到用戶的需求信,用戶需求分析模塊的流程是:通過用戶主動(dòng)描述,獲取用戶需求;嵌入智能代理Agent或BP神經(jīng)網(wǎng)絡(luò),主動(dòng)跟蹤搜集用戶平時(shí)感興趣的信息,從中分析用戶的偏好特點(diǎn)和背景知識(shí),建立用戶個(gè)性化需求模式;智能推薦是系統(tǒng)中信息流控制的中心,采用內(nèi)容過濾技術(shù),提取信息內(nèi)容特征,過濾出與用戶興趣相關(guān)的信息,推薦給用戶;采用協(xié)同過濾技術(shù),建立用戶分類和推薦機(jī)制,根據(jù)用戶之間的相似性或相關(guān)性進(jìn)行信息推薦。
324數(shù)據(jù)管理
數(shù)據(jù)管理模塊完成對(duì)知識(shí)的數(shù)據(jù)分類、抽取和規(guī)則生成,是數(shù)據(jù)挖掘的起始端。主要功能是運(yùn)用關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析以及OLAP等知識(shí)發(fā)現(xiàn)算法,對(duì)信息源進(jìn)行智能處理和管理。
325系統(tǒng)資源庫
系統(tǒng)資源庫包含信息資源庫和查詢記錄信息庫。信息資源是平臺(tái)供所有集群用戶公開使用的數(shù)據(jù),是平臺(tái)的內(nèi)容主體。用戶使用平臺(tái)搜索功能,實(shí)現(xiàn)對(duì)平臺(tái)數(shù)據(jù)庫資源的檢索,查詢記錄信息庫主要存儲(chǔ)系統(tǒng)查詢信息,這些信息有可能成為用戶需求的數(shù)據(jù)。
326外部信息的檢索與獲取
主要功能是獲取與推薦集群用戶所需信息,根據(jù)設(shè)定的主題,對(duì)相關(guān)網(wǎng)站進(jìn)行自動(dòng)監(jiān)測,當(dāng)網(wǎng)站數(shù)據(jù)庫中出現(xiàn)與主題相關(guān)的新科技成果時(shí),推薦給平臺(tái)相關(guān)用戶,及時(shí)獲取相關(guān)領(lǐng)域科技信息。
33系統(tǒng)處理流程
數(shù)據(jù)挖掘推薦系統(tǒng)處理流程如圖3~圖6所示。
集群用戶需求信息挖掘、相關(guān)服務(wù)信息挖掘、潛在協(xié)作伙伴挖掘3個(gè)功能模塊主要針對(duì)內(nèi)部數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘推薦,工作核心是分析集群用戶在使用平臺(tái)的過程中發(fā)布的需求、服務(wù)和協(xié)作等信息,從而發(fā)現(xiàn)平臺(tái)用戶之間以及用戶信息之間的關(guān)聯(lián)關(guān)系,完成相應(yīng)的信息推送,為用戶提供主動(dòng)服務(wù),避免用戶在大量的數(shù)據(jù)中進(jìn)行低效率查圖3用戶需求挖掘推薦流程圖
圖4相關(guān)服務(wù)信息挖掘流程圖
圖5潛在合作伙伴挖掘推薦流程圖
找??萍嘉墨I(xiàn)動(dòng)態(tài)感知模塊架設(shè)了平臺(tái)內(nèi)部與外部數(shù)據(jù)源聯(lián)系的橋梁,外部數(shù)據(jù)源根據(jù)平臺(tái)需要而定,可根據(jù)設(shè)定的主題對(duì)常用的科技成果網(wǎng)站進(jìn)行自動(dòng)監(jiān)測。當(dāng)網(wǎng)站數(shù)據(jù)庫中出現(xiàn)與主題相關(guān)的新科技成果時(shí),立即通知,及時(shí)了解相關(guān)主題科技成果發(fā)展情況。圖6科技文獻(xiàn)動(dòng)態(tài)感知流程圖
4結(jié)束語
本文針對(duì)產(chǎn)業(yè)集群特點(diǎn)和平臺(tái)數(shù)據(jù)檢索要求,提出面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)需求,研究面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)相關(guān)技術(shù)和算法,設(shè)計(jì)系統(tǒng)功能模塊架構(gòu),研究分析處理流程,構(gòu)建數(shù)據(jù)挖掘推薦系統(tǒng),實(shí)現(xiàn)產(chǎn)業(yè)集群信息的智能化挖掘推薦服務(wù)。產(chǎn)業(yè)集群挖掘推薦系統(tǒng)能為集群用戶推送更多有價(jià)值的信息,便于用戶發(fā)現(xiàn)協(xié)作伙伴和潛在客戶,為平臺(tái)使用者和管理者提供決策支持,加強(qiáng)提高用戶協(xié)作的力度和效率,更大限度地發(fā)揮平臺(tái)智能化信息服務(wù)作用,形成良性可持續(xù)化發(fā)展的趨勢,促進(jìn)產(chǎn)業(yè)集群和集群企業(yè)的協(xié)同創(chuàng)新發(fā)展,研究成果對(duì)其他服務(wù)平臺(tái)和數(shù)據(jù)挖掘等相關(guān)研究可提供參考。參考文獻(xiàn)
[1]孫仙閣.數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)領(lǐng)域的應(yīng)用與影響[J].情報(bào)檢索,2009,(8):85-87.
[2]Thomas ARunkler.data Mining:Methoden und Algorithmen intelligenter Datenanalyse[M].Germany:Vieweg+Teubner Verlag,2009:1-3.
[3]吳恒亮.Web挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[J].中國商貿(mào),2010,(4):48.
[4]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.
[5]丁雪.基于數(shù)據(jù)挖掘的圖書智能推薦系統(tǒng)研究[J].情報(bào)理論與實(shí)踐,2010,33(5):107-110.
[6]古麗拜天·卡米爾,賀愷,鄧曉衡.個(gè)性化推薦系統(tǒng)中Web使用挖掘技術(shù)的研究[J].企業(yè)技術(shù)開發(fā),2010,29(2):1-2.
(本文責(zé)任編輯:孫國雷)
endprint