黃琳凱
摘要:文章研究當(dāng)前中國(guó)對(duì)于知識(shí)圖譜的應(yīng)用和對(duì)于Web信息關(guān)聯(lián)網(wǎng)絡(luò)的研究狀況,分析當(dāng)前主題社區(qū)發(fā)現(xiàn)方式,比照不同方式的優(yōu)勢(shì)與不足,借鑒優(yōu)點(diǎn)。通過(guò)研究,文章認(rèn)為基于知識(shí)圖譜的Web信息關(guān)聯(lián)網(wǎng)絡(luò)分析知識(shí)圖譜介紹是一種全新的方式,有助于主題社區(qū)的發(fā)現(xiàn),能提高運(yùn)行的效率和精度。
關(guān)鍵詞:知識(shí)圖譜;Web信息關(guān)聯(lián);網(wǎng)絡(luò)主題社區(qū)
知識(shí)圖譜是指對(duì)大量科學(xué)文獻(xiàn)的新生信息,借助諸如統(tǒng)計(jì)學(xué)知識(shí)、圖論、計(jì)算機(jī)技術(shù)等科學(xué)技術(shù)手段,以可視化的形式來(lái)展現(xiàn)科學(xué)學(xué)科體系之間的內(nèi)部結(jié)構(gòu)、項(xiàng)目特點(diǎn)、研究前段等信息的一種科學(xué)方法。知識(shí)圖譜用于Web信息分析,對(duì)于主題社區(qū)的發(fā)現(xiàn)大有幫助。
1 知識(shí)圖譜介紹
1.1 知識(shí)圖譜特點(diǎn)簡(jiǎn)介
知識(shí)圖譜有以下幾方面的特性:(1)用戶搜集的數(shù)次越多,所涉及范圍越大。(2)賦予字串不同的嶄新的意義,而不只是單純的簡(jiǎn)單字串。(3)涵蓋了所有的學(xué)科,方便了用戶搜索時(shí)的連續(xù)性。(4)為用戶找出更為精確的信息,作出更全面的表述并提供更具思考力的相關(guān)信息。(5)把與核心詞相關(guān)的知識(shí)脈絡(luò)成體系地展示給用戶。(6)從整個(gè)因特網(wǎng)尋找篩選有價(jià)值含量的信息讓用戶能夠收獲更多相應(yīng)的公共資源。
1.2 知識(shí)圖譜的應(yīng)用
1.2.1 基于知識(shí)圖譜的學(xué)科方法研究
從知識(shí)圖譜出發(fā),進(jìn)行研究的學(xué)科主題識(shí)別方法,探究的是融合多種有關(guān)計(jì)量學(xué)的方法和科學(xué)理論知識(shí)圖譜技術(shù),深入淺出地研究分析不同學(xué)科在知識(shí)研究體系上的內(nèi)外部結(jié)構(gòu)關(guān)系,分辨和測(cè)量不同學(xué)科各個(gè)領(lǐng)域的科研熱點(diǎn)方向及其未來(lái)發(fā)展變化方向的方法研究,從而有助于更好地幫助進(jìn)行科研工作的人員從浩如煙海的科技文獻(xiàn)中快速掌握不同學(xué)科的內(nèi)外部結(jié)構(gòu)與熱點(diǎn)話題,這將成為新的宏觀環(huán)境下科學(xué)技術(shù)決策者高效開(kāi)展科學(xué)技術(shù)治理工作的全新手段和新路徑。
1.2.2 基于知識(shí)圖譜的中國(guó)品牌理論演進(jìn)研究
按照研究的對(duì)象作為分類(lèi)標(biāo)準(zhǔn)的話,可以把對(duì)于品牌的科學(xué)研究劃分為兩個(gè)不同類(lèi)別:(1)將品牌相應(yīng)的活動(dòng)作為實(shí)驗(yàn)對(duì)象的研究;(2)以品牌相應(yīng)理論為對(duì)象的科學(xué)研究。將品牌活動(dòng)作為研究對(duì)象,在中國(guó)已經(jīng)有了將近20年的發(fā)展歷史,到今天已經(jīng)形成了頗為豐碩的知識(shí)研究成果[1]。在這樣的背景下,將品牌理論作為所要研究的對(duì)象,引入知識(shí)圖譜的相關(guān)理論和研究方法,系統(tǒng)性地探討當(dāng)今中國(guó)存在的品牌理論發(fā)展的內(nèi)部規(guī)律,發(fā)現(xiàn)其知識(shí)基礎(chǔ)、核心理論的知識(shí)構(gòu)架與進(jìn)化脈絡(luò),揭示研究的熱點(diǎn)和研究前端,評(píng)論當(dāng)今主流的學(xué)術(shù)群與相應(yīng)觀點(diǎn)的代表人物,探索并創(chuàng)立品牌學(xué)及其主要知識(shí)理論體系。首先,在中國(guó)的品牌理論構(gòu)架與知識(shí)理論基礎(chǔ)的知識(shí)圖譜研究中,憑借21世紀(jì)前后在中文社會(huì)科學(xué)引文索引(Chinese Social Sciences Citation Index,CSSCI)源刊發(fā)表的4 000余篇論文和將近3 000條參考文獻(xiàn)作為核心數(shù)據(jù),采用關(guān)鍵詞分析方法,描繪和解析品牌主干理論的網(wǎng)絡(luò)圖譜,從而發(fā)現(xiàn)品牌核心理論的動(dòng)態(tài)知識(shí)結(jié)構(gòu)及在不同時(shí)間下的發(fā)展脈絡(luò)的主題變化;將發(fā)展階段和科研維度結(jié)合,構(gòu)建出關(guān)鍵演化路徑分析的科學(xué)模型。其次,在中國(guó)品牌理論研究熱點(diǎn)和探索前端的知識(shí)圖譜研究中,以2010年在csscr源刊發(fā)表的2 000余篇論文和將近2 000條參考文獻(xiàn)作為數(shù)據(jù),結(jié)合文獻(xiàn)引用網(wǎng)絡(luò)圖譜中高頻次文獻(xiàn)的內(nèi)容數(shù)據(jù)分析和引文獻(xiàn)的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜進(jìn)行研究,發(fā)現(xiàn)了品牌理論的研究重點(diǎn)和主要研究方向。再次,在中國(guó)品牌理論研究的主要學(xué)術(shù)群與觀點(diǎn)領(lǐng)軍人物的知識(shí)圖譜研究中,基于例文分析、共同分析和社會(huì)結(jié)構(gòu)網(wǎng)絡(luò)分析等多種方法,繪制并且分析了核心的作者群合著的共現(xiàn)社會(huì)網(wǎng)絡(luò),探索并評(píng)論了中國(guó)品牌理論研究的具有超高影響力作者、主流的學(xué)術(shù)群體、派別及其代表人物。最后,在劃分品牌的含義、外延及其定義之間關(guān)系的前提之下,提出了一個(gè)實(shí)驗(yàn)中的實(shí)操性品牌的概念及全方位的品牌管理模式;依據(jù)理論形成的內(nèi)部機(jī)制及理論的構(gòu)架情況,提出了對(duì)于品牌進(jìn)行科學(xué)分類(lèi)的標(biāo)準(zhǔn)和范圍,構(gòu)建了品牌學(xué)的科學(xué)知識(shí)體系,探討并提出了關(guān)于品牌學(xué)這一理論的知識(shí)構(gòu)架的規(guī)范范式、框架及其“學(xué)科一研究方法一對(duì)象”多維的動(dòng)態(tài)結(jié)構(gòu)。
1.2.3 我國(guó)關(guān)于管理學(xué)學(xué)科演化的知識(shí)圖譜探究
在管理學(xué)知識(shí)的體系中,管理科學(xué)知識(shí)的來(lái)源是多種多樣的,一方面包括根據(jù)嚴(yán)格的數(shù)學(xué)推理模型以及科學(xué)邏輯思維得到科學(xué)理論管理知識(shí),另一方面也包括基于故事講述而總結(jié)出來(lái)的管理相應(yīng)知識(shí),當(dāng)然同樣包括依照比較進(jìn)行歸納從而得出的管理知識(shí)。但是必須指出的是,目前管理“叢林”問(wèn)題仍然存在,而且有著進(jìn)一步分化和細(xì)化態(tài)勢(shì),在目前的管理科學(xué)研究的領(lǐng)域,充滿著類(lèi)型差異明顯和分類(lèi)眾多的研究方法[2]。為了更為全方位了解新世紀(jì)管理科學(xué)發(fā)展的學(xué)科結(jié)構(gòu),研究管理科學(xué)發(fā)展的路徑與所獲得的成就,知識(shí)圖譜的方法應(yīng)運(yùn)而生。首先,對(duì)我國(guó)管理科學(xué)研究學(xué)者進(jìn)行知識(shí)圖譜分析,界定高產(chǎn)作者,給出高產(chǎn)作者的分布,并對(duì)10年來(lái)高產(chǎn)作者的演變進(jìn)行分析。其次,對(duì)我國(guó)管理科學(xué)的科研機(jī)構(gòu)進(jìn)行知識(shí)圖譜分析,包括其類(lèi)型分析,整體分布以及地域分析。最后,繪制我國(guó)管理科學(xué)基金項(xiàng)目的知識(shí)圖譜,對(duì)重點(diǎn)基金項(xiàng)目進(jìn)行分析以及演化研究,分析不同研究機(jī)構(gòu)與重點(diǎn)基金項(xiàng)目的支撐情況。我國(guó)管理科學(xué)“學(xué)科結(jié)構(gòu)”知識(shí)圖譜研究:管理學(xué)發(fā)展態(tài)勢(shì)大好,逐步形成了三大逐漸趨向于成熟的分支學(xué)科領(lǐng)域:企業(yè)與事物管理、管理的基礎(chǔ)與方式、宏觀角度的管理與政策理論研究。目前在我國(guó)管理學(xué)被引頻次較高的作者有張維迎、陳勁、陳小悅等。我國(guó)當(dāng)前具有較大影響作用的文獻(xiàn)有張維迎的《博弈論與信息經(jīng)濟(jì)學(xué)》、傅家驥的《技術(shù)創(chuàng)新學(xué)》等。目前中國(guó)的管理科學(xué)界的合作體系具有較高的群聚性質(zhì),具有微觀的世界效應(yīng),管理科學(xué)界的科研人員之間的合作頻率與效果隨著時(shí)間的推移正在逐步提高。在目前合作網(wǎng)絡(luò)中,具有較強(qiáng)的團(tuán)體結(jié)構(gòu),且相應(yīng)團(tuán)體的數(shù)量也正在逐年增長(zhǎng),專(zhuān)業(yè)社團(tuán)規(guī)模也在不斷壯大。但不足之處是,不同社團(tuán)與社團(tuán)之間的對(duì)接數(shù)量較少。
2 Web信息關(guān)聯(lián)網(wǎng)絡(luò)分析
2.1 面向Web數(shù)據(jù)集成的數(shù)據(jù)融合問(wèn)題研究
隨著互聯(lián)網(wǎng)的高速發(fā)展,Web技術(shù)憑借其廣泛性、互通性、便捷性和融合性等諸多特點(diǎn)快速風(fēng)靡全球,并且已然滲入社會(huì)各方面領(lǐng)域,網(wǎng)站與網(wǎng)頁(yè)的數(shù)目正在以指數(shù)級(jí)爆炸式增長(zhǎng)。怎樣準(zhǔn)確、高效地集合到大量的具有較高價(jià)值的Web信息,對(duì)于例如市場(chǎng)商業(yè)情報(bào)分析、輿論情況分析、商業(yè)智能化等方面的分析應(yīng)用十分重要,具有非同一般的實(shí)用價(jià)值和現(xiàn)實(shí)意義[3]。但是,比較于傳統(tǒng)方式下數(shù)據(jù)集成的數(shù)據(jù)源,Web數(shù)據(jù)具有方式多種、闡述自由、發(fā)布開(kāi)放等特點(diǎn),這導(dǎo)致集成到的結(jié)果冗余度高、精確性能差、數(shù)據(jù)分散程度高,極大地降低了集成數(shù)據(jù)的質(zhì)量。綜上所述,如何減少冗余量、去偽存真、聯(lián)系數(shù)據(jù),從而高效地融合數(shù)據(jù),不僅是保證集成數(shù)據(jù)質(zhì)量的核心所在,也是深入進(jìn)行準(zhǔn)確數(shù)據(jù)分析和發(fā)掘的基礎(chǔ)。作為Web數(shù)據(jù)集成的核心構(gòu)架,數(shù)據(jù)融合是集成數(shù)據(jù)的質(zhì)量保障和探究挖掘的基礎(chǔ)。
2.2 面向信息檢索的Web文本挖掘方法研究
當(dāng)今,互聯(lián)網(wǎng)早已成為一個(gè)平民化和大眾式的信息交流平臺(tái)。通過(guò)Web數(shù)據(jù)挖掘的探究,把新的Web文本挖掘技術(shù)和方式使用到互聯(lián)網(wǎng)信息搜尋與檢索中去,利用Web文本挖掘的研究成果來(lái)改善信息檢索中關(guān)于網(wǎng)頁(yè)分類(lèi)、聚類(lèi)的精度和效率,改善檢索結(jié)果,提高Web信息搜查和使用的效率,能夠間接或者直接地解決當(dāng)前搜索引擎準(zhǔn)確度不高、召回率低下、信息量過(guò)多、提供的服務(wù)形式相對(duì)單調(diào)等方面缺陷,從而最終為信息檢索系統(tǒng)演化到一個(gè)新的水平提供相應(yīng)技術(shù)前提。
3 主題社區(qū)研究現(xiàn)狀
3.1 基于LDA模型的社交網(wǎng)絡(luò)主題社區(qū)挖掘
在互聯(lián)網(wǎng)媒體當(dāng)中,以微博為典型的社交網(wǎng)絡(luò)已經(jīng)是社會(huì)輿情的主打要地。對(duì)于社交平臺(tái)中隱藏的主題社區(qū)的挖掘,具有很高的商業(yè)推廣和輿情監(jiān)控價(jià)值。近些年來(lái),概率生成主題模型(Latent Dirichlet Allocation,LDA)在數(shù)據(jù)挖掘領(lǐng)域?qū)崿F(xiàn)了大規(guī)模應(yīng)用。但是,在通常情況下,LDA主要適合于文本的處理還有一部分?jǐn)?shù)字信號(hào)。實(shí)際上并不能很合適地用來(lái)處理關(guān)于社交網(wǎng)絡(luò)用戶產(chǎn)生的關(guān)系數(shù)據(jù)。對(duì)LDA實(shí)行修改,提出適合于處理互聯(lián)網(wǎng)用戶關(guān)系數(shù)據(jù)的模型,發(fā)現(xiàn)社交網(wǎng)絡(luò)中的主打社區(qū)。
3.2 基于分布式非負(fù)矩陣分解的大規(guī)模主題社區(qū)挖掘
當(dāng)今互聯(lián)網(wǎng)的主題社區(qū)發(fā)掘具備重要的實(shí)用價(jià)值,但現(xiàn)存方法的可擴(kuò)展性不高,對(duì)于高效挖掘規(guī)模相對(duì)較大的復(fù)雜網(wǎng)絡(luò)的主題社區(qū)反應(yīng)性能差。針對(duì)這一問(wèn)題,部分研究者提出了一種以分布式非負(fù)矩陣分解為基礎(chǔ)的主題社區(qū)挖掘方法。這一方法基于非負(fù)矩陣聯(lián)合分解模型,能夠有效統(tǒng)一集成節(jié)點(diǎn)鏈接和內(nèi)容信息挖掘主題社區(qū)。
4 結(jié)語(yǔ)
知識(shí)圖譜作為一種新的研究方式,借助科學(xué)理論和研究技術(shù),能對(duì)Web信息關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行分析。雖然當(dāng)今國(guó)內(nèi)已經(jīng)有針對(duì)于此的分析,但應(yīng)用知識(shí)圖譜的較少。并且,該方法能夠作用于主題社區(qū)的發(fā)現(xiàn),無(wú)疑具有高度的實(shí)用意義和推廣價(jià)值。
[參考文獻(xiàn)]
[1]施生生.精確Web信息抽取關(guān)鍵技術(shù)與系統(tǒng)研究[D].南京:南京大學(xué),2017.
[2]汪沛.基于領(lǐng)域知識(shí)圖譜的個(gè)性化推薦方法研究[D].昆明:昆明理工大學(xué),2017.
[3]邵元新.基于Web的工業(yè)產(chǎn)品知識(shí)圖譜構(gòu)建及應(yīng)用[D].沈陽(yáng):沈陽(yáng)航空航天大學(xué),2017.