江楠 汪琪 王召義
Citespace軟件是美國(guó)德雷賽爾大學(xué)華人學(xué)者陳超美博士開發(fā)的用于計(jì)量和分析科學(xué)文獻(xiàn)數(shù)的JAVA應(yīng)用程序,可以通過(guò)一系列可視化圖譜的繪制來(lái)形成對(duì)學(xué)科演化潛在動(dòng)力機(jī)制的分析和學(xué)科發(fā)展前沿的探索。[14]通過(guò)Citespace軟件對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行分析,可以得出關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)就是關(guān)鍵詞個(gè)數(shù),邊數(shù)就是關(guān)鍵詞之間的連線數(shù)。只要關(guān)鍵詞在同一篇文獻(xiàn)中出現(xiàn)過(guò),兩者之間就會(huì)有一條連線。關(guān)鍵詞大小代表的是關(guān)鍵詞頻次,頻次越大,關(guān)鍵詞越大。同時(shí)Citespace軟件還可以生成時(shí)域和空間網(wǎng)絡(luò)圖,時(shí)域圖可以更好地反映研究?jī)?nèi)容隨時(shí)間的變化特點(diǎn)。本文選擇Citespace軟件對(duì)關(guān)鍵詞進(jìn)行共現(xiàn)分析。
四、數(shù)據(jù)分析
本文將從數(shù)據(jù)整體描述、研究?jī)?nèi)容、關(guān)鍵詞三個(gè)方面對(duì)產(chǎn)品屬性提取研究進(jìn)行分析。
(一)描述性分析
中國(guó)知網(wǎng)(CNKI)是目前國(guó)內(nèi)期刊資源最完備、更新速度最快的論文期刊數(shù)據(jù)庫(kù),文章以被中國(guó)知網(wǎng)(CNKI)收錄的有關(guān)商品屬性提取的論文為研究對(duì)象。專家學(xué)者對(duì)于“產(chǎn)品屬性提取”字段有不同的字段表達(dá),相近詞主要包括“商品特征提取”,所以在中國(guó)知網(wǎng)(CNKI)設(shè)置“商品特征提取”并含“產(chǎn)品屬性提取”為檢索主題詞,檢索出初始文獻(xiàn)152條,剔除無(wú)關(guān)論文18篇,獲得有效論文134條。利用八爪魚軟件對(duì)文獻(xiàn)進(jìn)行清洗與挖掘,將研究論文的年度發(fā)文量、研究機(jī)構(gòu)、基金支持等信息輸入Excel進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)分析。
年度發(fā)文量可以反映專家學(xué)者對(duì)某一領(lǐng)域的研究和關(guān)注程度。如圖1所示,關(guān)于產(chǎn)品屬性提取的研究開始于2006年,2006年至2018年局部有減弱,整體呈上升趨勢(shì),2019年和2020年文獻(xiàn)量有所下降。根據(jù)年度文獻(xiàn)量可以將研究階段分為三個(gè)階段:第一階段(2006-2010年)為起步階段,該階段為理論探索階段,文獻(xiàn)數(shù)量占總文獻(xiàn)數(shù)量的7.46%,文獻(xiàn)數(shù)量很少。第二階段(2011-2016年)為發(fā)展階段,該階段研究不斷深入,研究成果數(shù)量在快速增加,文獻(xiàn)數(shù)量占總文獻(xiàn)數(shù)量的37.3%,文獻(xiàn)數(shù)量較多。第三階段(2017-2020年)為穩(wěn)定期,該階段研究的范圍不斷擴(kuò)大,文獻(xiàn)成果呈現(xiàn)穩(wěn)定高產(chǎn)特征,文獻(xiàn)數(shù)量占總文獻(xiàn)量的53.73%。近幾年文獻(xiàn)數(shù)量的穩(wěn)定高產(chǎn)與消費(fèi)者逐漸認(rèn)識(shí)到在線商品評(píng)論中相關(guān)信息重要性有關(guān)。隨著近幾年在線商品評(píng)論數(shù)量的不斷增加,其中蘊(yùn)含的有用信息逐漸被商家、消費(fèi)者以及平臺(tái)所認(rèn)識(shí)到,而對(duì)于在線評(píng)論
中產(chǎn)品屬性提取研究的重要性逐漸被專家學(xué)者們所重視,對(duì)于其相關(guān)研究也就更加深入全面。
機(jī)構(gòu)發(fā)文量是判斷該機(jī)構(gòu)在相關(guān)領(lǐng)域研究深度的重要指標(biāo)。通過(guò)對(duì)產(chǎn)品屬性提取的134篇文獻(xiàn)作者工作機(jī)構(gòu)研究,排名前三的分別是電子科技大學(xué)、大連理工大學(xué)、北京郵電大學(xué)及天津大學(xué)(北京郵電大學(xué)與天津大學(xué)并列第三)。表1為研究機(jī)構(gòu)具體發(fā)文數(shù)量(發(fā)表論文數(shù)大于或等于3),從表中可以看出發(fā)表論文數(shù)量大于或等于3的機(jī)構(gòu)為12所,共計(jì)文獻(xiàn)48篇,剩余86篇以發(fā)表量1或2篇的形式分散于其他機(jī)構(gòu),說(shuō)明對(duì)于產(chǎn)品屬性提取研究相對(duì)廣泛。
文獻(xiàn)基金支持狀況可以直觀反映相關(guān)部門對(duì)于該研究領(lǐng)域的重視程度。通過(guò)對(duì)產(chǎn)品屬性提取的134篇文獻(xiàn)基金支持狀況進(jìn)行分析,具體數(shù)據(jù)見表2(文獻(xiàn)數(shù)量大于等于2篇),獲得國(guó)家自然科學(xué)基金支持文獻(xiàn)數(shù)量的最多,總計(jì)27篇,占比20.15%,在支持?jǐn)?shù)量超過(guò)2篇的基金中也可以發(fā)現(xiàn)國(guó)家級(jí)基金還有另外3項(xiàng),教育部基金1項(xiàng),省級(jí)基金2項(xiàng),說(shuō)明國(guó)家層面和省部級(jí)層面對(duì)產(chǎn)品屬性提取相關(guān)領(lǐng)域重視程度較高。
(二)研究?jī)?nèi)容分析結(jié)果
對(duì)134篇文獻(xiàn)的研究?jī)?nèi)容進(jìn)行統(tǒng)計(jì)整理,并采用德爾菲法進(jìn)行分析。根據(jù)分析結(jié)果發(fā)現(xiàn)文獻(xiàn)研究?jī)?nèi)容主要包括四大部分,一是理論基礎(chǔ)研究,二是特征提取,三是情感分析,四是推薦系統(tǒng),每一大部分研究?jī)?nèi)容中又包括小的研究?jī)?nèi)容,具體研究?jī)?nèi)容見表3。從表3中的統(tǒng)計(jì)數(shù)據(jù)可以看出,在商品屬性提取研究中,對(duì)于理論基礎(chǔ)的研究文獻(xiàn)數(shù)量并不多,大多文獻(xiàn)綜述集中于研究方法的介紹。涉及特征提取的研究文獻(xiàn)數(shù)量最多,其中,對(duì)于文本預(yù)處理以及特征詞提取與過(guò)濾的研究文獻(xiàn)數(shù)量最多,分別為65篇及37篇。對(duì)于情感分析的研究數(shù)量同樣較多,特別是情感詞典的構(gòu)建與情感極性預(yù)測(cè),均為19篇。對(duì)于推薦系統(tǒng)的研究文獻(xiàn)數(shù)量較少,最多的部分僅為11篇。
從這些研究?jī)?nèi)容的分布頻數(shù)來(lái)看,理論基礎(chǔ)研究并不是該領(lǐng)域的研究重點(diǎn),這與商品屬性提取研究的性質(zhì)有關(guān)。產(chǎn)品屬性提取研究側(cè)重于技術(shù)研究,更加注重研究的方式方法,所以理論基礎(chǔ)研究相對(duì)較少。涉及特征提取的文獻(xiàn)數(shù)量最多,這與特征提取是情感分析以及推薦系統(tǒng)兩部分研究?jī)?nèi)容的必備條件有關(guān)。由于文本預(yù)處理以及特征詞提取及過(guò)濾的方法較為復(fù)雜,所以對(duì)這兩部分研究文獻(xiàn)數(shù)量較多。近幾年的特征提取研究往往與情感分析相結(jié)合,從而分析特征詞的情感極性,并應(yīng)用于特征價(jià)格研究、商家信譽(yù)維度構(gòu)建及維護(hù)、用戶推薦等方面,所以情感分析內(nèi)容以及推薦系統(tǒng)的研究在近幾年逐漸成為該領(lǐng)域的研究熱點(diǎn)問(wèn)題。從所涉及相關(guān)研究?jī)?nèi)容的文獻(xiàn)數(shù)量來(lái)看,對(duì)于情感分析的研究相對(duì)推薦系統(tǒng)來(lái)說(shuō)更加廣泛與成熟。未來(lái)對(duì)于產(chǎn)品屬性提取研究的重點(diǎn)應(yīng)向推薦系統(tǒng)等實(shí)際應(yīng)用方面轉(zhuǎn)變。
(三)關(guān)鍵詞分析結(jié)果
1.關(guān)鍵詞統(tǒng)計(jì)分析
利用Citespace對(duì)134篇文獻(xiàn)的關(guān)鍵詞進(jìn)行共現(xiàn)分析,得出關(guān)鍵詞共現(xiàn)圖譜(圖2),其中,頻次排名靠前的關(guān)鍵詞為“特征提取”“情感分析”“商品評(píng)論”“在線評(píng)論”和“推薦系統(tǒng)”,可以看出特征提取、情感分析與推薦系統(tǒng)等應(yīng)用型研究是該領(lǐng)域的研究熱點(diǎn),這與前文關(guān)于研究?jī)?nèi)容的分析結(jié)果不謀而合。通過(guò)關(guān)鍵詞之間的線性連接發(fā)現(xiàn)“特征提取”“情感分析”這兩個(gè)關(guān)鍵詞與其他關(guān)鍵詞之間的連接更為密切,是商品特征提取研究領(lǐng)域的基礎(chǔ)。通過(guò)統(tǒng)計(jì)發(fā)現(xiàn)其中出現(xiàn)頻次大于3的關(guān)鍵詞如表4所示,從這些關(guān)鍵詞中我們可以發(fā)現(xiàn),多數(shù)關(guān)鍵詞集中于研究方法的表述,表明對(duì)于產(chǎn)品屬性提取的研究?jī)?nèi)容比較固定,但是研究方法具有多樣性特點(diǎn)。
2.關(guān)鍵詞演化分析
關(guān)鍵詞的演化能夠反映該領(lǐng)域研究?jī)?nèi)容的演變過(guò)程、研究熱點(diǎn)及研究重點(diǎn),本文從關(guān)鍵詞的歷年分布情況、歷年新增熱門關(guān)鍵詞兩個(gè)方面進(jìn)行分析研究。
首先是關(guān)鍵詞的歷年分布統(tǒng)計(jì)分析,從2006年至今共獲得關(guān)鍵詞491個(gè),歷年關(guān)鍵詞具體數(shù)量見圖3,從圖3中可以發(fā)現(xiàn),自2006年以來(lái),關(guān)鍵詞數(shù)量總體呈上升趨勢(shì),特別是從2015年開始關(guān)鍵詞數(shù)量快速增長(zhǎng),說(shuō)明對(duì)于產(chǎn)品屬性提取的研究重視程度得到大幅度提升。
新增關(guān)鍵詞在一定程度上反映該研究領(lǐng)域新的研究主題出現(xiàn),筆者利用citespace軟件對(duì)關(guān)鍵詞進(jìn)行時(shí)區(qū)分析,得到關(guān)鍵詞時(shí)區(qū)圖譜(圖4)。從關(guān)鍵詞時(shí)區(qū)圖譜中可以看出研究熱點(diǎn)的變化情況,從最早的文本挖掘、情感分析為研究熱點(diǎn),到產(chǎn)品屬性及特征提取,一直到近兩年對(duì)于推薦系統(tǒng)以及目標(biāo)檢測(cè)的研究,反映了研究?jī)?nèi)容的不斷深入和研究的應(yīng)用性的不斷加強(qiáng)。根據(jù)關(guān)鍵詞時(shí)區(qū)分布,本文將關(guān)鍵詞研究年份按關(guān)鍵詞增長(zhǎng)速度劃分為2006—2014年、2015—2020年兩個(gè)階段(表5),根據(jù)表5可以看出2006—2014年出現(xiàn)頻次排名靠前的關(guān)鍵詞分別是商品評(píng)論、特征提取、文本分類、文本挖掘、語(yǔ)義理解和極性分析,從這些關(guān)鍵詞可以看出,在2006—2014年對(duì)于產(chǎn)品屬性提取研究的主題主要集中于對(duì)評(píng)論文本的特征提取及基礎(chǔ)分析。2015-2020年出現(xiàn)頻次排名靠前關(guān)鍵詞分別為情感分析、特征提取、在線評(píng)論、推薦系統(tǒng)、卷積神經(jīng)網(wǎng)絡(luò)、商品評(píng)論、深度學(xué)習(xí)和主題模型等,
從關(guān)鍵詞分布可以看出,2015—2020年相較于2006—2014年,對(duì)于產(chǎn)品屬性提取的研究不再局限于特征提取,而是增加了情感分析、推薦系統(tǒng)這一類將文本分析運(yùn)用到實(shí)際中的研究,同時(shí)也增加了卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、主題模型這一類方法研究關(guān)鍵詞,突出了現(xiàn)階段研究方法的重要性,表明對(duì)于該領(lǐng)域的研究方法在不斷更新完善。
五、研究結(jié)果與不足
(一)研究結(jié)果
論文主要通過(guò)對(duì)中國(guó)知網(wǎng)中以產(chǎn)品屬性提取為研究主題的134篇文獻(xiàn)進(jìn)行總體數(shù)據(jù)統(tǒng)計(jì)、研究?jī)?nèi)容、研究方法以及關(guān)鍵詞四個(gè)方面進(jìn)行研究分析,得出以下四個(gè)方面的結(jié)果:
第一,在總體研究趨勢(shì)方面,通過(guò)統(tǒng)計(jì)分析得出,研究文獻(xiàn)數(shù)量在逐年增加,文獻(xiàn)基金支持狀況中國(guó)家自然科學(xué)基金數(shù)遙遙領(lǐng)先,說(shuō)明對(duì)產(chǎn)品屬性提取領(lǐng)域的研究重視程度在不斷提高。通過(guò)機(jī)構(gòu)發(fā)文量研究發(fā)現(xiàn),機(jī)構(gòu)研究文獻(xiàn)數(shù)量相對(duì)比較平均,大多數(shù)機(jī)構(gòu)研究文獻(xiàn)數(shù)量?jī)H為1篇,說(shuō)明研究機(jī)構(gòu)分散,沒有代表性機(jī)構(gòu),機(jī)構(gòu)間合作性較差。在未來(lái)的研究工作中,機(jī)構(gòu)應(yīng)加強(qiáng)領(lǐng)域研究的系統(tǒng)性,充分發(fā)揮出研究機(jī)構(gòu)的研究?jī)?yōu)勢(shì),強(qiáng)化研究機(jī)構(gòu)之間的合作深度,使得該領(lǐng)域的研究范圍擴(kuò)大,研究深度加深。
第二,在研究?jī)?nèi)容方面,對(duì)于產(chǎn)品屬性提取的研究?jī)?nèi)容主要包括特征提取、情感分析以及推薦系統(tǒng)這三部分應(yīng)用型研究,理論基礎(chǔ)研究薄弱,個(gè)別理論基礎(chǔ)研究也僅限于研究方法理論,缺乏其他相關(guān)領(lǐng)域的結(jié)合,在未來(lái)的研究中產(chǎn)品屬性提取可以結(jié)合經(jīng)濟(jì)學(xué)、市場(chǎng)營(yíng)銷和心理學(xué)等領(lǐng)域的相關(guān)理論來(lái)進(jìn)行研究,這些理論能夠?yàn)楫a(chǎn)品屬性提取研究提供新的視角。
第三,在關(guān)鍵詞分析方面,本文通過(guò)對(duì)歷年關(guān)鍵詞數(shù)量以及不同階段關(guān)鍵詞變化的研究清楚了解到產(chǎn)品屬性提取領(lǐng)域的研究熱點(diǎn)和研究趨勢(shì),同時(shí)探知到這個(gè)領(lǐng)域的未來(lái)潛在研究?jī)r(jià)值點(diǎn)所在。[15]隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,產(chǎn)品屬性提取的研究主題也在不斷更新,推薦系統(tǒng),深度學(xué)習(xí)、記憶網(wǎng)絡(luò)等都是目前的研究熱點(diǎn),未來(lái)與產(chǎn)品屬性提取相關(guān)的應(yīng)用研究如屬性提取與價(jià)格、屬性提取與消費(fèi)者行為預(yù)測(cè)、屬性提取與供應(yīng)鏈管理等都將是未來(lái)研究的主題。
(二)不足
本文立足于中國(guó)知網(wǎng)(CNKI)進(jìn)行文獻(xiàn)收集,收集主題僅為“產(chǎn)品屬性提取”“商品特征提取”,收集到的數(shù)據(jù)難免不足,而且筆者在統(tǒng)計(jì)作者數(shù)據(jù)時(shí)并未將重名作者進(jìn)行處理,對(duì)研究的結(jié)果均具有一定的影響。在研究?jī)?nèi)容方面,僅對(duì)文獻(xiàn)進(jìn)行了描述性統(tǒng)計(jì)分析以及研究?jī)?nèi)容和關(guān)鍵詞分析,研究的全面性不夠,這些都是本文的不足之處,爭(zhēng)取在以后的研究過(guò)程中慢慢改進(jìn)。
參考文獻(xiàn):
安徽商貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報(bào)·社會(huì)科學(xué)版2022年1期