亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詞頻分析法中高頻詞閾值界定方法適用性的實(shí)證分析

        2017-10-22 10:24:58劉奕杉王玉琳李明鑫
        數(shù)字圖書館論壇 2017年9期
        關(guān)鍵詞:普賴斯高頻詞詞頻

        劉奕杉,王玉琳,李明鑫

        (東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130117)

        詞頻分析法中高頻詞閾值界定方法適用性的實(shí)證分析

        劉奕杉,王玉琳,李明鑫

        (東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130117)

        詞頻分析法是文獻(xiàn)計(jì)量學(xué)的重要分析方法之一,而確定高頻詞閾值是進(jìn)行詞頻分析的必要前提,高頻詞閾值的選取不僅決定詞頻分析法的分析結(jié)果,而且對(duì)整個(gè)分析研究都有著極其重要的影響。本文首先以近三年國(guó)內(nèi)運(yùn)用詞頻分析法展開研究的文獻(xiàn)為調(diào)研基礎(chǔ),發(fā)現(xiàn)目前學(xué)界常用的高頻詞閾值選取方法主要有自定義選取法、高低頻詞界定公式選取法、普賴斯公式選取法及混合選取法四類;其次,以個(gè)人知識(shí)管理領(lǐng)域的文獻(xiàn)為研究對(duì)象,對(duì)前三類高頻詞閾值選取方法分別進(jìn)行取值計(jì)算并做領(lǐng)域熱點(diǎn)聚類分析,對(duì)比驗(yàn)證聚類結(jié)果,同時(shí)以此結(jié)果為基礎(chǔ)討論高頻詞閾值選擇對(duì)分析結(jié)果的影響及其合理性;最后,指出我國(guó)學(xué)界在高頻詞閾值選取方面存在主觀性強(qiáng)、方法原理不明、改進(jìn)方法適用性不明,高低頻詞界定公式和普賴斯公式適用性尚待研究等問(wèn)題。

        高頻詞;文獻(xiàn)計(jì)量學(xué);詞頻分析

        1 引言

        在科學(xué)研究中,常通過(guò)表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞的出現(xiàn)頻次確定該領(lǐng)域的研究重點(diǎn)和發(fā)展動(dòng)向。由于一篇文獻(xiàn)的關(guān)鍵詞或主題詞是文獻(xiàn)核心內(nèi)容的濃縮和提煉,因此,如果某一關(guān)鍵詞或主題詞在其領(lǐng)域文獻(xiàn)中反復(fù)出現(xiàn),則可認(rèn)為該關(guān)鍵詞或主題詞所表征的研究主題即為該領(lǐng)域的研究熱點(diǎn)[1]。詞頻分析法可以結(jié)合其他方法(如共詞分析、多維尺度分析、知識(shí)圖譜等),加深對(duì)研究主題的理解。雖然詞頻分析法的實(shí)踐應(yīng)用廣泛,但很少有對(duì)其方法理論的深入研究,缺乏對(duì)其內(nèi)涵、特征、模式、流程等內(nèi)在規(guī)律的系統(tǒng)歸納。此外,對(duì)詞頻分析法與傳統(tǒng)文獻(xiàn)綜述法在方法論基礎(chǔ)、研究對(duì)象、應(yīng)用范圍等方面的探討亦比較少見(jiàn)[2]。

        確定領(lǐng)域高頻詞是運(yùn)用詞頻分析等方法進(jìn)行下一步工作的基礎(chǔ),因此如何合理界定領(lǐng)域高頻詞成為重要的研究課題。如楊建林對(duì)基于詞頻閾值和基于貢獻(xiàn)強(qiáng)度閾值的兩種選詞策略進(jìn)行分析,得出將這兩種方法合并后得到的關(guān)鍵詞集具有更好的共詞分析效果[3];陳果等提出基于學(xué)科背景的全局視角,對(duì)比關(guān)鍵詞在領(lǐng)域內(nèi)外的出現(xiàn)頻率,提出領(lǐng)域度計(jì)算公式,并融合領(lǐng)域度和熱度指標(biāo)進(jìn)行關(guān)鍵詞篩選[4];安興茹提出基于正態(tài)分布的方法,通過(guò)實(shí)證分析,驗(yàn)證關(guān)鍵詞或主題詞在文獻(xiàn)庫(kù)中的分布符合正態(tài)分布,并根據(jù)正態(tài)分布的特性,提出詞頻分析法高頻詞閾值的計(jì)算方法[5]。

        目前已有學(xué)者嘗試提出改進(jìn)高頻詞閾值的方法,但這些新方法是否具有廣泛的適用性,是否能解決目前高頻詞閾值選取中存在的問(wèn)題,以及使用這些新方法是否會(huì)產(chǎn)生新的問(wèn)題,在學(xué)界尚無(wú)法達(dá)成共識(shí),還需要繼續(xù)探討;而傳統(tǒng)高頻詞閾值選取方法相對(duì)不規(guī)范,因此關(guān)于高頻詞閾值的選取方法未來(lái)還有很長(zhǎng)的路要走。

        2 常用高頻詞閾值選取方法

        為反映目前我國(guó)學(xué)界關(guān)于高頻詞閾值選取方法的現(xiàn)狀,本文在中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)中檢索“研究熱點(diǎn)”相關(guān)的文獻(xiàn)。以摘要=“熱點(diǎn)”and主題=“詞頻+共詞”為檢索式,選取來(lái)源類別為CSSCI,檢索時(shí)間為2015—2017年的文獻(xiàn),共得到229條記錄,再通過(guò)人工篩選,去除不符合研究主題的文獻(xiàn),最終得到174篇文獻(xiàn)。

        2.1 近三年“研究熱點(diǎn)”類文獻(xiàn)的統(tǒng)計(jì)結(jié)果分析

        本文通過(guò)提取174篇文獻(xiàn)中高頻詞閾值的方法,并以此為代表,整理目前我國(guó)學(xué)界常用的高頻詞閾值選取方法,結(jié)果見(jiàn)表1。

        表1 高頻詞閾值選取方法

        2.2 自定義選取法

        從表1可以看出,目前我國(guó)學(xué)界在研究領(lǐng)域熱點(diǎn)問(wèn)題時(shí),常用的高頻詞選取辦法是自定義選取法,合計(jì)129篇,占比74.14%。自定義選取法,作者可根據(jù)研究需要自行規(guī)定高頻詞的選取方法和高頻詞的閾值,這種選擇方法主觀性強(qiáng),在閾值的選擇上較隨意。通過(guò)本文所得到的174篇文獻(xiàn)的研究數(shù)據(jù)發(fā)現(xiàn),樣本文獻(xiàn)數(shù)據(jù)量從58—25 990篇,頻次的選擇從2—300次,跨度比較大。對(duì)這些具有一定隨意性的高頻詞選取方法所選出的高頻詞進(jìn)行分析,其分析結(jié)果的準(zhǔn)確性和科學(xué)性值得商榷。即使是同一領(lǐng)域的研究,也存在不同研究者有不同取值標(biāo)準(zhǔn)的現(xiàn)象,從而導(dǎo)致研究結(jié)果不一致。

        2.2.1 頻次選取法

        從調(diào)研結(jié)果來(lái)看,最常用的自定義方法是頻次選取法,即作者自行規(guī)定高頻詞的閾值,這類文獻(xiàn)占比45.98%。這種高頻詞選取方法主要依據(jù)研究者在研究過(guò)程中遇到的具體情況和自身經(jīng)驗(yàn),選取合適的閾值來(lái)確定高頻詞。這種方法的優(yōu)點(diǎn)是操作簡(jiǎn)便,可節(jié)省大量時(shí)間和精力,使研究者把更多注意力放在后續(xù)分析研究上。但由于此種方法的全部操作步驟均為研究者自定義,其可信度和科學(xué)性無(wú)法保證,尤其高頻詞閾值的確定是后續(xù)分析研究的基礎(chǔ)。

        在現(xiàn)有樣本數(shù)據(jù)中,有11篇文獻(xiàn)的研究者在使用頻次選取法時(shí),按照高頻詞累計(jì)頻次達(dá)到總頻次40%左右的取詞標(biāo)準(zhǔn)進(jìn)行取詞,占頻次選取法文獻(xiàn)的13.75%,全部樣本文獻(xiàn)的6.32%。由此也可以看出,在頻次選取法的實(shí)際應(yīng)用中,研究者的主觀意愿在一定程度上占據(jù)主導(dǎo)地位。

        2.2.2 前N位選取法

        前N位選取法即按照詞頻由高到低進(jìn)行排序,作者自選前N位詞為高頻詞;這類文獻(xiàn)共44篇,占比25.29%。這種方法與頻次選取法類似,也是以研究者主觀意志為主的一種高頻詞選取方法。

        不同的是,這種方法的隨意性更大。前N位選取法中N的閾值如何界定,目前沒(méi)有標(biāo)準(zhǔn)。從本文樣本統(tǒng)計(jì)結(jié)果來(lái)看,高頻詞閾值選取標(biāo)準(zhǔn)從前5—100位不等,其所選第N位高頻詞的出現(xiàn)頻次也從2—100次不等。由于這種方法是將具體頻次數(shù)據(jù)抽象為排名形式,因此不可避免地丟失部分具體頻次信息。這種更抽象的前N位選取法,通常使研究者更易忽略其截取頻次的合理性,而更關(guān)注所選高頻詞個(gè)數(shù)是否更易構(gòu)造相異矩陣,是否能夠?yàn)檠芯繋?lái)更多的方便。

        2.2.3 中心度選取法

        目前,由于詞頻分析軟件的普及,在進(jìn)行詞頻分析時(shí),大量文獻(xiàn)選擇把原始數(shù)據(jù)直接導(dǎo)入詞頻分析軟件中(如CiteSpace、Ucinet等),以關(guān)鍵詞中心度為排序依據(jù)選取高頻詞的樣本數(shù)據(jù)共5篇,占比2.87%。實(shí)際上,CiteSpace等詞頻分析軟件的工作原理是根據(jù)詞頻多少來(lái)確定相應(yīng)的節(jié)點(diǎn)中心度,因此這種以中心度確定高頻詞的方法其實(shí)質(zhì)與前N位選取法的原理一致。

        2.3 高低頻詞界定公式選取法

        第二大類方法是用高低頻詞界定公式確定高頻詞閾值。高低頻詞界定公式由Donohue在1973年提出,源于齊普夫第二定律[6]。高低頻詞界定公式作為文獻(xiàn)計(jì)量學(xué)里的一項(xiàng)重要內(nèi)容,本應(yīng)是用于高頻詞閾值界定的一種普遍方法,但從本文樣本調(diào)研結(jié)果來(lái)看,實(shí)際上使用此高低頻詞界定公式法進(jìn)行高頻詞選取的文獻(xiàn)只有11篇,僅占比6.32%。

        (1)依賴I1。從此公式可知,詞頻閾值完全由I1決定,計(jì)算出的高頻詞個(gè)數(shù)一般過(guò)多或過(guò)少,這可能是計(jì)算結(jié)果不理想的外在原因[5]。

        (2)理論基礎(chǔ)和適用性。高低頻詞界定公式是由齊普夫第二定律得來(lái),同齊普夫第二定律一樣都是針對(duì)某一具體文獻(xiàn)得出的詞頻分界公式,而非針對(duì)文獻(xiàn)庫(kù)得出,所以高低頻詞界定公式在基于文獻(xiàn)庫(kù)的高頻主題詞和關(guān)鍵詞閾值計(jì)算上,缺乏理論基礎(chǔ)和適用條件[5]。

        相較于自定義選取法,用高低頻詞界定公式計(jì)算高頻詞比較復(fù)雜,雖然孫清蘭對(duì)其進(jìn)行過(guò)改良,提供相對(duì)簡(jiǎn)便的算法[6],但與自定義方法相比,高頻詞的選取仍然比較復(fù)雜。因此,由于上述兩方面原因,學(xué)界較少使用高低頻詞界定公式方法界定領(lǐng)域高頻詞。

        2.4 普賴斯公式選取法

        雖然在選擇領(lǐng)域高頻詞方面有許多學(xué)者提出多種方法,如熊回香等使用大數(shù)據(jù)搜索與挖掘共現(xiàn)平臺(tái)提取特征詞[7],巴志超等用LDA和word2vec模型提取高頻詞[8],姚小嬌用詞頻g指數(shù)方法界定高頻詞等[9]。但就目前統(tǒng)計(jì)來(lái)看,除作者自定義和用高低頻詞界定公式界定高頻詞這兩種方法外,還主要借用普賴斯公式來(lái)確定領(lǐng)域高頻詞(共計(jì)5篇,占比2.87%)。

        普賴斯公式最早被用于確定高被引文獻(xiàn),進(jìn)而確定某研究領(lǐng)域內(nèi)的核心作者。因方法相較于用高低頻詞界定公式更簡(jiǎn)單,比自定義選取法更科學(xué),逐漸被T學(xué)者接受并應(yīng)用于不同領(lǐng)域的研究中。其高頻詞閾值根據(jù)普賴斯公式確定,計(jì)算公式:,其中M為高頻詞閾值,Nmax表示區(qū)間學(xué)術(shù)論文被引頻次最高值[10]。

        普賴斯公式可以用于確定領(lǐng)域核心文獻(xiàn),因此在一定程度上利用此公式確定領(lǐng)域核心關(guān)鍵詞也是可行的。但在具體應(yīng)用時(shí),還需進(jìn)一步改進(jìn),如將自變量Nmax表示為關(guān)鍵詞的頻次最高值,而不是被引次數(shù)的最高值,這樣用此公式得出的結(jié)果才更符合“領(lǐng)域核心詞”(即領(lǐng)域高頻詞)。

        為更清晰地表現(xiàn)上述我國(guó)學(xué)界常用的三類(5種)高頻詞閾值選取方法,在此將這5種方法歸納、對(duì)比,整理見(jiàn)表2。

        2.5 混合選取法

        混合選取法指將表2中兩種或兩種以上方法合并使用的情況。最常用的方法為先用高低詞頻界定公式或普賴斯公式計(jì)算得出一個(gè)高頻詞閾值,由于該閾值與實(shí)際情況存在一定差異,不能滿足研究需要或?yàn)檠芯繋?lái)不必要的麻煩。對(duì)此,研究者通常根據(jù)實(shí)際情況進(jìn)行人工選詞,即在公式計(jì)算結(jié)果的基礎(chǔ)上,人工擴(kuò)大或縮小范圍,自定義閾值。

        表2 5種常用高頻詞閾值選取方法對(duì)比

        3 高頻詞閾值選取的實(shí)證分析

        本文以上述總結(jié)出的我國(guó)學(xué)界目前常用的三大類高頻詞選取方法為基礎(chǔ),對(duì)個(gè)人知識(shí)管理領(lǐng)域的研究文獻(xiàn)進(jìn)行實(shí)證研究,并將所得結(jié)果進(jìn)行對(duì)比驗(yàn)證,以此說(shuō)明不同高頻詞閾值選取方法對(duì)選詞結(jié)果的影響,以及不同選詞結(jié)果對(duì)后續(xù)分析研究的影響。本文僅通過(guò)聚類分析方法來(lái)體現(xiàn)其影響,對(duì)于多維尺度分析、網(wǎng)絡(luò)節(jié)點(diǎn)分析等定量方法,以及領(lǐng)域熱點(diǎn)、發(fā)展趨勢(shì)分析等定性方法暫不予以說(shuō)明。

        本文通過(guò)中國(guó)知識(shí)基礎(chǔ)設(shè)施工程的期刊數(shù)據(jù)庫(kù),檢索得到“個(gè)人知識(shí)管理”領(lǐng)域的文獻(xiàn),共得1 241條記錄。用Bicomb軟件提取所有文獻(xiàn)的關(guān)鍵詞[15],經(jīng)過(guò)數(shù)據(jù)清洗后共得2 412個(gè)關(guān)鍵詞,將詞頻出現(xiàn)頻次按由高到低排序,部分結(jié)果(Top 20)如表3所示。

        表3 個(gè)人知識(shí)管理領(lǐng)域關(guān)鍵詞詞頻統(tǒng)計(jì)表(Top 20)

        3.1 二八定律驗(yàn)證自定義選取法

        從本文第一部分分析來(lái)看,絕大多數(shù)自定義選取法憑研究者意愿進(jìn)行。但根據(jù)統(tǒng)計(jì),自定義選取法的詞頻截取比例通常在8%—40%。因此,為重現(xiàn)自定義選取方法并同時(shí)體現(xiàn)一定的取詞依據(jù),本文以二八定律為基礎(chǔ),對(duì)自定義選取法進(jìn)行實(shí)證驗(yàn)證,選取個(gè)人知識(shí)管理領(lǐng)域的高頻詞。依照表3中的統(tǒng)計(jì)結(jié)果,從高到低抽取累計(jì)占比達(dá)20%的詞為該領(lǐng)域的高頻詞。

        按照此種方法抽取高頻詞,應(yīng)抽取的高頻詞范圍為所有頻次大于或等于15的詞,即位于前30位的詞為個(gè)人知識(shí)管理領(lǐng)域的高頻詞,累計(jì)占比20.14%。用SPSS軟件對(duì)此30個(gè)高頻詞進(jìn)行聚類分析,以倒數(shù)第二大聚類層次作為劃分標(biāo)準(zhǔn),統(tǒng)計(jì)聚類類別。

        在選取前30個(gè)詞為高頻詞的條件下,個(gè)人知識(shí)管理領(lǐng)域的關(guān)鍵詞大致可以分為三類,即“顯性知識(shí)”“隱性知識(shí)”與“圖書館”為第一類;“個(gè)人知識(shí)”“組織知識(shí)”“個(gè)人學(xué)習(xí)”“組織學(xué)習(xí)”“知識(shí)經(jīng)濟(jì)時(shí)代”與“知識(shí)結(jié)構(gòu)”為第二類;其余如“博客”“應(yīng)用”與“策略”等為第三類。

        3.2 高低頻詞界定公式選取法的驗(yàn)證

        據(jù)統(tǒng)計(jì),關(guān)鍵詞詞頻為1的共有1 860個(gè)詞,將其代入高低頻詞界定公式,計(jì)算得出高頻詞閾值為60,即由高低頻詞界定公式確定的個(gè)人知識(shí)管理領(lǐng)域的高頻詞為所有出現(xiàn)頻次大于60次的詞匯。因此,如果按照高低頻詞界定公式方法取詞,那么個(gè)人知識(shí)管理領(lǐng)域的高頻詞為表3中的前3個(gè)詞,即“博客”“隱性知識(shí)”與“個(gè)人知識(shí)”。由于此方法只提取到3個(gè)高頻詞,不便進(jìn)行聚類分析。

        3.3 普賴斯公式選取法的驗(yàn)證

        根據(jù)對(duì)普賴斯公式選取法的論述,可知普賴斯公式確定高頻詞主要取決于區(qū)間關(guān)鍵詞出現(xiàn)的頻次。由表3可見(jiàn),個(gè)人知識(shí)管理領(lǐng)域文獻(xiàn)的關(guān)鍵詞最高頻次為74次。因此,根據(jù)普賴斯公式計(jì)算得出的高頻詞閾值6.4。即頻次大于或等于6的詞均為個(gè)人知識(shí)管理領(lǐng)域的高頻詞,共計(jì)103個(gè)。同樣用SPSS得出這103個(gè)高頻詞的聚類分析結(jié)果。

        將此聚類結(jié)果大致分為三類:“顯性知識(shí)”“隱性知識(shí)”與“圖書館”為第一類;“知識(shí)獲取”“知識(shí)利用”與“知識(shí)管理工具”等為第二類;“學(xué)習(xí)型組織”“個(gè)人學(xué)習(xí)”與“組織學(xué)習(xí)”等為第三類。對(duì)比前30個(gè)詞的聚類結(jié)果,雖然二八定律取值后的聚類劃分結(jié)果也是三類,但兩種方式的聚類結(jié)果差別較大。以“個(gè)人知識(shí)”“組織知識(shí)”“知識(shí)經(jīng)濟(jì)時(shí)代”“個(gè)人學(xué)習(xí)”與“組織學(xué)習(xí)”這5個(gè)詞為例來(lái)說(shuō)明,在頻次大于或等于15(Top 30)的詞為領(lǐng)域高頻詞時(shí),這5個(gè)詞是被劃分為同一類;而在頻次大于或等于6(Top 103)的詞為領(lǐng)域高頻詞時(shí),這5個(gè)詞則被劃分到兩大類中,即“個(gè)人知識(shí)”“組織知識(shí)”“知識(shí)經(jīng)濟(jì)時(shí)代”與“知識(shí)獲取”“知識(shí)利用”等歸為第二類,而“個(gè)人學(xué)習(xí)”“組織學(xué)習(xí)”則與“學(xué)習(xí)型組織”“企業(yè)”“知識(shí)管理能力”等歸為第三類,即相同的5個(gè)詞在聚類類別上發(fā)生了明顯變化。由此可以說(shuō)明,即使使用同一組數(shù)據(jù),由于截頻方法或截取閾值不同,也會(huì)產(chǎn)生明顯不同的聚類分析結(jié)果,從而導(dǎo)致后續(xù)分析結(jié)論發(fā)生偏差。

        據(jù)此可以推測(cè),在面對(duì)不同高頻詞截取結(jié)果時(shí),同樣是以高頻詞分析為基礎(chǔ)的多維尺度圖、節(jié)點(diǎn)網(wǎng)絡(luò)圖等多種分析方法的呈現(xiàn)結(jié)果不一樣,而目前我國(guó)學(xué)者對(duì)于領(lǐng)域發(fā)展、熱點(diǎn)分析、趨勢(shì)預(yù)測(cè)等的把握基本上是由聚類分析圖、多維尺度圖、節(jié)點(diǎn)網(wǎng)絡(luò)圖等綜合得出,即不同的呈現(xiàn)結(jié)果必然會(huì)導(dǎo)致研究者分析結(jié)果的差異,由此可以證明不同的高頻詞選取方法導(dǎo)致不同的截取結(jié)果,確實(shí)會(huì)對(duì)后續(xù)的分析結(jié)果產(chǎn)生不同影響。

        3.4 三種方法驗(yàn)證結(jié)果對(duì)比

        從上述驗(yàn)證結(jié)果可以看出,即使是在同一研究領(lǐng)域,由于高頻詞閾值選擇的方法不同,所確定的高頻詞也是明顯不同,甚至差異巨大。在個(gè)人知識(shí)管理領(lǐng)域中,用二八定律確定的高頻詞閾值為15,包含前30個(gè)高頻詞;用高低頻詞界定公式方法確定的閾值為60,包含前3個(gè)高頻詞;用普賴斯公式方法確定的閾值為6,包含前103個(gè)高頻詞。三種方法確定的高頻詞數(shù)量最高相差100,相比之下,選用二八定律截取出的高頻詞閾值更合理。

        目前我國(guó)學(xué)界在應(yīng)用普賴斯公式計(jì)算高頻詞閾值時(shí),絕大多數(shù)存在適用性問(wèn)題。即將普賴斯公式計(jì)算得出的M值(實(shí)際代表高被引文獻(xiàn)的閾值)用做高頻詞閾值。為說(shuō)明普賴斯公式在高頻詞閾值界定上的不合理應(yīng)用,及其對(duì)聚類分析結(jié)果的影響,本文特將這種情況列出,并與前文中所取閾值較合理的二八定律方法(閾值15)的聚類結(jié)果進(jìn)行對(duì)比分析。

        通過(guò)檢索個(gè)人知識(shí)管理領(lǐng)域文獻(xiàn)得到的最高被引次數(shù)為430,普賴斯公式計(jì)算結(jié)果約為16。以16作為高頻詞閾值,則可獲取個(gè)人知識(shí)管理領(lǐng)域的前27個(gè)關(guān)鍵詞高頻詞。通過(guò)對(duì)前27個(gè)詞的聚類,分析發(fā)現(xiàn)個(gè)人知識(shí)管理領(lǐng)域的關(guān)鍵詞可以聚為四類,明顯不同于前30個(gè)詞的三類劃分,并且同樣出現(xiàn)了同一關(guān)鍵詞被劃分在不同聚類的情況,如“博客”在前30個(gè)詞的聚類中應(yīng)劃歸第三類,而在前27個(gè)詞的聚類中應(yīng)劃歸在第二類,與“教師”“大學(xué)生”“知識(shí)管理系統(tǒng)”和“知識(shí)創(chuàng)新”等詞劃成一類。由此可見(jiàn),即使截取的高頻詞閾值差異很小,對(duì)于聚類分析結(jié)果的影響也是很大的,仍然會(huì)對(duì)研究者的分析結(jié)論造成較大的影響,進(jìn)而影響其對(duì)當(dāng)前領(lǐng)域發(fā)展的認(rèn)識(shí)和對(duì)未來(lái)發(fā)展趨勢(shì)的判斷。

        通過(guò)上述實(shí)證研究,再次證實(shí)不同高頻詞選取方法對(duì)結(jié)果的巨大影響。在高頻詞取值差異的影響下,后續(xù)分析研究的可信度和科學(xué)價(jià)值值得商榷。因此,若想保證后續(xù)分析中的研究?jī)r(jià)值和意義,規(guī)范、科學(xué)地確定領(lǐng)域高頻詞是一個(gè)必不可少且十分重要的前提條件。但僅從目前我國(guó)學(xué)界的研究現(xiàn)狀來(lái)看,絕大多數(shù)研究者尚未意識(shí)到高頻詞閾值的選取會(huì)對(duì)后續(xù)分析結(jié)論帶來(lái)嚴(yán)重影響,更沒(méi)有意識(shí)到現(xiàn)有高頻詞選取方式中的不足,以及其對(duì)分析研究的不利影響。

        3.5 驗(yàn)證研究的結(jié)論

        從三種選取方法的結(jié)果對(duì)比來(lái)看,用二八定律方法來(lái)確定領(lǐng)域高頻詞閾值是較合理的。一是以二八定律代替完全憑借研究者主觀意愿的自定義選取方式相對(duì)客觀;二是二八定律作為較成熟的理論,已成功應(yīng)用在圖書情報(bào)領(lǐng)域的諸多研究主題中,將其應(yīng)用于高頻詞界定是有其理論依據(jù)的,以20%累計(jì)詞頻覆蓋率作為該領(lǐng)域的核心關(guān)鍵詞是合理的;三是從驗(yàn)證結(jié)果來(lái)看,二八定律所選取的高頻詞閾值較合理,與高低頻詞界定公式取詞偏少、普賴斯公式取詞偏多的情況相比,二八定律截取的高頻詞數(shù)量更適中,更符合研究者的需求;四是二八定律取詞法在操作上更簡(jiǎn)便,即使對(duì)高低頻詞界定公式、普賴斯公式等方法運(yùn)用不夠熟練,也可以按照此定律取得合適的結(jié)果;五是二八定律是一個(gè)定值,既不需要經(jīng)過(guò)公式計(jì)算,也不需要考慮公式中由于自變量取值不準(zhǔn)確而對(duì)閾值計(jì)算造成的影響。因此,相較于其他的高頻詞界定方法,二八定律更適用。

        4 高頻詞閾值選取方面存在的問(wèn)題

        4.1 主觀性強(qiáng)

        目前,學(xué)界進(jìn)行的大部分詞頻分析或以詞頻分析為基礎(chǔ)的研究,對(duì)于高頻詞的截取數(shù)量和選取方法沒(méi)有明確概念;且大多以作者關(guān)鍵詞作為選詞標(biāo)準(zhǔn),而作者關(guān)鍵詞本身就是文獻(xiàn)作者的主觀性選取結(jié)果;又因高頻詞的截取也是研究者的自主選擇,不同研究者有不同態(tài)度,最終可能會(huì)導(dǎo)致結(jié)果不同,整個(gè)研究的主觀性過(guò)強(qiáng)。

        由于一些研究的領(lǐng)域較新,已有文獻(xiàn)數(shù)據(jù)量不大,導(dǎo)致用公式計(jì)算得出的結(jié)果不準(zhǔn)確,閾值界定范圍過(guò)小,無(wú)法進(jìn)行下一步分析。如張叢昱等雖使用普賴斯公式,但其實(shí)際計(jì)算結(jié)果與預(yù)期結(jié)果存在較大差異,最終只能根據(jù)作者對(duì)領(lǐng)域的理解,并結(jié)合公式計(jì)算數(shù)據(jù)確定高頻詞閾值的范圍[16],這也是混合選取法出現(xiàn)的根本原因之一。

        4.2 方法原理不明

        目前我國(guó)學(xué)者對(duì)某一領(lǐng)域的現(xiàn)狀、趨勢(shì)、熱點(diǎn)的研究較多,但大部分文獻(xiàn)在進(jìn)行分析前,對(duì)如何準(zhǔn)確地選擇合適的高頻詞,以及高頻詞閾值選擇標(biāo)準(zhǔn)等問(wèn)題并未給出明確說(shuō)明。大部分研究者只是在更換研究領(lǐng)域后,機(jī)械性照搬前人文獻(xiàn)和寫作模式。如依靠普賴斯公式計(jì)算得出詞頻大于6的詞為領(lǐng)域高頻詞,但是對(duì)普賴斯公式的原理、優(yōu)缺點(diǎn)、所取閾值是否合理等問(wèn)題并未詳加考量。

        4.3 改進(jìn)方法適用性不明

        目前,高頻詞閾值的選取方法并沒(méi)有形成統(tǒng)一概念,因此有人對(duì)當(dāng)前高頻詞閾值選取方法提出異議并給予相應(yīng)改進(jìn)方法。即使有學(xué)者提出改進(jìn)此問(wèn)題的方法,且在某一領(lǐng)域內(nèi)檢測(cè)其適用性,但這種新方法也可能存在問(wèn)題。巴志超等認(rèn)為,文獻(xiàn)中構(gòu)建的語(yǔ)義網(wǎng)絡(luò)度分布并不符合冪律分布特性,但沒(méi)有過(guò)多討論是否由于模型的參數(shù)設(shè)置、Top N的關(guān)鍵詞選擇以及語(yǔ)義度量指標(biāo)等因素的影響和相互關(guān)系,也未檢驗(yàn)構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)中的其他分布,如節(jié)點(diǎn)權(quán)值分布、中間中心性分布等是否符合冪律分布特性[8]。也就是說(shuō)這一類文獻(xiàn)雖然對(duì)提出的問(wèn)題進(jìn)行改善,但也可能只對(duì)提出的問(wèn)題進(jìn)行改善,并不排除可能會(huì)并發(fā)其他影響。而這些新方法本身也具有局限性,是研究者對(duì)詞頻截取中出現(xiàn)的某一問(wèn)題或某幾個(gè)問(wèn)題做出的改進(jìn),而研究者對(duì)新方法的驗(yàn)證也僅是采用了某一領(lǐng)域的某一組數(shù)據(jù)。因此這種方法是否真正適用于該領(lǐng)域或其他領(lǐng)域,以及使用這種方法是否會(huì)產(chǎn)生其他并發(fā)性問(wèn)題還需要進(jìn)一步討論。

        4.4 高低頻詞界定公式存在適用性問(wèn)題

        從已有研究的情況來(lái)看,高低頻詞界定公式的取值偏大,導(dǎo)致截取到的高頻詞過(guò)少。造成這種情況的原因有兩個(gè):一是研究領(lǐng)域的相關(guān)主題本身比較分散,因此關(guān)鍵詞重復(fù)率不高,僅出現(xiàn)1次的關(guān)鍵詞數(shù)量較多。二是我國(guó)期刊文獻(xiàn)的關(guān)鍵詞多為作者關(guān)鍵詞,即文獻(xiàn)作者自定義的關(guān)鍵詞,這種作者關(guān)鍵詞的規(guī)范性不足,對(duì)同一事物可能存在多種不同說(shuō)法。因此,大量不規(guī)范的作者自定義關(guān)鍵詞就成為僅出現(xiàn)1次的關(guān)鍵詞的主要組成部分,從而導(dǎo)致高低頻詞界定公式取值結(jié)果偏大,無(wú)法為領(lǐng)域高頻詞的確定提供合理參考。

        4.5 普賴斯公式適用性不明

        目前我國(guó)大多數(shù)學(xué)者將普賴斯公式的計(jì)算結(jié)果直接作為確定高頻詞的方法,這種做法雖然簡(jiǎn)單易行,在實(shí)際科學(xué)研究中有其獨(dú)特優(yōu)勢(shì)和實(shí)用性。但此公式畢竟是為確定高被引文獻(xiàn)而設(shè)計(jì)的,將其直接應(yīng)用于領(lǐng)域高頻詞提取,實(shí)際上是不適合的。公式中自變量Nmax表示區(qū)間學(xué)術(shù)論文被引頻次最高值,即被引次數(shù)的最高值,計(jì)算得出的M值應(yīng)該是“被引量”(即高被引文獻(xiàn)的閾值)而不應(yīng)是“關(guān)鍵詞頻次”(高頻詞閾值)。因此,將普賴斯公式直接用于確定高頻詞閾值值得商榷,目前僅有少數(shù)研究者意識(shí)到該問(wèn)題。如胡利勇雖然在界定高頻詞時(shí)借用普賴斯公式[17],但同時(shí)對(duì)該公式究竟是否適用于界定高頻詞提出質(zhì)疑。

        5 關(guān)于高頻詞閾值界定方法改進(jìn)的思考

        5.1 普賴斯公式法的改進(jìn)

        除上文中提到的將現(xiàn)有普賴斯公式中的自變量變?yōu)椤白罡哧P(guān)鍵詞頻次”來(lái)增加其應(yīng)用于高頻詞界定的合理性之外,也可以在普賴斯公式確定領(lǐng)域核心文獻(xiàn)的基礎(chǔ)上,嘗試將這些核心文獻(xiàn)中的關(guān)鍵詞作為領(lǐng)域核心關(guān)鍵詞。普通計(jì)算關(guān)鍵詞詞頻的方法是單純將關(guān)鍵詞累加,并沒(méi)有考慮到核心文獻(xiàn)中的關(guān)鍵詞應(yīng)該具有更大的影響。如高影響力作者的一篇高被引文獻(xiàn)中的關(guān)鍵詞與普通文獻(xiàn)的關(guān)鍵詞權(quán)重完全相同。為顯示出高被引文獻(xiàn)的影響力,可以將被引次數(shù)作為權(quán)重參數(shù)加入到關(guān)鍵詞詞頻的計(jì)算中。被引次數(shù)越多,經(jīng)過(guò)加權(quán)后的關(guān)鍵詞累加值也就越高,其相對(duì)應(yīng)的核心關(guān)鍵詞的頻次就越高,這種方法的優(yōu)點(diǎn)是可以突出核心文獻(xiàn)對(duì)所在領(lǐng)域的影響。現(xiàn)有高頻詞取值方法是將所有文獻(xiàn)中的關(guān)鍵詞無(wú)差別計(jì)數(shù),即無(wú)視核心文獻(xiàn)的被引量和重要程度,與其他影響力一般的普通文獻(xiàn)采用同樣的關(guān)鍵詞頻次計(jì)數(shù)方式,這對(duì)于領(lǐng)域熱點(diǎn)問(wèn)題的分析和未來(lái)研究趨勢(shì)的把握是非常不利的。被引次數(shù)高的核心文獻(xiàn)對(duì)于同一領(lǐng)域熱點(diǎn)研究趨勢(shì)的影響明顯高于普通文獻(xiàn),因此在進(jìn)行領(lǐng)域熱點(diǎn)或趨勢(shì)分析時(shí),應(yīng)考慮核心文獻(xiàn)的領(lǐng)域影響力并在研究方法中體現(xiàn)出來(lái)?,F(xiàn)有領(lǐng)域高頻詞提取方法均未將該問(wèn)題考慮在內(nèi)。

        5.2 高低頻詞界定公式法的改進(jìn)

        上文研究可進(jìn)一步發(fā)現(xiàn),目前造成高低頻詞界定公式界定高頻詞不理想的原因是領(lǐng)域內(nèi)關(guān)鍵詞分布較分散,雖然在具體計(jì)算前都有數(shù)據(jù)清洗流程,但這種清洗只能達(dá)到降噪的效果,無(wú)法解決關(guān)鍵詞分散現(xiàn)象,分散現(xiàn)象的直觀表現(xiàn)就是存在大量?jī)H出現(xiàn)1次的關(guān)鍵詞。使用普通清洗方法無(wú)法降低僅出現(xiàn)1次的關(guān)鍵詞數(shù)量,所以只能借助其他方法來(lái)處理,從而降低人為標(biāo)注關(guān)鍵詞而產(chǎn)生的不規(guī)范行為對(duì)高低頻詞界定公式取值結(jié)果的影響。如當(dāng)文獻(xiàn)數(shù)量與關(guān)鍵詞數(shù)量為1:1.5時(shí),定義僅出現(xiàn)1次的關(guān)鍵詞在全部關(guān)鍵詞集中的比例為x;當(dāng)文獻(xiàn)數(shù)量與關(guān)鍵詞數(shù)量為1:2時(shí),定義僅出現(xiàn)1次的關(guān)鍵詞在全部關(guān)鍵詞集中的比例為y;在不同的文獻(xiàn)與關(guān)鍵詞數(shù)量比例區(qū)間下,僅出現(xiàn)1次的關(guān)鍵詞數(shù)量在全部關(guān)鍵詞數(shù)量中的占比應(yīng)是不一樣的。將此經(jīng)過(guò)處理后的僅出現(xiàn)1次關(guān)鍵詞數(shù)代入高低頻詞界定公式,這樣可以在一定程度上避免高低頻詞界定公式計(jì)算結(jié)果過(guò)大而截取到的高頻詞過(guò)少或取不到高頻詞的情況。對(duì)于文獻(xiàn)數(shù)量與關(guān)鍵詞數(shù)量比例區(qū)間的劃分方法,各區(qū)間僅出現(xiàn)1次的關(guān)鍵詞所占比例等具體量值的確定,以及如何區(qū)分由于研究主題分散和作者關(guān)鍵詞不規(guī)范這兩種情況導(dǎo)致的關(guān)鍵詞集分散等問(wèn)題,尚有待進(jìn)一步研究。

        6 結(jié)語(yǔ)

        高頻詞的閾值選取是詞頻分析的重要基礎(chǔ),而我國(guó)學(xué)界對(duì)于詞頻的閾值選取存在嚴(yán)重的不規(guī)范現(xiàn)象。在總結(jié)目前常用的三種高頻詞界定方式之后,引入個(gè)人知識(shí)管理領(lǐng)域樣本進(jìn)行實(shí)證檢驗(yàn),說(shuō)明高頻詞截取的不同結(jié)果對(duì)后續(xù)分析的影響,總結(jié)出二八定律方法更適用于截取領(lǐng)域高頻詞。同時(shí)指出目前我國(guó)高頻詞界定方面存在主觀性強(qiáng)、方法原理不明、改進(jìn)方法適用性不明等問(wèn)題。針對(duì)我國(guó)目前常用的高頻詞界定方法的不足,提出關(guān)于高頻詞界定方法的改良設(shè)想;但改良后的具體數(shù)值、應(yīng)用條件等一系列問(wèn)題未能明確,期待后續(xù)研究能夠解決這些問(wèn)題??傮w來(lái)說(shuō),在高頻詞界定領(lǐng)域存在一種重實(shí)踐輕理論的現(xiàn)象:依靠選取高頻詞進(jìn)行的分析研究眾多,但多數(shù)只是機(jī)械地仿照前人關(guān)于領(lǐng)域熱點(diǎn)的研究模式進(jìn)行,而對(duì)于高頻詞界定方法本身進(jìn)行研究的論文并不多。總之,高頻詞界定方法中還存在許多問(wèn)題,未來(lái)需要學(xué)者繼續(xù)關(guān)注此問(wèn)題,更加注重高頻詞界定方法的內(nèi)在理論研究并提出有效且權(quán)威的界定方法,以減輕這種方法的亂用現(xiàn)象。

        [1]馬費(fèi)成,張勤.國(guó)內(nèi)外知識(shí)管理研究熱點(diǎn)——基于詞頻的統(tǒng)計(jì)分析[J].情報(bào)學(xué)報(bào),2006,25(2):163-171.

        [2]張勤.詞頻分析法在學(xué)科發(fā)展動(dòng)態(tài)研究中的應(yīng)用綜述[J].圖書情報(bào)知識(shí),2011(2):95-98.

        [3]楊建林.關(guān)鍵詞選擇策略及其對(duì)共詞分析的影響[J].情報(bào)學(xué)報(bào),2014,33(10):1083-1090.

        [4]陳果,肖璐,趙雪芹.領(lǐng)域知識(shí)分析中的關(guān)鍵詞選擇方法研究——一種以學(xué)科為背景的全局視角[J].情報(bào)學(xué)報(bào),2014,33(9):959-968.

        [5]安興茹.基于正態(tài)分布的詞頻分析法高頻詞閾值研究[J].情報(bào)雜志,2014(10):129-136.

        [6]孫清蘭.高頻詞與低頻詞的界分及詞頻估算法[J].中國(guó)圖書館學(xué)報(bào),1992(2):78-81.

        [7]熊回香,楊雪萍.社會(huì)化標(biāo)注系統(tǒng)中的個(gè)性化信息推薦研究[J]. 情報(bào)學(xué)報(bào),2016,35(5):549-560.

        [8]巴志超,李綱,朱世偉.共現(xiàn)分析中的關(guān)鍵詞選擇與語(yǔ)義度量方法研究[J].情報(bào)學(xué)報(bào),2016,35(2):197-207.

        [9]姚小嬌.我國(guó)財(cái)經(jīng)類高校近10年圖書情報(bào)學(xué)研究熱點(diǎn)分析[J].圖書館學(xué)刊,2015(2):137-140.

        [10]王佑鎂,陳慧斌.近十年我國(guó)電子書包研究熱點(diǎn)與發(fā)展趨勢(shì)——基于共詞矩陣的知識(shí)圖譜分析[J].中國(guó)電化教育,2014(5):4-10.

        [11]李迎迎.國(guó)內(nèi)“互聯(lián)網(wǎng)+”領(lǐng)域研究熱點(diǎn)及內(nèi)容分析[J].情報(bào)雜志,2016(8):128-132.

        [12]趙蓉英, 魏明坤. 2010——2015年國(guó)內(nèi)外情報(bào)學(xué)研究熱點(diǎn)可視化比較[J].圖書館雜志,2016,35(8):15-22.

        [13]朱莎,楊浩,馮琳.國(guó)際“數(shù)字鴻溝”研究的現(xiàn)狀、熱點(diǎn)及前沿分析——兼論對(duì)教育信息化及教育均衡發(fā)展的啟示[J].遠(yuǎn)程教育雜志,2017,35(1):82-93.

        [14]王米雪,張立國(guó).我國(guó)智慧教育領(lǐng)域的研究熱點(diǎn)與發(fā)展趨勢(shì)分析——基于詞頻分析法、共詞聚類法和多維尺度分析法[J].現(xiàn)代教育技術(shù),2017,27(3):41-48.

        [15]崔雷,劉偉,閆雷,等.文獻(xiàn)數(shù)據(jù)庫(kù)中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā)[J].現(xiàn)代圖書情報(bào)技術(shù),2008(8):70-75.

        [16]張叢昱,張?jiān)浦?國(guó)內(nèi)近十年Folksonomy領(lǐng)域研究熱點(diǎn)與趨勢(shì)[J].新世紀(jì)圖書館,2016(7):91-96.

        [17]胡利勇.圖書情報(bào)領(lǐng)域高被引論文共詞聚類分析[J].圖書館學(xué)刊,2016(8):132-135.

        An Empirical Analysis for the Applicability of the Methods of Definition of High-Frequency Words in Word Frequency Analysis

        LIU YiShan, WANG YuLin, LI MingXin
        (School of Information Science and Technology, Northeast Normal University, Changchun 130117, China)

        Word frequency analysis method is one of the important analysis methods in bibliometrics, and the selection of high-frequency word is a necessary premise. It is to say that the selection of high-frequency word determines the results of word frequency analysis, impacts the whole analysis program. First, the paper cleared up the nearly three years papers in China by using word frequency analysis method for hot spots analysis, and found four common classes selections of highfrequency word methods mainly include: the author set the selection method, Donohue’s formula selection, price formula selection and mixed selection. Secondly, we use the literature of personal knowledge management as the research object, and calculate the frond three kinds of high frequency words selections respectively, and compare the results with clustering analysis, then we discuss the effect and applicability of high-frequency word threshold selection on the analysis results. At last, the paper pointed out that there were some problems, such as the subjective is high, principle is unclear, improved methods’ principle is unclear, the Donohue’s formula and price formula’s applicability are still unsure, in the study of high-frequency word threshold selection in our country.

        High-Frequency Word; Bibliometrics; Word Frequency Analysis

        G250

        10.3772/j.issn.1673-2286.2017.09.007

        劉奕杉,女,1992年生,碩士研究生,研究方向:數(shù)字信息資源管理,E-mail:2387161672@qq.com。

        王玉琳,女,1994年生,碩士研究生,研究方向:數(shù)字信息資源管理。

        李明鑫,男,1978年生,博士,講師,研究方向:數(shù)字信息資源管理。

        2017-08-07)

        猜你喜歡
        普賴斯高頻詞詞頻
        開槍致14人受傷,還能保釋上班?
        30份政府工作報(bào)告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級(jí)兩會(huì)上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        28份政府工作報(bào)告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級(jí)兩會(huì)上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        忘記
        妇女自拍偷自拍亚洲精品| 明星性猛交ⅹxxx乱大交| 怡春院欧美一区二区三区免费| 亚洲av永久无码精品水牛影视| 精品一区二区三区牛牛| 中文字幕无码中文字幕有码 | 饥渴的熟妇张开腿呻吟视频| 国产成人亚洲综合一区| 国产日产免费在线视频| 所有视频在线观看免费| 极品少妇一区二区三区四区| 成人午夜毛片| 免费的黄网站精品久久| 午夜福利影院成人影院| 香港三级精品三级在线专区| 欧美在线专区| 熟女乱乱熟女乱乱亚洲| 超碰国产精品久久国产精品99| 性一交一乱一乱一视频| 亚洲欧美日韩中文字幕网址| 免费av在线 国产精品| 一边摸一边抽搐一进一出口述 | 国产又爽又黄的激情精品视频| 偷拍女厕尿尿在线免费看| 高清日韩av在线免费观看| 亚洲日韩一区二区一无码| 中文字幕不卡在线播放| 国产精品亚洲av无人区二区| 麻豆亚洲一区| 国产人妻精品一区二区三区不卡 | 国产亚洲美女精品久久久2020| 免费夜色污私人影院在线观看| 亚洲va中文字幕欧美不卡 | 国产一线视频在线观看高清| 丝袜美腿亚洲综合第一页| 亚洲男同gay在线观看| 久久免费视频国产| 日韩亚洲午夜精品一区二区三区| 久久综合噜噜激激的五月天| 国产精品亚韩精品无码a在线| 色婷婷精品综合久久狠狠|