亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        共詞分析識(shí)別研究熱點(diǎn)的內(nèi)容效度研究:基于自然語言處理*

        2018-05-05 02:05:12李承晉周文杰
        圖書與情報(bào) 2018年1期
        關(guān)鍵詞:共詞內(nèi)容效度語料

        李承晉 高 沖 周文杰

        (1.西北師范大學(xué)商學(xué)院 甘肅蘭州 730070)

        1 研究背景

        研究熱點(diǎn)的識(shí)別是科學(xué)計(jì)量及相關(guān)領(lǐng)域長(zhǎng)期關(guān)注的重要問題之一,共詞分析則是研究者用來進(jìn)行研究熱點(diǎn)識(shí)別的基本工具之一。迄今為止,國(guó)內(nèi)外研究者基于共詞分析在不同領(lǐng)域展開了大量旨在識(shí)別研究熱點(diǎn)識(shí)別的研究(如陳靜等,陳蘭蘭)。 檢索發(fā)現(xiàn),截至2017年9月26日,僅在CNKI數(shù)據(jù)庫(kù)中,已收錄在主題、題名或關(guān)鍵詞中同時(shí)含有 “共詞分析”與“研究熱點(diǎn)”的文獻(xiàn)879篇,且此類研究的數(shù)量呈逐年上升的態(tài)勢(shì)(見圖1)。

        雖然共詞分析已被廣泛用于研究熱點(diǎn)的識(shí)別,但現(xiàn)有研究中,很少對(duì)基于共詞分析而識(shí)別的研究熱點(diǎn)及用以識(shí)別這些研究熱點(diǎn)的各類指標(biāo)、算法在何種程度上具有有效性進(jìn)行專門檢驗(yàn)。顯然,要使基于共詞分析而識(shí)別的研究熱點(diǎn)得到各領(lǐng)域研究者的普遍認(rèn)可,須先證明共詞分析在研究熱點(diǎn)測(cè)量方面的效度。著眼于這一研究現(xiàn)狀,本文擬應(yīng)用自然語言處理的方法,對(duì)共詞分析所識(shí)別研究熱點(diǎn)的內(nèi)容效度進(jìn)行檢驗(yàn),以期回答如下兩個(gè)研究問題:(1)不同的分析單元在研究熱點(diǎn)識(shí)別方面的有效性有何異同?(2)在不同量的文獻(xiàn)參與分析的情況下,共詞分析的有效性有何異同?

        2 理論背景與相關(guān)研究回顧

        2.1 效度與內(nèi)容效度

        效度是指一項(xiàng)測(cè)試是否真正測(cè)量了它所要測(cè)量的東西。其中,內(nèi)容效度用來檢驗(yàn)測(cè)量的內(nèi)容與測(cè)量的領(lǐng)域相匹配程度。換言之,內(nèi)容效度主要用來衡量測(cè)量?jī)?nèi)容被測(cè)量指標(biāo)涵蓋的程度。

        根據(jù)現(xiàn)有測(cè)量理論,確認(rèn)內(nèi)容效度的標(biāo)準(zhǔn)主要有兩個(gè):一是項(xiàng)目的代表性;二是方法的敏感性。檢驗(yàn)項(xiàng)目代表性最直觀的指標(biāo)是對(duì)項(xiàng)目抽樣效率。從統(tǒng)計(jì)的角度看,完全隨機(jī)抽樣無疑是樣本對(duì)總體具有最高效率,從而能夠保障樣本對(duì)總體的代表性。但是,由于總體的未知性,因此進(jìn)行完全隨機(jī)抽樣在現(xiàn)實(shí)的科學(xué)計(jì)量中幾乎總是不可行的。為此,在科學(xué)計(jì)量中,為保障項(xiàng)目的代表性,只能遵循現(xiàn)有科學(xué)計(jì)量研究的基本規(guī)律和通行做法,以詞頻的高低作為樣本抽樣的基本衡量標(biāo)準(zhǔn)。方法的敏感性主要用來衡量所選項(xiàng)目在擬測(cè)量事項(xiàng)上的穩(wěn)定性。敏感性越高,測(cè)量的方法越不穩(wěn)定。由于共詞分析中的測(cè)量用以確定研究熱點(diǎn)的指標(biāo)通常是各種中心度指標(biāo),因此,可以通過不同方法(項(xiàng)目)之間均值的比較對(duì)其敏感性做出判斷。

        圖1 基于共詞分析而進(jìn)行研究熱點(diǎn)識(shí)別的文獻(xiàn)量

        總之,基于上述內(nèi)容效度檢驗(yàn)的相關(guān)理論,本研究對(duì)共詞分析內(nèi)容效度檢驗(yàn)基本思路是,選用多種統(tǒng)計(jì)方法對(duì)基于共詞分析而識(shí)別研究熱點(diǎn)的項(xiàng)目代表性和方法敏感性分別進(jìn)行檢驗(yàn)。具體而言,通過項(xiàng)目的代表分析,確認(rèn)基于共詞分析而進(jìn)行的研究熱點(diǎn)識(shí)別將待分析領(lǐng)域該有的熱點(diǎn)都識(shí)別出來了;通過方法的敏感性分析,確認(rèn)所識(shí)別出來的熱點(diǎn)中排除掉了本領(lǐng)域的非熱點(diǎn)或非本領(lǐng)域的熱點(diǎn)的程度。

        2.2 自然語言處理與研究熱點(diǎn)識(shí)別

        自然語言處理 (Natural Language Processing,N LP)是一種以文本內(nèi)容進(jìn)行識(shí)別、分析對(duì)象的技術(shù)。由于研究熱點(diǎn)的識(shí)別在很大程度上依賴于對(duì)科學(xué)研究文獻(xiàn)的主題的提煉,因此,自然語言處理方法在研究熱點(diǎn)的識(shí)別方面具有極大的應(yīng)用潛力。具體而言,在科學(xué)計(jì)量領(lǐng)域,通過應(yīng)用自然語言處理技術(shù),在對(duì)文本進(jìn)行切詞、詞性識(shí)別、詞頻統(tǒng)計(jì)及詞與詞之間關(guān)系進(jìn)行挖掘的基礎(chǔ)上,可有效實(shí)現(xiàn)對(duì)于研究主題、熱點(diǎn)及前沿等科學(xué)計(jì)量問題的提煉。

        如前文所述,研究熱點(diǎn)的識(shí)別已經(jīng)成為科學(xué)計(jì)量領(lǐng)域的研究者關(guān)注的焦點(diǎn),而共詞分析已經(jīng)成為研究熱點(diǎn)識(shí)別的通用工具。就分析樣本的選擇而言,科學(xué)計(jì)量領(lǐng)域普遍基于高被引文獻(xiàn)而進(jìn)行研究熱點(diǎn)的識(shí)別。為此,本研究擬在特定學(xué)科領(lǐng)域選擇不同層次的高被引文獻(xiàn),通過自然語言處理方法,提取這些文獻(xiàn)中的高頻詞,制成共詞矩陣,并計(jì)算所識(shí)別詞語的中心度。進(jìn)而通過比較不同樣本與總體在所識(shí)別的熱點(diǎn)之間的相似度與相異度,對(duì)基于共詞分析識(shí)別研究熱點(diǎn)的內(nèi)容效度進(jìn)行檢驗(yàn)。

        3 研究設(shè)計(jì)

        3.1 主要變量及其操作性定義

        檢驗(yàn)基于共詞分析而識(shí)別的研究熱點(diǎn)的內(nèi)容效度是本研究的主要目標(biāo)。達(dá)成這一研究目標(biāo)的基本路徑在于,對(duì)共詞分析用以識(shí)別研究熱點(diǎn)的指標(biāo)及樣本語料進(jìn)行清晰地界定。本研究仍然沿用科學(xué)計(jì)量領(lǐng)域的通用做法,以共詞網(wǎng)絡(luò)作為識(shí)別研究熱點(diǎn)的基本工具,以不同詞語在共詞網(wǎng)絡(luò)中的中心度作為研究熱點(diǎn)的表征。同時(shí),由于高被引文獻(xiàn)對(duì)于本領(lǐng)域研究問題具有更好的代表性,因此,本研究以不同層次的高被引文獻(xiàn)作為分析語料。

        綜上所述,本研究主要涉及兩類核心變量:熱點(diǎn)研究問題和語料的數(shù)量。這兩類核心變量大體可被操作化定義如下:研究熱點(diǎn)指共詞網(wǎng)絡(luò)中基于單項(xiàng)或綜合中心度指標(biāo)/算法而析出的高得分詞語所表征的研究問題。語料的數(shù)量指基于五種不同數(shù)量層級(jí)(包括前 5%、10%、15%、20%、25%等)的高被引文獻(xiàn)的題名、摘要、關(guān)鍵詞和全文而構(gòu)建的語料。

        3.2 分析流程

        本研究的分析流程為:

        第一,選定CNKI有“文獻(xiàn)分類目錄”下,對(duì)入選各學(xué)科的文獻(xiàn)進(jìn)行探查,以確定一個(gè)文獻(xiàn)數(shù)量較適合總體分析,且與其他學(xué)科之間邊界清晰的領(lǐng)域?yàn)閿M分析對(duì)象。最終發(fā)現(xiàn)“基礎(chǔ)科學(xué)”子目下“生物學(xué)”的二級(jí)子目“動(dòng)物學(xué)”符合分析要求,從而選定其為擬分析的領(lǐng)域。

        第二,針對(duì)“動(dòng)物學(xué)”領(lǐng)域,下載了1988-2017年的全部文獻(xiàn),形成了總體語料庫(kù)。

        第三,針對(duì)總體語料庫(kù),按不同的分析單元(題名、摘要、關(guān)鍵詞和全文)進(jìn)行高頻詞的提取,并根據(jù)高頻共現(xiàn)情況制作了共詞矩陣。具體而言,針對(duì)題名、摘要和全文,應(yīng)用Python作為自然語言處理的工具,首先進(jìn)行了切詞,識(shí)別了詞性,提取了其中的高頻名詞,然后會(huì)同關(guān)鍵詞一起識(shí)別了這些詞的共現(xiàn)情況。

        第四,基于總體語料庫(kù),分別應(yīng)用Pajek和Sci這兩款科學(xué)計(jì)量領(lǐng)域常用的分析工具,針對(duì)上述共詞矩陣進(jìn)行了研究熱點(diǎn)的識(shí)別。具體而言,本研究對(duì)于研究熱點(diǎn)的識(shí)別在單項(xiàng)指標(biāo)和綜合指標(biāo)兩個(gè)層面上進(jìn)行。就單項(xiàng)指標(biāo)而言,本研究分別應(yīng)用Pajek中常用的4項(xiàng)中心度指標(biāo)/算法(包括點(diǎn)度中心度、權(quán)重中心度、緊密度中心度、中介中心度)和Sci中的4項(xiàng)算法(包括 authority_score_hits、Page_rank、authority_hits、eigen_centrality)計(jì)算了熱點(diǎn)詞的得分。在上述單項(xiàng)指標(biāo)的基礎(chǔ)上,計(jì)算了每個(gè)單項(xiàng)的Z-分?jǐn)?shù)并求和,形成了兩個(gè)軟件工具下識(shí)別研究熱點(diǎn)的綜合得分。

        第五,仍然以1988-2017年“動(dòng)物學(xué)”領(lǐng)域語料為檢索對(duì)象,按照這三十年間動(dòng)物學(xué)領(lǐng)域所發(fā)表的學(xué)術(shù)論文被引次數(shù)進(jìn)行排序,以500篇最高被引論文作為語料,下載了這些論文的題名、摘要、關(guān)鍵詞和全文,形成對(duì)比語料庫(kù)。

        第六,依次針對(duì)對(duì)比語料庫(kù)中最高被引的前5%、10%、15%、20%、25%的文獻(xiàn),仍然按照上述過程,建成了基于題名、摘要、關(guān)鍵詞的全文的共詞矩陣,分別計(jì)算了題名、摘要、關(guān)鍵詞和全文在總體語料與對(duì)比語料庫(kù)中前5%、10%、15%、20%、25%的高被引文獻(xiàn)上的相關(guān)系數(shù),對(duì)研究問題做出回答。

        4 研究結(jié)果與討論

        4.1 高頻詞的析出

        根據(jù)研究設(shè)計(jì),本研究擬對(duì)題名、摘要、關(guān)鍵詞和全文四個(gè)分析單元在5%、10%、15%、20%、25%的高被引文獻(xiàn)上的研究熱點(diǎn)分別進(jìn)行識(shí)別。抽取了不同比例高被引文獻(xiàn)時(shí)的語料篇數(shù)與這些文獻(xiàn)中析出的詞語數(shù)量 (見表1)。篩選前的詞語數(shù)量指針對(duì)題名、摘要和全文經(jīng)過自然語言處理后,提取的總詞數(shù)(關(guān)鍵詞由于毋須分詞,因此,篩選前的關(guān)鍵詞是全部語料關(guān)鍵詞的累計(jì))。針對(duì)篩選前的全部名詞,本研究根據(jù)齊普夫第二定律,按照周文杰的方法,以詞頻與詞序乘積的均值與0.1無顯著差異為標(biāo)準(zhǔn),對(duì)高、低頻詞進(jìn)行了分界,確定了篩選后的詞作為待分析的高頻詞?;谒龀龅母哳l詞,本研究進(jìn)行制作了共詞矩陣,并展開了后續(xù)分析。

        4.2 不同分析單元下內(nèi)容效度的分析

        為了對(duì)共詞分析識(shí)別研究熱點(diǎn)的內(nèi)容效度做出全面檢驗(yàn),根據(jù)預(yù)先的研究設(shè)計(jì),本研究應(yīng)用了Pajek和Sci兩個(gè)科學(xué)計(jì)量工具進(jìn)行研究熱點(diǎn)的識(shí)別。之所以同時(shí)使用兩個(gè)計(jì)量工具進(jìn)行分析,一方面是由于本研究關(guān)注的是測(cè)量效度問題,因此,需要比較兩個(gè)工具在所識(shí)別研究熱點(diǎn)上的一致性;另一方面,則是由于這兩個(gè)工具采用的研究熱點(diǎn)識(shí)別代表著當(dāng)前科學(xué)計(jì)量領(lǐng)域研究熱點(diǎn)識(shí)別的兩種不同風(fēng)格——Pajek所采用的研究熱點(diǎn)識(shí)別指標(biāo)更偏重于常規(guī)的網(wǎng)絡(luò)中心度指標(biāo),而Sci的識(shí)別則更偏重于研究者所識(shí)別的算法。因此,同時(shí)使用兩個(gè)工具進(jìn)行計(jì)量分析,不僅有利于確定研究結(jié)論的可靠性,而且也有助于對(duì)不同風(fēng)格的單項(xiàng)計(jì)量指標(biāo)進(jìn)行對(duì)比分析。

        表1 不同數(shù)量語料析出的高頻詞

        本研究對(duì)研究熱點(diǎn)識(shí)別的內(nèi)容效度進(jìn)行檢驗(yàn)的基本思路是,基于不同分析單元抽取不同數(shù)量的高被引文獻(xiàn)進(jìn)行研究熱點(diǎn)的識(shí)別,然后與基于總體語料而識(shí)別的研究熱點(diǎn)進(jìn)行相關(guān)分析。根據(jù)內(nèi)容效度的定義,相關(guān)系數(shù)越高,則內(nèi)容效度也越高。

        4.2.1 基于題名所識(shí)別的研究熱點(diǎn)的內(nèi)容效度

        本研究首先對(duì)題名在研究熱點(diǎn)識(shí)別中的內(nèi)容效度進(jìn)行了分析得出了綜合指標(biāo)和單項(xiàng)指標(biāo)上內(nèi)容效度的分析結(jié)果(見表2),具體分析如下:

        表2 不同數(shù)量語料中基于題名所識(shí)別研究熱點(diǎn)的內(nèi)容效度

        (1)就綜合指標(biāo)而言,無論是在Pajek還是在Sci上,top 20的高被引文獻(xiàn)所識(shí)別的研究熱點(diǎn)與總體語料相關(guān)系數(shù)均最高??梢?,當(dāng)以題名為分析單元進(jìn)行研究熱點(diǎn)的識(shí)別時(shí),基于前20%的高被引文獻(xiàn)所識(shí)別的研究熱點(diǎn)的內(nèi)容效度最高。當(dāng)抽取的文獻(xiàn)量進(jìn)一步擴(kuò)大時(shí),熱點(diǎn)識(shí)別的內(nèi)容效度有所下降。

        (2)就Pajek所使用的4個(gè)單項(xiàng)指標(biāo)而言,點(diǎn)度中心度在對(duì)前5%的高被引文獻(xiàn)進(jìn)行分析時(shí),內(nèi)容效度最高,但在不同數(shù)量的高被引文獻(xiàn)之間,內(nèi)容效度略有波動(dòng)但幅度不大。這表明,以點(diǎn)度中心度為標(biāo)準(zhǔn)識(shí)別研究熱點(diǎn)時(shí),高被引文獻(xiàn)數(shù)量的選擇對(duì)內(nèi)容效度影響有限。權(quán)重中心度指標(biāo)同樣在不同數(shù)量的高被引文獻(xiàn)之間呈現(xiàn)出相對(duì)穩(wěn)定的內(nèi)容效度,但在前20%的高被引文獻(xiàn)上的內(nèi)容效度最高。相對(duì)而言,緊密度中心度的內(nèi)容效度呈現(xiàn)出高度的不穩(wěn)定性。表現(xiàn)在,雖然前5%高被引文獻(xiàn)所識(shí)別的研究熱點(diǎn)與總體語料相比相關(guān)系數(shù)最高,但當(dāng)語料數(shù)量擴(kuò)大到前10%和15%時(shí),發(fā)現(xiàn)其相關(guān)系數(shù)并不顯著。這表明,緊密度中心度并不是一個(gè)適用于單獨(dú)進(jìn)行內(nèi)容效度測(cè)量的理想指標(biāo)。中介中心度指標(biāo)內(nèi)容效度相對(duì)穩(wěn)定,在前5%高被引文獻(xiàn)上的內(nèi)容效度最高。由此可見,中介中心度作為單一指標(biāo)在進(jìn)行研究熱點(diǎn)的識(shí)別中具有較高的應(yīng)用價(jià)值。

        (3)就Sci所使用的4個(gè)單項(xiàng)指標(biāo)(算法)而言,authority_scorehits、Pagerank和eigencentrality均在前20%的高被引文獻(xiàn)上的內(nèi)容效度最高,而且在不同數(shù)量的語料上也都具有比較顯著的相關(guān)系數(shù)。相對(duì)而言,authority_scorehits和Pagerank兩個(gè)算法的內(nèi)容效度高于eigencentrality。這表明,authority_scorehits和Pagerank適宜于作為單項(xiàng)指標(biāo)應(yīng)用于研究熱點(diǎn)的識(shí)別。與此明顯不同的是,authorityhits算法在前5%的語料上內(nèi)容效度最高,但在其他數(shù)量的語料上,也都具有一定的內(nèi)容效度。可見,如果以研究熱點(diǎn)識(shí)別的效率來計(jì),authorityhits算法具有一定的優(yōu)先性。

        4.2.2 基于摘要而識(shí)別的研究熱點(diǎn)的內(nèi)容效度

        以摘要為分析單位,在不同數(shù)量的高被引論文加入分析的情況下,得出所識(shí)別的研究與基于總體語料而識(shí)別的研究熱點(diǎn)之間的相關(guān)系數(shù)(見表3)。

        (1)就綜合指標(biāo)而言,Pajek和Sci兩個(gè)工具具有較高的一致性,都表現(xiàn)為同樣的趨向:所選語料越多,所識(shí)別研究熱點(diǎn)的內(nèi)容效度越高。同時(shí),對(duì)兩個(gè)工具綜合指標(biāo)的檢驗(yàn)也表明,從前5%的高被引論文開始,摘要在認(rèn)識(shí)研究熱點(diǎn)中就都具有內(nèi)容效度,只是納入分析的摘要范圍越廣,研究效度就越高。

        (2)就Pajek的單項(xiàng)指標(biāo)來看,4項(xiàng)傳統(tǒng)中心度指標(biāo)在研究熱點(diǎn)的識(shí)別方面都具有較穩(wěn)定的內(nèi)容效度。相對(duì)而言,權(quán)重中心度的內(nèi)容效度最高,而中介中心度的內(nèi)容效度較低。從使用的文獻(xiàn)量來看,點(diǎn)度中心度和權(quán)重中心度在前20%的高被引文獻(xiàn)上的內(nèi)容效度最高,而緊密度中心度和中介中心度的內(nèi)容效度隨著文獻(xiàn)量增加而有遞增的趨勢(shì),在本研究的抽樣范圍內(nèi),這兩項(xiàng)指標(biāo)在前25%的高被引文獻(xiàn)上內(nèi)容效度最高。

        (3)就Sci的單項(xiàng)指標(biāo)來看,該工具所使用的4項(xiàng)算法具有不同的內(nèi)容效度。其中,authority_score_hits和Page_rank兩種算法內(nèi)容效度比較高,且在不同數(shù)量的語料上都較為穩(wěn)定。Authorityhits算法在前15%以上的高被引文獻(xiàn)中的內(nèi)容效度最高,但在前5%-10%的文獻(xiàn)上的內(nèi)容效度偏低。eigencentrality算法呈現(xiàn)出來了與以上三種算法不同的特征。Eigencentrality算法在前5%的高被引文獻(xiàn)上與識(shí)別的研究熱點(diǎn)與基于總體語料而識(shí)別的研究熱點(diǎn)之間沒有顯著的相關(guān)關(guān)系,據(jù)此可以認(rèn)為,在文獻(xiàn)只有5%的情況下,利用eigencentrality進(jìn)行研究熱點(diǎn)識(shí)別是沒有內(nèi)容效度的。隨著文獻(xiàn)量的增加,eigencentrality所識(shí)別的研究熱點(diǎn)的內(nèi)容效度明顯增強(qiáng),在20%的高被引文獻(xiàn)參與識(shí)別時(shí),其內(nèi)容效度達(dá)到最高。

        表3 不同數(shù)量語料中基于摘要所識(shí)別研究熱點(diǎn)的內(nèi)容效度

        4.2.3 基于關(guān)鍵詞而識(shí)別的研究熱點(diǎn)的內(nèi)容效度

        通過關(guān)鍵詞進(jìn)行研究熱點(diǎn)的識(shí)別是當(dāng)前科學(xué)計(jì)量比較盛行的方法。然而,基于關(guān)鍵詞進(jìn)行研究熱點(diǎn)的識(shí)別存在極大的內(nèi)容效度風(fēng)險(xiǎn)。具體表現(xiàn)在如下兩個(gè)方面(見表4):

        表4 不同數(shù)量語料中基于關(guān)鍵詞所識(shí)別研究熱點(diǎn)的內(nèi)容效度

        (1)整體而言,當(dāng)以前15%的高被引文獻(xiàn)為分析對(duì)象時(shí),所識(shí)別的研究熱點(diǎn)與基于總體語料而識(shí)別的研究問題之間的相關(guān)系數(shù)均不顯著,這表明,在高被引論文語料數(shù)量少于15%的情況下,兩個(gè)軟件的綜合得分和除Page_rank外的單項(xiàng)指標(biāo)在研究熱點(diǎn)識(shí)別方面基本都沒有內(nèi)容效度。就本研究所涉及的語料范圍來看,基于關(guān)鍵詞識(shí)別的研究熱點(diǎn)與實(shí)際研究熱點(diǎn)之間存在著相當(dāng)大的差異,以關(guān)鍵詞為基礎(chǔ)進(jìn)行研究熱點(diǎn)的識(shí)別在很大程度上是有偏差的。

        (2)從Pajek和Sci兩個(gè)工具用來進(jìn)行研究熱點(diǎn)識(shí)別的8個(gè)單項(xiàng)指標(biāo)(算法)來看,基于關(guān)鍵詞進(jìn)行研究熱點(diǎn)的識(shí)別同樣存在內(nèi)容效度低的問題。在表4中,Pajek所使用的4項(xiàng)中心度指標(biāo)上,多數(shù)情況下基于高被引文獻(xiàn)而識(shí)別的研究熱點(diǎn)與基于全文而識(shí)別的研究熱點(diǎn)之間并不存在顯著相關(guān)。只有在前25%的高被引文獻(xiàn)納入分析的情況下,點(diǎn)度中心度和權(quán)重中心度與在兩類語料上的相關(guān)系數(shù)是顯著的,而中介中心度在20%以上的高被引文獻(xiàn)納入分析時(shí)相關(guān)系數(shù)是顯著的。然后,即使這些相關(guān)系數(shù)具有統(tǒng)計(jì)意義上的顯著性,但值都比較小。由此可見,基于關(guān)鍵詞使用Pajek的各單項(xiàng)指標(biāo)進(jìn)行研究熱點(diǎn)的識(shí)別時(shí),存在明顯的不足。進(jìn)而比較分析Sci用以識(shí)別研究熱點(diǎn)四種算法可以看出,authority_scorehits、authorityhits和eigencentrality三種算法基本上完全沒有內(nèi)容效度,只有Pagerank在前20%以上的高被引文獻(xiàn)納入分析時(shí),才具有了較低的內(nèi)容效度。

        綜上所述,由本研究所獲取的數(shù)據(jù)來看,通過對(duì)高被引文獻(xiàn)的關(guān)鍵詞進(jìn)行研究熱點(diǎn)的識(shí)別,存在著諸多效度問題。這一發(fā)現(xiàn),無疑對(duì)現(xiàn)有科學(xué)計(jì)量領(lǐng)域大量基于關(guān)鍵詞而展開的熱點(diǎn)識(shí)別相關(guān)研究是一個(gè)警示。

        4.2.4 基于全文而識(shí)別的研究熱點(diǎn)的內(nèi)容效度

        文獻(xiàn)調(diào)查發(fā)現(xiàn),迄今為止科學(xué)計(jì)量領(lǐng)域的研究很少基于全文展開研究熱點(diǎn)識(shí)別。本文應(yīng)用自然語言處理的方法,對(duì)全文進(jìn)行分詞和詞性識(shí)別,并據(jù)此而構(gòu)建了共詞矩陣進(jìn)行研究熱點(diǎn)的識(shí)別,這正是本研究的特色之一?;谌淖R(shí)別而識(shí)別的研究熱點(diǎn)具有較高的內(nèi)容效度(見表5)。

        表5 不同數(shù)量語料中基于全文所識(shí)別研究熱點(diǎn)的內(nèi)容效度

        從綜合指標(biāo)來看,在前15%的高被引文獻(xiàn)納入分析范圍時(shí),在Pajek和Sci兩個(gè)工具上所識(shí)別的研究熱點(diǎn)內(nèi)容效度都達(dá)到最高,且相關(guān)系數(shù)都在0.85以上??梢姡C合來看,以全文作為語料而進(jìn)行研究熱點(diǎn)的識(shí)別具有明顯的優(yōu)越性。

        從單項(xiàng)指標(biāo)來看,點(diǎn)度中心度、authority_score_hits和Pager_rank在研究熱點(diǎn)識(shí)別方面的效度都很高,在前15%的語料納入分析的情況下,兩類語料的相關(guān)系數(shù)已達(dá)到0.9以上。而對(duì)于其他幾項(xiàng)指標(biāo)(算法)而言,其相關(guān)系數(shù)也都具有統(tǒng)計(jì)意義上的顯著性。由此可見,與綜合指標(biāo)類似,以全文為對(duì)象應(yīng)用單項(xiàng)指標(biāo)進(jìn)行研究熱點(diǎn)的識(shí)別同樣具有較高的內(nèi)容效度。

        4.3 不同分析單元內(nèi)容效度的綜合比較

        4.3.1 四種分析單元按內(nèi)容效度高低排名

        為更清晰地顯示在不同指標(biāo)上內(nèi)容效度的高低,本研究進(jìn)行對(duì)四種分析單元上的相關(guān)系數(shù)進(jìn)行了對(duì)比分析(括號(hào)中是相關(guān)系數(shù)):

        從Pajek的綜合指標(biāo)來看,內(nèi)容效度的排名:題名(0.877)最高,全文(0.8532)和摘要(0.8446)次之,關(guān)鍵詞(0.3927)最低。

        從Sci的綜合指標(biāo)來看,內(nèi)容效度的排名:題名(0.9107)最高,全文(0.8823)和摘要(0.872)次之,關(guān)鍵詞(0.3931)最低。

        從點(diǎn)度中心度指標(biāo)來看,內(nèi)容效度的排名:全文(0.6573)最高,摘要(0.6555)和題名(0.6422),關(guān)鍵詞(0.3321)最低。

        從權(quán)重中心度指標(biāo)來看,內(nèi)容效度的排名:題名(0.9217)最高,全文(0.9113)和摘要(0.8881)次之,關(guān)鍵詞(0.3313)最低。

        從緊密度中心度指標(biāo)來看,內(nèi)容效度的排名:題名(0.6552)最高但在不同語料數(shù)量上表現(xiàn)不穩(wěn)定,全文(0.6488)和摘要(0.6129)次之,關(guān)鍵詞(相關(guān)系數(shù)都不顯著)基本沒有內(nèi)容效度。

        從中介中心度指標(biāo)來看,內(nèi)容效度的排名:全文(0.666)最高,題名(0.6314)次之,關(guān)鍵詞(0.4983)再次之,摘要(0.3033)最低。

        從authority_scorehits算法來看,內(nèi)容效度的排名:題名(0.9684)最高,全文(0.9156)和摘要(0.9036)次之,關(guān)鍵詞(相關(guān)系數(shù)都不顯著)基本沒有內(nèi)容效度。

        從Page_rank算法來看,內(nèi)容效度的排名:題名(0.9335)最高,全文(0.9123)和摘要(0.892)次之,關(guān)鍵詞(0.4183)最低。

        從authorityhits算法來看,內(nèi)容效度的排名:摘要(0.6466)最高,全文(0.6461)和題名(0.6332)次之,關(guān)鍵詞(相關(guān)系數(shù)都不顯著)基本沒有內(nèi)容效度。

        從eigencentrality算法來看,內(nèi)容效度的排名:摘要(0.6729)最高,全文(0.6678)和題名(0.5959)次之,關(guān)鍵詞(相關(guān)系數(shù)都不顯著)基本沒有內(nèi)容效度。

        4.3.2四種分析單元按識(shí)別效率高低排名

        本研究將前5%、10%、15%、20%、25%的高被引文獻(xiàn)分別納入分析。這一設(shè)計(jì)是基于兩方面的考慮:一方面,總體來看,文獻(xiàn)被引的量服從嚴(yán)重右偏的長(zhǎng)尾分布。即高被引文獻(xiàn)占總體文獻(xiàn)量的少數(shù)但卻占總被引次數(shù)的多數(shù)。因此,在全部文獻(xiàn)中,真正具有引文分析意義的代表性文獻(xiàn)只能是一部分而不是全部;另一方面,在基于高被引文獻(xiàn)而識(shí)別研究熱點(diǎn)的過程中,在效度有保障的前提下,所使用的文獻(xiàn)量越少,則識(shí)別效率越高,這種識(shí)別的應(yīng)用前景越廣泛。換言之,基于高被引文獻(xiàn)而識(shí)別研究熱點(diǎn)所遵循的一個(gè)基本原則是,應(yīng)用少量最高被引文獻(xiàn)進(jìn)行研究熱點(diǎn)的識(shí)別,從而實(shí)現(xiàn)效度的最大保障和效率的最大優(yōu)化?;诖?,本文進(jìn)而對(duì)不同分析單元在研究熱點(diǎn)識(shí)別上的效率進(jìn)行了比較分析 (括號(hào)中的最高相關(guān)系數(shù)時(shí)所包括的高被引文獻(xiàn)比例)。

        從Pajek的綜合指標(biāo)來看,識(shí)別效率的排名:全文(top15)最高,題名(top20)和關(guān)鍵詞(top20)次之,摘要(top25)最低。

        從Sci的綜合指標(biāo)來看,識(shí)別效率的排名:全文(top15)最高,題名(top20)和摘要(top25)次之,關(guān)鍵詞(top20)最低。

        從點(diǎn)度中心度指標(biāo)來看,識(shí)別效率的排名:題名(top5)最高,全文(top15)次之,摘要(top20)再次之,關(guān)鍵詞(top25)最低。

        從權(quán)重中心度指標(biāo)來看,識(shí)別效率的排名:題名(top20)和摘要(top20)較高,關(guān)鍵詞(top25)和全文(top25)較低。

        從緊密度中心度指標(biāo)來看,識(shí)別效率的排名:題名(top5)最高,摘要(top25)和全文(top25)次之,關(guān)鍵詞沒有檢驗(yàn)出內(nèi)容效度。

        從中介中心度來看,識(shí)別效率的排名:題名(top5)最高,關(guān)鍵詞(top20)次之,摘要(top25)和全文(top25)最低。

        從authority_score_hits算法來看,識(shí)別效率的排名:全文(top15)最高,題名(top20)次之,摘要(top25)再次之,關(guān)鍵詞沒有檢驗(yàn)出內(nèi)容效度。

        從Page_rank算法來看,識(shí)別效率的排名:題名(top20)和關(guān)鍵詞(top20)較高,摘要(top25)和全文(top25)較低。

        從authority_hits算法來看,識(shí)別效率的排名:題名(top5)最高,摘要(top20)次之,全文(top25)再次之,關(guān)鍵詞沒有檢驗(yàn)出內(nèi)容效度。

        從eigen_centrality算法來看,識(shí)別效率的排名:全文(top15)最高,題名(top20)和摘要(top20)次之,關(guān)鍵詞沒有檢驗(yàn)出內(nèi)容效度。

        5 結(jié)論

        本研究對(duì)不同分析單元下基于共詞分析而識(shí)別的研究熱點(diǎn)的內(nèi)容效度進(jìn)行了全面檢驗(yàn),結(jié)論如下:

        首先,關(guān)鍵詞在研究熱點(diǎn)識(shí)別中存在著很大的效度風(fēng)險(xiǎn),具體表現(xiàn)在:從綜合指標(biāo)來看,基于關(guān)鍵詞而識(shí)別的研究熱點(diǎn)內(nèi)容效度最低;從單項(xiàng)指標(biāo)來看,部分單項(xiàng)指標(biāo)上關(guān)鍵詞沒有檢驗(yàn)出內(nèi)容效度。

        其次,從綜合指標(biāo)來看:基于題名而識(shí)別的研究熱點(diǎn)內(nèi)容效度最高,基于全文、摘要而識(shí)別的研究熱點(diǎn)也具有較高的內(nèi)容效度。從單項(xiàng)指標(biāo)(算法)來看,基于題名和全文而識(shí)別的內(nèi)容效度在多數(shù)指標(biāo)上相對(duì)較高。

        第三,從四種分析單元在研究熱點(diǎn)識(shí)別方面的效率來看:在綜合指標(biāo)上,全文效率最高;在多數(shù)單項(xiàng)指標(biāo)上題名效率最高。

        本研究對(duì)于揭示認(rèn)識(shí)共詞分析的有效性和科學(xué)性具有一定價(jià)值。本研究的發(fā)現(xiàn),有望為科學(xué)計(jì)量及相關(guān)領(lǐng)域的研究者在計(jì)量指標(biāo)的選擇、分析工具的設(shè)計(jì)和計(jì)量結(jié)果的評(píng)價(jià)等方面提供啟示。

        參考文獻(xiàn):

        [1]陳靜,呂修富.基于 CSSCI(2000~2011)的我國(guó)統(tǒng)計(jì)學(xué)學(xué)科知識(shí)圖譜研究[J].圖書與情報(bào),2014(2):94-101.

        [2]陳蘭蘭.基于社會(huì)網(wǎng)絡(luò)分析和共詞分析的國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研究[J].圖書與情報(bào),2013(5):129-132.

        [3]Weir C J.Language Testing and Validation:An Evidence-based Approach[M].New York:Palgrave Macmillan,2005:79.

        [4]張洪秀.教育測(cè)量與評(píng)價(jià)方法[M].長(zhǎng)春:吉林大學(xué)出版社,2014:59.

        [5]Nunnally J C,Bernstein I.H.Psychometric Theory(Third edition)[M].New York:McGRAW-Hill.INC,1998:126.

        [6]Pedhazur E J,Schmelkin L P.Measurement,design,and analysis:An integrated approach[M].Psychology Press,2013.

        [7]胡昌平,陳果.科技論文關(guān)鍵詞特征及其對(duì)共詞分析的影響[J].情報(bào)學(xué)報(bào),2014,33(1):23-32.

        [8]傅柱,王曰芬.共詞分析中術(shù)語收集階段的若干問題研究[J].情報(bào)學(xué)報(bào),2016,35(7):704-713.

        [9]李樹青,孫穎.基于加權(quán)關(guān)鍵詞共現(xiàn)時(shí)間元的個(gè)性化學(xué)術(shù)研究時(shí)序路徑發(fā)現(xiàn)及其可視化呈現(xiàn)方法[J].情報(bào)學(xué)報(bào),2014,33(1):55-67.

        [10]Ding Y,Rousseau R,Wolfram D.Measuring Scholarly Impact[M].Springer International Publishing Switzerland,2014:261.

        [11]Small H U,Pham P.Citation Structure of an Emerging Research Area on the Verge of Application [J].Scientometrics,2009,79(2):365-375.

        [12]Zhou W.Exploring the Constant of Zipf’s Law:Evidence from

        Abstract

        s of Bibliometric related Research Articles in LISTA[J].Geomatics and Information Science of Wuhan University,2012(37):100-106.

        猜你喜歡
        共詞內(nèi)容效度語料
        COSMIN方法介紹:評(píng)價(jià)患者報(bào)告結(jié)局測(cè)量工具內(nèi)容效度的評(píng)分系統(tǒng)
        基于突變檢測(cè)與共詞分析的深閱讀新興趨勢(shì)分析
        英語專八閱讀理解部分內(nèi)容效度的歷時(shí)對(duì)比研究(2009—2017年)
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        基于共詞知識(shí)圖譜技術(shù)的國(guó)內(nèi)VLC可視化研究
        大學(xué)英語新四級(jí)閱讀理解內(nèi)容效度研究
        基于關(guān)鍵詞共詞分析的我國(guó)親子關(guān)系熱點(diǎn)研究
        《苗防備覽》中的湘西語料
        江西省高考英語閱讀理解測(cè)試內(nèi)容效度研究
        考試周刊(2014年71期)2014-10-20 06:44:13
        午夜无码片在线观看影院| 亚洲av色在线观看网站| 亚洲中文乱码在线视频| 图片小说视频一区二区| 特黄aaaaaaaaa毛片免费视频 | 国产一区二区三区av香蕉| 扒开女性毛茸茸的视频| 18禁止进入1000部高潮网站| 国产97色在线 | 亚洲| 亚洲V在线激情| 国产亚洲精品成人av在线| 亚洲国产大胸一区二区三区| 国产av在线观看久久| 亚洲国产成人片在线观看| 亚洲va中文字幕无码| 狼人国产精品亚洲| 福利片免费 亚洲| 蜜桃视频永久免费在线观看| 日本乱码一区二区三区在线观看| 亚洲日韩小电影在线观看| 日韩人妻无码精品久久免费一 | 亚洲av中文无码乱人伦在线咪咕| 日韩女优视频网站一区二区三区| 亚洲av无码成人精品区狼人影院| a人片在线观看苍苍影院| 国产精品精品| 日韩精品中文字幕免费人妻| 国产乱人伦偷精品视频免观看 | 四虎影视永久地址www成人| 老色鬼永久精品网站| 在线观看一区二区三区视频| 99久久99久久久精品蜜桃| 午夜免费福利小电影| 色拍拍在线精品视频| 国产精品麻豆A啊在线观看 | 亚洲无码观看a| 亚洲综合自拍偷拍一区| 亚洲成aⅴ人片久青草影院| 天天综合亚洲色在线精品| 久久亚洲国产精品五月天| 人妻体体内射精一区中文字幕 |