亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python和Selenium的期刊論文施引側(cè)數(shù)據(jù)挖掘程序設(shè)計(jì)

        2024-12-23 00:00:00譚春林邵曉軍王建平周志紅
        關(guān)鍵詞:數(shù)據(jù)挖掘

        摘 要:為了研究中文科技期刊被國(guó)際期刊“施引側(cè)”的引用行為,采用Python+Selenium+Chrome組合框架設(shè)計(jì)了WhoCiteMe程序,提出一種期刊論文施引側(cè)引用信息的數(shù)據(jù)挖掘方法.文章提出了WhoCiteMe程序的設(shè)計(jì)思路,并分析了廣東省10種中文科技期刊被國(guó)際期刊引用次數(shù)、學(xué)科分布、施引期刊的分區(qū)等特征.結(jié)果表明:提出的算法和設(shè)計(jì)的數(shù)據(jù)挖掘程序,可以獲取國(guó)際期刊施引文獻(xiàn)清單及引用數(shù)據(jù),為評(píng)價(jià)中文科技期刊的國(guó)際影響力提供個(gè)性化數(shù)據(jù),為辦刊決策提供數(shù)據(jù)支撐.

        關(guān)鍵詞:科技期刊;施引側(cè);數(shù)據(jù)挖掘;Python;Selenium

        中圖分類號(hào):G 255.2" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):1007-6883(2024)06-0094-11

        DOI:10.19986/j.cnki.1007-6883.2024.06.013

        科技期刊承載著科學(xué)研究成果的傳播重任,是學(xué)術(shù)交流的主流宣傳陣地,在促進(jìn)學(xué)科發(fā)展與社會(huì)進(jìn)步中起到重要作用.如何提升中文科技期刊的學(xué)術(shù)影響力(特別是國(guó)際影響力),已成為期刊界共同關(guān)注的熱點(diǎn).如何采用量化指標(biāo)定量評(píng)價(jià)和衡量各類期刊發(fā)展資助項(xiàng)目的投入、實(shí)施措施對(duì)提升期刊國(guó)際影響力的貢獻(xiàn),一直是辦刊人共同關(guān)注的研究熱點(diǎn).2020年,中國(guó)科學(xué)技術(shù)協(xié)會(huì)支持的多家研究機(jī)構(gòu)聯(lián)合攻關(guān)項(xiàng)目提出了“科技期刊世界影響力指數(shù)(World Journal Clout Index of Scientific and Technological Periodicals,WJCI)”[1],引入總被引頻次與影響因子雙指標(biāo)(WAJCI)、量效指數(shù)(JMI)、網(wǎng)絡(luò)影響力指標(biāo)(WI),基于“同類可比”原則,提出一套綜合評(píng)價(jià)體系,避免了使用“影響因子”單一指數(shù)評(píng)價(jià)的局限性,使期刊的國(guó)際影響力評(píng)價(jià)更全面、更客觀.胡小洋等[2]基于國(guó)際他引影響因子、國(guó)際即年指標(biāo)、可被引文獻(xiàn)量等數(shù)據(jù),提出一種基于改進(jìn)的DID模型和學(xué)術(shù)期刊綜合表現(xiàn)力指數(shù),用以構(gòu)建對(duì)學(xué)術(shù)期刊資助項(xiàng)目實(shí)施效果的評(píng)價(jià)方法,該方法在學(xué)術(shù)期刊自主項(xiàng)目實(shí)施效果評(píng)價(jià)實(shí)踐中具有推廣價(jià)值.目前各類科技期刊的評(píng)價(jià)體系均基于被引數(shù)據(jù),而基于“施引側(cè)”的數(shù)據(jù)分析較少.2021年,徐琳宏等[3]以自然語(yǔ)言處理領(lǐng)域?yàn)槔瑖L試在施引文獻(xiàn)視角下研究了正面引用和中性引用論文的影響力差異及其影響因素,以期矯正因引用同一化問(wèn)題而導(dǎo)致的僅以被引頻次評(píng)估帶來(lái)的偏差.2023年,F(xiàn)rancis等[4]針對(duì)目前包括Web of Science在內(nèi)的幾乎所有數(shù)據(jù)庫(kù)都從“被引側(cè)”(Cited side)設(shè)置文獻(xiàn)計(jì)量指標(biāo)的現(xiàn)狀,首次提出“施引側(cè)”(Citing side)文獻(xiàn)計(jì)量指標(biāo)設(shè)置的可行性,探討其優(yōu)勢(shì)與應(yīng)用,并建議文獻(xiàn)計(jì)量指標(biāo)由“被引側(cè)”轉(zhuǎn)向“施引側(cè)”將提高文獻(xiàn)計(jì)量指標(biāo)的實(shí)用性、及時(shí)性.

        生成式人工智能時(shí)代(GenAI Era)的到來(lái)為學(xué)術(shù)研究和出版帶來(lái)了機(jī)遇與挑戰(zhàn)[5],學(xué)術(shù)研究過(guò)程以及施引行為將變得更加撲朔迷離,單純考察被引次數(shù)的影響因子不足以了解期刊論文的學(xué)術(shù)價(jià)值.Python數(shù)據(jù)挖掘與分析可為各行各業(yè)提供決策[6-7].盡管CiteSpace軟件可以分別對(duì)中文文獻(xiàn)、英文文獻(xiàn)進(jìn)行知識(shí)圖譜分析,但無(wú)法挖掘中文論文被外文期刊施引數(shù)據(jù),不能滿足單篇論文和單本期刊的個(gè)性化數(shù)據(jù)分析需求。前期研究[8]通過(guò)Python編程對(duì)全國(guó)期刊編輯在1998~2018年期間發(fā)表編輯學(xué)相關(guān)論文的情況進(jìn)行了挖掘與分析.本文利用Python+Selenium程序設(shè)計(jì),挖掘廣東省10種中文科技期刊論文被國(guó)際期刊(SCI收錄)施引的大數(shù)據(jù),分析施引側(cè)的引用行為,以期為中文科技期刊提升學(xué)術(shù)影響力提供方法和參考.

        1 研究方法

        1.1 研究對(duì)象

        選擇廣東省10種中文科技期刊,研究其被國(guó)際SCI期刊施引的情況.這10種期刊包括:《中山大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)》(Acta Sci Nat Univ Sun Yet-Semi)、《分析測(cè)試學(xué)報(bào)》(J Instrum Anal)、《中華腎臟病雜志》(Chin J Nephrol)、《南方醫(yī)科大學(xué)學(xué)報(bào)》(J South Med Univ)、《中華創(chuàng)傷骨科雜志》(Chin J Orthop Trauma)、《華南農(nóng)業(yè)大學(xué)學(xué)報(bào)》(J South Chin Agric Univ)、《華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版)》(J South Chin Univ Tech)、《深圳大學(xué)學(xué)報(bào)(理工版)》(J Shenzhen Univ (Sci Eng))、《暨南大學(xué)學(xué)報(bào)(自然科學(xué)與醫(yī)學(xué)版)》(J Jinan Univ(Nat Sci amp; Med Ed))、《華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》(J South Chin Norm Univ(Nat Sci Ed)).

        1.2 檢索方法

        利用愛(ài)思唯爾網(wǎng)站的高級(jí)搜索功能,對(duì)廣東省10種中文科技期刊被國(guó)際外文刊物引用的情況進(jìn)行初步統(tǒng)計(jì).搜索方法:在高級(jí)搜索的References輸入框中搜索中文科技期刊的英文刊名,檢索中文科技期刊被國(guó)際外文期刊引用的總引頻次.例如以《分析測(cè)試學(xué)報(bào)》為目標(biāo)期刊,在References輸入框中輸入英文刊名“J Instrum Anal”.抓取施引年度、施引文獻(xiàn)類型、施引刊名等統(tǒng)計(jì)數(shù)據(jù).表1列舉了2條施引文獻(xiàn)引用《分析測(cè)試學(xué)報(bào)》刊載論文的情況.第一條施引論文發(fā)表在一本國(guó)內(nèi)的《分析化學(xué)》(SCI收錄),該施引論文同時(shí)引用了3篇《分析測(cè)試學(xué)報(bào)》的文獻(xiàn);第二條施引論文發(fā)表在荷蘭創(chuàng)辦的《International Journal of Biological Macromolecules》(中科院分區(qū)1區(qū))期刊上,施引年為

        2019年,被引文獻(xiàn)為《分析測(cè)試學(xué)報(bào)》在2007年刊載的文獻(xiàn).另外,程序還抓取了施引文獻(xiàn)網(wǎng)址,便于隨時(shí)訪問(wèn)施引論文,為分析施引行為(正面、負(fù)面或中性引用)提供訪問(wèn)路徑.

        通過(guò)人工手動(dòng)檢索施引側(cè)期刊論文元數(shù)據(jù),往往耗時(shí)費(fèi)力易出錯(cuò),采用Python+Selenium編寫(xiě)WhoCiteMe.py程序(圖1),輸入指令“J Instrum Anal|2017”,再按回車鍵,程序?qū)⒏鶕?jù)查詢的結(jié)果清單,逐一訪問(wèn)每條施引論文的HTML全文網(wǎng)頁(yè),從這些網(wǎng)頁(yè)中的參考文獻(xiàn)查找目標(biāo)期刊(例如J Instrum Anal)并提取該引用信息,將施引信息存入Excel表格文件.參考本程序設(shè)計(jì)思路,可在Web of Science數(shù)據(jù)庫(kù)以及國(guó)內(nèi)數(shù)據(jù)庫(kù)(如知網(wǎng)、萬(wàn)方、維普等)網(wǎng)站上進(jìn)行類似人工檢索的自動(dòng)化訪問(wèn)和數(shù)據(jù)挖掘.

        1.3 編程環(huán)境搭建

        Python是一種功能強(qiáng)大的開(kāi)源程序設(shè)計(jì)語(yǔ)言,也是大數(shù)據(jù)挖掘與人工智能應(yīng)用的首選語(yǔ)言,其簡(jiǎn)單易用的特性以及強(qiáng)大的功能使其成為處理大數(shù)據(jù)和進(jìn)行人工智能應(yīng)用開(kāi)發(fā)的理想選擇.Selenium是一個(gè)用于網(wǎng)頁(yè)應(yīng)用程序測(cè)試的API接口工具,可以編寫(xiě)程序通過(guò)API接口操作Chrome瀏覽器的ChromeDriver程序,模擬用戶在瀏覽器上進(jìn)行各種Web操作.

        編程環(huán)境:基于64位Windows 11操作系統(tǒng),安裝Python 3.6.5程序以及PyCharm 2018.1.2(Community Edition)集成開(kāi)發(fā)編輯器程序.安裝Chrome瀏覽器,查看瀏覽器的版本號(hào),例如:72.0.3626.7,檢索并下載符合該版本號(hào)的ChromeDriver.exe程序,并保存在“C:\”文件夾下.為了防止Chrome瀏覽器自動(dòng)更新導(dǎo)致版本號(hào)變化而使ChromeDriver不可用,需要關(guān)閉自動(dòng)更新.

        本研究設(shè)計(jì)基于Python+Selenium+Chrome組合框架的自動(dòng)搜索與數(shù)據(jù)挖掘程序,實(shí)現(xiàn)對(duì)施引文獻(xiàn)及其引用信息的大數(shù)據(jù)挖掘.如表2所示,該程序需要使用Python標(biāo)準(zhǔn)庫(kù)(re、os、time、random)以及第三方庫(kù)(selenium、requests、lxml).在編寫(xiě)Python程序文件的頭部位置,通過(guò)import或from…import…等語(yǔ)句導(dǎo)入所需標(biāo)準(zhǔn)庫(kù)和第三方庫(kù).

        標(biāo)準(zhǔn)庫(kù)為Python環(huán)境提供的內(nèi)置庫(kù),而第三方庫(kù)需要安裝.第三方庫(kù)的安裝方法:pip install.以安裝Selenium為例,按Win+R打開(kāi)“運(yùn)行”窗口,輸入cmd,按回車鍵打開(kāi)DOS命令執(zhí)行窗口.輸入cd命令切換當(dāng)前路徑為Python環(huán)境路徑,假設(shè)Python安裝在C:\Python下,命令如下:

        cd C:\Python\Python36-32\Scriptsgt;

        然后運(yùn)行命令:

        pip install selenium

        采用上述pip命令安裝requests和lxml庫(kù).

        1.4 算法流程圖

        程序的主體算法流程圖如圖2所示.程序開(kāi)始運(yùn)行時(shí),等待用戶輸入指令,例如:

        J Instrum Anal|2017

        回車后,程序?qū)闹噶钭址幸浴皘”為分隔符提取刊名j_nm_s和年度yy.檢索網(wǎng)址格式:

        …/advanced?date={}amp;references={}amp;show=100amp;sortBy=relevance

        程序在以上網(wǎng)址格式中的兩處“{}”分別填入yy和j_nm_s,構(gòu)造一條用于查詢J Instrum Anal出現(xiàn)在施引論文末尾參考文獻(xiàn)的檢索網(wǎng)址URL.注意:上述網(wǎng)址格式中“...”需改為域名路徑(全文同),“show=100”表示檢索結(jié)果頁(yè)面中,每頁(yè)顯示100條結(jié)果.利用totalResult(URL)函數(shù)獲得檢索的滿足條件的總記錄數(shù)N,用N整除100再加1得到總頁(yè)數(shù)P.以追加模式創(chuàng)建一個(gè)輸出文件.依據(jù)循環(huán)變量i≤P條件遍歷訪問(wèn)每個(gè)搜索頁(yè)面,獲取文末參考文獻(xiàn)數(shù)C.判斷刊名是否在文獻(xiàn)列表中,“是”則提取引文信息并拼接字符串,“否”則查找下一條參考文獻(xiàn).由于存在同一篇施引論文引用多次目標(biāo)期刊的情況(表1第一條示例),因此需要遍歷施引論文的所有參考文獻(xiàn).當(dāng)所有參考文獻(xiàn)匹配結(jié)束,將拼接字符串追加到輸出文件中.當(dāng)完成訪問(wèn)時(shí)(igt;P),關(guān)閉輸出程序,結(jié)束.

        1.5 程序設(shè)計(jì)

        1.5.1 主程序

        Python程序運(yùn)行的邏輯是被調(diào)函數(shù)需要在調(diào)用模塊之前出現(xiàn),因此主程序模塊的代碼需要編寫(xiě)在程序文件的末尾.為了使本文更易理解,采用與程序代碼模塊順序相反的順序介紹.

        主程序的功能框架與圖2所示的流程圖基本一致,其代碼以及主要注釋如表3所示.主程序的入口代碼:

        if __name__ == '__main__':

        入口代碼下方無(wú)其他函數(shù)模塊,主程序調(diào)用的創(chuàng)建文件夾mkDir()、記錄數(shù)totalResults()、保存到txt文件saveToTxt()、施引論文的網(wǎng)址citingUrls()等函數(shù)均按被調(diào)用的先后順序出現(xiàn)在主程序之前.

        1.5.2 請(qǐng)求頭

        Chromedriver與Chrome瀏覽器進(jìn)行通信,通過(guò)模擬用戶在瀏覽器中的操作來(lái)實(shí)現(xiàn)自動(dòng)化.在Python數(shù)據(jù)挖掘程序中,通過(guò)設(shè)置請(qǐng)求頭可以模擬不同的瀏覽器行為,包括設(shè)置User-Agent(用戶代理)來(lái)偽裝成不同的瀏覽器、設(shè)置Referer來(lái)模擬用戶跳轉(zhuǎn)來(lái)源、設(shè)置Cookie來(lái)保持用戶會(huì)話等.

        定義getHeaders()函數(shù),用于在頻繁訪問(wèn)URL所指向的網(wǎng)頁(yè)時(shí),隨機(jī)切換不同的瀏覽器“皮膚”.表4列出getHeaders()函數(shù)代碼及其注釋,預(yù)設(shè)了PC端用戶代理表user_agent_list_1、移動(dòng)端用戶代理表user_agent_list_2.限于篇幅,表4中這2類用戶代理表僅列舉2條用戶代理字符串,為了增強(qiáng)瀏覽器的偽裝性,可以為user_agent_list_1和user_agent_list_2列表添加更多的瀏覽器用戶代理字符串.例如增加各類終端(電腦、平板、手機(jī)等)、各種瀏覽器(360、Edge等)等用戶代理.

        根據(jù)參數(shù)user傳遞值(0或1),將用戶代理表分配給user_agent_list列表.采用隨機(jī)函數(shù)random.choice(user_agent_list)從user_agent_list列表中隨機(jī)選擇一個(gè)元素并賦值給User-Agent,最后將字典數(shù)據(jù){'User-Agent':UserAgent}賦值給headers.

        1.5.3 搜索的記錄數(shù)

        施引大數(shù)據(jù)的搜索與挖掘需要統(tǒng)計(jì)匹配的搜索結(jié)果文獻(xiàn)總數(shù),定義totalResults()函數(shù)如表5所示.第6行的xpath可通過(guò)對(duì)瀏覽器按F12啟用開(kāi)發(fā)者模式,單擊需要抓取的信息區(qū)域,右擊選擇“Copy Xpath”即可復(fù)制該區(qū)域的XML元素路徑.第4行的轉(zhuǎn)義函數(shù)transhtml()(本文略)通過(guò)替換法來(lái)保護(hù)上標(biāo)(lt;supgt;)和下標(biāo)(lt;subgt;)的代碼而不至于被清洗.

        1.5.4 搜索結(jié)果采集

        定義施引文獻(xiàn)網(wǎng)址的采集函數(shù)citingUrls(URL),其代碼及注釋如表6所示.第2~4行訪問(wèn)并獲取網(wǎng)頁(yè)代碼;第5~7行創(chuàng)建HTML選擇器、獲取施引論文超鏈接列表totalItems和施引論文信息列表citingRef_list.第10~20行采用While True:循環(huán)對(duì)未知記錄數(shù)進(jìn)行遍歷,其跳出循環(huán)的機(jī)制在于采用try…except…容錯(cuò)機(jī)制,當(dāng)遍歷完成或找不到匹配時(shí),報(bào)錯(cuò)執(zhí)行except中的break終止循環(huán),從而跳出無(wú)限循環(huán).第21~24行遍歷已知記錄數(shù)的循環(huán),該記錄數(shù)為施引論文數(shù),采用len()函數(shù)獲取totalItems列表的記錄數(shù).totalItems列表中存儲(chǔ)的是施引論文HTML網(wǎng)頁(yè)超鏈接的相對(duì)路徑,需要通過(guò)第22行添加域名來(lái)構(gòu)造網(wǎng)頁(yè)超鏈接的絕對(duì)路徑.第24行調(diào)用WhoCite()函數(shù)訪問(wèn)每篇施引論文網(wǎng)頁(yè)超鏈接,對(duì)其文末參考文獻(xiàn)中目標(biāo)期刊文獻(xiàn)信息進(jìn)行采集并追加寫(xiě)入輸出文件.

        1.5.5 施引信息采集

        采用whoCite()函數(shù)采集施引論文對(duì)目標(biāo)期刊文獻(xiàn)的引用信息,其代碼及主要注釋如表7所示.第2~4行設(shè)置Chrome瀏覽器并打開(kāi)網(wǎng)頁(yè).第6~15行是等待模塊利用While True:無(wú)限循環(huán)等待Chrome瀏覽器加載結(jié)束.第5行讀取初始時(shí)間,第9~11行判斷該函數(shù)運(yùn)行時(shí)間超過(guò)100 s時(shí)跳出循環(huán),避免超時(shí)終止運(yùn)行.當(dāng)某記錄在訪問(wèn)受限或網(wǎng)絡(luò)超時(shí)等情況下,放棄對(duì)該記錄的采集,屏幕輸出運(yùn)行時(shí)間,并自動(dòng)跳轉(zhuǎn)至下一記錄的采集.第12~15行判斷當(dāng)采集源ref_source的len()長(zhǎng)度大于0(非空)時(shí),表明已采集到信息,此時(shí),可以跳出等待模塊.第16~26行用于拼接采集的信息、輸出屏幕和追加寫(xiě)入文件.第27行及時(shí)退出已打開(kāi)的瀏覽器,避免因后續(xù)程序重復(fù)打開(kāi)而導(dǎo)致出錯(cuò).

        1.5.6 結(jié)果的輸出

        利用Python進(jìn)行數(shù)據(jù)挖掘離不開(kāi)讀寫(xiě)文件操作,通常需要將采集的文本數(shù)據(jù)輸出到txt或csv文件中.創(chuàng)建mkDir()、saveToFile()自定義函數(shù)分別用于創(chuàng)建存儲(chǔ)文件夾、存入文件等操作.

        通常有6種文件操作方式:(1)只讀模式“r”,如果文件不存在則引發(fā)“FileNotFoundError(文件未找到)”錯(cuò)誤;(2)讀寫(xiě)模式“r+”,如果文件不存在則引發(fā)“FileNotFoundError”錯(cuò)誤;(3)寫(xiě)入模式“w”,如果文件不存在則創(chuàng)建,否則清空內(nèi)容;(4)讀寫(xiě)模式“w+”,同“w”模式;(5)追加模式“a”,如果文件不存在則創(chuàng)建,否則在末尾追加內(nèi)容;(6)讀寫(xiě)追加模式“a+”,同“a”模式.

        打開(kāi)文件的代碼:

        with open('output.txt','r',encoding='utf-8')as ftxt:

        其中,encoding='utf-8'表示采用utf-8編碼,避免亂碼.

        讀操作的代碼:content=ftxt.read()

        寫(xiě)操作的代碼:ftxt.write('Hello')

        mkDir()函數(shù)利用os.path.exists(path)查找文件,利用os.makedirs(path)創(chuàng)建文件夾.

        saveToTxt()函數(shù)用于新建輸出文件(表8).第2行拼接路徑字符串.第4行創(chuàng)建保存的文件夾.第5~6行按writemode寫(xiě)入模式(“w+”或“a+”)打開(kāi)文件,用于創(chuàng)建或追加數(shù)據(jù)文件.

        2 結(jié)果與分析

        以廣東省10種中文科技期刊為對(duì)象期刊,通過(guò)設(shè)計(jì)Python數(shù)據(jù)挖掘程序,查詢SCI期刊論文末尾引文的刊名獲取了廣東省10種中文科技期刊被SCI期刊引用的施引文獻(xiàn)清單,對(duì)施引頻次和施引期刊學(xué)科進(jìn)行分析.

        2.1利用數(shù)據(jù)挖掘可分析中文期刊被SCI期刊施引頻次的年度變化趨勢(shì)

        提取施引文獻(xiàn)清單中的刊名和施引年,按施引年統(tǒng)計(jì)出各對(duì)象期刊被某種SCI期刊施引的總次數(shù),得到1996-2019年廣東省10種中文科技期刊被國(guó)際SCI期刊的施引頻次逐年變化趨勢(shì)(圖3).廣東省10種中文科技期刊被SCI期刊引用的施引頻次呈逐年增長(zhǎng)態(tài)勢(shì),其中有4種期刊(《分析測(cè)試學(xué)報(bào)》、《中山大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)》《南方醫(yī)科大學(xué)學(xué)報(bào)》《中華腎臟病雜志》)被SCI期刊施引頻次增漲速度較快.

        本文提出的數(shù)據(jù)挖掘方法可以獲取中文科技期刊被國(guó)際SCI收錄期刊論文引用的施引頻次,一方面可以為中文科技期刊國(guó)際影響力的評(píng)價(jià)提供參考,另一方面為單刊的辦刊實(shí)踐與業(yè)績(jī)量化提供參考.快速提升中文科技期刊的國(guó)際影響力的途徑主要有:(1)搭建期刊英文網(wǎng)站和采取英文長(zhǎng)摘要出版模式[9],擴(kuò)大讀者面;(2)組建國(guó)際編委團(tuán)隊(duì),擴(kuò)大期刊品牌影響力;(3)加入PubMed、Scopus等國(guó)際文獻(xiàn)檢索系統(tǒng)和數(shù)據(jù)庫(kù),通過(guò)國(guó)際化傳播平臺(tái)增加論文的國(guó)際可達(dá)性和能見(jiàn)度.從圖3可以看出,有2種期刊(《分析測(cè)試學(xué)報(bào)》和《中山大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)》)從2013年開(kāi)始,其被國(guó)際SCI期刊引用的施引頻次快速上升,具體是因哪些辦刊措施獲得了國(guó)際影響力的快速提升,需要結(jié)合自身辦刊實(shí)踐進(jìn)行分析.本文方法為期刊辦刊決策提供個(gè)性化數(shù)據(jù)支撐,可以量化評(píng)價(jià)辦刊舉措與實(shí)際提升效果.

        2.2 利用數(shù)據(jù)挖掘可了解施引期刊的學(xué)科和層次

        按施引總次數(shù)倒序排序,統(tǒng)計(jì)出各對(duì)象期刊被SCI期刊施引次數(shù)的前10名(即TOP10施引期刊),查詢TOP10施引期刊的學(xué)科分布和JCR分區(qū)層次,從施引側(cè)期刊的影響力和學(xué)科分布情況,了解對(duì)象期刊的國(guó)際影響力、分析其提升效果.

        對(duì)圖3中國(guó)際施引頻次增長(zhǎng)較快的2種中文科技期刊進(jìn)行重點(diǎn)研究.統(tǒng)計(jì)出每種國(guó)際期刊引用同一種中文科技期刊的次數(shù)并進(jìn)行排序,列出TOP10的國(guó)際施引期刊、查出期刊的學(xué)科大類名稱、統(tǒng)計(jì)其施引次數(shù),結(jié)果如圖4所示.《分析測(cè)試學(xué)報(bào)》的TOP10國(guó)際施引期刊中,有2種1區(qū)、5種2區(qū)、1種3區(qū)、2種4區(qū)國(guó)際期刊引用該刊;施引側(cè)單刊對(duì)其施引頻次最少8次、最多39次;施引側(cè)期刊的學(xué)科分布上,主要是化學(xué)-分析化學(xué)類期刊(5種),這與《分析測(cè)試學(xué)報(bào)》的學(xué)科特色有關(guān).《中山大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)》的TOP10國(guó)際施引期刊中,有3種1區(qū)、1種2區(qū)、3種3區(qū)、2種4區(qū)國(guó)際期刊引用該刊;施引側(cè)單刊對(duì)其施引頻次最少2次、最多8次;施引側(cè)期刊的學(xué)科分布上,主要是醫(yī)學(xué)類期刊(7種),也與其醫(yī)學(xué)版學(xué)科定位有關(guān).因此,分析國(guó)際施引期刊的分區(qū)和學(xué)科分布比總被引次數(shù)更能客觀評(píng)價(jià)中文科技期刊的國(guó)際影響力水平,這為中文科技期刊的辦刊定位提供見(jiàn)解和決策依據(jù).

        3 結(jié)論

        基于Python+Selenium+Chrome組合框架,設(shè)計(jì)了WhoCiteMe.py程序,提出一種期刊論文施引側(cè)引用信息的數(shù)據(jù)挖掘方法.通過(guò)分析施引側(cè)引用數(shù)據(jù),了解施引期刊的SCI分區(qū)、學(xué)科分布、施引頻次等大數(shù)據(jù),為中文科技期刊提升國(guó)際影響力提供數(shù)據(jù)支撐.本文的程序設(shè)計(jì)思路可被應(yīng)用于編輯、出版與傳播等其他數(shù)據(jù)挖掘與數(shù)據(jù)分析領(lǐng)域.

        參考文獻(xiàn):

        [1]肖宏,潘云濤,伍軍紅,等.科技期刊世界影響力評(píng)價(jià)實(shí)證分析——以WJCI為例[J].科技與出版,2023(5):49-57.

        [2]胡小洋,馬力,馬建強(qiáng).一種基于改進(jìn)的DID模型和學(xué)術(shù)期刊綜合表現(xiàn)力指數(shù)的學(xué)術(shù)期刊資助項(xiàng)目實(shí)施效果評(píng)價(jià)方法構(gòu)建[J].學(xué)術(shù)出版與傳播,2022,1(1):43-53.

        [3]徐琳宏,丁堃,孫曉玲,等.施引文獻(xiàn)視角下正面引用論文的影響力及其影響因素的研究——以自然語(yǔ)言處理領(lǐng)域?yàn)槔跩].情報(bào)學(xué)報(bào),2021,40(4):354-363.

        [4]FRANCIS N,欒春娟,胡志剛.施引側(cè)文獻(xiàn)計(jì)量指標(biāo)的設(shè)置、優(yōu)勢(shì)與應(yīng)用研究[J].科學(xué)與管理,2023,43(6):56-61.

        [5]譚春林,王維朗,王建平.AIGC在學(xué)術(shù)研究和出版中的使用邊界、透明度與倫理[J].編輯學(xué)報(bào),2024,36(6):661-666.

        [6]陳爍權(quán),鐘銀婷,佘梓潤(rùn),等.基于數(shù)據(jù)挖掘算法的大學(xué)生就業(yè)分析——以韓山師范學(xué)院統(tǒng)計(jì)學(xué)專業(yè)為例[J].韓山師范學(xué)院學(xué)報(bào),2024,45(3):68-75.

        [7]佘梓航,徐嘉樺,姚志玉,等.基于皮爾遜相關(guān)系數(shù)的網(wǎng)購(gòu)大數(shù)據(jù)分析——以天貓佰潤(rùn)居旗艦店交易記錄為例[J].韓山師范學(xué)院學(xué)報(bào),2020,41(3):16-22.

        [8]譚春林,劉清海.期刊編輯發(fā)表論文情況的文本挖掘與分析[J].編輯學(xué)報(bào),2019,31(4):407-410.

        [9]許文穎,付寧,吳迪,等.中文科技期刊國(guó)際影響力的提升策略與途徑——以《紅外與激光工程》為例[J].天津科技,2023,50(11):82-88.

        Design of Data Mining Program for the Citation Side

        of Journal Articles Based on Python and Selenium

        TAN Chun-lin1,SHAO Xiao-jun2*,WANG Jian-ping1,ZHOU Zhi-hong3

        (1. Editorial Office of Journal of South China Normal University(Natural Science Edition),Guangzhou,Guangdong,510631;2. Editorial Department of Journal of Shaoguan University,Shaoguan,Guangdong,512005;3. Editorial Department of Journal of South China Agricultural University, Guangzhou,Guangdong,510642)

        Abstract:In order to study the citation behavior of Chinese scientific journals by international journals on the citation side,the WhoCiteMe program was designed using the Python+Selenium+Chrome framework,proposing a data mining method for citation information on the citation side of journal articles.It outlined the design concept of the WhoCiteMe program,and analyzed the citation frequency,disciplinary distribution,and zone distribution of citing journals for 10 Chinese scientific journals in Guangdong province.The results have indicated that the proposed algorithm and designed data mining program can obtain a list of cited literature and citation data for international journals,providing personalized data for evaluating the international influence of Chinese scientific journals and offering data support for journal decision-making.

        Key words:scientific journals; citation side; data mining; Python; Selenium

        責(zé)任編輯 周春娟

        猜你喜歡
        數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        久久夜色精品国产三级| 亚洲av三级黄色在线观看| 国产内射一级一片内射高清视频1 成人av一区二区三区四区 | 精品国产亚欧无码久久久| 中文字幕乱码人妻无码久久久1| 我的美艳丝袜美腿情缘| 狠狠色噜噜狠狠狠8888米奇| 亚洲av无码精品色午夜在线观看| 国产精品亚洲综合色区韩国| 中文乱码字幕高清在线观看| 国产激情视频免费观看| 欧美牲交a欧美牲交| 国产97在线 | 亚洲| 亚州精品无码久久aV字幕| 欧洲国产成人精品91铁牛tv| 免费一区二区三区av| 国产精品一区二区夜色不卡| 成人精品一区二区三区电影| 亚洲av日韩av永久无码色欲| 91香蕉视频网| 日本一区二区三区在线视频观看| 亚洲国产精品激情综合色婷婷| 国产免费无遮挡吸奶头视频| 亚洲一区二区三区国产精华液| 久久国产精品男人的天堂av| 国产一区二区白浆在线观看| 中文字幕日韩精品有码视频| 国产在线精品一区二区三区不卡 | 午夜精品久久99蜜桃| 中文字幕在线日亚洲9| 中文字幕一区二区人妻| 日产精品一区二区三区| 日本在线免费不卡一区二区三区| 亚洲精品国产精品乱码视色| 东京热久久综合久久88| 射精情感曰妓女色视频| 人妻少妇久久精品一区二区| 九七青青草视频在线观看| 欧美性受xxxx黑人猛交| 欧美aa大片免费观看视频| 91热爆在线精品|