亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本分析視角下數(shù)字鄉(xiāng)村政策量化研究

        2024-07-14 00:00:00唐紅濤余佳鵬陳捷
        知識(shí)管理論壇 2024年3期
        關(guān)鍵詞:文本挖掘特征提取

        摘要:[目的/意義]數(shù)字鄉(xiāng)村是鄉(xiāng)村振興的戰(zhàn)略方向和建設(shè)數(shù)字中國的重要內(nèi)容,從文本分析視角對(duì)數(shù)字鄉(xiāng)村相關(guān)政策文本進(jìn)行量化分析,探討政策作用領(lǐng)域、演化規(guī)律以及發(fā)展規(guī)劃邏輯,對(duì)政策發(fā)展完善具有重要意義。[方法/過程]首先,對(duì)政策文本語料庫進(jìn)行文本預(yù)處理,利用TF-IDF提取政策文本特征詞,并篩查得到特征詞集合;然后,基于FastText模型對(duì)特征詞集合進(jìn)行詞向量訓(xùn)練,并進(jìn)行K-means聚類分析和構(gòu)建特征詞共現(xiàn)矩陣;最后,利用Gephi工具繪制語義網(wǎng)絡(luò)圖。[結(jié)果/結(jié)論]聚類分析結(jié)果發(fā)現(xiàn),既往數(shù)字鄉(xiāng)村政策主要從政策受體、政策視角、政策領(lǐng)域、支持措施和政策功能5個(gè)方面作用于數(shù)字鄉(xiāng)村建設(shè)發(fā)展的各個(gè)領(lǐng)域,顯現(xiàn)出數(shù)字鄉(xiāng)村政策在促進(jìn)數(shù)字鄉(xiāng)村全面建設(shè)發(fā)展中起到重要引領(lǐng)作用;語義網(wǎng)絡(luò)圖揭示,既往政策以農(nóng)產(chǎn)品、現(xiàn)代農(nóng)業(yè)等作為重要節(jié)點(diǎn)輻射數(shù)字鄉(xiāng)村建設(shè)發(fā)展的各個(gè)領(lǐng)域,新政策在舊政策基礎(chǔ)上加強(qiáng)補(bǔ)全,但是數(shù)字鄉(xiāng)村政策的演化存在一定滯后性,也暴露出過去部分相對(duì)弱化的領(lǐng)域,如管理制度、信息安全、環(huán)境治理等。研究能夠?yàn)閿?shù)字鄉(xiāng)村的政策效果分析和施策方向提供重要依據(jù)。

        關(guān)鍵詞:數(shù)字鄉(xiāng)村;FastText;文本挖掘;特征提取;語義網(wǎng)絡(luò)

        分類號(hào):F323; F49

        引用格式:唐紅濤, 余佳鵬, 陳捷. 文本分析視角下數(shù)字鄉(xiāng)村政策量化研究——基于FastText和文本挖掘方法[J/OL]. 知識(shí)管理論壇, 2024, 9(3): 237-252 [引用日期]. http://www.kmf.ac.cn/p/390/. (Citation: Tang Hongtao, Yu Jiapeng, Chen Jie. Quantitative Research on Digital Rural Policy from the Perspective of Text Analysis: Based on FastText and Text Mining Methods[J/OL]. Knowledge Management Forum, 2024, 9(3): 237-252 [cite date]. http://www.kmf.ac.cn/p/390/.)

        1" 引言/Introduction

        鄉(xiāng)村振興是建設(shè)現(xiàn)代化經(jīng)濟(jì)體系的重要基礎(chǔ),數(shù)字中國是數(shù)字經(jīng)濟(jì)發(fā)展的重要目標(biāo)。鄉(xiāng)村振興和數(shù)字中國是黨的十九大提出的兩大發(fā)展戰(zhàn)略,而數(shù)字鄉(xiāng)村作為兩大戰(zhàn)略的交匯,既是鄉(xiāng)村振興的戰(zhàn)略方向,同時(shí)構(gòu)成了建設(shè)數(shù)字中國的關(guān)鍵內(nèi)容。農(nóng)業(yè)農(nóng)村數(shù)字化轉(zhuǎn)型是順應(yīng)時(shí)代變革的必然趨勢(shì)[1]。政府高度重視數(shù)字鄉(xiāng)村建設(shè),2019年中共中央辦公廳和國務(wù)院辦公廳聯(lián)合發(fā)布了《數(shù)字鄉(xiāng)村發(fā)展戰(zhàn)略綱要》,明確數(shù)字鄉(xiāng)村建設(shè)為鄉(xiāng)村振興的核心任務(wù),該戰(zhàn)略強(qiáng)調(diào)數(shù)字鄉(xiāng)村實(shí)質(zhì)上是網(wǎng)絡(luò)化、信息化和數(shù)字化廣泛應(yīng)用于農(nóng)業(yè)農(nóng)村經(jīng)濟(jì)社會(huì)發(fā)展中。2020年,《數(shù)字農(nóng)業(yè)農(nóng)村發(fā)展規(guī)劃(2019—2025)》頒布明確了數(shù)字農(nóng)業(yè)農(nóng)村建設(shè)發(fā)展路線,有力支撐數(shù)字鄉(xiāng)村戰(zhàn)略實(shí)施。同年,《數(shù)字鄉(xiāng)村發(fā)展工作要點(diǎn)》提出數(shù)字鄉(xiāng)村發(fā)展的具體工作目標(biāo)和內(nèi)容。2021年《數(shù)字鄉(xiāng)村建設(shè)指南1.0》頒布,系統(tǒng)構(gòu)建了數(shù)字鄉(xiāng)村建設(shè)的總體參考架構(gòu)。2022和2023年《數(shù)字鄉(xiāng)村發(fā)展工作要點(diǎn)》相繼頒布,進(jìn)一步厘清數(shù)字鄉(xiāng)村建設(shè)的實(shí)施步驟、工作目標(biāo)和政策體系,為引導(dǎo)當(dāng)下數(shù)字鄉(xiāng)村建設(shè)發(fā)展提出最新的重要決策方向。中央和地方政策的相繼問世,有助于本文構(gòu)建出完整的政策文本語料庫,使得分析政策施策的重點(diǎn)和方向成為可能,也為數(shù)字鄉(xiāng)村政策的量化研究創(chuàng)造文本分析條件。

        數(shù)字經(jīng)濟(jì)對(duì)鄉(xiāng)村振興的賦能作用需由政策體系作為引導(dǎo)[2],通過政策體系引導(dǎo)數(shù)字鄉(xiāng)村建設(shè)也是助推鄉(xiāng)村實(shí)現(xiàn)現(xiàn)代化轉(zhuǎn)型和振興的有效路徑[3]。切合實(shí)際且科學(xué)合理的政策導(dǎo)向有助于推動(dòng)數(shù)字鄉(xiāng)村建設(shè)和發(fā)展,因此,通過挖掘系列政策的關(guān)鍵信息、核心內(nèi)容,對(duì)于進(jìn)一步明確數(shù)字鄉(xiāng)村政策的施策重心和方向尤為重要。在信息學(xué)角度上,政策通常是自然語言描述的無結(jié)構(gòu)文本,包含豐富的語義信息和上下文關(guān)系,一般人工分析不僅效率較低且容易出現(xiàn)遺漏,不適合大批量處理政策文本。因此,運(yùn)用文本挖掘等信息技術(shù)對(duì)政策文本進(jìn)行量化分析是解決這一問題切實(shí)可行的方案,為數(shù)字鄉(xiāng)村、鄉(xiāng)村振興等政策研究提供參考和借鑒,具有重要的實(shí)踐價(jià)值。

        現(xiàn)有關(guān)于數(shù)字鄉(xiāng)村戰(zhàn)略或政策文本分析的研究較多,但鮮有學(xué)者利用文本挖掘方法分析數(shù)字鄉(xiāng)村政策文本,且現(xiàn)有的政策文本挖掘研究主要集中在詞頻分析、政策建模一致性指數(shù)模型(policy modeling consistency,PMC)、灰色關(guān)聯(lián)度模型等方面,缺乏利用FastText模型對(duì)特征詞進(jìn)行向量化以及通過文本挖掘方法進(jìn)行政策文本的研究工作,而該模型具有訓(xùn)練速度快、精確度高等優(yōu)點(diǎn),適合用于文本挖掘研究。本文作為課題研究鄉(xiāng)村政策分析的核心環(huán)節(jié),綜合運(yùn)用FastText和文本挖掘方法對(duì)數(shù)字鄉(xiāng)村政策文本進(jìn)行量化研究,將政策文本轉(zhuǎn)化為數(shù)值形式的空間向量,從文本數(shù)據(jù)中提取出有價(jià)值的信息,可以發(fā)現(xiàn)政策重點(diǎn)特征與不足之處,對(duì)于課題組深入探討政策作用領(lǐng)域、演化規(guī)律和發(fā)展規(guī)劃邏輯,以及對(duì)地方政府識(shí)別政策導(dǎo)向和優(yōu)化政策布局具有重要的實(shí)踐意義。

        2" 文獻(xiàn)綜述/Literature review

        筆者將從數(shù)字鄉(xiāng)村政策的定性分析、定量分析和政策文本的分析研究方法3個(gè)層面展開論述。

        2.1" 數(shù)字鄉(xiāng)村政策的定性分析

        數(shù)字鄉(xiāng)村政策的定性分析是對(duì)政策文件和相關(guān)文本材料的質(zhì)性研究過程,有助于揭示政策的目標(biāo)、理念、策略以及可能產(chǎn)生的影響。劉少杰認(rèn)為數(shù)字鄉(xiāng)村建設(shè)懸浮是一個(gè)亟待解決的問題,數(shù)字鄉(xiāng)村建設(shè)離不開政府的領(lǐng)導(dǎo)和推進(jìn)[4];劉艷紅等以數(shù)字鄉(xiāng)村建設(shè)的政策目標(biāo)為參照系進(jìn)行分析,基于統(tǒng)計(jì)數(shù)據(jù)及評(píng)估報(bào)告,對(duì)數(shù)字鄉(xiāng)村戰(zhàn)略部署、目標(biāo)任務(wù)以及現(xiàn)存問題與挑戰(zhàn)進(jìn)行客觀評(píng)價(jià)分析,提出下一階段數(shù)字鄉(xiāng)村建設(shè)的政策著力點(diǎn)和應(yīng)對(duì)重點(diǎn)[5];吳文旭等基于扎根理論分析45份數(shù)字鄉(xiāng)村相關(guān)國家政策,從5個(gè)維度厘清數(shù)字化建設(shè)嵌入鄉(xiāng)村振興,推進(jìn)數(shù)字鄉(xiāng)村建設(shè)的“嵌構(gòu)理路”,探究數(shù)字鄉(xiāng)村建設(shè)對(duì)鄉(xiāng)村振興的促進(jìn)機(jī)制[6]。

        政策信息對(duì)于具體環(huán)節(jié)的實(shí)施有著重要引領(lǐng)作用,然而隨著數(shù)字鄉(xiāng)村相關(guān)政策的層出不窮,政策的實(shí)施效果不佳,面臨著諸多挑戰(zhàn)。楊志玲等認(rèn)為推進(jìn)數(shù)字鄉(xiāng)村治理的一系列政策措施實(shí)施過程中,數(shù)字技術(shù)嵌入鄉(xiāng)村治理過程與傳統(tǒng)鄉(xiāng)村治理模式?jīng)]能自然達(dá)到耦合,數(shù)字鄉(xiāng)村治理方面仍存在問題[7];文豐安認(rèn)為我國數(shù)字鄉(xiāng)村建設(shè)面臨政策體系不完善、監(jiān)管制度存在空白和不確定等實(shí)踐困境,提出要通過頂層設(shè)計(jì)“自上而下”地構(gòu)建系統(tǒng)化的、長(zhǎng)遠(yuǎn)可持續(xù)發(fā)展的政策體系,為數(shù)字鄉(xiāng)村建設(shè)提供制度保障[8];蘇紅健提出“1+5(N)”數(shù)字鄉(xiāng)村建設(shè)體系以解決我國數(shù)字鄉(xiāng)村建設(shè)存在的缺乏整體規(guī)劃、地區(qū)發(fā)展不平衡等問題[9];王勝等認(rèn)為數(shù)字鄉(xiāng)村建設(shè)仍面對(duì)政策體系不健全的挑戰(zhàn),數(shù)字鄉(xiāng)村政策體系仍存在統(tǒng)籌協(xié)調(diào)難度大、立法相對(duì)滯后、網(wǎng)絡(luò)空間有效監(jiān)管存在空白和不確定性等一系列問題[10];趙成偉等從各省份出臺(tái)政策文件引領(lǐng)的數(shù)字鄉(xiāng)村建設(shè)實(shí)踐試點(diǎn)分析,發(fā)現(xiàn)鄉(xiāng)村產(chǎn)業(yè)、治理數(shù)字化及公共服務(wù)等實(shí)踐方面仍存在不足之處,阻礙鄉(xiāng)村振興和數(shù)字中國戰(zhàn)略的實(shí)施[11]。隨著數(shù)字經(jīng)濟(jì)快速發(fā)展,數(shù)字鄉(xiāng)村建設(shè)發(fā)展同樣迅猛,其政策文本需要相應(yīng)迭代,呈現(xiàn)出符合當(dāng)下情況的明顯動(dòng)態(tài)變化特征,而部分政策引導(dǎo)不能夠完美擬合現(xiàn)實(shí)情況,因此對(duì)政策文本進(jìn)行文本挖掘等定量研究,能夠客觀有力地解釋政策重點(diǎn),在一定程度上為未來政策制定提供建議。

        2.2" 數(shù)字鄉(xiāng)村政策的定量分析

        數(shù)字鄉(xiāng)村政策的定量分析是通過數(shù)量和統(tǒng)計(jì)方法來研究政策的量化特征及效果的過程。段堯清等通過TF-IDF算法提取特征文本的特征詞,構(gòu)建評(píng)價(jià)指標(biāo)體系,并運(yùn)用數(shù)據(jù)包絡(luò)分析(data envelopment analysis,DEA)方法結(jié)合DEA的BCC(banker, charnes, and cooper)模型實(shí)證分析數(shù)字鄉(xiāng)村建設(shè)的有效性[12],還利用熵值法和耦合協(xié)調(diào)度模型對(duì)2018—2021年中央及四大地區(qū)數(shù)字鄉(xiāng)村政策進(jìn)行定量測(cè)度,并分析政策之間的多級(jí)聯(lián)動(dòng)效應(yīng)[13];金夢(mèng)蕊等利用灰色關(guān)聯(lián)度模型對(duì)政策文本編碼結(jié)果進(jìn)行計(jì)算,比較研究數(shù)字鄉(xiāng)村政策和數(shù)字政府政策的文本內(nèi)容,挖掘二者的政策關(guān)聯(lián)度、相似性和差異性[14]。此外,現(xiàn)有研究也從不同視角多方面地定量研究數(shù)字鄉(xiāng)村政策。羅亮等對(duì)53份政策文本內(nèi)容進(jìn)行分析,發(fā)現(xiàn)新時(shí)代數(shù)字鄉(xiāng)村建設(shè)的政策內(nèi)容著手于目標(biāo)引導(dǎo)、保障要素和行動(dòng)策略方面,從4個(gè)方面、6個(gè)層面推進(jìn)實(shí)施數(shù)字鄉(xiāng)村建設(shè)戰(zhàn)略[15];秦國偉等基于多重政策關(guān)系視角,將數(shù)字鄉(xiāng)村建設(shè)、鄉(xiāng)村振興及高質(zhì)量發(fā)展戰(zhàn)略納入統(tǒng)一框架進(jìn)行對(duì)比分析,挖掘數(shù)字鄉(xiāng)村建設(shè)發(fā)展的重點(diǎn)內(nèi)容[16]。

        2.3" 政策文本的分析研究方法

        當(dāng)前政策文本分析的研究方法較為成熟,且有著多種自然語言處理方法能夠?qū)φ呶谋具M(jìn)行研究分析。I. Pencheva等認(rèn)為大數(shù)據(jù)方法在政策分析方面有著較為成熟的運(yùn)用,政策分析的重要和關(guān)鍵任務(wù)是確定問題并將其概念化[17];M. Poel等提出利用文本挖掘等方法分析政策能夠有效提高政府透明度[18];阮霽陽等運(yùn)用潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)主題模型研究影響數(shù)字政府建設(shè)的因素,并構(gòu)建數(shù)字政府建設(shè)影響因素模型,用決策實(shí)驗(yàn)—解釋結(jié)構(gòu)模型(decision making trial and evaluation laboratory- interpretive structural model,DEMATEL-ISM)研究各因素重要性及相關(guān)性[19];韓劍等通過自然語言文本處理方法,比較分析不同區(qū)域的數(shù)字貿(mào)易條款異質(zhì)性,并分析各個(gè)國家簽署數(shù)字貿(mào)易條款的影響因素[20]。在政策視角上,洪偉達(dá)等從政策的強(qiáng)度、目標(biāo)和工具3個(gè)角度提出政策量化標(biāo)準(zhǔn),分析政策協(xié)同度[21];范麗莉等采用政策量化分析方法,從政策的部門、效力、措施和目標(biāo)4個(gè)維度對(duì)政策進(jìn)行系統(tǒng)梳理并進(jìn)行政策協(xié)同演變分析[22]。此外,通過PMC政策評(píng)價(jià)模型以及文本分析工具等對(duì)政策文本進(jìn)行研究分析也是主流方法之一。S. Z. Ma等通過詞頻法剖析26個(gè)地區(qū)、國家以及中國省份的數(shù)字貿(mào)易相關(guān)政策文件,并構(gòu)建數(shù)字貿(mào)易指標(biāo)體系來評(píng)估地區(qū)數(shù)字貿(mào)易的發(fā)展現(xiàn)狀[23];蔡冬松等構(gòu)建數(shù)字經(jīng)濟(jì)政策指標(biāo)體系,利用文本挖掘技術(shù)和PMC指數(shù)模型量化分析吉林省數(shù)字經(jīng)濟(jì)政策[24];卜令通等采用詞頻分析、社會(huì)網(wǎng)絡(luò)分析等文本挖掘技術(shù)結(jié)合政策內(nèi)容構(gòu)建PMC指數(shù)模型,厘清數(shù)字經(jīng)濟(jì)政策的歷史沿革即政策特征[25];王偉光等利用ROSTCM6.0軟件對(duì)政策文本進(jìn)行本文挖掘,并構(gòu)建PMC指數(shù)模型對(duì)數(shù)字經(jīng)濟(jì)政策進(jìn)行分析[26]。

        過去文獻(xiàn)中有關(guān)數(shù)字鄉(xiāng)村政策的定性研究較多,且分析視角較為多元化,但定性研究難以捕獲特征詞之間的聯(lián)系及重要性。在定量分析中,過去文獻(xiàn)中直接對(duì)數(shù)字鄉(xiāng)村政策進(jìn)行定量分析的成果尚且不足,且從研究方法上看,現(xiàn)有的政策文本挖掘研究主要集中在詞頻分析、PMC指數(shù)模型、灰色關(guān)聯(lián)度模型等方面,缺乏利用FastText對(duì)特征詞進(jìn)行向量化以及通過文本挖掘方法進(jìn)行的政策文本研究工作,而利用FastText將特征詞進(jìn)行詞嵌入能以詞向量的形式表示詞匯,可以提高計(jì)算效率,以便結(jié)合文本挖掘方法進(jìn)行后續(xù)實(shí)證研究,目前該方向的研究尚未成熟。因此,筆者采用自然語言處理中詞向量訓(xùn)練模型FastText以及文本挖掘方法對(duì)數(shù)字鄉(xiāng)村相關(guān)政策進(jìn)行量化分析及研究,使用數(shù)據(jù)文本挖掘數(shù)字鄉(xiāng)村相關(guān)政策的關(guān)鍵特征,有助于更好理解政策重點(diǎn),把握數(shù)字鄉(xiāng)村建設(shè)發(fā)展關(guān)鍵環(huán)節(jié),試圖從政策層面解決數(shù)字鄉(xiāng)村建設(shè)發(fā)展過程中的長(zhǎng)難問題。本文成果有望為政府提供決策支持,幫助其進(jìn)一步指明數(shù)字鄉(xiāng)村政策的具體方向,促進(jìn)農(nóng)業(yè)農(nóng)村數(shù)字化水平發(fā)展,提高農(nóng)村地區(qū)居民生活品質(zhì),助推農(nóng)村地區(qū)現(xiàn)代化建設(shè)。此外,基于FastText和文本挖掘方法的分析框架對(duì)政策文本進(jìn)行定量分析能夠?yàn)檎叻治龅牧炕芯刻峁┬乱曇啊?/p>

        3" 研究流程及分析框架/Research process and analysis framework

        筆者從文本分析視角出發(fā),通過FastText和文本挖掘方法進(jìn)行數(shù)字鄉(xiāng)村相關(guān)政策文本分析。文本分析的關(guān)鍵環(huán)節(jié)是文本挖掘方法及流程的設(shè)計(jì),筆者提出的關(guān)于數(shù)字鄉(xiāng)村政策文本挖掘的流程如圖1所示:

        3.1" 文本預(yù)處理

        在采集政策文本數(shù)據(jù)后,需要對(duì)數(shù)字鄉(xiāng)村相關(guān)政策文本進(jìn)行預(yù)處理,主要通過jieba第三方庫中文分詞工具對(duì)原始政策文本內(nèi)容進(jìn)行分詞,并加載自定義保留詞詞表對(duì)部分不符合預(yù)期的分詞進(jìn)行修正。

        3.2" 特征提取

        在文本預(yù)處理后,會(huì)生成大量特征詞,若直接采用經(jīng)過預(yù)處理的特征詞進(jìn)行后續(xù)的向量化和聚類操作,可能引發(fā)維度災(zāi)難,而且也得不到高質(zhì)量的聚類結(jié)果。因此面對(duì)大量特征詞時(shí),特征提取尤為重要,提取出好的特征詞能夠?yàn)楹罄m(xù)的挖掘以及聚類結(jié)果帶來更好的效果。

        詞頻—逆文檔頻率(TF-IDF)是信息檢索和文本挖掘中廣泛應(yīng)用的技術(shù),用于度量一個(gè)詞在某個(gè)文檔中的重要性。TF-IDF結(jié)合了兩個(gè)因素:詞頻(term frequency, TF)和逆文檔頻率(inverse document frequency, IDF)。詞頻為指定詞匯在一篇文檔中出現(xiàn)的頻率,通常認(rèn)為在文檔中多次出現(xiàn)的詞更為重要,TF計(jì)算公式如下:

        公式(1)

        其中,t表示詞匯,d表示文檔,count(t)表示在該文檔d中詞匯t的總數(shù),len(d)表示文檔d中所有詞匯總數(shù)。逆文檔頻率即為一個(gè)詞在整個(gè)文檔集合中的普遍程度,衡量了一個(gè)詞的稀有性,可以通過文檔集合中包含制定詞的文檔數(shù)量與總文檔數(shù)的比值的對(duì)數(shù)計(jì)算,IDF計(jì)算公式如下:

        公式(2)

        其中,D表示總文檔集合,dt表示包含詞匯t的文檔,count(D)表示總文檔數(shù),count(dt)表示包含詞匯t的文檔d的總數(shù)。TF-IDF是通過將詞頻和逆文檔頻率數(shù)值的乘積來衡量每個(gè)詞的權(quán)重,以便更好地區(qū)分文檔中的重要詞和普遍詞。TF-IDF計(jì)算公式如下:

        TFIDF(t,d,D)=TF(t,d)×IDF(t,d,D)" "公式(3)

        其中,TF(t,d)代表詞匯t的詞頻,IDF(t,d,D)代表詞匯t的逆文檔頻率。筆者采用TF-IDF計(jì)算政策文本集合中特征詞的重要性,TF-IDF值越大代表該特征詞在某文檔中越為重要,提取出文檔集合中各特征詞TF-IDF值超過指定閾值的特征詞作為初始特征詞。

        3.3" 詞向量訓(xùn)練

        由于文本數(shù)據(jù)以字符串形式存在,計(jì)算機(jī)無法直接處理文本數(shù)據(jù),文本數(shù)據(jù)也難以直接參與計(jì)算和模型訓(xùn)練,因此在進(jìn)行后續(xù)聚類分析前需要將特征詞轉(zhuǎn)化為數(shù)值形式。特征詞向量化有助于將文本數(shù)據(jù)轉(zhuǎn)換成適合于機(jī)器學(xué)習(xí)算法和模型的形式,可以充分捕捉詞匯的語義信息。

        FastText是Facebook于2016年提出的開源模型,該模型運(yùn)用自然語言處理和機(jī)器學(xué)習(xí)中最成功的理念。FastText的子詞嵌入方法,在Word2vec的基礎(chǔ)上引入子詞這個(gè)因素,從而使得詞的微變形關(guān)系也能映射到嵌入空間中。算法包含隱藏層和輸出層,結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快且準(zhǔn)確度較高。以往研究發(fā)現(xiàn):FastText對(duì)比SVM、RCNN和TextCNN等傳統(tǒng)模型進(jìn)行詞向量訓(xùn)練的準(zhǔn)確率、召回率和F1值評(píng)價(jià)指標(biāo)等更高[27-28],善于解決文本分類問題[29],運(yùn)行速度快[30],綜合性能最優(yōu)[31]。

        因此,筆者選擇FastText模型進(jìn)行詞向量訓(xùn)練,通過模型中Skip-gram訓(xùn)練方法進(jìn)行特征詞向量訓(xùn)練。具體而言,Skip-gram會(huì)根據(jù)給定中心詞,預(yù)測(cè)固定上下文窗口大小內(nèi)的詞匯。其訓(xùn)練過程通過最大化損失函數(shù)實(shí)現(xiàn),通常使用負(fù)對(duì)數(shù)似然來定義損失,目標(biāo)是最大化給定中心詞情況下,預(yù)測(cè)上下文詞匯的概率。假設(shè)句子結(jié)構(gòu)為wt–2, wt–1, wt, wt+1, wt+2,Skip-gram通過輸入wt來預(yù)測(cè)wt–2, wt–1, wt+1, wt+2的詞向量,其流程如圖2所示:

        其中,Input為輸入層,Projection為映射層,Output為輸出層。訓(xùn)練出來的詞向量效果可以通過特征詞之間的余弦相似度來查看,余弦相似度計(jì)算公式如下:

        公式(4)

        其中,A和B為兩個(gè)特征詞詞向量,||A||為詞向量A的范數(shù)。余弦相似度的值介于-1和1之間,余弦相似度的值越接近1代表兩個(gè)詞向量的相似性越高。

        3.4" 文本聚類

        K-Means是機(jī)器學(xué)習(xí)中經(jīng)典的無監(jiān)督聚類算法,其主要目標(biāo)是將數(shù)據(jù)集中的樣本分為k個(gè)簇,使得同一簇內(nèi)的樣本相似度較高,不同簇之間樣本相似度較低。簇類數(shù)k需要預(yù)先給定,k值的選定可以通過誤差平均和的手肘法和輪廓系數(shù)來確定。對(duì)于每個(gè)樣本點(diǎn),計(jì)算其到所屬簇中心的距離,并將距離的平方和相加即得到誤差平方和SSE(sum of squares for error),用于衡量K-Means算法的聚類效果。誤差平方和SSE計(jì)算公式如下:

        公式(5)

        其中,Ci為聚類數(shù),c為簇中數(shù)據(jù)點(diǎn),即Ci中的所有樣本點(diǎn),Xi為簇i質(zhì)心,即第i簇中所有數(shù)據(jù)點(diǎn)的均值。手肘法的核心思想是選擇一個(gè)使得SSE顯著下降,但又不至于選擇過大的k值,以避免過擬合。即通過觀察不同k值下SSE的變化情況,找到一個(gè)“肘部”點(diǎn),這個(gè)點(diǎn)對(duì)應(yīng)的k值通常是一個(gè)合適的簇?cái)?shù)量。

        此外,還可以通過輪廓系數(shù)來確定,選擇系數(shù)值較大時(shí)所對(duì)應(yīng)的k值為聚類數(shù)。輪廓系數(shù)計(jì)算公式如下:

        公式(6)

        其中,ai代表樣本i到簇內(nèi)其他樣本的平均距離,bi代表樣本i到其他簇中所有樣本的平均距離的最小值。輪廓系數(shù)值S(i)綜合了樣本與其所屬簇的相似性以及其他簇的相異性,其值域?yàn)椋?1,1),越接近1表示樣本在正確的簇中且與其他簇相異度較大,即樣本的聚類效果越好;越接近-1表示樣本更適合被分到其他簇,即樣本可能被錯(cuò)誤地分配到了其他簇;接近0表示樣本可能在簇邊界上。

        4 政策文本挖掘/Policy text mining

        4.1 政策文本獲取及預(yù)處理

        筆者通過北大法寶、各地方政府官方網(wǎng)站及百度、谷歌等搜索引擎,采集中央及各地出臺(tái)的相應(yīng)政策文本作為政策供給端進(jìn)行文本挖掘?!皵?shù)字鄉(xiāng)村”戰(zhàn)略于2018年中央一號(hào)文件首次提出,政策樣本較少,而2017年黨的十九大報(bào)告中“鄉(xiāng)村振興”概念與數(shù)字鄉(xiāng)村戰(zhàn)略息息相關(guān),且2019年中共中央、國務(wù)院發(fā)布的《關(guān)于堅(jiān)持農(nóng)業(yè)農(nóng)村優(yōu)先發(fā)展做好“三農(nóng)”工作的若干意見》指出要全面推進(jìn)信息進(jìn)村入戶,數(shù)字鄉(xiāng)村的重點(diǎn)是農(nóng)村的信息化。因此,基于最大努力采集原則,以“數(shù)字鄉(xiāng)村”“農(nóng)業(yè)信息化”“農(nóng)村信息化”“農(nóng)業(yè)農(nóng)村現(xiàn)代化”等為關(guān)鍵詞進(jìn)行檢索,以2017年作為政策文本采集的起始年份,時(shí)間區(qū)間為2017年1月至2023年7月。對(duì)采集到的每份政策文本進(jìn)行詞頻統(tǒng)計(jì)及人工檢查,根據(jù)詞頻統(tǒng)計(jì),刪除文本中不包含或只出現(xiàn)一兩次“數(shù)字鄉(xiāng)村”概念的政策,確保政策文本均圍繞“數(shù)字鄉(xiāng)村”或“鄉(xiāng)村振興”為主題而展開,政策之間有較大的趨同性,保存信息完整且相關(guān)度較高的政策文本,最終采集到163份相關(guān)政策以進(jìn)行后續(xù)的政策量化研究,其中包括17份中央文件和146份地方文件。

        采集的政策文本有pdf、doc和txt等不同格式文檔,通過數(shù)據(jù)清洗將所有政策文本文檔轉(zhuǎn)換成utf-8編碼的txt文檔,并利用Python語言對(duì)txt格式的政策文本進(jìn)行文本預(yù)處理。考慮到政策文本與基本數(shù)據(jù)的區(qū)別及其具有的特殊性,筆者通過jieba第三方庫對(duì)政策文本進(jìn)行中文分詞。使用自定義的保留詞表保留分詞結(jié)果中所需詞匯,加載自定義中文停用詞表,對(duì)政策文本進(jìn)行中文分詞的同時(shí)過濾不涉及關(guān)鍵信息的詞匯。對(duì)政策文本進(jìn)行文本挖掘和詞頻分析,設(shè)置詞長(zhǎng)為2到6,降序排列出前10個(gè)高

        頻詞匯,得到高頻詞匯表,部分結(jié)果如表1所示:

        4.2 特征詞提取

        通過計(jì)算每份文檔的TF-IDF可以發(fā)現(xiàn),部分文檔的關(guān)鍵特征詞所對(duì)應(yīng)的TF-IDF最高值較低,為了保證每份政策文本都有屬于該文檔的關(guān)鍵特征詞輸出且過濾非關(guān)鍵特征詞的輸出,提取的閾值應(yīng)該較小而又不能過小。筆者將特征詞的TF-IDF值閾值設(shè)置為0.005,即每個(gè)文檔中TF-IDF值大于0.005的特征詞會(huì)被提取,每個(gè)文檔的每個(gè)詞對(duì)應(yīng)一個(gè)TF-IDF值,提取全部文檔中符合要求的特征詞及其TF-IDF值,重復(fù)值以TF-IDF值高為標(biāo)準(zhǔn),部分結(jié)果如表2所示:

        從提取的初始特征詞及其TF-IDF值可以發(fā)現(xiàn),基于詞頻角度,政策著力點(diǎn)涉及數(shù)字鄉(xiāng)村建設(shè)發(fā)展的多個(gè)領(lǐng)域,尤其是農(nóng)產(chǎn)品的信息化、數(shù)字化及標(biāo)準(zhǔn)化等,且通過設(shè)立多個(gè)示范縣、農(nóng)牧區(qū)等,不斷嘗試探索,進(jìn)行試點(diǎn)工作。同時(shí)注重領(lǐng)導(dǎo)班子的組成,組織一批有能力有遠(yuǎn)見的領(lǐng)導(dǎo)班子引領(lǐng)數(shù)字鄉(xiāng)村相關(guān)工作的推進(jìn)。

        因?yàn)椴煌呶谋局锌赡艹霈F(xiàn)同一特征詞,因此需要進(jìn)行去重復(fù)處理。利用Python的集合儲(chǔ)存特征詞,由于計(jì)算機(jī)程序識(shí)別的結(jié)果存在無關(guān)詞匯,故經(jīng)過人工篩查后,提取特征詞247個(gè)作為最終的特征詞集合。

        4.3" 詞向量訓(xùn)練

        在特征詞集合的基礎(chǔ)上,進(jìn)一步通過Gensim模塊,構(gòu)建FastText模型對(duì)詞向量進(jìn)行訓(xùn)練。借鑒范昊等利用FastText訓(xùn)練的參數(shù)設(shè)置[32],在此基礎(chǔ)上再進(jìn)行調(diào)整,最終模型參數(shù)設(shè)置如表3所示:

        根據(jù)訓(xùn)練預(yù)處理后的政策文本語料庫得到語料庫詞向量表,每個(gè)詞向量對(duì)應(yīng)一個(gè)100維的空間向量,特征詞集合中247個(gè)特征詞則對(duì)應(yīng)語料庫詞向量表中247個(gè)100維的詞向量。

        利用公式(4)計(jì)算相關(guān)詞余弦相似度。以政策文本中特征詞“數(shù)字鄉(xiāng)村”為例,遍歷特征詞集合中所有詞的相似度,得到與其相似度最高的前10個(gè)相關(guān)詞,如表4所示:

        對(duì)類似表的結(jié)果進(jìn)行人工分析比對(duì),從相關(guān)特征詞的余弦相似度來看,“數(shù)字鄉(xiāng)村”特征詞通常與“數(shù)字農(nóng)業(yè)”“數(shù)字政府”“智慧農(nóng)業(yè)”“數(shù)字經(jīng)濟(jì)”等詞一起出現(xiàn),代表它們之間的語境及含義相似或有一定的相關(guān)性。數(shù)字農(nóng)業(yè)、智慧農(nóng)業(yè)、數(shù)字技術(shù)、金融服務(wù)、網(wǎng)絡(luò)安全和信息中心等數(shù)字經(jīng)濟(jì)相關(guān)方面的數(shù)字化發(fā)展和建設(shè)助力實(shí)現(xiàn)數(shù)字鄉(xiāng)村。這些特征詞的相似性表明了數(shù)字鄉(xiāng)村在政策文本中與多個(gè)數(shù)字化、農(nóng)業(yè)農(nóng)村現(xiàn)代化和技術(shù)應(yīng)用相關(guān)詞匯相關(guān)聯(lián),這些詞匯共同構(gòu)成了數(shù)字鄉(xiāng)村發(fā)展的主題。

        相關(guān)詞余弦相似度的處理結(jié)果符合認(rèn)知邏輯,說明通過FastText模型可以訓(xùn)練得到合理的詞向量。同樣可以對(duì)政策文本其他特征詞進(jìn)行相同操作,以判斷訓(xùn)練詞向量效果是否符合預(yù)期。

        4.4" 文本聚類分析

        聚類數(shù)k值可以通過誤差平方和SSE的手肘法和輪廓系數(shù)法來確定,即公式(5)和公式(6)。手肘法通過找到一個(gè)拐點(diǎn)來平衡聚類誤差的下降與過擬合之間的權(quán)衡,即根據(jù)誤差平方和曲線的曲率變化來確定k值,曲率越大、越明顯的拐點(diǎn)處為最佳聚類數(shù)。輪廓系數(shù)能夠描述聚類后各個(gè)類別的輪廓清晰度,輪廓系數(shù)值越大聚類效果越好。在得到特征詞向量后,計(jì)算不同k值下的誤差平方和和輪廓系數(shù),結(jié)果如圖3所示:

        根據(jù)圖3,從誤差平方和SSE曲線來看,其曲率最高點(diǎn)即肘部所對(duì)應(yīng)的聚類數(shù)k值為3;從輪廓系數(shù)曲線來看,聚類數(shù)k值可以取5。因此對(duì)于本特征詞向量表的聚類而言,聚類數(shù)可以設(shè)置為3或5。然而聚類數(shù)為3時(shí)聚類數(shù)太少,無法很好刻畫不同簇類之間的關(guān)系,且聚類效果較差;聚類數(shù)為5時(shí)每個(gè)簇類樣本能夠較好地代表該簇,且簇與簇之間的關(guān)系明確,聚類效果較好。因此最終選擇基于輪廓系數(shù)得到的最佳聚類數(shù),即聚類數(shù)k為5。在確定最佳聚類數(shù)k后,通過K-means聚類算法對(duì)從政策文本中提取的特征詞進(jìn)行聚類。當(dāng)聚類數(shù)k=5時(shí),通過PCA(principal component analysis)降維將詞向量降維,繪制二維聚類散點(diǎn),見圖4。

        對(duì)政策文本中提取的特征詞進(jìn)行聚類,每簇中列出部分有代表性的樣本特征詞、特征數(shù)及相應(yīng)主題,見表5。

        對(duì)表5中所列的各個(gè)簇類的特征詞進(jìn)行解釋歸納,具體如下:

        簇類1包含的49個(gè)特征詞,主要是以政策為導(dǎo)向的數(shù)字鄉(xiāng)村、農(nóng)業(yè)農(nóng)村現(xiàn)代化的主要實(shí)施重點(diǎn)地區(qū),多為區(qū)縣級(jí)地區(qū);簇類2包含的99個(gè)特征詞,在所有簇中特征詞數(shù)最多,主要是出臺(tái)或?qū)嵤?shù)字鄉(xiāng)村、農(nóng)業(yè)農(nóng)村現(xiàn)代化等政策落地的制定者或執(zhí)行者,以及政策標(biāo)題的主題特征詞,如市級(jí)以上各政府部門、數(shù)字經(jīng)濟(jì)、數(shù)字鄉(xiāng)村等;簇類1和簇類2包含的特征詞數(shù)最多,地理信息最為明確,由此可以看出各級(jí)政府部門及機(jī)構(gòu)非常注重?cái)?shù)字鄉(xiāng)村、數(shù)字農(nóng)業(yè)、鄉(xiāng)村振興建設(shè),多個(gè)部門單位不斷出臺(tái)相關(guān)政策并在各區(qū)縣進(jìn)行試點(diǎn)工作,積極關(guān)注和推動(dòng)數(shù)字鄉(xiāng)村、數(shù)字農(nóng)業(yè)、農(nóng)業(yè)農(nóng)村現(xiàn)代化的發(fā)展建設(shè),爭(zhēng)取實(shí)現(xiàn)鄉(xiāng)村振興戰(zhàn)略目標(biāo)。

        簇類3包含28個(gè)特征詞,主要包含數(shù)字鄉(xiāng)村、農(nóng)業(yè)農(nóng)村現(xiàn)代化建設(shè)所涉及的農(nóng)業(yè)和產(chǎn)業(yè)相關(guān)產(chǎn)品、場(chǎng)地及其標(biāo)準(zhǔn),如優(yōu)質(zhì)稻、農(nóng)業(yè)產(chǎn)業(yè)、養(yǎng)殖場(chǎng)與標(biāo)準(zhǔn)化等,這部分特征詞反映了實(shí)現(xiàn)數(shù)字鄉(xiāng)村、農(nóng)業(yè)農(nóng)村現(xiàn)代化的根基以及鄉(xiāng)村建設(shè)的主要任務(wù),政策引導(dǎo)鼓勵(lì)多樣化農(nóng)業(yè)產(chǎn)業(yè)以提高農(nóng)業(yè)農(nóng)村現(xiàn)代化水平,建設(shè)農(nóng)村產(chǎn)業(yè)園區(qū)以推動(dòng)農(nóng)村產(chǎn)業(yè)升級(jí)及現(xiàn)代化,積極推動(dòng)農(nóng)產(chǎn)品生產(chǎn)的產(chǎn)業(yè)化、機(jī)械化和標(biāo)準(zhǔn)化生產(chǎn),把控農(nóng)產(chǎn)品品控以提高市場(chǎng)競(jìng)爭(zhēng)力,開發(fā)特色農(nóng)業(yè)和農(nóng)村旅游業(yè)以激活農(nóng)村活力,增加農(nóng)民收入,促進(jìn)鄉(xiāng)村發(fā)展。

        簇類4包含41個(gè)特征詞,主要涉及經(jīng)濟(jì)、合作社、服務(wù)等一系列與數(shù)字鄉(xiāng)村建設(shè)相關(guān)的多方面特征詞,代表政策文本中經(jīng)濟(jì)發(fā)展、合作機(jī)制以及社會(huì)服務(wù)與效益等方面的主題,特征詞中包括電子商務(wù)、合作社等交易方式相關(guān)詞匯,表明政策鼓勵(lì)支持農(nóng)村地區(qū)發(fā)展電子商務(wù)和農(nóng)村合作社,以促進(jìn)農(nóng)產(chǎn)品上行,提高農(nóng)民收入,促進(jìn)合作社模式發(fā)展,提高資源利用率。政策特征詞還強(qiáng)調(diào)與科研單位合作的重要性和農(nóng)業(yè)科技的重要性,鼓勵(lì)農(nóng)村地區(qū)與科研機(jī)構(gòu)合作,引入先進(jìn)農(nóng)業(yè)科技,以提高農(nóng)業(yè)生產(chǎn)效率以及農(nóng)產(chǎn)品品質(zhì),同時(shí)強(qiáng)調(diào)環(huán)境治理和生態(tài)效率,注重農(nóng)村地區(qū)的生態(tài)環(huán)境保護(hù)和可持續(xù)發(fā)展,以確保農(nóng)村現(xiàn)代化發(fā)展不會(huì)對(duì)綠水青山造成負(fù)面影響。此外,特征詞中還包括集體經(jīng)濟(jì)和責(zé)任制等詞匯,意味著政策鼓勵(lì)農(nóng)村地區(qū)建立集體經(jīng)濟(jì)組織和實(shí)行責(zé)任制管理模式,以提高農(nóng)村產(chǎn)業(yè)的管理效率和收益。

        簇類5包含30個(gè)特征詞,主要涉及信息技術(shù)、互聯(lián)網(wǎng)、數(shù)字化等與數(shù)字鄉(xiāng)村發(fā)展建設(shè)的信息手段及工具,表示政策文本中數(shù)字化與信息技術(shù)的應(yīng)用與推廣方面等主題,反映了政策層面上積極推動(dòng)數(shù)字化和智能化技術(shù)在農(nóng)村地區(qū)的應(yīng)用。其中互聯(lián)互通、互聯(lián)網(wǎng)等詞匯表明政策層面大力支持農(nóng)村地區(qū)的互聯(lián)網(wǎng)建設(shè)和信息通信基礎(chǔ)設(shè)施的發(fā)展,助力提高農(nóng)村地區(qū)數(shù)字化、信息化水平,以推動(dòng)信息傳遞和農(nóng)產(chǎn)品上行,鼓勵(lì)農(nóng)村地區(qū)采用現(xiàn)代化數(shù)字技術(shù)和智能化技術(shù)提高農(nóng)業(yè)生產(chǎn)、資源管理和農(nóng)村治理效率,同時(shí)注重鄉(xiāng)村數(shù)字經(jīng)濟(jì)的監(jiān)管,通過建立管理系統(tǒng)提高農(nóng)村資源的高效管理,保護(hù)農(nóng)村地區(qū)的信息和數(shù)據(jù)安全。

        通過聚類特征結(jié)果可以發(fā)現(xiàn):①在政策受體上,政策內(nèi)容涉及各區(qū)縣、產(chǎn)業(yè)園區(qū)、政府平臺(tái)、數(shù)據(jù)平臺(tái)、科研單位、示范園區(qū)等。②在政策視角上,政策內(nèi)容包含宏、中、微觀層面。從宏觀層面,涉及數(shù)字鄉(xiāng)村建設(shè)發(fā)展的總體目標(biāo)及任務(wù)。從中觀層面,涉及數(shù)字鄉(xiāng)村建設(shè)發(fā)展的產(chǎn)業(yè)、環(huán)境、制度、信息技術(shù)及監(jiān)管體系等。從微觀層面,涉及數(shù)字鄉(xiāng)村建設(shè)發(fā)展的具體細(xì)節(jié),如農(nóng)產(chǎn)品、標(biāo)準(zhǔn)、服務(wù)等。③在政策領(lǐng)域上,涉及知識(shí)產(chǎn)權(quán)、科技創(chuàng)新、公共安全、數(shù)字農(nóng)業(yè)、智慧文旅、新零售等;在支持措施上,涉及財(cái)稅支持、便民服務(wù)、組織領(lǐng)導(dǎo)、法律保障、網(wǎng)絡(luò)安全等;④在政策功能上,涉及加速建設(shè)、監(jiān)督考核、規(guī)范引導(dǎo)、統(tǒng)籌保障等。

        近年來數(shù)字鄉(xiāng)村相關(guān)政策制定的內(nèi)容較為全面且深刻,聚類特征結(jié)果符合預(yù)期,相關(guān)政策能夠起到促進(jìn)數(shù)字鄉(xiāng)村全面建設(shè)發(fā)展的引導(dǎo)作用。以我國農(nóng)村地區(qū)互聯(lián)網(wǎng)普及率為例,隨著政策的不斷出臺(tái)及落地,網(wǎng)絡(luò)化、信息化和數(shù)字化逐漸走入我國農(nóng)村地區(qū),據(jù)CNNIC發(fā)布的第51次《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2018年12月我國農(nóng)村地區(qū)互聯(lián)網(wǎng)普及率僅為38.4%,而到2022年12月,我國農(nóng)村地區(qū)互聯(lián)網(wǎng)普及率達(dá)到61.9%,較2018年12月提升23.5個(gè)百分點(diǎn),傳統(tǒng)領(lǐng)域應(yīng)用線上化進(jìn)程加快,推動(dòng)農(nóng)村數(shù)字化服務(wù)發(fā)展轉(zhuǎn)型,客觀表現(xiàn)出政策引領(lǐng)作用下數(shù)字鄉(xiāng)村建設(shè)發(fā)展的高速發(fā)展歷程。聚類分析結(jié)果顯示出近年來以政策為導(dǎo)向推進(jìn)數(shù)字鄉(xiāng)村建設(shè)發(fā)展的重點(diǎn)特征,但無法判斷特征聚焦重點(diǎn)及特征之間的聯(lián)系,鑒于此,通過語義網(wǎng)絡(luò)分析圖作為聚類分析的補(bǔ)充分析。

        4.5" 語義網(wǎng)絡(luò)分析

        通過語義網(wǎng)絡(luò)分析圖建立及可視化概念之間的語義關(guān)系,有助于理解文本中的語義結(jié)構(gòu),直觀了解政策文本中特征詞之間所蘊(yùn)含的關(guān)系。選擇聚類特征中的特征詞,因?yàn)榇仡?和簇類2中的特征數(shù)較多,在政策文本中的作用相似,經(jīng)過多次調(diào)整嘗試發(fā)現(xiàn)簇類1和簇類2中的特征詞在網(wǎng)絡(luò)分析中處于邊緣部分,而過多的特征詞會(huì)使得網(wǎng)絡(luò)擴(kuò)張,難以直觀捕捉重點(diǎn),因此只選擇簇類1和簇類2中的部分特征詞,同樣去除其他簇類中部分不太顯著的特征詞。設(shè)置上下文窗口大小為4,計(jì)算出特征詞共現(xiàn)矩陣,通過Gephi網(wǎng)絡(luò)分析工具進(jìn)行可視化展示,以及度、加權(quán)度、親密中心度、介數(shù)中心度等指標(biāo)的計(jì)算。網(wǎng)絡(luò)統(tǒng)計(jì)概述中,網(wǎng)絡(luò)直徑是所有節(jié)點(diǎn)對(duì)之間的平均圖距離,反映網(wǎng)絡(luò)的完整性;圖密度值越大表示網(wǎng)絡(luò)節(jié)點(diǎn)間的聯(lián)系越緊密,反之則表示節(jié)點(diǎn)間聯(lián)系越疏遠(yuǎn)。通過社會(huì)網(wǎng)絡(luò)分析繪制共現(xiàn)詞矩陣所生成的網(wǎng)絡(luò)中,網(wǎng)絡(luò)直徑為5,圖密度為0.211,得出特征詞網(wǎng)絡(luò)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果如表6所示:

        其中,度反映一個(gè)節(jié)點(diǎn)的邊的數(shù)量;加權(quán)度以實(shí)際的權(quán)重計(jì)算節(jié)點(diǎn)的度,度和加權(quán)度兩個(gè)指標(biāo)都用于描述節(jié)點(diǎn)的重要性,值越大代表該節(jié)點(diǎn)特征詞在政策中出現(xiàn)頻率高,即政策熱點(diǎn);親密中心度為節(jié)點(diǎn)所能達(dá)到的節(jié)點(diǎn)的數(shù)量除以能夠達(dá)到節(jié)點(diǎn)的最短路徑和;介數(shù)中心度為所有節(jié)點(diǎn)對(duì)之間通過該節(jié)點(diǎn)的最短路徑條數(shù),兩者用于描述節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的聯(lián)系,節(jié)點(diǎn)的親密中心度和介數(shù)中心度越大,流經(jīng)此節(jié)點(diǎn)的數(shù)據(jù)分組越多,代表該特征詞與其他特征詞在不同政策文本中出現(xiàn)次數(shù)越多;PageRank是基于PageRank算法計(jì)算的節(jié)點(diǎn)重要性。

        選擇布局為Fruchterman Reingold,參數(shù)默認(rèn),調(diào)整節(jié)點(diǎn)、邊等網(wǎng)絡(luò)圖形參數(shù),繪制出語義網(wǎng)絡(luò)圖,見圖5。

        圖5為一個(gè)包含127個(gè)節(jié)點(diǎn)和1 685個(gè)邊的無向語義網(wǎng)絡(luò)圖,從圖5中可以直觀發(fā)現(xiàn):農(nóng)產(chǎn)品、現(xiàn)代農(nóng)業(yè)、鄉(xiāng)村振興、信息化、數(shù)字農(nóng)業(yè)、數(shù)字化、產(chǎn)業(yè)園、基礎(chǔ)設(shè)施等特征詞在網(wǎng)絡(luò)圖中處于突出的中心位置,屬于網(wǎng)絡(luò)圖中的關(guān)鍵節(jié)點(diǎn),是政策文本中較為聚焦的領(lǐng)域。農(nóng)產(chǎn)品節(jié)點(diǎn)與網(wǎng)絡(luò)中大部分特征詞節(jié)點(diǎn)相連,說明農(nóng)產(chǎn)品在數(shù)字鄉(xiāng)村發(fā)展的重要地位,關(guān)于鄉(xiāng)村的發(fā)展建設(shè)都離不開農(nóng)產(chǎn)品,其中與加工業(yè)、產(chǎn)業(yè)鏈、互聯(lián)網(wǎng)、標(biāo)準(zhǔn)化、產(chǎn)業(yè)園、電子商務(wù)、數(shù)字化和現(xiàn)代農(nóng)業(yè)的邊權(quán)重都大于200,且現(xiàn)代

        農(nóng)業(yè)節(jié)點(diǎn)與產(chǎn)業(yè)園、示范區(qū)、農(nóng)業(yè)產(chǎn)業(yè)等特征詞節(jié)點(diǎn)相連,尤其與產(chǎn)業(yè)園節(jié)點(diǎn)的邊權(quán)重高達(dá)2 224,說明農(nóng)產(chǎn)品的發(fā)展需要依托于互聯(lián)網(wǎng)、數(shù)字化,基于產(chǎn)業(yè)園、示范區(qū)建設(shè),助推現(xiàn)代農(nóng)業(yè)發(fā)展,促使產(chǎn)業(yè)鏈形成,加強(qiáng)農(nóng)產(chǎn)品標(biāo)準(zhǔn)化水平,推動(dòng)農(nóng)村電商發(fā)展。數(shù)字鄉(xiāng)村節(jié)點(diǎn)與標(biāo)準(zhǔn)化、智慧農(nóng)業(yè)、信息化、數(shù)字化、基礎(chǔ)設(shè)施等特征詞節(jié)點(diǎn)也有著較高的邊權(quán)重,說明數(shù)字鄉(xiāng)村發(fā)展離不開基礎(chǔ)設(shè)施建設(shè),信息化、數(shù)字化水平的不斷提升能夠更加順利地推動(dòng)數(shù)字鄉(xiāng)村發(fā)展。物聯(lián)網(wǎng)節(jié)點(diǎn)與信息技術(shù)、互聯(lián)網(wǎng)、智能化、基礎(chǔ)設(shè)施等特征詞節(jié)點(diǎn)相連且有著較高的邊權(quán)重,說明政策中對(duì)于物聯(lián)網(wǎng)的建設(shè)發(fā)展依托于互聯(lián)網(wǎng),即物聯(lián)網(wǎng)建設(shè)離不開基礎(chǔ)設(shè)施的建設(shè)和信息技術(shù)水平、智能化水平的提升。標(biāo)準(zhǔn)化節(jié)點(diǎn)與農(nóng)產(chǎn)品、養(yǎng)殖場(chǎng)、產(chǎn)業(yè)鏈、產(chǎn)業(yè)化、現(xiàn)代農(nóng)業(yè)、畜牧業(yè)、產(chǎn)業(yè)園、示范園、農(nóng)業(yè)產(chǎn)業(yè)、農(nóng)牧業(yè)、特色產(chǎn)業(yè)等特征詞節(jié)點(diǎn)相連,涉及多個(gè)產(chǎn)業(yè)及園區(qū),說明政策引導(dǎo)的農(nóng)業(yè)產(chǎn)業(yè)發(fā)展都需要標(biāo)準(zhǔn)化的生產(chǎn)、包裝等過程,需要把關(guān)農(nóng)村農(nóng)業(yè)、產(chǎn)業(yè)各個(gè)環(huán)節(jié),以提升農(nóng)產(chǎn)品的品質(zhì)。

        語義網(wǎng)絡(luò)圖符合數(shù)字鄉(xiāng)村戰(zhàn)略發(fā)展規(guī)劃邏輯,以2023年中央一號(hào)文件為基準(zhǔn),文件中提出的第一點(diǎn)即為抓緊抓好糧食和重要農(nóng)產(chǎn)品穩(wěn)產(chǎn)保供,指出全黨工作重中之重的工作為“三農(nóng)”問題,無不彰顯著農(nóng)產(chǎn)品對(duì)于數(shù)字鄉(xiāng)村建設(shè)、鄉(xiāng)村振興戰(zhàn)略實(shí)施的重要程度,過去相關(guān)政策的語義網(wǎng)絡(luò)圖中以農(nóng)產(chǎn)品節(jié)點(diǎn)為中心發(fā)散至各個(gè)節(jié)點(diǎn),印證黨和國家一直重視以農(nóng)產(chǎn)品為核心的相關(guān)工作。此外,2023年中央一號(hào)文件還提出深入實(shí)施數(shù)字鄉(xiāng)村發(fā)展行動(dòng),推進(jìn)數(shù)字化應(yīng)用場(chǎng)景建設(shè)及推廣,加速農(nóng)業(yè)農(nóng)村大數(shù)據(jù)開發(fā)及應(yīng)用以及發(fā)展智慧農(nóng)業(yè)等,在語義網(wǎng)絡(luò)分析圖中相關(guān)節(jié)點(diǎn)同樣顯著,說明政策堅(jiān)持不懈地重視數(shù)字鄉(xiāng)村發(fā)展工作,在重點(diǎn)領(lǐng)域不斷出臺(tái)相關(guān)政策引領(lǐng)數(shù)字鄉(xiāng)村發(fā)展。以2018年中央一號(hào)文件為例,文件指出的農(nóng)村地區(qū)部分發(fā)展水平不足的現(xiàn)狀,如農(nóng)村基礎(chǔ)設(shè)施欠賬較多,鄉(xiāng)村發(fā)展整體水平、鄉(xiāng)村治理體系以及治理能力仍待強(qiáng)化等,在2023年中央一號(hào)文件中升級(jí)為加強(qiáng)鄉(xiāng)村、農(nóng)業(yè)基礎(chǔ)設(shè)施建設(shè),加強(qiáng)高標(biāo)準(zhǔn)農(nóng)田建設(shè),提升鄉(xiāng)村治理效能等,表明在政策的正確引領(lǐng)下,數(shù)字鄉(xiāng)村各領(lǐng)域在不斷完善強(qiáng)化,數(shù)字鄉(xiāng)村發(fā)展建設(shè)進(jìn)程不斷加快。

        然而,在數(shù)字鄉(xiāng)村政策實(shí)施重點(diǎn)地區(qū)與政策制定部門及政策標(biāo)題兩個(gè)簇類的特征詞之外,語義網(wǎng)絡(luò)圖也顯示出特征詞中重要程度較低的部分非關(guān)鍵節(jié)點(diǎn):服務(wù)型、管理制度、信息安全、技術(shù)規(guī)范、環(huán)境治理、科研單位、生態(tài)效益、社會(huì)效益等特征詞,而在2023年中央一號(hào)文件中提出:加速發(fā)展現(xiàn)代鄉(xiāng)村服務(wù)業(yè)、健全追溯管理制度、扎實(shí)推進(jìn)鄉(xiāng)村治理重點(diǎn)工作、建立農(nóng)業(yè)生態(tài)環(huán)境保護(hù)監(jiān)測(cè)制度等,彰顯出上述部分特征詞是當(dāng)下推進(jìn)鄉(xiāng)村振興戰(zhàn)略發(fā)展的重點(diǎn)任務(wù),暴露出過去數(shù)字鄉(xiāng)村相關(guān)政策引導(dǎo)相對(duì)薄弱的領(lǐng)域,為未來數(shù)字鄉(xiāng)村相關(guān)政策的制定指引方向。特征詞的語義網(wǎng)絡(luò)圖從另一個(gè)維度體現(xiàn)了數(shù)字鄉(xiāng)村政策的關(guān)注點(diǎn)、重點(diǎn)及聯(lián)系,可以作為聚類分析的補(bǔ)充。

        5" 結(jié)論/Conclusions

        筆者基于FastText模型和文本挖掘方法,對(duì)采集到的數(shù)字鄉(xiāng)村相關(guān)政策進(jìn)行量化分析,得到以下結(jié)論:

        數(shù)字鄉(xiāng)村相關(guān)政策已能夠構(gòu)建充足的政策語料庫。自2017年鄉(xiāng)村振興戰(zhàn)略和數(shù)字經(jīng)濟(jì)發(fā)展兩個(gè)概念提出以來,數(shù)字鄉(xiāng)村概念應(yīng)孕而生,各級(jí)政府部門不斷出臺(tái)一系列政策文件,通過分類整理能夠得到一個(gè)較為完善的數(shù)字鄉(xiāng)村政策數(shù)據(jù)集。此數(shù)據(jù)集可以被采集并用于研究和分析,以發(fā)現(xiàn)數(shù)字鄉(xiāng)村的政策特征,深入理解政策背景和內(nèi)容及未來發(fā)展趨勢(shì),從而使政策的執(zhí)行更加高效。

        從文本分析視角出發(fā),基于FastText和文本挖掘方法能夠?yàn)閿?shù)字鄉(xiāng)村政策研究提供新視野。通過聚類分析數(shù)字鄉(xiāng)村政策的重點(diǎn)、關(guān)鍵內(nèi)容,挖掘政策作用領(lǐng)域,同時(shí)語義網(wǎng)絡(luò)圖從另一維度體現(xiàn)聚類特征詞在數(shù)字鄉(xiāng)村政策中的關(guān)聯(lián)性及重要性,以發(fā)現(xiàn)政策不足之處,并探討政策演化規(guī)律以及發(fā)展規(guī)劃邏輯。本文的研究框架有利于分析數(shù)字鄉(xiāng)村政策文本中的關(guān)鍵特征信息,為數(shù)字鄉(xiāng)村政策文本量化研究提供新思路。

        從聚類分析結(jié)果可以看出:①數(shù)字鄉(xiāng)村政策作用于產(chǎn)業(yè)、環(huán)境、制度、基礎(chǔ)設(shè)施、信息技術(shù)等多領(lǐng)域,促進(jìn)數(shù)字鄉(xiāng)村建設(shè)發(fā)展;②從政策受體、政策視角、政策領(lǐng)域、支持措施和政策功能5個(gè)方面出發(fā),顯現(xiàn)出近年來數(shù)字鄉(xiāng)村相關(guān)政策制定的內(nèi)容對(duì)促進(jìn)數(shù)字鄉(xiāng)村全面建設(shè)發(fā)展起到的重要引領(lǐng)作用。

        從語義網(wǎng)絡(luò)圖可以看出:①近年來數(shù)字鄉(xiāng)村相關(guān)政策以農(nóng)產(chǎn)品、現(xiàn)代農(nóng)業(yè)、信息化等重要節(jié)點(diǎn)出發(fā),輻射數(shù)字鄉(xiāng)村建設(shè)發(fā)展的各個(gè)領(lǐng)域,并以2018年和2023年中央一號(hào)文件為例,探討數(shù)字鄉(xiāng)村政策的發(fā)展規(guī)劃邏輯;②暴露出部分過去政策中被相對(duì)弱化的特征詞,發(fā)現(xiàn)數(shù)字鄉(xiāng)村政策的演化規(guī)律具有滯后性,即地方政府響應(yīng)中央政策具有一定的時(shí)間滯后性。

        參考文獻(xiàn)/References:

        [1] 殷浩棟, 霍鵬, 汪三貴. 農(nóng)業(yè)農(nóng)村數(shù)字化轉(zhuǎn)型:現(xiàn)實(shí)表征、影響機(jī)理與推進(jìn)策略[J]. 改革, 2020(12): 48-56. (YIN H D, HUO P, WANG S G. Agricultural and rural digital transformation: realistic representation, impact mechanism and promotion strategy[J]. Reform, 2020(12): 48-56.)

        [2] 張?zhí)N萍, 欒菁. 數(shù)字經(jīng)濟(jì)賦能鄉(xiāng)村振興:理論機(jī)制、制約因素與推進(jìn)路徑[J]. 改革, 2022(5): 79-89. (ZHANG Y P, LUAN J. Digital economy enables rural revitalization: theoretical mechanism, restrictive factors and implementation path[J]. Reform, 2022(5): 79-89.)

        [3] 趙星宇, 王貴斌, 楊鵬.鄉(xiāng)村振興戰(zhàn)略背景下的數(shù)字鄉(xiāng)村建設(shè)[J]. 西北農(nóng)林科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2022, 22(6): 52-58. (ZHAO X Y, WANG G B, ZHANG P. Significance and implementation of digital village under the background rural revitalization strategy[J]. Journal of Northwest Aamp;F University (social science edition), 2022, 22(6): 52-58.)

        [4] 劉少杰. 數(shù)字鄉(xiāng)村建設(shè)懸浮的成因與對(duì)策[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2022, 39(5): 5-12. (LIU S J. Causes and countermeasures of the suspension of digital village construction[J]. Journal of China Agricultural University (social sciences), 2022, 39(5): 5-12.)

        [5] 劉艷紅, 呂鵬. 數(shù)字鄉(xiāng)村建設(shè)的目標(biāo)、成效與挑戰(zhàn)[J]. 經(jīng)濟(jì)與管理, 2022, 36(6): 25-33. (LIU Y H, Lü P. Digital village construction: goals, achievements, and challenges[J]. Economy and management, 2022, 36(6): 25-33.)

        [6] 吳文旭, 吳業(yè)苗. 數(shù)字鄉(xiāng)村建設(shè)如何促進(jìn)鄉(xiāng)村振興——基于政策法律文本的扎根理論研究[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2022, 39(5): 69-92. (WU W X, WU Y M. How can digital village construction promote rural vitalization: grounded theory research on legal and policy texts[J]. Journal of China Agricultural University (social sciences), 2022, 39(5): 69-92.)

        [7] 楊志玲, 周露. 中國數(shù)字鄉(xiāng)村治理的制度設(shè)計(jì)、實(shí)踐困境與優(yōu)化路徑[J]. 經(jīng)濟(jì)與管理, 2023, 37(5): 16-23. (YANG Z L, ZHOU L. Design of institutional governance, practical challenges, and optimization path of digital rural governance in China[J]. Economy and management, 2023, 37(5): 16-23.)

        [8] 文豐安. 數(shù)字鄉(xiāng)村建設(shè):重要性、實(shí)踐困境與治理路徑[J]. 貴州社會(huì)科學(xué), 2022(4): 147-153. (WENG F A. The construction of digital villages: significance, practical difficulty and management[J]. Guizhou social sciences, 2022(4): 147-153.)

        [9] 蘇紅鍵. 我國數(shù)字鄉(xiāng)村建設(shè)基礎(chǔ)、問題與推進(jìn)思路[J]. 城市, 2019(12): 13-22. (SU H J. Foundation, challenges and strategies on construction of smart village in China[J]. City, 2019(12): 13-22.)

        [10] 王勝, 余娜, 付銳. 數(shù)字鄉(xiāng)村建設(shè):作用機(jī)理、現(xiàn)實(shí)挑戰(zhàn)與實(shí)施策略[J]. 改革, 2021(4): 45-59. (WANG S, YU N, FU R. Digital rural construction: action mechanism, realistic challenge and implementation strategy[J]. Reform, 2021(4): 45-59.)

        [11] 趙成偉, 許竹青. 高質(zhì)量發(fā)展視閾下數(shù)字鄉(xiāng)村建設(shè)的機(jī)理、問題與策略[J]. 求是學(xué)刊, 2021, 48(5): 44-52. (ZHAO C W, XU Z Q. Mechanisms, problems, and strategies of digital villages construction under the threshold of high-quality development[J]. Seeking truth, 2021, 48(5): 44-52.)

        [12] 段堯清, 易雨潔, 姚蘭. 政策視角下數(shù)字鄉(xiāng)村建設(shè)的有效性分析[J]. 圖書情報(bào)工作, 2023, 67(6): 32-42. (DUAN Y Q, YI Y J, YAO L. An effectiveness analysis of digital village construction from the perspective of policy[J]. Library and information service, 2023, 67(6): 32-42.)

        [13] 段堯清, 吳瑾, 吳江. 我國數(shù)字鄉(xiāng)村政策的多級(jí)聯(lián)動(dòng)協(xié)同研究[J]. 圖書情報(bào)工作, 2023, 67(6): 13-21. (DUAN Y Q, WU J, WU J. Research on multi-level linkage and coordination of digital village policies in China[J]. Library and information service, 2023, 67(6): 13-21.)

        [14] 金夢(mèng)蕊, 陳玲, 段堯清. 政策信息視角下的數(shù)字鄉(xiāng)村政策與數(shù)字政府政策關(guān)聯(lián)度挖掘[J]. 圖書情報(bào)工作, 2023, 67(6): 22-31. (JIN M R, CHEN L, DUAN Y Q. Mining the correlation between digital village policy and digital government policy from the perspective of policy information[J]. Library and information service, 2023, 67(6): 22-31.)

        [15] 羅亮, 簡(jiǎn)文涵. 新時(shí)代數(shù)字鄉(xiāng)村建設(shè):目標(biāo)引領(lǐng)、行動(dòng)策略與保障要素——基于53份政策文本內(nèi)容的分析[J]. 行政與法, 2023(8): 58-69. (LUO L, JIAN W H. Digital rural construction in the new era: goal guidance, action strategy and guarantee elements——an analysis based on the content of 53 policy texts[J]. Administration and law, 2023(8): 58-69.)

        [16] 秦國偉, 李瑤, 任克強(qiáng). 數(shù)字鄉(xiāng)村建設(shè)的現(xiàn)實(shí)矛盾與優(yōu)化路徑——基于多重政策關(guān)系視角[J]. 云南民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2023, 40(1): 104-113. (QIN G W, LI Y, REN K Q. Actual contradictions and optimization paths of digital rural construction in the perspective of multiple policy relations[J]. Journal of Yunnan Minzu University (philosophy and social sciences edition), 2023, 40(1): 104-113.)

        [17] PENCHEVA I, ESTEVE M, MIKHAYLOV S J. Big data and ai–a transformational shift for government: so, what next for research?[J]. Public policy and administration, 2020, 35(1): 24-44.

        [18] POEL M, MEYER E T, SCHROEDER R. Big data for policymaking: great expectations, but with limited progress?[J]. Policy amp; internet, 2018, 10(3): 347-367.

        [19] 阮霽陽. 數(shù)字政府建設(shè)影響因素研究——基于127份政策文件的大數(shù)據(jù)分析[J]. 西南民族大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2022, 43(4): 185-191. (RUAN J Y. Research on the influencing factors of digital government construction[J]. Journal of Southwest Minzu University (humanities and social sciences edition), 2022, 43(4): 185-191.)

        [20] 韓劍, 蔡繼偉, 許亞云. 數(shù)字貿(mào)易談判與規(guī)則競(jìng)爭(zhēng)——基于區(qū)域貿(mào)易協(xié)定文本量化的研究[J]. 中國工業(yè)經(jīng)濟(jì), 2019(11): 117-135. (HAN J, CAI J W, XU Y Y. Digital trade negotiation and rule competition: a study based on text quantification of regional trade agreements[J]. China industrial economics, 2019(11): 117-135.)

        [21] 洪偉達(dá), 馬海群. 我國開放政府?dāng)?shù)據(jù)政策的演變和協(xié)同研究——基于2012-2020年政策文本的分析[J]. 情報(bào)雜志, 2021, 40(10): 139-147, 138. (HONG W D, MA H Q. Research on the evolution and coordination of open government data policy in China: analysis of policy texts based on 2012-2020[J] Journal of intelligence, 2021, 40(10): 139-147, 138.)

        [22] 范麗莉, 龔心娟. 數(shù)字經(jīng)濟(jì)時(shí)代的個(gè)人信息保護(hù):政策梳理與協(xié)同演變——基于153份政策文本的實(shí)證分析[J]. 重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)), 2022, 36(5): 90-104. (FAN L L, GONG X J. Personal information protection in the digital economy era: the policy review and collaborative analysis——an empirical analysis based on 153 policy texts[J]. Journal of Chongqing University of Technology(social science), 2022, 36(5): 90-104.)

        [23] MA S Z, GUO X Y, ZHANG H S. Policy analysis and development evaluation of digital trade: an international comparison[J].China amp; world economy, 2019, 27(3): 49-75.

        [24] 蔡冬松, 柴藝琳, 田志雄. 基于PMC指數(shù)模型的吉林省數(shù)字經(jīng)濟(jì)政策文本量化評(píng)價(jià)[J]. 情報(bào)科學(xué), 2021, 39(12): 139-145. (CAI D S, CHAI Y L, TIAN Z X. Quantitative evaluation of Jilin province digital economy policy based on PMC index model[J]. Information science, 2021, 39(12): 139-145.)

        [25] 卜令通, 張嘉偉. 基于PMC指數(shù)模型的數(shù)字經(jīng)濟(jì)政策量化評(píng)價(jià)[J]. 統(tǒng)計(jì)與決策, 2023, 39(7): 22-27. (BU L T, ZHANG J W. Quantitative evaluation of digital economy policy based on PMC index model[J]. Statistics amp; decision, 2023, 39(1): 22-27.)

        [26] 王偉光, 宋洪玲. 數(shù)字經(jīng)濟(jì)支持政策工具的量化評(píng)價(jià)——基于省際層面政策的文本分析[J]. 中國科技論壇, 2023(6): 97-107. (WANG W G, SONG H L. Quantitative evaluation of policy tools for digital economy support: text analysis based on inter-provincial level policy[J]. Forum on science and technology in China, 2023(6): 97-107.)

        [27] 康雁, 楊其越, 李浩, 等. 基于主題相似性聚類的自適應(yīng)文本分類[J]. 計(jì)算機(jī)工程, 2020, 46(3): 93-98. (KANG Y, YANG Q Y, LI H, et al. Adaptive text classification based on topic similarity clustering[J]. Computer engineering, 2020, 46(3): 93-98.)

        [28] 陳翀, 程子佳, 王傳清, 等. 基于評(píng)審意見的科技論文要點(diǎn)識(shí)別與利用[J]. 情報(bào)學(xué)報(bào), 2023, 42(5): 562-574. (CHEN C, CHENG Z J, WANG C Q, et al. Identification and utilization of key points of scientific papers based on peer review texts[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(5): 562-574.)

        [29] 霍光煜, 張勇, 孫艷豐, 等. 基于語義的檔案數(shù)據(jù)智能分類方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(6): 247-253. (HUO G Y, ZHANG Y, SUN Y F, et al. Research on archive data intelligent classification based on semantic[J]. Computer engineering and applications, 2021, 57(6): 247-253.)

        [30] 吳震, 冉曉燕, 苗權(quán), 等. 基于fastText算法的行業(yè)分類技術(shù)[J]. 北京航空航天大學(xué)學(xué)報(bào), 2022, 48(2): 193-198. (WU Z, RAN X Y, MIAO Q, et al. Industry classification technology based on fastText algorithm[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(2): 193-198.)

        [31] 張江石, 李泳暾, 冒香凝, 等. 基于NLP的煤礦事故原因分類研究[J]. 中國安全科學(xué)學(xué)報(bào), 2023, 33(6): 20-26. (ZHANG J S, LI Y T, MAO X L, et al. Study on classification of coal mine accident causes based on NLP[J]. China safety science journal, 2023, 33(6): 20-26.)

        [32] 范昊, 李鵬飛. 基于FastText字向量與雙向GRU循環(huán)神經(jīng)網(wǎng)絡(luò)的短文本情感分析研究——以微博評(píng)論文本為例[J]. 情報(bào)科學(xué), 2021, 39(4): 15-22. (FAN H, LI P F. Sentiment analysis of short text based on FastText word vector and bidirectional GRU recurrent neural network——take the microblog comment text as example[J]. Information science, 2021, 39(4): 15-22.)

        作者貢獻(xiàn)說明/Author contributions:

        唐紅濤:擬定論文選題和大綱,提出修改意見;

        余佳鵬:收集資料,分析數(shù)據(jù),撰寫初稿及修改論文;

        陳" 捷:提出修改意見,修改論文。

        Quantitative Research on Digital Rural Policy from the Perspective of Text Analysis: Based on FastText and Text Mining Methods

        Tang Hongtao1,2" Yu Jiapeng2" Chen Jie1

        1School of Economics and Trade, Hunan Technology and Business University, Changsha 410205

        2College of Science, Hunan Technology and Business University, Changsha 410205

        Abstract: [Purpose/Significance] Digital countryside is the strategic direction of rural revitalization and an important part of the construction of digital China. It is of great significance to quantitatively analyze the policy texts related to digital countryside from the perspective of text analysis and to explore the fields of policy action, the law of evolution, and the logic of development planning, in order to improve the development of the policy. [Method/Process] Firstly, text preprocessing was carried out on the policy text corpus. Second, TF-IDF was used to extract the feature words of the policy text, and the set of feature words was screened. Then, based on the FastText model, the feature words set was trained with a word vector, K-means cluster analysis was carried out and the co-occurrence matrix of feature words was constructed. Finally, the Gephi tool was used to draw the semantic network diagram. [Result/Conclusion] The cluster analysis results show that the previous digital rural policies mainly affect the construction and development of digital rural from five aspects: policy receptors, policy perspectives, policy fields, supporting measures, and policy functions, which shows the important leading role of digital rural policies in promoting the comprehensive construction and development of digital rural. The semantic network diagram reveals that the previous policies radiated various fields of digital rural construction and development with the agricultural products and modern agriculture as important nodes. The new policies have strengthened and supplemented based on the old policies, but the evolution of digital rural policies has a certain lag and exposes some relatively weak areas in the past, such as management systems, information security, and environmental governance. This study provides an important basis for the policy effect analysis and policy direction of the digital countryside.

        Keywords: digital village" " FastText" " text mining" " feature extraction" " semantic network

        Fund project(s): This work is supported by the Social Science Fund of Hunan Province titled “Hunan Practice Research on Rural Revitalization” (Grant No. 22ZDAJ013), and a Key Scientific Research Project of the Education Department of Hunan Province titled “Research on the Internal Mechanism and Realization Path of Digital Economy to Improve Urban Economic Resilience” (Grant No. 21A0382) and Hunan Graduate Research Innovation Project titled “Research on Mechanism and Effect of Digital Economy Boosting Farmers’ Income and Consumption under the background of Common Prosperity” (Grant No. CX20231142).

        Author(s): Tang Hongtao, professor, PhD, graduate supervisor; Yu Jiapeng, master candidate, corresponding author, E-mail: 1360741305@qq.com; Chen Jie, master candidate.

        Received: 2023-11-24" " Published: 2024-05-24

        基金項(xiàng)目:本文系湖南省社會(huì)科學(xué)基金重大項(xiàng)目“鄉(xiāng)村振興的湖南實(shí)踐研究”(項(xiàng)目編號(hào):22ZDAJ013)、湖南省教育廳科學(xué)研究重點(diǎn)科研項(xiàng)目“數(shù)字經(jīng)濟(jì)提升城市經(jīng)濟(jì)韌性的內(nèi)在機(jī)理與實(shí)現(xiàn)路徑研究”(項(xiàng)目編號(hào):21A0382)及湖南省研究生科研創(chuàng)新項(xiàng)目“共同富裕背景下數(shù)字經(jīng)濟(jì)助推農(nóng)民收入消費(fèi)雙提升機(jī)制及效應(yīng)研究”(項(xiàng)目編號(hào):CX20231142)研究成果之一。

        作者簡(jiǎn)介:唐紅濤,教授,博士,碩士生導(dǎo)師;余佳鵬,碩士研究生,通信作者,E-mail:1360741305@qq.com;陳捷,碩士研究生。

        收稿日期:2023-11-24" " " " 發(fā)表日期:2024-05-24

        猜你喜歡
        文本挖掘特征提取
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
        基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
        文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
        商(2016年34期)2016-11-24 16:28:51
        從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
        慧眼識(shí)璞玉,妙手煉渾金
        文本觀點(diǎn)挖掘和情感分析的研究
        国产一区二区三区青青草| 精品国品一二三产品区别在线观看| 国产香蕉国产精品偷在线| 久精品国产欧美亚洲色aⅴ大片| 亚洲精品国产综合一线久久| 人妻中文字幕av有码在线| 亚洲精品一区二区在线免费观看| 丰满少妇被粗大猛烈进人高清| 一本大道东京热无码| 久久99久久99精品免视看国产成人 | 国产成人无码精品午夜福利a| 国产91第一页| 亚洲国产成人av第一二三区 | 国产女优一区在线观看| 日韩精品久久久久久免费| 国产欧美日韩视频一区二区三区| 国产亚洲高清在线精品不卡| 福利利视频在线观看免费| 久久www免费人成精品| 日韩在线无| 亚洲高清一区二区三区视频| 日本熟女中文字幕在线| 男人靠女人免费视频网站| 女人体免费一区二区| 国产在线视频一区二区三区| 亚洲中文字幕无码av永久| 中文字幕人妻丝袜美腿乱| 久久久99精品视频| 日本午夜精品一区二区三区| 中国少妇内射xxxx狠干| 96精品在线| 一区二区三区免费自拍偷拍视频| 色多多性虎精品无码av| 久久人人97超碰超国产| 国产高清丝袜美腿视频在线观看| 亚洲精品午夜久久久九九| 国产福利永久在线视频无毒不卡 | 国产毛片一区二区三区| 亚洲性无码av中文字幕| 久久精品无码免费不卡| 久久99久久久无码国产精品色戒|