摘要:文章探討了如何利用文本挖掘與自然語言處理(NLP)技術(shù),對12345市民服務(wù)熱線數(shù)據(jù)進(jìn)行深度分析,以揭示當(dāng)前科技人才政策相關(guān)的社會需求、關(guān)注熱點及存在問題。通過對12345熱線海量非結(jié)構(gòu)化數(shù)據(jù)的智能解析及研究,文章構(gòu)建了一套識別科技人才政策訴求的主題模型,旨在為政府科技人才政策制定提供更為精確的需求導(dǎo)向和決策依據(jù)。
關(guān)鍵詞:12345熱線;文本挖掘;科技人才政策分析
中圖分類號:C962文獻(xiàn)標(biāo)志碼:A
0引言黨的二十大報告指出:“教育、科技、人才是全面建設(shè)社會主義現(xiàn)代化國家的基礎(chǔ)性、戰(zhàn)略性支撐”。這一重要論斷闡釋了新時代實施科教興國戰(zhàn)略、強化現(xiàn)代化建設(shè)人才支撐的重大戰(zhàn)略意義,明確了建設(shè)教育強國、科技強國、人才強國的出發(fā)點??萍紕?chuàng)新是推動社會經(jīng)濟(jì)持續(xù)發(fā)展和國家競爭力提升的關(guān)鍵驅(qū)動力,而科技人才則是實現(xiàn)這一驅(qū)動的核心資源和戰(zhàn)略支撐??萍寂c人才是相互促進(jìn)、相輔相成的關(guān)系。在現(xiàn)代社會中,兩者共同構(gòu)成了國家和地區(qū)競爭力的核心要素。吸引人才和培養(yǎng)人才是當(dāng)前地方政府推動產(chǎn)業(yè)轉(zhuǎn)型和經(jīng)濟(jì)可持續(xù)發(fā)展的重要手段。地方政府基于對人才的需求出臺了大量的科技人才政策,這不僅是驅(qū)動地方科技進(jìn)步、經(jīng)濟(jì)發(fā)展的重要手段,也是影響區(qū)域長期競爭力和社會進(jìn)步的關(guān)鍵因素。有效的科技人才政策不僅能夠吸引、培養(yǎng)和留住高端科技人才,還能激發(fā)各類人才的創(chuàng)新活力,促進(jìn)科技成果的轉(zhuǎn)化與應(yīng)用,從而助力政府科技創(chuàng)新體系的建設(shè)和完善[1]。
12345熱線作為政府政策咨詢服務(wù)的重要窗口,廣大科技人才可通過12345熱線平臺咨詢和反饋針對科技人才政策及執(zhí)行情況的意見和建議,讓12345熱線平臺積累了大量的科技人才政策與科技人才需求的適配信息??萍既瞬耪叻?wù)信息中蘊含著豐富的人才適配需求和社會關(guān)切,這些咨詢反饋信息直接反映了政策執(zhí)行的實際效果以及社會各界對科技人才政策的關(guān)注焦點和潛在問題。
學(xué)界關(guān)于政府熱線數(shù)據(jù)分析的研究比較豐富,針對政務(wù)熱線本身的研究,鄭躍平[2]通過對28個大中城市政務(wù)熱線的調(diào)查研究總結(jié)了政務(wù)熱線的服務(wù)效率依舊不高、機(jī)構(gòu)設(shè)置和管理體制不夠規(guī)范、職責(zé)定位尚不清晰、缺乏統(tǒng)一的標(biāo)準(zhǔn)化管理機(jī)制和服務(wù)要求、人才隊伍有待進(jìn)一步加強等問題。此外,政務(wù)熱線的平臺,有效聯(lián)系了政府與公眾,促進(jìn)了政府回應(yīng)和市民參與,形成了以政務(wù)熱線為紐帶的協(xié)同治理機(jī)制。鄭躍平[2]認(rèn)為,政務(wù)熱線是政府與公民之間的互動的重要渠道之一,是政府與公眾之間、政府跨層級與部門之間協(xié)同推動問題解決的樞紐。王芳等[3-4]從文本挖掘技術(shù)的發(fā)展入手,結(jié)合政府熱線的實際工作需求,探討了文本挖掘技術(shù)在政府熱線中的應(yīng)用價值和潛力,通過對現(xiàn)有研究的綜述和分析,提出了未來研究的方向和展望。李燕等[5-8]從科技人才政策評價的實際需求出發(fā),將文本挖掘技術(shù)與科技人才政策研究相結(jié)合,通過實際案例的應(yīng)用和分析,揭示了文本挖掘在科技人才政策特征研究中的方法和價值,研究結(jié)論和實踐啟示為該領(lǐng)域的政策制定和實施提供了有益參考。綜上所述,現(xiàn)階段關(guān)于政府熱線的研究大多關(guān)注的是政務(wù)熱線對整體治理協(xié)同能力的提升,緊緊圍繞熱線自身運營與建設(shè)情況研究,且大多數(shù)研究在質(zhì)性研究方法的基礎(chǔ)之上,缺乏多學(xué)科視角與多種研究方式并存,較少有研究從具體的政策領(lǐng)域出發(fā),關(guān)注政務(wù)熱線對某一政策領(lǐng)域的賦能,無法對具體人才政策服務(wù)場景提供具體的指導(dǎo)和建議。目前,政府熱線針對科技人才政策數(shù)據(jù)的深度研究尚未有見,本文結(jié)合政府熱線與科技人才政策在數(shù)據(jù)文本挖掘與分析做了有益的嘗試,獲得了良好的效果。
本文主要是利用12345平臺的海量數(shù)據(jù),提取科技人才政策與人才的政策需求適配信息,能夠更加細(xì)致和高效地利用政務(wù)熱線的信息,充分發(fā)揮數(shù)據(jù)要素價值。同時,利用文本挖掘和自然語言處理(NLP)技術(shù)對12345熱線數(shù)據(jù)進(jìn)行深度分析,并引入人工智能機(jī)器學(xué)習(xí)方法對大量非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行清洗、分類、關(guān)鍵詞提取、情感分析以及主題建模等系列操作,系統(tǒng)性地揭示科技人才政策相關(guān)的實際需求、熱點議題及存在的痛點難點,進(jìn)而為政策制定者提供基于真實數(shù)據(jù)的決策依據(jù),以確保科技人才政策更加貼近社會實際需求,同時為具體的治理實踐提供依據(jù),推動人才政策的制定和完善。
1研究對象與方法
1.1研究對象
本文所使用的“12345”熱線數(shù)據(jù)來自江蘇省數(shù)據(jù)局。以科技人才反映的問題作為研究對象,本文從熱線人才服務(wù)數(shù)據(jù)中提取了2023年1月—2024年2月約3萬條數(shù)據(jù)。每條數(shù)據(jù)字段包括工單編號、工單類型、生成時間、事件發(fā)生地、訴求分類、訴求內(nèi)容、辦理單位、答復(fù)意見等信息。
1.2研究方法
(1)自然語言處理技術(shù)(NLP)。12345熱線相關(guān)訴求數(shù)據(jù)為文本數(shù)據(jù),需利用文本挖掘和自然語言處理技術(shù)將相關(guān)文本信息轉(zhuǎn)化為數(shù)據(jù),識別出科技人才需求熱點與問題。
(2)無監(jiān)督機(jī)器學(xué)習(xí)算法LDA(Latent Dirichlet Allocation)。對12345熱線人才服務(wù)數(shù)據(jù)進(jìn)行主題建模,挖掘熱線服務(wù)記錄中隱藏的主體結(jié)構(gòu)和模式,從而更好地理解人才訴求的焦點、熱點問題以及潛在需求。同時進(jìn)行分類標(biāo)注,將非結(jié)構(gòu)化的服務(wù)信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。根據(jù)政策指導(dǎo)、業(yè)務(wù)需求和歷史案例,梳理出人才服務(wù)的主要類別,構(gòu)建一套詳細(xì)的分類標(biāo)簽體系。
2實證分析
2.1數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括去噪和標(biāo)準(zhǔn)化處理。去噪主要是剔除無效、重復(fù)以及無關(guān)的數(shù)據(jù)信息,如錯誤輸入、廣告信息等;標(biāo)準(zhǔn)化處理則是將數(shù)據(jù)格式統(tǒng)一化,便于后續(xù)分析操作,如時間戳的轉(zhuǎn)換、文本內(nèi)容的統(tǒng)一編碼等。本文使用的數(shù)據(jù)是熱線的原始數(shù)據(jù)。
2.2關(guān)鍵詞提取與聚類
通過TIF-IDF對12345熱線人才服務(wù)數(shù)據(jù)進(jìn)行關(guān)鍵詞提取和聚類,得出初步的主題提取結(jié)果。在分詞結(jié)果基礎(chǔ)上進(jìn)行LDA主題建模(見圖1),主題建模過程中引入“主題一致性”控制主題分類結(jié)果數(shù)量(見圖2)。以關(guān)鍵詞聚類得出的主題聚類結(jié)果為參考,綜合LDA模型的分類結(jié)果和相應(yīng)主題類下的關(guān)鍵詞,經(jīng)過主題儲選和合并獲得最終的主題提取結(jié)果?;谔崛〕龅闹黝}按照區(qū)域、時間等特征進(jìn)行統(tǒng)計分析和關(guān)聯(lián)分析。
主題一致性得分衡量了模型生成的主題之間的語義連貫性。得分越高,表示主題越有意義且易于理解。本文設(shè)置了主題數(shù)目從5到29遍歷,為每一個模型進(jìn)行訓(xùn)練并計算其主題一致性得分(見圖2)。
2.3分類標(biāo)注結(jié)合人工標(biāo)注和機(jī)器學(xué)習(xí)方法,對訴求進(jìn)行細(xì)致的分類標(biāo)注,以實現(xiàn)對各類科技人才政策相關(guān)訴求的精準(zhǔn)歸類。本文運用可視化工具pyLDAvis,為LDA主題模型提取出的主題分類結(jié)果繪制人才服務(wù)主題分布圖(見圖3)。圖3中每個圓圈代表一個主題,圓圈大小代表涉及的相關(guān)文本數(shù)量,圓圈之間的距離代表各主題的相似性。
對比各主題關(guān)鍵詞發(fā)現(xiàn)主題17和主題19,主題4和主題7其語義相似度確實較為接近。因此,本文將這幾個主題兩兩合并。另外,將涉及文本數(shù)最少、主題特征最不顯著的主題18作為噪聲進(jìn)行篩除,最終得到17個主題分類結(jié)果。針對人才模型分類的具體主題抽取結(jié)果如表1所示。
熱點分析上,通過統(tǒng)計分析和可視化展示,揭示出某一時間段內(nèi)科技人才政策的關(guān)注焦點及其演變趨勢。根據(jù)訓(xùn)練的LDA主題模型得出5類補貼申領(lǐng)問題主題,對全體文本進(jìn)行主題預(yù)測,得到貢獻(xiàn)百分比最高的主題分類,將得分最高的主題作為文檔代表主題進(jìn)行統(tǒng)計(見圖4)。根據(jù)熱點主題人才服務(wù)工單數(shù)量的熱點問題分布情況,可以繪制出各主題相關(guān)的人才服務(wù)考慮問題數(shù)量。
根據(jù)訓(xùn)練的LDA主題模型得出的5類人才認(rèn)證與資格主題進(jìn)行預(yù)測,得到貢獻(xiàn)百分比最高的主題分類,將得分最高的主題作為文檔代表主題進(jìn)行統(tǒng)計(見圖5)。熱點主題人才認(rèn)證與資格熱點問題分布情況,可以繪制出各主題相關(guān)的人才服務(wù)考慮問題編號數(shù)量。
本文特別對科技人才的投訴建議內(nèi)容進(jìn)行分析研究,發(fā)現(xiàn)人才聚焦人才評定、補貼、政策、配套政策等(見表2)。
3結(jié)論與建議
政務(wù)服務(wù)便民熱線是溝通政府與群眾的重要紐帶,是群眾向政府提出問題建議、推動政府高效解決服務(wù)管理問題的重要渠道[9-10]。本文選取了政務(wù)熱線這一廣泛應(yīng)用于各地政府?dāng)?shù)字化治理的典型模式,通過實證分析對12345熱線人才服務(wù)數(shù)據(jù)進(jìn)行了研究。在具體研究過程中,先對數(shù)據(jù)進(jìn)行預(yù)處理,包括去噪和標(biāo)準(zhǔn)化處理;接著采用TIF-IDF方法對數(shù)據(jù)進(jìn)行關(guān)鍵詞提取和聚類,然后利用LDA主題建模進(jìn)行主題提取。為提高主題一致性,引入了“主題一致性”方法控制主題分類數(shù)量。通過人工標(biāo)注和機(jī)器學(xué)習(xí)相結(jié)合的方法,對訴求進(jìn)行分類標(biāo)注。研究結(jié)果顯示,共得到17個人才服務(wù)主題,涵蓋了人才落戶、住房保障政策、高端人才引進(jìn)計劃等方面。此外,還對科技人才政策的關(guān)注焦點及其演變趨勢進(jìn)行了可視化展示。通過對科技人才投訴建議內(nèi)容的分析,發(fā)現(xiàn)人才關(guān)注的主要問題包括人才評定、補貼、政策和配套政策等。
本文基于文本挖掘和自然語言處理技術(shù)對12345熱線科技人才政策需求熱點與問題進(jìn)行分析,通過對人才訴求進(jìn)行分類,從需求側(cè)明確了當(dāng)前江蘇人才面臨的困境,對于指導(dǎo)相關(guān)職能部門在制定政策、落實政策中明確方向,相關(guān)建議如下:
(1)咨詢方面。進(jìn)一步拓寬人才科技政策的查詢渠道,提升人才政策查詢的便利度。
(2)人才評定方面。相關(guān)職能部門需要進(jìn)一步明確人才評定的標(biāo)準(zhǔn)、標(biāo)準(zhǔn)和流程設(shè)置的合理性、相關(guān)申報系統(tǒng)的性能,及時收集12345熱線人才的訴求,進(jìn)行分析挖掘,動態(tài)了解人才的最緊迫、最緊急的需求,以問題為導(dǎo)向,加快落實。
(3)人才補貼方面。申請條件與申請流程設(shè)置更加合理,明確人才補貼的具體要求,在補貼發(fā)放過程中及時跟蹤反饋,讓補貼真正落到實處。
本文對政務(wù)熱線中關(guān)于科技人才政策主題熱點進(jìn)行分析闡述,但是研究也存在一定局限性,首先研究方法上主要是借助文本分詞技術(shù)對文獻(xiàn)理論進(jìn)行研究,能夠發(fā)現(xiàn)人才熱點主題分類,卻無法對政策施政效果進(jìn)行關(guān)聯(lián)分析。其次,關(guān)于12345熱線中科技人才政策的分析推演過程缺乏實例支撐。鑒于此,下一步的研究可以針對12345熱線中科技人才政策施政效果開展更豐富的案例研究和關(guān)聯(lián)研究。
參考文獻(xiàn)
[1]鄭躍平,甘祺璇,張采薇,等.地方政府?dāng)?shù)據(jù)治理的現(xiàn)狀與問題——基于43個政務(wù)熱線部門的實證研究[J].電子政務(wù),2020(7):66-79.
[2]鄭躍平,梁春鼎,黃思穎.我國地方政府政務(wù)熱線發(fā)展的現(xiàn)狀與問題——基于28個大中城市政務(wù)熱線的調(diào)查研究[J].電子政務(wù),2018(12):2-17.
[3]王芳,徐健.文本挖掘在政府熱線中的應(yīng)用研究綜述[J].圖書情報工作,2021(7):128-136.
[4]陳濤,周傲英,金澈清.文本挖掘及其在社交媒體分析中的應(yīng)用綜述[J].計算機(jī)學(xué)報,2019(8):1639-1662.
[5]李燕,陳思,李輝.基于文本挖掘的科技人才政策特征研究——以中國C市為例[J].科技進(jìn)步與對策,2020(16):122-129.
[6]王紅,張濤,張偉.基于文本挖掘的政府熱線數(shù)據(jù)智能分析與應(yīng)用研究[J].現(xiàn)代情報,2020(6):127-133.
[7]劉志明,劉魯.文本挖掘在政府熱線中的應(yīng)用研究[J].電子政務(wù),2019(8):22-31.
[8]馬費成,宋恩梅.文本挖掘:概念、方法與應(yīng)用[J].武漢大學(xué)學(xué)報(人文科學(xué)版),2018(1):1-10.
[9]胡廣偉,張軍,方瑜.基于文本挖掘的政府公共服務(wù)熱線研究綜述[J].信息資源管理學(xué)報,2017(4):1-8.
[10]張玉峰,李燕,陳思.基于文本挖掘的科技人才政策評價研究[J].科技管理研究,2017(19):147-153.
(編輯李春燕)
Analysis and research of Jiangsu science and technology talent service data
based on 12345 hotline demandsHUANG" Juan, ZHANG" Hao, ZHOU" Binbin
(Jiangsu Provincial Government Service Network Operation and Management Center, NanJing 210000, China)Abstract:" This article explores how to utilize text mining and Natural Language Processing (NLP) technologies to conduct in-depth analysis of data from the 12345 Hotline, with the aim of revealing current societal demands, focus points, and existing issues related to science and technology talent policies. By intelligently parsing and studying the vast amount of unstructured data from the 12345 Hotline, a thematic model has been constructed that identifies policy appeals concerning science and technology talents. The objective is to provide more precise demand-oriented guidance and decision-making references for the formulation of science and technology talent policies.
Key words: 12345 hotline; text mining; science and technology talent policy analysis