陳一
摘要:為研究國(guó)家對(duì)知識(shí)產(chǎn)權(quán)保護(hù)的重點(diǎn)關(guān)注領(lǐng)域,更好地發(fā)揮知識(shí)產(chǎn)權(quán)保護(hù)在創(chuàng)新和發(fā)展中的重要作用。運(yùn)用Python對(duì)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)2020年發(fā)布的關(guān)于知識(shí)產(chǎn)權(quán)保護(hù)文本進(jìn)行爬蟲(chóng),再運(yùn)用jieba和wordcloud制作詞云,分析國(guó)家對(duì)知識(shí)產(chǎn)權(quán)保護(hù)的側(cè)重點(diǎn)。
關(guān)鍵詞:知識(shí)產(chǎn)權(quán)保護(hù);Python;爬蟲(chóng);詞云
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)19-0118-02
Research on Crawler and Wordcloud of Intellectual Property Protection Text
CHEN Yi
(School of Management and Economics,Kunming University of Science and Technology,Kunming 650000,China)
Abstract: In order to study the key areas of national attention on intellectual property protection, intellectual property protection can play an important role in innovation and development better. Python was used to crawl the text on intellectual property protection published on the official website of the State Intellectual Property Office in 2020, and jieba and wordcloud were used to make word clouds to analyze the state's emphasis on intellectual property protection.
Key words: intellectual property protection; Python; crawler; wordcloud
1引言
2020年我國(guó)科技領(lǐng)域多項(xiàng)關(guān)鍵技術(shù)受到實(shí)體清單限制,面對(duì)“卡脖子”問(wèn)題,“科技創(chuàng)新是根,知識(shí)產(chǎn)權(quán)是魂?!敝R(shí)產(chǎn)權(quán)保護(hù)在激勵(lì)創(chuàng)新中發(fā)揮著重要作用,為應(yīng)對(duì)復(fù)雜的國(guó)際格局和全球經(jīng)濟(jì)變革,國(guó)家高度重視知識(shí)產(chǎn)權(quán)保護(hù)。中共中央政治局于2020年11月30日就加強(qiáng)我國(guó)知識(shí)產(chǎn)權(quán)保護(hù)工作舉行第二十五次集體學(xué)習(xí)。習(xí)近平總書(shū)記強(qiáng)調(diào),知識(shí)產(chǎn)權(quán)保護(hù)工作關(guān)系國(guó)家治理體系和治理能力現(xiàn)代化,關(guān)系高質(zhì)量發(fā)展,關(guān)系人民生活幸福,關(guān)系國(guó)家對(duì)外開(kāi)放大局,關(guān)系國(guó)家安全。本文選擇國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)(https://www.cnipa.gov.cn/),運(yùn)用python對(duì)2020年關(guān)于“知識(shí)產(chǎn)權(quán)保護(hù)”的文本進(jìn)行爬蟲(chóng),并清洗文本數(shù)據(jù),然后通過(guò)爬取的文本制作詞云,分析國(guó)家對(duì)知識(shí)產(chǎn)權(quán)保護(hù)的重點(diǎn)關(guān)注領(lǐng)域。
2相關(guān)技術(shù)介紹
Python是一種跨平臺(tái)、開(kāi)源、免費(fèi)的解釋型高級(jí)動(dòng)態(tài)編程語(yǔ)言。[1] Python語(yǔ)言具有語(yǔ)法簡(jiǎn)潔、生態(tài)豐富、多語(yǔ)言集成的特點(diǎn),近年來(lái)得到了迅猛發(fā)展和廣泛運(yùn)用。
爬蟲(chóng),是一個(gè)可以自動(dòng)提取互聯(lián)網(wǎng)上特定頁(yè)面內(nèi)容的程序,通過(guò)向網(wǎng)站發(fā)起請(qǐng)求,獲取資源后分析并提取有用數(shù)據(jù)。[2]爬蟲(chóng)的架構(gòu)由爬蟲(chóng)調(diào)度端、爬蟲(chóng)核心模塊和存儲(chǔ)數(shù)據(jù)三個(gè)部分組成,爬蟲(chóng)調(diào)度端是程序的入口,主要負(fù)責(zé)爬蟲(chóng)程序的控制;爬蟲(chóng)核心模塊包括 URL 管理器、網(wǎng)頁(yè)下載器和網(wǎng)頁(yè)解析器。[3]使用 Python 編寫爬蟲(chóng)具有優(yōu)勢(shì),Python易于配置的腳本特性,在處理字符時(shí)非常靈活,Python還有強(qiáng)大的爬蟲(chóng)模塊和爬蟲(chóng)框架,能夠便捷高效地下載網(wǎng)頁(yè)。[4]
詞云是對(duì)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”進(jìn)行可視化呈現(xiàn),Python通過(guò)jieba庫(kù)和 wordcloud庫(kù)完成關(guān)鍵詞的抽取和詞云生成。[5] “結(jié)巴”分詞是一個(gè) Python 中文分詞組件,可以對(duì)中文文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞抽取等功能,[6]文本分析適合采用精確模式分詞。wordcloud 庫(kù)是 python詞云制作的第三方庫(kù)。詞云以詞語(yǔ)為基本單位更加直觀和藝術(shù)地展示文本,它可以將文本中詞語(yǔ)出現(xiàn)的頻率作為一個(gè)參數(shù)繪制詞云,而詞云的大小、顏色、形狀等屬性都可以設(shè)定。[7]生成詞云需要配置對(duì)象參數(shù)、加載詞云文本、輸出保存詞云文件三個(gè)步驟。[8]
3案例研究
國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)是中國(guó)發(fā)布知識(shí)產(chǎn)權(quán)信息的官方網(wǎng)站,從國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)獲取的關(guān)于知識(shí)產(chǎn)權(quán)保護(hù)的信息具有權(quán)威性和可靠性。運(yùn)用Python語(yǔ)言編寫爬蟲(chóng)程序,從國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)(https://www.cnipa.gov.cn/)上獲取2020年關(guān)于知識(shí)產(chǎn)權(quán)保護(hù)的文本,爬蟲(chóng)的步驟分為四步:第一步,通過(guò)request庫(kù)的get方法向目標(biāo)站點(diǎn)服務(wù)器發(fā)出請(qǐng)求;第二步,獲得請(qǐng)求響應(yīng)的內(nèi)容,返回Response對(duì)象;第三步,解析網(wǎng)頁(yè)內(nèi)容;第四步:處理解析出的網(wǎng)頁(yè)內(nèi)容,提取重要的信息,進(jìn)行格式化輸出并保存。輸出結(jié)果利用pandas的duplicated()方法檢查重復(fù)的數(shù)據(jù),使用drop_duplicates()函數(shù)完成去重。通過(guò)Python爬蟲(chóng)獲取2020年國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識(shí)產(chǎn)權(quán)保護(hù)的文本信息如圖1所示。
在爬取的2020年國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識(shí)產(chǎn)權(quán)保護(hù)的文本信息的基礎(chǔ)上,采用中文分詞庫(kù) jieba 對(duì)知識(shí)產(chǎn)權(quán)保護(hù)文本的標(biāo)題和內(nèi)容進(jìn)行行分詞,并使用哈工大停用詞表過(guò)濾,再通過(guò) wordcloud 庫(kù)用統(tǒng)計(jì)出來(lái)的高頻詞制作詞云。2020年知識(shí)產(chǎn)權(quán)保護(hù)文本的詞云如圖2所示。
4結(jié)論
知識(shí)產(chǎn)權(quán)保護(hù)是國(guó)家應(yīng)對(duì)發(fā)展和挑戰(zhàn)的重要戰(zhàn)略部署,通過(guò)對(duì)2020年國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識(shí)產(chǎn)權(quán)保護(hù)的文本信息爬蟲(chóng)與詞云化,可以分析出國(guó)家對(duì)于知識(shí)產(chǎn)權(quán)保護(hù)的側(cè)重點(diǎn)。要提高知識(shí)產(chǎn)權(quán)保護(hù)工作法治化水平,強(qiáng)化知識(shí)產(chǎn)權(quán)全鏈條保護(hù),深化知識(shí)產(chǎn)權(quán)保護(hù)工作體制機(jī)制改革,推進(jìn)知識(shí)產(chǎn)權(quán)領(lǐng)域國(guó)際合作和競(jìng)爭(zhēng),積極發(fā)揮知識(shí)產(chǎn)權(quán)保護(hù)在促進(jìn)改革與發(fā)展以及維護(hù)國(guó)家安全發(fā)面的重要作用。數(shù)據(jù)技術(shù)時(shí)代,要充分運(yùn)用文本挖掘技術(shù)對(duì)政策進(jìn)行研究,為科學(xué)執(zhí)政提供有利參考。
參考文獻(xiàn):
[1] 方芳.基于Scrapy框架京東網(wǎng)站筆記本電腦評(píng)論數(shù)據(jù)爬取和分析[J].電腦知識(shí)與技術(shù),2020,16(6):7-9.
[2] 張艷,吳玉全.基于Python的網(wǎng)絡(luò)數(shù)據(jù)爬蟲(chóng)程序設(shè)計(jì)[J].電腦編程技巧與維護(hù),2020(4):26-27.
[3] 吳永聰.淺談Python爬蟲(chóng)技術(shù)的網(wǎng)頁(yè)數(shù)據(jù)抓取與分析[J].計(jì)算機(jī)時(shí)代,2019(8):94-96.
[4] 翟普.python網(wǎng)絡(luò)爬蟲(chóng)爬取策略對(duì)比分析[J].電腦知識(shí)與技術(shù),2020,16(1):29-30,34.
[5] 嚴(yán)明,鄭昌興.Python環(huán)境下的文本分詞與詞云制作[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2018(34):86-89.
[6] 馮與詰.詞云生成系統(tǒng)的構(gòu)建[J].通訊世界,2019,26(3):190-192.
[7] 裴麗麗.基于Python語(yǔ)言對(duì)電影影評(píng)數(shù)據(jù)爬蟲(chóng)與詞云制作[J].信息記錄材料,2020,21(5):116-118.
[8] 徐博龍.應(yīng)用Jieba和Wordcloud庫(kù)的詞云設(shè)計(jì)與優(yōu)化[J].福建電腦,2019,35(6):25-28.
【通聯(lián)編輯:王力】