亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        政務(wù)服務(wù)大數(shù)據(jù)報(bào)告的技術(shù)原理分析

        2018-05-16 05:06:56鄭榮新齊同軍
        信息化建設(shè) 2018年2期
        關(guān)鍵詞:可視化報(bào)告分析

        鄭榮新 齊同軍

        政務(wù)服務(wù)大數(shù)據(jù)報(bào)告是針對(duì)政務(wù)服務(wù)的,主要反映了政務(wù)服務(wù)的社情民意和輿情動(dòng)向,梳理并客觀呈現(xiàn)政務(wù)服務(wù)的輿情熱點(diǎn)、黨和政府政務(wù)方針政策及反饋、治國(guó)理政體系及能力建設(shè)、政務(wù)服務(wù)新思想、新技術(shù)、新做法、新經(jīng)驗(yàn)等有關(guān)政務(wù)服務(wù)的一切資訊。同時(shí),介紹境外媒體網(wǎng)站上對(duì)中國(guó)政務(wù)服務(wù)的評(píng)論,關(guān)注國(guó)際重大事件特別是對(duì)中國(guó)政務(wù)服務(wù)有影響的事件,幫助領(lǐng)導(dǎo)干部拓展視野,更好地做好政務(wù)服務(wù)工作,在問(wèn)責(zé)制年代為領(lǐng)導(dǎo)干部提供應(yīng)對(duì)參考。

        對(duì)一個(gè)政務(wù)服務(wù)大數(shù)據(jù)報(bào)告來(lái)說(shuō),它的基本流程有以下六步:明確分析的目的,確定關(guān)鍵詞和分析角度;進(jìn)行數(shù)據(jù)采集和預(yù)處理;進(jìn)行數(shù)據(jù)儲(chǔ)存、索引和編目;進(jìn)行數(shù)據(jù)的分析,得出分析結(jié)果;進(jìn)行可視化展現(xiàn),直觀反映分析結(jié)果;編寫(xiě)大數(shù)據(jù)報(bào)告,得出最終結(jié)論。在這六步中間,還貫穿著自然語(yǔ)言處理的步驟。

        明確分析目的

        用戶提出一個(gè)政務(wù)服務(wù)大數(shù)據(jù)報(bào)告的生成需求后,首先由相關(guān)的技術(shù)人員把這個(gè)報(bào)告的題目進(jìn)行分解,明確分析的目的,確定數(shù)據(jù)分析的對(duì)象。然后決定要獲取哪些數(shù)據(jù)進(jìn)行分析,從什么角度來(lái)分析,以及分析的關(guān)鍵詞等等。最后決定數(shù)據(jù)采集的來(lái)源。

        明確分析目的是大數(shù)據(jù)報(bào)告生成的第一步,如果這一步的方向錯(cuò)誤,那么后面的全部步驟都是無(wú)用功。為了保證這一步的正確性,目的分析都是由經(jīng)驗(yàn)豐富的技術(shù)人員來(lái)?yè)?dān)任,并且在目的分析完成后,也要和用戶反復(fù)的溝通,直到確定充分理解了用戶的需求,才會(huì)進(jìn)行后面的操作步驟。

        對(duì)政務(wù)服務(wù)大數(shù)據(jù)報(bào)告的目的分析而言,這一步都是人工操作,沒(méi)有人工智能或者算法能夠代替。特別是數(shù)據(jù)采集的來(lái)源,通常都是由技術(shù)人員和用戶來(lái)定義,無(wú)法像傳統(tǒng)的搜索引擎一樣,能夠?qū)φ麄€(gè)Internet網(wǎng)進(jìn)行全面的搜索。但是隨著大數(shù)據(jù)的逐漸發(fā)展,最終它的數(shù)據(jù)來(lái)源會(huì)面向整個(gè)Internet網(wǎng)絡(luò)。

        分析的角度更是多樣化,有地域劃分、時(shí)間范圍、用戶類別、各類排名、滿意度、支持度、活躍度、關(guān)注度等等。對(duì)政務(wù)服務(wù)而言,用戶的情緒是一個(gè)很重要的分析角度。

        同一個(gè)問(wèn)題,分析角度不一樣,得出的結(jié)論會(huì)有很大的偏差,所以,選擇合適的分析角度也是非常重要,大數(shù)據(jù)報(bào)告應(yīng)該盡可能多的選擇不同的分析角度給出結(jié)論。

        數(shù)據(jù)采集和預(yù)處理

        大數(shù)據(jù)技術(shù)中最重要的一環(huán)就是數(shù)據(jù)采集,也叫數(shù)據(jù)挖掘。它是通過(guò)數(shù)據(jù)爬取軟件平臺(tái)實(shí)現(xiàn)的。

        數(shù)據(jù)爬取不限定于某種編程語(yǔ)言,也不限定于某種操作系統(tǒng)。不管是Java語(yǔ)言+Linux操作系統(tǒng),還是C#語(yǔ)言+Windows操作系統(tǒng)等等,都可以勝任數(shù)據(jù)爬取的工作。

        同樣,數(shù)據(jù)的來(lái)源也是多種多樣,對(duì)政務(wù)服務(wù)大數(shù)據(jù)報(bào)告來(lái)說(shuō),數(shù)據(jù)來(lái)源可以是由爬取平臺(tái)在相關(guān)政務(wù)網(wǎng)站上爬取,也可以由填報(bào)系統(tǒng)人工錄入,也可以從Excel文檔導(dǎo)入,甚至還可以從相關(guān)的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)直接讀取。

        那么政務(wù)服務(wù)數(shù)據(jù)采集是從哪些網(wǎng)站來(lái)獲取數(shù)據(jù)的呢?主要是當(dāng)?shù)氐氖∈锌h政務(wù)網(wǎng)站、國(guó)內(nèi)知名的新聞網(wǎng)站的政務(wù)版塊,以及一些國(guó)內(nèi)知名論壇的相關(guān)版塊。

        一般來(lái)說(shuō),用戶可以自建數(shù)據(jù)挖掘平臺(tái),但是也可以付費(fèi)使用第三方的數(shù)據(jù)挖掘平臺(tái)。在大數(shù)據(jù)報(bào)告生成中,付費(fèi)使用第三方的挖掘平臺(tái)的數(shù)據(jù),是一件很常見(jiàn)的事情。一定程度上的數(shù)據(jù)共享,可以有效節(jié)約時(shí)間和成本,對(duì)大數(shù)據(jù)報(bào)告的生成是非常有利的。

        數(shù)據(jù)爬取需要爬蟲(chóng)程序,從本質(zhì)上來(lái)說(shuō),爬蟲(chóng)就是一個(gè)能夠多線程運(yùn)行的程序。它使用HTTP協(xié)議,根據(jù)設(shè)定好的爬取規(guī)則,通過(guò)GET和POST命令,得到相關(guān)網(wǎng)頁(yè)的源數(shù)據(jù)。然后通過(guò)一些程序插件去除里面的HTML、CSS修飾符和JS腳本等無(wú)效字符,得到數(shù)據(jù)分析所需要的文本數(shù)據(jù)。

        數(shù)據(jù)的爬取規(guī)則,經(jīng)常采用XML文檔來(lái)保存,因?yàn)閄ML文檔里,可以定義非常復(fù)雜的爬取規(guī)則,讀取和編輯也較為方便。

        每個(gè)要爬取的網(wǎng)頁(yè)的規(guī)則,通常是由程序員手工編寫(xiě),熟練的程序員一天能夠?qū)懗龊脦讉€(gè)頁(yè)面的爬取規(guī)則?,F(xiàn)在還沒(méi)有好的智能算法能夠自動(dòng)適應(yīng)不同頁(yè)面數(shù)據(jù)爬取,一旦網(wǎng)站改版或者添加新的欄目,就必須要人工重新編寫(xiě)爬取規(guī)則。

        為了保證網(wǎng)站的正常運(yùn)行,很多網(wǎng)站都有反爬手段,阻止爬蟲(chóng)占用網(wǎng)站的數(shù)據(jù)和帶寬等資源。常見(jiàn)的反爬手段有字符驗(yàn)證碼、圖片驗(yàn)證碼、鼠標(biāo)拖動(dòng)滑塊驗(yàn)證、IP訪問(wèn)限制、流量限制、用戶必須登錄等等。爬蟲(chóng)程序通常都有具有一定的反爬能力,能夠自動(dòng)處理一些簡(jiǎn)單的反爬手段,比如字符驗(yàn)證碼和IP訪問(wèn)限制等。但是對(duì)一些復(fù)雜反爬手段,也是無(wú)能無(wú)力,只能付費(fèi)買(mǎi)授權(quán)或者從第三方買(mǎi)數(shù)據(jù)。

        數(shù)據(jù)的爬取速度,通常幾個(gè)小時(shí)內(nèi),可以爬完一個(gè)小型網(wǎng)站的全部頁(yè)面,如果該網(wǎng)站的數(shù)據(jù)更新量較小,那么幾十分鐘內(nèi)就可以重新爬取一遍更新數(shù)據(jù)。爬蟲(chóng)的數(shù)量越多,爬取速度也越快,但是為了防止被限制IP和封號(hào),爬蟲(chóng)的數(shù)量對(duì)單個(gè)網(wǎng)站都不會(huì)設(shè)置太多。對(duì)政務(wù)服務(wù)網(wǎng)站來(lái)說(shuō),需要爬取頁(yè)面的數(shù)量相對(duì)較少,所以在整個(gè)大數(shù)據(jù)報(bào)告周期里,數(shù)據(jù)爬取占用的時(shí)間并不是最多的。

        數(shù)據(jù)爬取失敗報(bào)警機(jī)制是非常有必要的。如果某些網(wǎng)站數(shù)據(jù)爬取失敗,勢(shì)必影響最終的數(shù)據(jù)采集數(shù)量,從而影響最終的分析結(jié)果。

        數(shù)據(jù)爬取完成后,還要進(jìn)行數(shù)據(jù)預(yù)處理。這里的預(yù)處理一般是指根據(jù)網(wǎng)址進(jìn)行數(shù)據(jù)排重和數(shù)據(jù)清洗,把重復(fù)的和有亂碼的數(shù)據(jù)丟掉。這一步很重要,通過(guò)數(shù)據(jù)預(yù)處理,能夠刪除絕大部分的無(wú)效數(shù)據(jù),可以大大減少存儲(chǔ)數(shù)據(jù)占用的空間,同時(shí)也減少數(shù)據(jù)分析的時(shí)間和資源消耗。

        在數(shù)據(jù)爬取和數(shù)據(jù)排重、清洗的中間,還有消息中間件的存在,常見(jiàn)的如Kafka。消息中間件的作用是暫時(shí)存儲(chǔ)數(shù)據(jù),防止數(shù)據(jù)預(yù)處理跟不上數(shù)據(jù)采集的速度,從而引起采集數(shù)據(jù)的丟失。

        數(shù)據(jù)存儲(chǔ)和索引

        排重和清洗完成的數(shù)據(jù),需要封裝成便于后續(xù)處理的JSON格式,根據(jù)一定的規(guī)則,生成便于檢索的索引,也就是關(guān)鍵字,存入數(shù)據(jù)庫(kù)。

        因?yàn)閿?shù)據(jù)爬取每天要訪問(wèn)成千上萬(wàn)個(gè)網(wǎng)頁(yè),產(chǎn)生的數(shù)據(jù)量非常大,而且大數(shù)據(jù)的保存時(shí)間一般都是永久,所以通常使用HBase數(shù)據(jù)庫(kù)。

        HBase是Hadoop DataBase 的簡(jiǎn)稱,也就是基于Hadoop的數(shù)據(jù)庫(kù),是一種NoSQL數(shù)據(jù)庫(kù),主要適用于海量明細(xì)數(shù)據(jù)(十億、百億)的隨機(jī)實(shí)時(shí)查詢,如日志明細(xì)、交易清單、軌跡行為等。簡(jiǎn)單來(lái)說(shuō),它就是一種存儲(chǔ)量非常大、PB級(jí)別的、專門(mén)為大數(shù)據(jù)而生的超大型數(shù)據(jù)庫(kù)。

        數(shù)據(jù)采集到的文本數(shù)據(jù),可能是一篇政務(wù)新聞,也可能一些用戶發(fā)表的評(píng)論。

        數(shù)據(jù)的索引生成,需要對(duì)采集到的文本數(shù)據(jù)進(jìn)行分詞,經(jīng)過(guò)分詞后的數(shù)據(jù),才能有效的完成索引,便于后面的SQL查詢。

        文本的分詞,就是提取出一大段文本里面的關(guān)鍵詞。這些關(guān)鍵詞,通常都是和分析角度有關(guān)系的。

        簡(jiǎn)單的分詞處理,可以用分詞插件來(lái)完成,比如IK。但是分詞插件很死板,只有你事先定義的關(guān)鍵詞,才能幫你分詞,智能程度很低。

        如果分析角度中包含地域,那么文本數(shù)據(jù)里面全部的地名,比如省市縣的名稱,都要提取出來(lái)作為索引。同樣,如果分析角度里面包含滿意度,那么文本數(shù)據(jù)里面和滿意度相關(guān)的情緒化的詞語(yǔ),比如“支持”、“滿意”、“好”、“差”等等,也要全部提取出來(lái),作為索引。

        智能程度較高的索引,必須由自然語(yǔ)言處理平臺(tái)來(lái)協(xié)助完成。

        自然語(yǔ)言處理

        所謂自然語(yǔ)言,是指一種自然地隨文化演化的語(yǔ)言,比如英語(yǔ)、漢語(yǔ)、日語(yǔ)等。

        有了自然語(yǔ)言處理的技術(shù),計(jì)算機(jī)才能夠真正理解人類的語(yǔ)言,懂得語(yǔ)言中的語(yǔ)義和情緒等等。

        自然語(yǔ)言處理是政務(wù)服務(wù)大數(shù)據(jù)分析中很重要的一個(gè)數(shù)據(jù)處理技術(shù)。

        國(guó)內(nèi)比較知名的、開(kāi)放的自然語(yǔ)言處理平臺(tái),有哈工大的語(yǔ)言技術(shù)平臺(tái)(LTP)、騰訊文智自然語(yǔ)言處理NLP平臺(tái)等等。哈工大的語(yǔ)言技術(shù)平臺(tái)(LTP)的功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語(yǔ)義角色標(biāo)注。騰訊文智自然語(yǔ)言處理的功能包括詞法分析,句法分析,篇章分析,下載抽取轉(zhuǎn)碼。

        因?yàn)樽匀徽Z(yǔ)言處理技術(shù)是一門(mén)非常復(fù)雜的技術(shù),所以很少有大數(shù)據(jù)運(yùn)營(yíng)公司會(huì)單獨(dú)進(jìn)行開(kāi)發(fā),使用現(xiàn)成的自然語(yǔ)言技術(shù)平臺(tái)進(jìn)行文本處理,是一種常見(jiàn)的處理手段。

        在大數(shù)據(jù)報(bào)告的生成過(guò)程中,自然語(yǔ)言處理技術(shù),可以幫我們將采集的數(shù)據(jù)歸類和建立索引,識(shí)別文本數(shù)據(jù)中的情緒,對(duì)政府服務(wù)報(bào)告有著不可或缺的作用。

        自然語(yǔ)言處理技術(shù),不僅僅用于數(shù)據(jù)的索引,還可以結(jié)合數(shù)據(jù)采集,對(duì)數(shù)據(jù)里面的日期和時(shí)間進(jìn)行格式化和修復(fù),對(duì)數(shù)據(jù)里面的地名進(jìn)行省市縣的歸類。

        很多文章里面的日期并不是年月日的標(biāo)準(zhǔn)格式,往往只有幾月幾號(hào)、今年、去年、幾年以前等等描述,通過(guò)自然語(yǔ)言處理加上文章的發(fā)布時(shí)間,可以將類似的日期修復(fù)成年月日的標(biāo)準(zhǔn)格式。

        另外,在很多文章中的地名,往往只有本埠之類的描述,或者一個(gè)村莊的名稱,在本地是獨(dú)一無(wú)二的,但是放到全國(guó)范圍內(nèi),就有重名的。通過(guò)自然語(yǔ)言處理技術(shù),分析出其他的一些信息,結(jié)合全國(guó)的地名表,也可以把地名修復(fù)成省市縣村的標(biāo)準(zhǔn)格式。

        數(shù)據(jù)分析

        以上全部的操作,都是為數(shù)據(jù)分析提供基本數(shù)據(jù)的。到了數(shù)據(jù)分析這步的時(shí)候,全部的數(shù)據(jù)都已經(jīng)入庫(kù)并且生成了索引。

        數(shù)據(jù)分析包括基本數(shù)據(jù)分析,數(shù)據(jù)探索,復(fù)雜數(shù)據(jù)分析等。數(shù)據(jù)分析是大數(shù)據(jù)報(bào)告形成過(guò)程中,技術(shù)含量最高的部分。這里往往涉及到機(jī)器學(xué)習(xí)、深度分析、人工智能等方面。

        進(jìn)行數(shù)據(jù)分析的人員,不僅要熟悉相關(guān)行業(yè)知識(shí)和業(yè)務(wù)流程,還要有自己的獨(dú)到見(jiàn)解。若脫離了行業(yè)認(rèn)知和業(yè)務(wù)背景,分析的結(jié)果就沒(méi)有太大的使用價(jià)值。

        數(shù)據(jù)分析人員還要求掌握各種數(shù)據(jù)分析軟件工具,能夠根據(jù)不同的情況,選擇使用最合適的軟件工具對(duì)數(shù)據(jù)進(jìn)行歸納分析。因?yàn)橥ㄟ^(guò)采集得到的數(shù)據(jù)是海量的,所以無(wú)法通過(guò)人工的方式進(jìn)行查看,必須通過(guò)數(shù)據(jù)分析工具進(jìn)行處理。常見(jiàn)的分析工具有ElasticSearch、Kibana等等。

        數(shù)據(jù)分析從本質(zhì)上來(lái)說(shuō),就是從不同的分析角度,編寫(xiě)不同的SQL腳本,來(lái)獲取各個(gè)角度的數(shù)據(jù)的數(shù)量,計(jì)算出百分比。

        報(bào)告的編寫(xiě)人員,可以根據(jù)這些查詢數(shù)據(jù)作出可視化展現(xiàn)的圖表,寫(xiě)出大數(shù)據(jù)報(bào)告,得出最終結(jié)論。

        可視化展現(xiàn)

        可視化展現(xiàn)是大數(shù)據(jù)分析結(jié)果最好的表現(xiàn)形式,它用圖表取代了文字說(shuō)明,通過(guò)液晶屏或者高清彩色LED大屏幕,將數(shù)據(jù)分析結(jié)果用各種不同的圖表進(jìn)行可視化展現(xiàn),讓人一目了然。

        在可視化展現(xiàn)中,常見(jiàn)的圖表有散點(diǎn)圖(氣泡圖)、折線圖、柱狀圖、餅圖、地圖、雷達(dá)圖等幾種。除了這幾種常見(jiàn)的圖表以外,還有熱力圖、k線圖、關(guān)系圖、桑基圖、漏斗圖、儀表盤(pán)等等其他圖表,也可以將各種圖表進(jìn)行組合顯示,形成更復(fù)雜的圖表。

        可視化展現(xiàn)經(jīng)常使用工具軟件來(lái)實(shí)現(xiàn),也可以根據(jù)實(shí)際情況,用ECharts等可視化圖表來(lái)自己構(gòu)建。

        大數(shù)據(jù)報(bào)告編寫(xiě)

        大數(shù)據(jù)報(bào)告是整個(gè)大數(shù)據(jù)分析流程的最終結(jié)果。

        政務(wù)服務(wù)大數(shù)據(jù)報(bào)告是以一定的格式和規(guī)范,由熟悉相關(guān)行業(yè)知識(shí)和業(yè)務(wù)流程的專業(yè)人員,寫(xiě)出的專業(yè)報(bào)告。它具有下面幾個(gè)特點(diǎn):簡(jiǎn)單可靠、清晰明了、邏輯性強(qiáng)。

        它的數(shù)據(jù)來(lái)源于網(wǎng)絡(luò),通過(guò)分析海量的數(shù)據(jù),從不同的角度得出數(shù)據(jù)結(jié)論,最后根據(jù)這些,得出大數(shù)據(jù)報(bào)告的最終結(jié)論。政務(wù)服務(wù)大數(shù)據(jù)的報(bào)告,對(duì)用戶情緒的關(guān)注度非常高。

        由此可見(jiàn),大數(shù)據(jù)報(bào)告是完全基于真實(shí)的數(shù)據(jù),特別是由第三方大數(shù)據(jù)運(yùn)營(yíng)公司獨(dú)立分析和編寫(xiě)的大數(shù)據(jù)報(bào)告,最終報(bào)告結(jié)論的可信度是很高的。

        (作者單位:浙江省杭州市數(shù)據(jù)資源管理局)

        猜你喜歡
        可視化報(bào)告分析
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        隱蔽失效適航要求符合性驗(yàn)證分析
        基于CGAL和OpenGL的海底地形三維可視化
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        一圖看懂十九大報(bào)告
        報(bào)告
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        報(bào)告
        又大又粗欧美黑人aaaaa片| 精品中文字幕日本久久久| 亚洲av综合日韩精品久久| 无码爽视频| 久久久精品人妻久久影视| 免费无码又爽又刺激高潮的视频网站 | 成人自拍视频国产一区| 91久久国产香蕉熟女线看| 国产人成无码视频在线观看| 欧美最猛黑人xxxxx猛交| 在线看亚洲十八禁网站| 91精品国产九色综合久久香蕉| 欧美熟妇另类久久久久久不卡| 欧洲熟妇色xxxx欧美老妇多毛网站| 国产一区二区三区国产精品| 成人大片在线观看视频| 奇米影视7777久久精品| 国产亚洲婷婷香蕉久久精品| 蜜桃视频色版在线观看| 亚洲最新精品一区二区| 99久久久国产精品免费蜜臀| 久久久久成人亚洲综合精品| 国产一区二区三区经典| 国产亚洲成人av一区| 曝光无码有码视频专区| 国产精品丝袜美女在线观看| 国产3p一区二区三区精品| 国产欧美一区二区精品久久久| 一本色综合亚洲精品蜜桃冫| 久久狠狠爱亚洲综合影院| 日本一区二区三区视频免费观看| 国产激情久久久久影院老熟女免费 | 日日摸夜夜欧美一区二区| 日本高清在线一区二区三区| 国产av无码专区亚洲精品| 国产99久久亚洲综合精品| 又色又爽又黄的视频网站| 精品露脸熟女区一粉嫩av| 九一九色国产| 99成人无码精品视频| 99精品久久精品一区|