亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代的數(shù)據(jù)研究與應(yīng)用

        2022-05-05 09:27:00王保成
        關(guān)鍵詞:文本

        王保成

        (襄陽職業(yè)技術(shù)學(xué)院, 湖北 襄陽 441050)

        在我們的生活中,數(shù)據(jù)無處不在。尤其是在大數(shù)據(jù)和人工智能飛速發(fā)展的時(shí)代,數(shù)據(jù)成為人們關(guān)注的重點(diǎn)。比如我們幾乎每天都在使用的淘寶、京東等電商平臺(tái),單位時(shí)間產(chǎn)生的數(shù)據(jù)都是不可估量的。還有我們?yōu)g覽各類網(wǎng)站時(shí),后臺(tái)也會(huì)自動(dòng)產(chǎn)生大量的數(shù)據(jù)。這些數(shù)據(jù)既可以幫助平臺(tái)開發(fā)者改變決策,也可以為使用者提供更為便利的信息服務(wù)。當(dāng)你多次瀏覽相似的網(wǎng)頁信息或多次購(gòu)買同一類商品時(shí),數(shù)據(jù)就會(huì)“說話”了,他會(huì)在你下次打開網(wǎng)絡(luò)時(shí),自動(dòng)為你提供你所關(guān)注的信息。[1]正確認(rèn)識(shí)現(xiàn)實(shí)社會(huì)中的各類數(shù)據(jù),掌握它們的有效研究方法,可以讓我們的學(xué)習(xí)、工作、生活更加智慧化。

        一、數(shù)據(jù)的基本內(nèi)涵

        (一)數(shù)據(jù)

        簡(jiǎn)單說來,數(shù)據(jù)就是為了某種應(yīng)用而收集和轉(zhuǎn)換的任意字符的集合。數(shù)據(jù)的形式既包括文本、數(shù)字,也包括圖像、語音和視頻等。將數(shù)據(jù)記錄下來,可以幫助我們分析、整理和提取數(shù)據(jù)中蘊(yùn)含的知識(shí)以及規(guī)律。在計(jì)算機(jī)系統(tǒng)中,所有的數(shù)據(jù)最終都是以二進(jìn)制的形式來存儲(chǔ)的,即用0或1字符串來表示。

        (二)大數(shù)據(jù)

        大數(shù)據(jù)(Big Data),它是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征(麥肯錫全球研究所)。

        我們生活在一個(gè)數(shù)據(jù)爆炸的時(shí)代,大數(shù)據(jù)越來越多地出現(xiàn)在我們的生活中并對(duì)我們的生活產(chǎn)生諸多影響。大數(shù)據(jù)說到底就是海量數(shù)據(jù)的集合,必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲(chǔ)、虛擬化等技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。大數(shù)據(jù)的專業(yè)化處理,是未來數(shù)據(jù)發(fā)展的主要方向,也是智能時(shí)代的利器。[2]

        二、數(shù)據(jù)的類型

        存儲(chǔ)在計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)一般分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

        (一)結(jié)構(gòu)化數(shù)據(jù)

        結(jié)構(gòu)化數(shù)據(jù)就是指數(shù)據(jù)的結(jié)構(gòu)已經(jīng)定義好,在使用時(shí)嚴(yán)格按照定義好的結(jié)構(gòu)進(jìn)行存儲(chǔ)、計(jì)算機(jī)和管理。最常見的結(jié)構(gòu)化數(shù)據(jù)就是關(guān)系型數(shù)據(jù)庫中的二維表,表中的每一行稱為一條數(shù)據(jù)記錄,它包含多個(gè)字段,即表中的每一個(gè)列數(shù)據(jù)。比如,我們建立一個(gè)學(xué)生成績(jī)數(shù)據(jù)庫,每名學(xué)生占一行為一條數(shù)據(jù)記錄,每條記錄都包括4個(gè)字段:姓名、班級(jí)、成績(jī)、名次。見表1。

        表1 學(xué)生成績(jī)數(shù)據(jù)庫

        定義好結(jié)構(gòu)后,我們可以往表中存儲(chǔ)三條記錄,分別表示張三、李四、王五等三名同學(xué)的學(xué)習(xí)成績(jī)。這樣的一個(gè)表格就稱為一個(gè)二維表,它是一個(gè)典型的結(jié)構(gòu)化數(shù)據(jù)表。

        (二)非結(jié)構(gòu)化數(shù)據(jù)

        非結(jié)構(gòu)化數(shù)據(jù),是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,甚至沒有預(yù)定義的數(shù)據(jù)模型。我們的生活和工作中,往往存在大量的非結(jié)構(gòu)化數(shù)據(jù),比如文本、圖像、視頻和語音等,這些非結(jié)構(gòu)化數(shù)據(jù)對(duì)我們的生活非常重要。在很多行業(yè)領(lǐng)域里,80%的業(yè)務(wù)相關(guān)的信息都是來自于非結(jié)構(gòu)化數(shù)據(jù),特別是文本數(shù)據(jù)。[3]圖1展示了近五年非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)情況。

        圖1 2014-2019年非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)情況

        1.文本數(shù)據(jù)。文本數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)的一種類型,利用計(jì)算機(jī)處理文本數(shù)據(jù)是非常關(guān)鍵和常見的一項(xiàng)技術(shù),也是一個(gè)技術(shù)難點(diǎn)。讓計(jì)算機(jī)理解文本數(shù)據(jù),需要進(jìn)行編譯,這也是人工智能發(fā)展的一個(gè)方向——自然語言處理。文本數(shù)據(jù)要比一般的結(jié)構(gòu)化數(shù)據(jù)占用更多的存儲(chǔ)空間。比如,“hello!”這樣一個(gè)簡(jiǎn)單的詞語,計(jì)算機(jī)要用二進(jìn)制表示出來,會(huì)是一長(zhǎng)串的0、1字符串,如下所示。

        文本數(shù)據(jù):hello!

        計(jì)算機(jī)表示:01001000 01100101 01101100 01101100 01101111 00100001

        2. 圖像數(shù)據(jù)。圖像是另一種非結(jié)構(gòu)化數(shù)據(jù)。一般圖像是由很多像素點(diǎn)(分辨率)組成,像素點(diǎn)越多,圖像就越清晰。

        假設(shè):數(shù)字8的圖像中,橫排有16個(gè)像素點(diǎn),豎排有22個(gè)像素點(diǎn),一共由16*22個(gè)像素點(diǎn)組成。如果圖像是黑白的灰度圖,我們可以用256個(gè)等級(jí)(0~255)來區(qū)分每個(gè)像素點(diǎn)顏色的深淺度,此時(shí)我們得到一個(gè)矩陣。其實(shí),計(jì)算機(jī)就是用數(shù)字矩陣的形式來存儲(chǔ)圖像的。如圖2。

        圖2 數(shù)字8的數(shù)字矩陣圖

        如果圖像是彩色的,顏色種類會(huì)更多,處理起來就會(huì)比黑白的圖像更加復(fù)雜。

        3.語音數(shù)據(jù)。語音是第三種非結(jié)構(gòu)化數(shù)據(jù)形式。在計(jì)算機(jī)中,記錄語音是通過將連續(xù)的聲波進(jìn)行數(shù)字化來完成的。數(shù)字化的過程包括采樣、量化、編碼等。采樣是第一步,按照一定的時(shí)間間隔,對(duì)聲音信號(hào)的幅值進(jìn)行一個(gè)瞬時(shí)的取值。然后進(jìn)行第二步量化,將瞬時(shí)取值得到的信號(hào),按就近原則對(duì)應(yīng)到二進(jìn)制數(shù)值,這樣就可以把一個(gè)模擬的、連續(xù)的聲波信號(hào)轉(zhuǎn)換成一串二進(jìn)制編碼。

        4. 視頻數(shù)據(jù)。第四類非結(jié)構(gòu)化數(shù)據(jù)是視頻,它是由一系列的靜態(tài)影像與聲音組合而成的。視頻按照一定的刷新頻率進(jìn)行刷新和播放,利用人眼的視覺暫留原理,當(dāng)播放的速率超過人眨眼的頻率(每秒24幀以上)時(shí),可以給人一種平滑連續(xù)變化的動(dòng)態(tài)視覺效果。因此,視頻的本質(zhì)實(shí)際上是不斷變化的圖像,可以把它看作是單位時(shí)間內(nèi)聲音的存儲(chǔ)和若干幀圖像的存儲(chǔ)處理,只不過處理視頻需要更強(qiáng)大的存儲(chǔ)和計(jì)算能力。

        三、數(shù)據(jù)的處理流程

        利用科學(xué)的方法、過程或算法,從結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中提煉知識(shí)、洞察規(guī)律,這是讓數(shù)據(jù)智能化“說話”的主要途徑。

        (一)數(shù)據(jù)采集

        借助相關(guān)的技術(shù)和手段來進(jìn)行數(shù)據(jù)的收集。數(shù)據(jù)管理環(huán)節(jié)中,通過將收集的數(shù)據(jù)存儲(chǔ)在介質(zhì)中,來對(duì)數(shù)據(jù)進(jìn)行管理和維護(hù)。

        (二)數(shù)據(jù)治理

        通過對(duì)數(shù)據(jù)進(jìn)行有效組織,可以高效地提升數(shù)據(jù)的質(zhì)量,為后面的分析過程提供更好、更可用的數(shù)據(jù)。

        (三)數(shù)據(jù)分析

        通過對(duì)數(shù)據(jù)進(jìn)行詳細(xì)的研究和概括總結(jié),提煉有價(jià)值的信息來洞察規(guī)律。數(shù)據(jù)分析是整個(gè)數(shù)據(jù)研究過程中最為重要的環(huán)節(jié),它是從數(shù)據(jù)中提取有價(jià)值信息的關(guān)鍵步驟。

        (四)數(shù)據(jù)可視化

        數(shù)據(jù)可視化,就是指運(yùn)用圖形、圖表等多種有效的可視化方法來展示數(shù)據(jù),以便更清晰明確地傳遞數(shù)據(jù)中所蘊(yùn)含的價(jià)值,也幫助人們更好地理解數(shù)據(jù)。

        (五)數(shù)據(jù)安全

        我們?cè)诜治龊瓦\(yùn)用數(shù)據(jù)的過程中,是否會(huì)產(chǎn)生數(shù)據(jù)安全問題?是否會(huì)侵犯用戶的隱私?我們運(yùn)用算法得出的一些結(jié)論,是否會(huì)對(duì)某些特定群體產(chǎn)生不公平現(xiàn)象?是否會(huì)存在認(rèn)知上的偏見?這些既是數(shù)據(jù)倫理問題,也是數(shù)據(jù)安全問題,需要有更深入的研究。[4]

        (六)數(shù)據(jù)應(yīng)用

        對(duì)于數(shù)據(jù)的應(yīng)用,就是通過對(duì)數(shù)據(jù)的分析,得出知識(shí)、見解、原理,或者是相關(guān)關(guān)系。這是數(shù)據(jù)智能化的體現(xiàn)。數(shù)據(jù)應(yīng)用必將對(duì)相關(guān)行業(yè)領(lǐng)域產(chǎn)生影響,并帶來應(yīng)用價(jià)值。

        四、數(shù)據(jù)分析技術(shù)的運(yùn)用

        數(shù)據(jù)分析的主要技術(shù)是探索性數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。探索性數(shù)據(jù)分析(Exploratory Data Analy?sis,EDA)是通過探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律來分析數(shù)據(jù)間關(guān)系的一種數(shù)據(jù)分析技術(shù),它注重描述數(shù)據(jù)的真實(shí)分布情況,強(qiáng)調(diào)對(duì)數(shù)據(jù)的可視化呈現(xiàn),以啟發(fā)和幫助數(shù)據(jù)分析者找出數(shù)據(jù)中隱含的規(guī)律。機(jī)器學(xué)習(xí)是近年來發(fā)展非常迅速的一種方法,也是大數(shù)據(jù)時(shí)代的重要數(shù)據(jù)分析技術(shù)。機(jī)器學(xué)習(xí)利用數(shù)據(jù)來建立模型,進(jìn)而獲取對(duì)信息的理解,發(fā)現(xiàn)其中的規(guī)律。相對(duì)于探索性數(shù)據(jù)分析,機(jī)器學(xué)習(xí)被廣泛用于數(shù)據(jù)的預(yù)測(cè)性分析中。[5]

        (一)數(shù)據(jù)分析技術(shù)的工作過程

        下文以房?jī)r(jià)預(yù)測(cè)運(yùn)用為例,來說明機(jī)器學(xué)習(xí)這種數(shù)據(jù)分析技術(shù)的工作過程。

        在房?jī)r(jià)預(yù)測(cè)問題中,我們將房屋的面積、布局、建成年代、現(xiàn)知價(jià)格等數(shù)據(jù)輸入計(jì)算機(jī)中,采用某種機(jī)器學(xué)習(xí)算法,通過對(duì)這些數(shù)據(jù)進(jìn)行計(jì)算,建立一個(gè)房?jī)r(jià)的預(yù)測(cè)模型。利用這個(gè)模型,當(dāng)再次輸入房屋面積、布局等相關(guān)數(shù)據(jù)時(shí),就可以自動(dòng)輸出這個(gè)房屋的價(jià)格。在這個(gè)過程中,最關(guān)鍵的是預(yù)測(cè)模型的建立,即要建立一個(gè)準(zhǔn)確、科學(xué)的輸入數(shù)據(jù)與預(yù)測(cè)房?jī)r(jià)之間的映射關(guān)系。假設(shè)預(yù)測(cè)房?jī)r(jià)為目標(biāo)變量y,輸入的數(shù)據(jù)稱為特征變量x,其模型可以表示為:y=f(x),其中x代表房屋建成年代、房屋面積、布局等數(shù)據(jù),f表示特征變量與目標(biāo)變量之間的映射。如下所示。

        在建立這個(gè)模型時(shí),機(jī)器學(xué)習(xí)的方法需要將收集到的數(shù)據(jù)集合分為訓(xùn)練集和測(cè)試集兩組。訓(xùn)練集用來訓(xùn)練模型,即得出函數(shù)關(guān)系y=f(x);測(cè)試集用來評(píng)估模型的有效性,即我們得出的函數(shù)關(guān)系y=f(x)與真實(shí)情況相比,準(zhǔn)確度有多高。一般情況下,在擁有的數(shù)據(jù)樣本中,我們至少要拿出70%的數(shù)據(jù)樣本來進(jìn)行模型訓(xùn)練,再用剩下30%的數(shù)據(jù)樣本來對(duì)得出的模型進(jìn)行測(cè)試。

        除了房?jī)r(jià)的預(yù)測(cè)之外,孩子身高的預(yù)測(cè)、銀行貸款客戶的信用風(fēng)險(xiǎn)評(píng)估、電商客戶消費(fèi)和購(gòu)買行為預(yù)測(cè)等領(lǐng)域,機(jī)器學(xué)習(xí)都有著廣泛的應(yīng)用。

        (二)數(shù)據(jù)分析技術(shù)的典型應(yīng)用:中文分詞系統(tǒng)NLPIR

        分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,比如“Hello world!”有兩個(gè)單詞,而中文分詞比之英文要復(fù)雜得多、困難得多。例如:“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞;在句子“他被任命為中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?

        分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來說也是不可用的。因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁,如果分詞耗用的時(shí)間過長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。研究中文分詞的大多是科研院校,中科院、清華、北大、哈工大、北京語言大學(xué)、山西大學(xué)、東北大學(xué)、IBM研究院、微軟中國(guó)研究院等都組建了研究團(tuán)隊(duì)。比較好的中文分詞方案有中科院漢語分詞、哈工大分詞器、清華大學(xué)THULAC、斯坦福分詞器、Hanlp分詞、結(jié)巴分詞工具等等。

        NLPIR是中科院張華平博士開發(fā)的中文分詞系統(tǒng),被譽(yù)為自然語言處理奠基之作,目前國(guó)際、國(guó)內(nèi)測(cè)評(píng)雙第一。NLPIR分詞系統(tǒng)前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng),從2009年開始,調(diào)整命名為NLPIR分詞系統(tǒng),推廣NLPIR自然語言處理與信息檢索共享?,F(xiàn)在的NLPIR大數(shù)據(jù)語義分析系統(tǒng)能夠全方位多角度完成對(duì)大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)抓取、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡(jiǎn)編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類等。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對(duì)具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        国产成人亚洲精品一区二区三区| 天天操夜夜操| 久久久久亚洲AV无码专| 视频福利一区二区三区| 中文字幕隔壁人妻欲求不满| 精品久久久久久成人av| 日韩在线无| 妇女自拍偷自拍亚洲精品| 国内精品久久久影院| 女女同性黄网在线观看| 亚洲天堂av免费在线| 日本一区二区三区视频网站| 精品深夜av无码一区二区| 久久无码一一区| 在线观看免费视频发布白白色| 亚洲av午夜精品无码专区| 国产又色又爽又黄的| 久久香蕉免费国产天天看| 国产免费视频一区二区| 一本一道久久精品综合| 中文字幕一区二区人妻性色| 亚洲AV激情一区二区二三区| 中文字幕久久国产精品| 天天躁夜夜躁狠狠是什么心态| 欧美日韩视频无码一区二区三| 国产在线视频h| 91精品国产九色综合久久香蕉| 少女韩国电视剧在线观看完整| 亚洲欧美日韩精品高清| 日本高清一区二区在线观看| 久久精品国产亚洲av麻豆会员| 国产农村乱子伦精品视频| 仙女白丝jk小脚夹得我好爽| 亚洲国产精品自拍成人| 亚洲精品无码久久久久去q| 欧美午夜精品一区二区三区电影 | 在线观看视频播放| h国产视频| 国产精品久久婷婷六月| 无遮挡1000部拍拍拍免费| 久久棈精品久久久久久噜噜|