亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于動(dòng)態(tài)調(diào)度的數(shù)據(jù)挖掘并行算法

        2016-04-12 00:00:00朱亞瓊羅偉
        現(xiàn)代電子技術(shù) 2016年15期

        摘 要: 相比其他分類算法,樸素貝葉斯算法最大的優(yōu)點(diǎn)就是適合被并行化改造。由于單機(jī)分類算法不適應(yīng)大規(guī)模數(shù)據(jù)的處理,而云計(jì)算動(dòng)態(tài)調(diào)度的出現(xiàn)為大數(shù)據(jù)處理帶來了希望,運(yùn)用并行計(jì)算的思想改進(jìn)算法能提高分類速度。結(jié)合樸素貝葉斯算法易于并行化的特點(diǎn)對(duì)算法進(jìn)行相應(yīng)的改進(jìn)。在單機(jī)串行、Hadoop、Spark以及CUDA平臺(tái)上進(jìn)行了性能對(duì)比實(shí)驗(yàn),最終證明了分類算法并行化后具有較好的加速比。

        關(guān)鍵詞: 數(shù)據(jù)挖掘; 樸素貝葉斯; 動(dòng)態(tài)調(diào)度; 并行計(jì)算

        中圖分類號(hào): TN911?34; TM417 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)15?0156?04

        Abstract: In comparison with other classification algorithms, the naive Bayes algorithm is suitable for parallel improvement. The single machine classification algorithm is unsuitable for the large?scale data processing, however the occurrence of cloud computing dynamic scheduling brings the hope for big data processing. The parallel computing improvement algorithm is used to enhance the classification speed. The algorithm was improved correspondingly in combination with the easily parallel characteristic of naive Bayes algorithm. The performance contrast experiments were performed on single machine serial mode, Hadoop, Spark and CUDA platform. It is verified that the paralleled classification algorithm has good speed?up ratio.

        Keywords: data mining; naive Bayes; dynamic scheduling; parallel computing

        0 引 言

        傳統(tǒng)的基于單機(jī)的文本處理方法,在存儲(chǔ)容量和處理速度上都遇到了瓶頸,如何處理海量數(shù)據(jù)是一個(gè)重要問題。云計(jì)算平臺(tái)動(dòng)態(tài)調(diào)度提供的海量數(shù)據(jù)的處理能力在文本數(shù)據(jù)挖掘領(lǐng)域中是非常有效的方案,它能體現(xiàn)出對(duì)海量數(shù)據(jù)的并行計(jì)算優(yōu)勢(shì)。因此,文本數(shù)據(jù)挖掘領(lǐng)域的眾多研究者將研究重心轉(zhuǎn)移到傳統(tǒng)文本數(shù)據(jù)挖掘算法的并行化研究之中以提高海量數(shù)據(jù)的處理能力。

        本文研究基于樸素貝葉斯算法的海量中文微博的情感分類以及算法的并行化。通過有效的情感特征識(shí)別方法提取出中文微博的情感特征,在這些特征的基礎(chǔ)上對(duì)微博進(jìn)行情感分類,致力于在精度、效率上提高。對(duì)微博情感分類技術(shù)的研究集中于以下幾個(gè)方面:設(shè)計(jì)實(shí)現(xiàn)海量微博情感分析系統(tǒng)、設(shè)計(jì)基于樸素貝葉斯的微博情感分類模塊以及在大數(shù)據(jù)下的算法并行化研究等。最后,將其推廣到集群模式下進(jìn)行實(shí)驗(yàn)分析,用開源云計(jì)算平臺(tái)Hadoop框架和下一代云計(jì)算大數(shù)據(jù)核心技術(shù)Spark以及通過GPU下CUDA的編程技術(shù)提高文本分類效率和性能?;趧?dòng)態(tài)調(diào)度改變算法的編程模型,實(shí)現(xiàn)算法預(yù)期的并行性能優(yōu)化,解決了海量微博數(shù)據(jù)的情感分類問題。

        1 微博情感數(shù)據(jù)挖掘分類模塊

        情感數(shù)據(jù)挖掘模塊包括:微博數(shù)據(jù)處理、特征計(jì)算和分類器模塊。微博數(shù)據(jù)處理包括數(shù)據(jù)獲取,微博預(yù)處理;特征計(jì)算模塊包括特征提取、構(gòu)建向量空間模型;分類器模塊包括分類器、結(jié)果評(píng)估。整體的研究結(jié)構(gòu)圖如圖1所示。

        1.1 微博數(shù)據(jù)處理模塊

        微博數(shù)據(jù)處理模塊包括:數(shù)據(jù)獲取和微博文本預(yù)處理。

        (1) 實(shí)驗(yàn)中訓(xùn)練集樣本和測試集樣本來源于互聯(lián)網(wǎng),是由實(shí)驗(yàn)室根據(jù)新浪微博網(wǎng)站API和網(wǎng)絡(luò)爬蟲獲取。由于獲取的微博中包含的話題標(biāo)簽與句子的情感極性沒有必然的聯(lián)系,為了不影響最終的分類結(jié)果,首先要將微博文本中的話題標(biāo)簽去掉,只留下文本中的主體部分。同時(shí)還應(yīng)該做以下幾項(xiàng)工作:微博文本規(guī)則化處理,統(tǒng)計(jì)所選取微博的條數(shù),提取并去除話題標(biāo)簽,按照積極性和消極性把句子分成兩類。微博文本的規(guī)則化處理目的是減少分詞時(shí)可能引起的誤差,其中包括把英文字符統(tǒng)一成大寫,多個(gè)標(biāo)點(diǎn)符號(hào)重復(fù)出現(xiàn)轉(zhuǎn)化為一個(gè)標(biāo)點(diǎn)符號(hào)只出現(xiàn)一次,全角符號(hào)轉(zhuǎn)化為半角符號(hào),所有不規(guī)范的省略號(hào)轉(zhuǎn)化為規(guī)則的省略號(hào)等。

        (2) 微博文本預(yù)處理模塊主要是基于一些自然語言處理方法實(shí)現(xiàn)的,主要包括中文微博分詞、去除停用詞等。主要功能包括:中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、用戶詞典功能;它支持多種編碼;支持微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取。由于中文微博語言包含了很多口語化、非正式的用語以及一些簡寫和縮寫等,所以自動(dòng)分析的效果可能會(huì)差一點(diǎn)。停用詞包括助詞、虛詞、嘆詞和標(biāo)點(diǎn)符號(hào)(本次包含),在去除停用詞時(shí)需要將這些詞語都去掉。

        文章中把中文分詞和停用詞放到了一起,首先調(diào)用NLPIR漢語分詞系統(tǒng)中的NLPIR.NLPIR_ParagraphProcess()函數(shù)對(duì)文本進(jìn)行分詞,并保存到String類型的數(shù)組中,然后讀取停用詞表中的數(shù)據(jù),也存入到String類型的數(shù)組中。最后把分詞的結(jié)果和停用詞表數(shù)組進(jìn)行一一比對(duì),找出其中的停用詞,并從數(shù)組中刪除掉。最后得出String類型的分詞結(jié)果數(shù)組以行存儲(chǔ),每行就可以看作是一篇文檔的向量。

        1.2 特征計(jì)算模塊

        通過上一個(gè)模塊的處理之后,形成了文檔以詞項(xiàng)為元素的向量,特征提取就是要從已經(jīng)形成的文本向量中抽取具有明顯情感傾向和能說明該條微博主題的詞匯作為特征詞。經(jīng)過二次抽取之后形成的文本向量基本上就可以作為用于分類器中訓(xùn)練或測試數(shù)據(jù)的文本向量了。接著對(duì)向量進(jìn)行進(jìn)一步處理,轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的表示模型,即向量空間模型。轉(zhuǎn)化時(shí)需要對(duì)文檔進(jìn)行遍歷,統(tǒng)計(jì)每個(gè)詞項(xiàng)的詞頻。最后對(duì)每一個(gè)類別進(jìn)行整合,所形成的就是該類別的類別矩陣,在進(jìn)行數(shù)據(jù)集訓(xùn)練時(shí),利用TF?IDF計(jì)算出每個(gè)詞項(xiàng)在文檔中的權(quán)重,構(gòu)成帶權(quán)重的類別矩陣。進(jìn)行分類器測試時(shí),利用分類器對(duì)文檔進(jìn)行分類。

        2 基于NB的情感分類數(shù)據(jù)并行研究實(shí)現(xiàn)

        2.1 NB算法模型

        樸素貝葉斯的思想基礎(chǔ)是:利用類別的先驗(yàn)概率以及樣本的數(shù)據(jù)信息計(jì)算未知類別的文本屬于某一確定類別的后驗(yàn)概率。樸素貝葉斯微博情感分類的任務(wù)就是將待分類微博[t]表示成為屬于某一類的概率。即設(shè)該[t]的特征向量[(ω1,ω2,…,ωn)]歸類到與其關(guān)聯(lián)最緊密的[M]個(gè)分類[C1,C2,…,CM]中去,由于情感分類是正負(fù)兩元分類,故[M=2。]通過求解向量[(ω1,ω2,…,ωn)]屬于給定類別[Ci]的概率值[Pi,]其中[Pi]為[(ω1,ω2,…,ωn)]屬于[Ci]的概率,則取最大后驗(yàn)概率[max(P1,P2)]對(duì)應(yīng)的類別就是文本[(ω1,ω2,…,ωn)]所屬的類別。

        2.2 算法并行化可行性研究

        當(dāng)數(shù)據(jù)的規(guī)模不斷增多后,不論是訓(xùn)練集的學(xué)習(xí)過程,還是文檔統(tǒng)計(jì)分類工作,都需要占用相當(dāng)大的內(nèi)存與計(jì)算資源。由于串行計(jì)算導(dǎo)致訓(xùn)練集生成速度緩慢,機(jī)器學(xué)習(xí)效率低下,因此單機(jī)顯然不能勝任海量數(shù)據(jù)。分析上述樸素貝葉斯算法條件獨(dú)立性假設(shè)的特點(diǎn),可以發(fā)現(xiàn)無論是分類模型的生成過程,還是測試集的分類過程,都是由許多組獨(dú)立的計(jì)算疊加而成。因此,其算法本身就具有并行計(jì)算的可行性。綜上所述,并行化后的樸素貝葉斯分類流程,如圖2所示。

        由并行化后的樸素貝葉斯分類流程可知,訓(xùn)練階段內(nèi)的每一篇微博文本的計(jì)算處理過程都是相同的、獨(dú)立的。因此將一篇接一篇的串行計(jì)算過程并行化處理,把訓(xùn)練集數(shù)據(jù)分割切片后,由多個(gè)并行計(jì)算節(jié)點(diǎn)分別對(duì)訓(xùn)練微博進(jìn)行分詞、統(tǒng)計(jì)等計(jì)算??梢愿鶕?jù)具體計(jì)算單元數(shù)目的情況適當(dāng)選擇數(shù)據(jù)分割的大小。在測試階段的工作是計(jì)算微博的每個(gè)特征詞屬于各個(gè)類的概率并且疊加,得到文檔屬于正、負(fù)類別的概率,最終取最大值作為分類的結(jié)果。樸素貝葉斯分類過程中最耗時(shí)的是需要計(jì)算大量的[PωjCi,]而各個(gè)特征詞的計(jì)算過程是相互獨(dú)立的。因此,將特征詞統(tǒng)計(jì)過程改造成在各個(gè)節(jié)點(diǎn)并行完成各個(gè)部分的[PωjCi]計(jì)算,最后合并輸出結(jié)果到分類結(jié)果中。

        2.3 Spark下的算法并行化實(shí)現(xiàn)

        結(jié)合SparkMLlib設(shè)計(jì)的接口對(duì)原有MR程序改造,考慮SparkMLlib良好的可擴(kuò)展性和基于面向?qū)ο蠓庋b,分析和設(shè)計(jì)了當(dāng)前平臺(tái)中各個(gè)算法模塊的組織關(guān)系。故繼承SparkMLlib接口原有的ClassificationModel,設(shè)計(jì)一個(gè)便捷的內(nèi)存數(shù)據(jù)模型NaiveBayesModel用于評(píng)估和預(yù)測,提供標(biāo)簽類別先驗(yàn)概率和特征屬性在指定類別下出現(xiàn)的條件概率。本次樸素貝葉斯算法主要考慮其并行化后速度上的提升,算法的并行策略主要是計(jì)算類別的先驗(yàn)概率以及特征的條件概率?;诜诸愃惴ǖ牟⑿兴悸罚蝿?wù)同樣分為訓(xùn)練階段和測試階段,Spark下的分類流程,如圖3所示。

        (1) 加載訓(xùn)練集到Spark空間,則要?jiǎng)?chuàng)建彈性分布式數(shù)據(jù)集RDD。本文采用外部存儲(chǔ)系統(tǒng)上的數(shù)據(jù)集創(chuàng)建RDD。從Hadoop的任何存儲(chǔ)源中構(gòu)建出RDD,包括本地文件系統(tǒng),HDFS,HBase等。Spark支持TEXTFILE,SEQUENCEFILE以及其他任何HadoopInputFormat,為使用上一節(jié)預(yù)處理后的數(shù)據(jù)提供便利。算法的訓(xùn)練集和測試集的輸入是(Label,key:value)的序?qū)?,使用SparkContext提供的textFile()接口,MLlib內(nèi)部會(huì)轉(zhuǎn)換成RDD[LabelPoint]類型。LabelPoint對(duì)情感分類來說,一個(gè)標(biāo)簽或?yàn)?(負(fù)向)或?yàn)?(正向)。

        (2) 訓(xùn)練階段,包括統(tǒng)計(jì)詞頻TF和計(jì)算權(quán)重TF?IDF。為了擴(kuò)展性將TF和IDF分開,TF?IDF是TF和IDF簡單相乘。統(tǒng)計(jì)詞頻使用散列技巧,基于映射索引值計(jì)算實(shí)現(xiàn),包括運(yùn)用一個(gè)哈希函數(shù)將原始特征映射到一個(gè)特征索引值。這種方法避免計(jì)算全局“詞?索引(term?to?index)”映射,而在海量的微博語料中計(jì)算全局“詞?索引”的代價(jià)非常高。由于這種方法會(huì)出現(xiàn)潛在的哈希值沖突(不同原始特征被映射到同一個(gè)哈希值,從而變成同一個(gè)詞),通過增加目標(biāo)特征的維數(shù)(哈希表中散列桶的數(shù)量)來降低這種沖突概率。訓(xùn)練階段完成上述步驟后,設(shè)計(jì)整合數(shù)據(jù)獲得模型。訓(xùn)練階段得到NaiveBayesModel模型,包括標(biāo)簽類別先驗(yàn)概率[pi,]特征屬性在指定類別下出現(xiàn)的條件概率[θ]。

        (3) 樸素貝葉斯分類器測試階段,輸入的測試數(shù)據(jù)集轉(zhuǎn)化為TF?IDF形式的特征用來文本分類,對(duì)兩邊取對(duì)數(shù)作為實(shí)現(xiàn),加法的計(jì)算效率比乘法更高,同樣的結(jié)果返回后驗(yàn)概率最大的那個(gè)類別。

        2.4 基于GPU的算法并行實(shí)現(xiàn)

        在訓(xùn)練過程之前,需要把生成的預(yù)處理后的微博數(shù)據(jù)加載到內(nèi)存。所有的文檔加載到一個(gè)矩陣,其中矩陣的一行表示屬于一個(gè)分類下的一篇文檔中的全部特征詞。如[ωij中][i]代表分類的標(biāo)號(hào),[j]代表不同的特征詞編號(hào)。

        為了方便詞頻匯總,使用散列方法,基于映射索引值計(jì)算來實(shí)現(xiàn),運(yùn)用一個(gè)哈希函數(shù)將原始特征映射到一個(gè)特征索引值。得到一個(gè)惟一特征詞的向量,用來統(tǒng)一表示微博文本的特征向量。在保存分詞處理結(jié)果時(shí),保存該詞在分詞詞典中的下標(biāo)。根據(jù)分詞詞典的詞數(shù)建立一個(gè)索引表,并用0值初始化。

        在海量微博數(shù)據(jù)樸素貝葉斯分類中,由于涉及到的數(shù)據(jù)量非常龐大并且數(shù)據(jù)類型種類繁多,為了實(shí)現(xiàn)高性能算法,選擇高效的數(shù)據(jù)表示形式起著至關(guān)重要的作用。主要目標(biāo)是算法在GPU取得優(yōu)異的并行性能,但是當(dāng)前圖形處理硬件受到嚴(yán)重的內(nèi)存限制,盡管實(shí)驗(yàn)設(shè)備的顯存有5 GB,但仍然存在數(shù)據(jù)不能全部加載到顯存的可能,所以采用一個(gè)密集的數(shù)據(jù)結(jié)構(gòu):按照特征詞進(jìn)行索引來表示文檔集合。利用兩個(gè)Vector,即TermIndexVector(TIV)和DocTermVector(DIV),DTV存儲(chǔ)了每條微博中出現(xiàn)過的特征詞[wj。]TIV是DTV中特征詞的索引用來區(qū)別DTV中的不同微博文檔。故TIV的每個(gè)位置指向DTV中每篇微博的首位特征詞[wj。]

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)過程

        實(shí)驗(yàn)一,在單機(jī)上利用樸素貝葉斯分類方法對(duì)采集的微博小規(guī)模實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行串行的分類實(shí)驗(yàn),驗(yàn)證基于樸素貝葉斯微博情感分類方法的精度效果。本次原始語料經(jīng)過預(yù)處理得到降噪、分詞微博文本。在實(shí)驗(yàn)中,通過人工篩選的方式,根據(jù)之前的研究內(nèi)容分別使用不同的分類器和多種特征以及不同特征權(quán)重計(jì)算方式的組合進(jìn)行實(shí)驗(yàn),選擇效果較好的分類器和特征。

        實(shí)驗(yàn)二,利用分布式爬蟲并行爬取大規(guī)模數(shù)據(jù)集,采用上文設(shè)計(jì)的并行算法進(jìn)行并行化的分類實(shí)驗(yàn),驗(yàn)證分類方法的加速效果。依賴云計(jì)算的工作流調(diào)度系統(tǒng)配置運(yùn)行本實(shí)驗(yàn)的任務(wù)節(jié)點(diǎn)。

        首先,本實(shí)驗(yàn)是數(shù)據(jù)獲取,start節(jié)點(diǎn)開始后在基礎(chǔ)庫中獲取微博話題的URL,然后使用網(wǎng)絡(luò)爬蟲和API獲取微博數(shù)據(jù)集。其次,在weibo_content_data節(jié)點(diǎn)將微博數(shù)據(jù)處理劃分為訓(xùn)練集和測試集,此時(shí)應(yīng)當(dāng)記錄節(jié)點(diǎn)開始運(yùn)行的時(shí)間[T0。]然后,任務(wù)有3個(gè)大分支,分別是樸素貝葉斯在Hadoop,Spark以及CUDA三個(gè)并行計(jì)算平臺(tái)上運(yùn)行,分別運(yùn)行完test[?]naiveBayes節(jié)點(diǎn)的時(shí)間為[TH,TS,TC,]此時(shí)間差用于實(shí)驗(yàn)計(jì)算加速比與運(yùn)行性能等。最后,分類結(jié)果匯總到sentiment_report_storage節(jié)點(diǎn)中,將分類的結(jié)果與中間結(jié)果數(shù)據(jù)存儲(chǔ)到結(jié)果展現(xiàn)層的關(guān)系型數(shù)據(jù)庫中,供數(shù)據(jù)挖掘演示平臺(tái)Vdata系統(tǒng)使用。文章中為每個(gè)任務(wù)節(jié)點(diǎn)編寫shell腳本,shell腳本中執(zhí)行jar包等處理過程,從中向集群或GPU提交相應(yīng)任務(wù)。

        3.2 運(yùn)行性能對(duì)比

        在不同的問題規(guī)模上對(duì)比單機(jī)串行,CUDA,Hadoop與Spark的不同版本實(shí)現(xiàn)的運(yùn)行效率。其中,單機(jī)串行算法運(yùn)行在單臺(tái)Linux服務(wù)器上,Hadoop與Spark版本的實(shí)現(xiàn)未做深度調(diào)優(yōu)處理。數(shù)據(jù)集方面,本文使用了微博50 KB,500 KB以及5 MB數(shù)據(jù)集,其中分別包含了5萬行,50萬行和500萬行微博文本。這些不同大小的數(shù)據(jù)集可以很好地測試樸素貝葉斯算法并行的實(shí)際性能。于是依次使用這三個(gè)數(shù)據(jù)集在實(shí)驗(yàn)集群上,而且特征維數(shù)取值3 500,進(jìn)行性能測試。對(duì)比運(yùn)行時(shí)間,如圖4所示。

        從圖4可以看出,當(dāng)數(shù)據(jù)集較小時(shí),單機(jī)算法計(jì)算性能并沒有明顯劣勢(shì);但當(dāng)問題規(guī)模增大時(shí),單機(jī)算法則表現(xiàn)越來越差,運(yùn)行時(shí)間成倍增加,若數(shù)據(jù)量級(jí)持續(xù)增長可能會(huì)超過機(jī)器可運(yùn)行范圍。而在GPU平臺(tái)上,分類運(yùn)行時(shí)間則緩慢增加,這是因?yàn)樵趩螜C(jī)上,影響程序運(yùn)行時(shí)間的最大因素是分詞匯總模塊,當(dāng)文本數(shù)據(jù)量增大時(shí),該模塊需處理的時(shí)間也隨之大大增加。在GPU平臺(tái)上,由于可使用更多的線程塊來處理增加的數(shù)據(jù)量,因而程序運(yùn)行時(shí)間的增加更多來自于磁盤I/O操作次數(shù)的增加。在Spark與Hadoop上實(shí)現(xiàn)的算法仍然可以明顯地反映一個(gè)問題,處理的數(shù)據(jù)規(guī)模越小,其處理單位數(shù)據(jù)的耗時(shí)越長。隨著數(shù)據(jù)量的增大,所占用的運(yùn)行時(shí)間比較平穩(wěn),這與他們框架內(nèi)部實(shí)現(xiàn)機(jī)制有關(guān):輸入數(shù)據(jù)在HDFS被分成若干塊后,得到的中間結(jié)果保存到HDFS或者內(nèi)存中。當(dāng)數(shù)據(jù)規(guī)模較小時(shí),大部分時(shí)間都消耗在進(jìn)程的初始化以及HDFS讀寫中;而對(duì)于大數(shù)據(jù)集,初始化開銷以及HDFS讀寫開銷只是總開銷中很小的部分。但是,Spark仍然能表現(xiàn)出很好的內(nèi)存計(jì)算優(yōu)勢(shì),算法在Spark實(shí)現(xiàn)的運(yùn)行時(shí)間上大量減少,極大地提高了運(yùn)行效率,而其中處理5 MB數(shù)據(jù)集的任務(wù)運(yùn)行總時(shí)間顯著減少。

        4 結(jié) 論

        本文提出了海量數(shù)據(jù)情感分析系統(tǒng),可適應(yīng)不同機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法處理場景的任務(wù)。介紹了系統(tǒng)框架思想與設(shè)計(jì)實(shí)現(xiàn)思路,并詳細(xì)介紹了2個(gè)子系統(tǒng),即面向云計(jì)算的工作流調(diào)度、Vdata系統(tǒng),隨后針對(duì)本文研究微博情感分類模塊進(jìn)行重點(diǎn)分析,有效地闡明分類算法并行化研究在海量微博情感分析系統(tǒng)的重要地位。

        參考文獻(xiàn)

        [1] 黃萱菁,張奇,吳苑斌.文本情感傾向分析[J].中文信息學(xué)報(bào),2012,25(6):118?126.

        [2] 向小軍,高陽,商琳,等.基于Hadoop平臺(tái)的海量文本分類的并行化[J].計(jì)算機(jī)科學(xué),2011,38(10):184?188.

        [3] 江小平,李成華,向文,等.云計(jì)算環(huán)境下樸素貝葉斯文本分類算法的實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2011,31(9):2551?2554.

        [4] 李海生.一種熱點(diǎn)話題算法在微博輿情系統(tǒng)中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015,38(6):44?46.

        [5] HUANG L Q, LIN L Q, LIU Y H. Algorithm of text categorization based on cloud computing [J]. Applied mechanic sand materials, 2013, 311: 158?163.

        [6] HARVEY J P. GPU acceleration of object classification algorithms using NVIDIA CUDA [R]. New York: Wallace Memo?rial Library, 2009.

        [7] JOSHI A, BALAMURALI A R, BHATTACHARYYA P, et al. C?Feel?It: a sentiment analyzer for micro?blogs [C]// Procee?dings of 2011 Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: ACM, 2011: 127?132.

        [8] MUKHERJEE S, BHATTACHARYYA P. Feature specific sentiment analysis for product reviews [C]// Proceedings of 2012 13th International Conference on Computational Linguistics and Intelligent Text Processing. New Delhi: Springer Berlin Heidelberg, 2012: 475?487.

        日本最新视频一区二区| 一本久道久久综合久久| 久久dvd| 按摩少妇高潮在线一区| 97在线视频人妻无码| 中国a级毛片免费观看| 尤物无码一区| 中文字幕手机在线精品| 欧美伦费免费全部午夜最新| 丰满少妇大力进入av亚洲| 国产精品国产三级国产专区5o| 亚洲五月天中文字幕第一页| 少妇高潮惨叫久久久久电影69| 久久久久亚洲av无码专区导航| 久久亚洲国产欧洲精品一| av毛片亚洲高清一区二区| 性刺激的大陆三级视频| 亚洲女人被黑人巨大进入| 99久久久精品国产性黑人| 亚洲av乱码二区三区涩涩屋| 久久久www成人免费精品| 麻豆AV免费网站| 久久久国产精品三级av| 欧美激情一区二区三区成人| 国产乱子伦精品免费无码专区 | 国产精品午夜夜伦鲁鲁| 被黑人猛躁10次高潮视频| 欧美久久久久中文字幕| 精品爆乳一区二区三区无码av| 国产精品久久久久免费看| 国产精品一区二区三区av在线| 少妇人妻在线无码天堂视频网| 久久精品亚洲牛牛影视 | 国产成人精品日本亚洲语音1| 亚洲女人天堂成人av在线| 亚洲熟妇色自偷自拍另类| 亚洲一区二区三区日本久久九| 久久久亚洲精品一区二区| 婷婷色婷婷开心五月四| 国产国语熟妇视频在线观看| 国产成人精品无码一区二区老年人 |