亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向技術(shù)論壇的問題解答狀態(tài)預(yù)測

        2020-03-20 11:23:42沈明珠
        計算機(jī)研究與發(fā)展 2020年3期
        關(guān)鍵詞:查準(zhǔn)率分類器卷積

        沈明珠 劉 輝

        (北京理工大學(xué)計算機(jī)學(xué)院 北京 100081)(3120181025@bit.edu.cn)

        隨著軟件開發(fā)技術(shù)的飛速發(fā)展,軟件開發(fā)知識量也越來越大.因此,即便是高級程序員也很難掌握所有的軟件開發(fā)知識.在碰到技術(shù)難題時,程序員常用的策略之一是在諸如Stack Overflow等技術(shù)社區(qū)上請求幫助,從而有效減少時間消耗[1].

        技術(shù)社區(qū)問題的解決主要依賴于互聯(lián)網(wǎng)上的其他程序員[2].所以,基于互聯(lián)網(wǎng)的群體智能是解決程序員面臨的難題的關(guān)鍵所在.社區(qū)問答系統(tǒng)是基于互聯(lián)網(wǎng)的群智化軟件開發(fā)的一個重要組織形式.

        然而,在技術(shù)社區(qū)上提出的問題并不一定會獲得滿意(有效)的答案.因此,提問之后被動等待答案可能并不總是最佳的應(yīng)對策略.為此,本文提出了一個基于深度學(xué)習(xí)[3]的問題解答狀態(tài)預(yù)測方法,根據(jù)問題的文本信息和用戶特征去分析在論壇發(fā)布的問題是否能夠及時獲得滿意答案.技術(shù)人員在碰到技術(shù)難題時,需要根據(jù)成本與風(fēng)險從眾多可選的技術(shù)資源中選擇一個或幾個最合適的資源進(jìn)行求助.這些技術(shù)資源包括技術(shù)論壇、同事、團(tuán)隊領(lǐng)導(dǎo)、公司技術(shù)專家等.其中團(tuán)隊領(lǐng)導(dǎo)和公司技術(shù)專家一般日程安排緊張,只有其他途徑無法解決的時候才會轉(zhuǎn)而尋求他們的幫助.技術(shù)人員在發(fā)布問題時可使用本方法預(yù)測,如果發(fā)現(xiàn)不能獲得滿意答案,提問者可以及時轉(zhuǎn)向其他更可靠(但通常也更昂貴)的技術(shù)來源以尋求幫助,比如向團(tuán)隊領(lǐng)導(dǎo)或者公司技術(shù)專家,甚至外部付費(fèi)的咨詢公司等尋求幫助.提問者也可以選擇更改問題標(biāo)題內(nèi)容、更換問題類型標(biāo)簽等方法,從而改善問題質(zhì)量,提高問題被解答的可能性.

        對社區(qū)問答的研究是目前群智化軟件開發(fā)領(lǐng)域的一個熱點(diǎn).現(xiàn)有研究主要集中于社區(qū)問題內(nèi)容學(xué)習(xí)分類[4]、問題質(zhì)量評估[5]、滿意答案推薦等.但是目前尚未出現(xiàn)針對問題解答狀態(tài)的預(yù)測方法.

        本文的主要貢獻(xiàn)有2個方面:

        1) 提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的方法,通過問題標(biāo)題文本、用戶信息等問題特征來預(yù)測問題是否能獲得滿意答案.

        2) 實(shí)現(xiàn)了提出的方法并基于Stack Overflow的真實(shí)數(shù)據(jù)進(jìn)行了實(shí)驗驗證.實(shí)驗結(jié)果表明該方法可以有效預(yù)測技術(shù)問題的解答狀態(tài),其性能顯著高于隨機(jī)猜測,并高于KNN與FastText.

        1 相關(guān)工作

        1.1 社區(qū)問答

        社區(qū)問答網(wǎng)站內(nèi)容的分類與分析是目前國內(nèi)外學(xué)者的研究熱點(diǎn)[6].文獻(xiàn)[7]研究的是通過問題答案的來源來進(jìn)行質(zhì)量評估,越是權(quán)威網(wǎng)站提供的答案,令人滿意程度越高;文獻(xiàn)[8]提出現(xiàn)在每天提出的眾多問題并未被發(fā)送到適合回答它的用戶那里,因此導(dǎo)致新問題不能夠被及時回答.于是綜合用戶在技術(shù)論壇的歷史問答數(shù)據(jù)中的活躍程度與用戶權(quán)限和其參與的問題構(gòu)建用戶簡檔,從而進(jìn)行專家推薦;文獻(xiàn)[9]則是預(yù)測問題是否會被關(guān)閉.由于論壇問題過多,并且問題本身不能保證質(zhì)量(比如問題重復(fù)、個例化、問題沒有建設(shè)性、或者不是真正的問題等等),論壇通常會讓用戶對一個問題是否要被關(guān)閉進(jìn)行表決投票.當(dāng)支持率達(dá)到一定值時該問題就可以被關(guān)閉.于是該實(shí)驗提出可以根據(jù)這種特性來預(yù)測問題是否會被關(guān)閉.許多實(shí)驗根據(jù)非文本特征比如問題長度、用戶年齡、問題標(biāo)簽數(shù)量等特征來進(jìn)行分類并預(yù)測;文獻(xiàn)[10]則是從問題本身質(zhì)量出發(fā),去預(yù)測問題獲得的分?jǐn)?shù).其中使用了spearman秩相關(guān)系數(shù)去測試不同特征與問題分?jǐn)?shù)之間的依賴性,并主要研究了4個有高相關(guān)性的變量,有問題瀏覽次數(shù)、答案數(shù)、滿意答案的分?jǐn)?shù)、問題的贊同數(shù).通過SPSS進(jìn)行分析,以了解關(guān)系因變量與那些相關(guān)系數(shù)低的因素之間的關(guān)系,總共選擇了16個變量來說明對問題分?jǐn)?shù)影響的原因,并選出了上述4個影響最大的變量,但是這4類的得分在統(tǒng)計上有所不同.該文在最后提出可以學(xué)習(xí)這些因變量之間的共同點(diǎn),通過運(yùn)行基于某些規(guī)則的分類器來實(shí)現(xiàn)它們之間的特征區(qū)分.

        社區(qū)問答中關(guān)于自動問答推薦的研究也非常多,如何從多個候選答案中識別推薦出滿意答案是現(xiàn)在社區(qū)問答發(fā)展的方向之一.文獻(xiàn)[11]則使用支持向量機(jī)、決策樹、樸素貝葉斯等3種算法來去預(yù)測用戶滿意度,首次提出了關(guān)于用戶“個性化”需求的概念,但是該預(yù)測是在已回答的答案中判斷是否能夠滿足用戶提出者;文獻(xiàn)[12]同樣通過答案的淺層語言文本特征如最長句子長度、平均句子長度、單詞的單詞長度和用戶特征進(jìn)行比對,從而顯著對比出滿意答案與一般答案之間的不同點(diǎn).滿意答案文本內(nèi)容會更長,會將常用詞匯轉(zhuǎn)為生僻的單詞,所包含的單詞也會更長,但是僅憑這些語言特征去預(yù)測效果并不是非常高.該文使用了10折的交叉驗證在眾多技術(shù)論壇上進(jìn)行比對,發(fā)現(xiàn)不同技術(shù)論壇的語言區(qū)別較大,因此選擇合適的特征去進(jìn)行預(yù)測非常重要.

        隨著數(shù)據(jù)量的不斷上升,單純的使用統(tǒng)計工具與線性分析已經(jīng)不能滿足人們的需求,深度學(xué)習(xí)技術(shù)已經(jīng)開始運(yùn)用于社區(qū)問答中;文獻(xiàn)[13]研究的是圖像類問題答案對.通過識別能力現(xiàn)在可以與人類視覺能力相媲美的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)識別,其效果在諸如imagenet large scale visual等基準(zhǔn)測試中較優(yōu),可回答比如“這個圖像中的主要對象是什么”一類的問題;建立系統(tǒng)給圖像和基于文本的問題,是解決識別主導(dǎo)對象或活動之外的圖像的一種自然方法[14],最終輸出一個基于文本的答案,這被稱為開放式視覺問題解答(VQA)問題.它要求將計算機(jī)視覺與自然語言處理相結(jié)合.實(shí)驗描述了一個基于貝葉斯框架進(jìn)行答案類型的預(yù)測模型,其中使用了名為skipthought的矢量,以某種方式將句子編碼成矢量句子并保留顯著語句信息,在多個公開可用的VQA數(shù)據(jù)集上進(jìn)行測試.

        綜上所述,國外關(guān)于使用Stack Overflow技術(shù)論壇數(shù)據(jù)進(jìn)行分析研究較多,例如問題質(zhì)量評估等領(lǐng)域.現(xiàn)有工作大多研究預(yù)測問題內(nèi)容質(zhì)量、答案內(nèi)容質(zhì)量的評分,或者基于用戶的問題內(nèi)容的解答專家的推薦,但對于問題的解答狀態(tài)的預(yù)測工作尚未展開,因此本文提出一種方法對問題解答狀態(tài)進(jìn)行預(yù)測.

        1.2 文本分類

        文本分類問題在自然語言處理(Natural Language Processing, NLP)領(lǐng)域占據(jù)著重要地位.它創(chuàng)立在20世紀(jì)50年代,隨著專家系統(tǒng)的建立,文本分類有了新的進(jìn)步.但這種方法不僅費(fèi)時費(fèi)力,而且覆蓋的范圍和準(zhǔn)確率都非常有限.隨后發(fā)展到90年代時,出現(xiàn)許多能夠解決大規(guī)模文本的文本分類方法,下面是3種常用的分類算法:

        1) Rocchio算法.Rocchio[14]方法是情報檢索領(lǐng)域最經(jīng)典的算法[15].該算法的基本思路是通過計算同一個類別里的樣本文檔,得到新向量,該向量是該類別最具代表性的向量表示.將給出的測試文本對其進(jìn)行判斷時,比較新文本與這個中心向量的相似度,判斷向量之間距離,進(jìn)而可以確定新文本屬不屬于該類別.Rocchio算法被改良之后不僅判斷屬于這種類別的文本(正樣本),也判斷不屬于這個類別的文本數(shù)據(jù)(負(fù)樣本).這種算法比較簡單,但是對錯誤數(shù)據(jù)毫無抵抗力,無法包容數(shù)據(jù)噪聲[16].

        2)K-近鄰算法KNN.KNN[17]方法是先給定待分類文本,再計算待分類文本與訓(xùn)練樣本集中各個樣本的文本相似度.根據(jù)計算結(jié)果找出N篇與待分類文本距離最近最相似的文本,根據(jù)這N篇文本所屬的類別判定待分類文本的所屬類別,是一種基于實(shí)例的分類方法.這種判斷方法很好地克服了Rocchio算法中無法用一條直線準(zhǔn)確劃分2類數(shù)據(jù)的缺陷,但是比較過程的代價較大.

        3) 支持向量機(jī)(support vector machine, SVM)方法.樣本數(shù)據(jù)較大時使用SVM方法[18],它是由Cortes等人于20世紀(jì)90年代提出的,SVM利用了統(tǒng)計學(xué)習(xí)理論的VC理論.并且利用結(jié)構(gòu)風(fēng)險最小化原理,在文本分類方面可以實(shí)現(xiàn)降維和分類.SVM學(xué)習(xí)的是壓縮成的有限數(shù)量的信息,為使泛化能力達(dá)到最優(yōu),就要兼顧模型復(fù)雜性與模型的學(xué)習(xí)能力.

        由于文本表達(dá)的形式非常麻煩,表達(dá)成矩陣形式時維度又高,特征表達(dá)能力很弱,同時神經(jīng)網(wǎng)絡(luò)不適應(yīng)于處理稀疏矩陣表達(dá)的數(shù)據(jù),因此如何解決文本表示變?yōu)橐淮箅y題.

        Google Mikolov的文獻(xiàn)[19]提出一個工具包Word2Vector,促進(jìn)詞分布式的發(fā)展,使用Word2Vector工具包能夠?qū)φZ義進(jìn)行較全的保留效果,極大地推進(jìn)了文本分析的進(jìn)程.但分布式表示很早就被提出,能夠?qū)⒚總€詞表達(dá)成實(shí)數(shù)向量.礙于神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的需求性,這個實(shí)數(shù)向量需要有適當(dāng)?shù)木S度,不能稀疏又要連續(xù),也就是詞嵌入(word embedding).詞向量的提出將文本從神經(jīng)網(wǎng)絡(luò)難以處理的方式,變成了連續(xù)稠密數(shù)據(jù),這種數(shù)據(jù)形式類似圖像、語音,是訓(xùn)練語言模型的附加產(chǎn)物.再利用卷積神經(jīng)網(wǎng)絡(luò)、遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)結(jié)構(gòu)自動獲取特征表達(dá)能力.深度學(xué)習(xí)逐漸在自然語言處理上取得令人矚目的研究成果,其理論能夠很好地應(yīng)用于文本分類當(dāng)中,其中最新最令人關(guān)注的循環(huán)神經(jīng)網(wǎng)絡(luò)主要解決了如何處理時間序列的變化.

        雖然卷積神經(jīng)網(wǎng)絡(luò)、遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)用于文本分類時結(jié)果非常較好,但是有一個不足的地方就是其表達(dá)的結(jié)果不能讓人直接理解、解釋起來也不容易,尤其是在分析壞測試案例時尤其麻煩.注意力(attention)機(jī)制[20]是NLP領(lǐng)域常用的建模長時間記憶機(jī)制,其基本思想就是目標(biāo)語言端的詞往往只與源語言端部分詞有關(guān).可以很直觀地給出每個詞對結(jié)果的作用,非常適用于Seq2Seq模型.Bahdanau等人使用雙向RNN(bidirectional RNN),成功使得一個詞的隱層狀態(tài)不僅壓縮了其前面的詞的信息,還壓縮了后面的詞.更加關(guān)注這一個詞語周邊的詞,使得RNN能更好地表達(dá)當(dāng)前的輸入.結(jié)果證明,引入attention能夠解決不同長度的源語言句子都用相同固定維度的壓縮向量表示所帶來的性能瓶頸,其魯棒性[21]更好.

        有別于使用傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法,本文將使用最新的深度神經(jīng)網(wǎng)絡(luò)技術(shù),進(jìn)而挖掘更加復(fù)雜與潛在的聯(lián)系.本文在學(xué)習(xí)問題標(biāo)題的短文本信息的同時,也利用用戶特征進(jìn)行分析.在訓(xùn)練集的收集方面,本文使用自動化的方法去解析獲取社區(qū)的數(shù)據(jù)集,并對獲取后的問題特征進(jìn)行標(biāo)注.

        2 面向技術(shù)論壇問題解答狀態(tài)的預(yù)測方法

        本節(jié)詳細(xì)介紹面向技術(shù)社區(qū)的問題解答狀態(tài)的預(yù)測方法.其中,2.1節(jié)給出本文所提出方法的概覽介紹,之后的各小節(jié)將詳細(xì)介紹該方法的各個關(guān)鍵步驟.

        2.1 方法概述

        本文提出的面向技術(shù)論壇的基于深度學(xué)習(xí)的問題解答狀態(tài)預(yù)測方法如圖1所示.

        1) 利用Stack Overflow論壇的有關(guān)問題、用戶的多個存儲文件作為語料庫,經(jīng)過分析處理將數(shù)據(jù)轉(zhuǎn)化為文本型特征與數(shù)值型特征.

        2) 根據(jù)問題是否有滿意答案的標(biāo)志和問題回答的數(shù)量對內(nèi)容進(jìn)行標(biāo)注,對文本特征進(jìn)行還原詞根、刪除停用詞和標(biāo)點(diǎn)分詞等預(yù)處理;然后使用Word2Vector進(jìn)行訓(xùn)練生成詞向量,將生成的詞向量與數(shù)值型特征作為神經(jīng)網(wǎng)絡(luò)的輸入.

        3) 抽出有滿意答案標(biāo)志的問題作為正樣本集合,其余問題隨機(jī)抽出作為負(fù)樣本集合.分類器的預(yù)期輸出為樣本的標(biāo)注標(biāo)簽也就是本文的預(yù)測內(nèi)容(即問題是否會獲得滿意答案).分類器經(jīng)過多次迭代訓(xùn)練后可以獲得最終訓(xùn)練好的深度學(xué)習(xí)分類器.

        4) 通過訓(xùn)練好的分類器,輸入給定的待預(yù)測的技術(shù)問題的相關(guān)特征,得到對于提出問題的解答狀態(tài)的預(yù)測結(jié)果.

        實(shí)現(xiàn)細(xì)節(jié)將在2.2,2.3節(jié)中進(jìn)行詳細(xì)介紹.

        Fig.1 Overview of prediction methods for answer status of technical forum question圖1 技術(shù)論壇問題解答狀態(tài)的預(yù)測方法概述

        2.2 神經(jīng)網(wǎng)絡(luò)的輸入

        由于將有關(guān)問題的全部內(nèi)容和提問者等相關(guān)信息直接輸入深度神經(jīng)網(wǎng)絡(luò)分類器會造成模型學(xué)習(xí)難度過大,且問題描述內(nèi)容本身過長,在訓(xùn)練過程中極易造成數(shù)據(jù)損失.因此我們需要對輸入內(nèi)容進(jìn)行選擇與預(yù)處理操作.從語料庫中舍棄一部分對分類器訓(xùn)練過程無價值的相關(guān)特征,從而降低神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建與訓(xùn)練難度.

        同時為防止因特征過多而導(dǎo)致的維度爆炸問題,本文經(jīng)過多次比較與考量,選取了與技術(shù)問題解答狀態(tài)預(yù)測相關(guān)的問題特征作神經(jīng)網(wǎng)絡(luò)分類器輸入的一部分,而文本特征只提取了技術(shù)問題的標(biāo)題.

        盡管已經(jīng)刪除了一定的無關(guān)的問題特征,但這些提取特征之間的關(guān)聯(lián)關(guān)系以及輸入特征和輸出預(yù)測結(jié)果之間的潛在映射關(guān)系仍然需要進(jìn)一步分析.因此,我們將提取后的原始特征輸入分類器進(jìn)行映射和學(xué)習(xí),從而使最終輸出和問題樣本標(biāo)簽的分類結(jié)果盡量相似.

        從第1部分中我們可以知道,非文本特征對于問題狀態(tài)影響很大,因此除問題標(biāo)題外我們還綜合了6個文本和非文本特征,從不同角度體現(xiàn)技術(shù)問題的特性,并且參考提問者的信息,從而能夠在問題內(nèi)容類型、包含代碼、用戶貢獻(xiàn)等方面更全面的表現(xiàn)問題的特征.

        表1展示了所選問題特征的詳細(xì)信息.需要聲明的是,這里的tag并不是文本形式,而是長度為50位的全0數(shù)組.經(jīng)過對文本的分析我們選取了出現(xiàn)頻率最高的前50位的問題標(biāo)簽(表明了問題所屬的類型,如Java,Python),當(dāng)問題用戶標(biāo)注標(biāo)簽時,數(shù)組中對應(yīng)位置上的值則置為1,未出現(xiàn)則繼續(xù)設(shè)置為默認(rèn)值0.選取前50位的原因是經(jīng)過對問題標(biāo)簽的分析,Stack Overflow的庫中共存有上萬個標(biāo)簽,極大多數(shù)標(biāo)簽只出現(xiàn)了一次,因此選取指定樣本區(qū)間中至少出現(xiàn)1萬次以上的標(biāo)簽,過長的問題類型標(biāo)簽同樣容易引起維度爆炸,最終定為50.

        Table 1 Features of Selected Technical Questions表1 選取的技術(shù)問題特征

        表1中除了title作為文本型數(shù)值輸入,其余特征輸入形式都為數(shù)值型,這些特征共同組成了本文所提出方法的輸入:

        input=,

        (1)

        numeric_features={code,tag,creation,
        reputation,upvotes,downvotes},

        (2)

        其中,numeric_features是所有數(shù)值型問題特征的集合,共55個值,則是每個問題的標(biāo)題文本,也是本文方法中唯一字符型的輸入.

        2.3 問題特征的表示方式

        為了能夠探索發(fā)掘出問題標(biāo)題文本內(nèi)容的深層語義關(guān)聯(lián)與含義,本文使用了Mikolov等人提出的著名的詞向量化模型Word2Vector,將標(biāo)題中的詞語映射到高緯向量空間[22],以詞向量在高維空間中的分布來揭示詞與詞之間的相似性關(guān)系.作為自然語言處理領(lǐng)域的重要工具,Word2Vector構(gòu)建了一個以給定的文本作為輸入輸出的神經(jīng)網(wǎng)絡(luò).在進(jìn)行訓(xùn)練之后,可以利用此模型的隱含層將詞語轉(zhuǎn)化為稠密向量,實(shí)現(xiàn)以向量相似性來表示語義相似性的目的.

        我們利用大量的經(jīng)過基本文本預(yù)處理的問題標(biāo)題作為語料庫,對Word2Vector模型進(jìn)行訓(xùn)練,構(gòu)建了一個針對技術(shù)社區(qū)問題標(biāo)題文本的向量空間.該過程根據(jù)3個步驟對神經(jīng)網(wǎng)絡(luò)分類器輸入分別進(jìn)行預(yù)處理.

        1) 去除標(biāo)題中的謂詞與冠詞,對問題標(biāo)題進(jìn)行分詞,將問題拆分為多個邏輯單字.

        2) 將邏輯單字使用nltk語言包進(jìn)行統(tǒng)一小寫和詞根還原的操作.

        3) 利用已訓(xùn)練好的Word2Vector模型將各邏輯單字分別映射為高維空間中固定長度(200維)的詞嵌入向量(word embedding).

        由于程序語言中涉及符號標(biāo)志較多,例如C++、C#等語言中包含的符號,因此在預(yù)處理過程中只針對點(diǎn)號、逗號、冒號、感嘆號、疑問號共5種用于斷句的符號進(jìn)行刪除,其余符號則不予處理.

        2.4 基于深度神經(jīng)網(wǎng)絡(luò)的分類器

        本文所提出的基于深度神經(jīng)網(wǎng)絡(luò)的分類器結(jié)構(gòu)如圖2所示:

        Fig.2 Classifier based on neural network圖2 神經(jīng)網(wǎng)絡(luò)分類器

        如2.2節(jié)所述,本文分類器的輸入共有2部分,分別為文本輸入與數(shù)值輸入.文本輸入的內(nèi)容是提出問題的標(biāo)題,標(biāo)題文本在經(jīng)過預(yù)處理之后(詳見2.3節(jié)),會從文本信息形式轉(zhuǎn)換為數(shù)值形式,以詞向量矩陣的形式(輸入大小為20×200)經(jīng)過輸入數(shù)據(jù)屏蔽層之后進(jìn)入Conv-LSTM層.此處長度20是考慮到問題標(biāo)題長度通常不會過長,經(jīng)過查看Stack Overflow對于標(biāo)題長度的限制與標(biāo)題長度的統(tǒng)計得出該數(shù)值.

        Conv-LSTM層是由卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional neural networks, CNN)的卷積層(convolu-tional layer)與長短時記憶網(wǎng)絡(luò)(long short-term memory, LSTM)構(gòu)成.將2種神經(jīng)網(wǎng)絡(luò)結(jié)合運(yùn)用之后,不僅具有CNN的刻畫局部特征的能力[23],還有LSTM的時序建模能力[24],空間和時間上特性都具有[25],使自然語音處理技術(shù)得到充分利用.具體結(jié)構(gòu)如圖3所示:

        Fig.3 The structure of Conv-LSTM layer圖3 Conv-LSTM層結(jié)構(gòu)

        本文中的CNN進(jìn)行一維卷積的對象是詞向量,設(shè)在句子中第i個單詞的200維詞向量為xi,輸入長度為L的句子的向量為X,k為filter的長度,m為一個進(jìn)行卷積操作的filter,filter在句子j位置卷積形成的k個連續(xù)詞向量長度的窗口向量為wj.

        卷積后的窗口向量:

        wj=[xj,xj+1,…,xj+k-1],

        (3)

        其中,逗號表示行向量連接,進(jìn)行卷積計算操作的filter是具有多個指定長度,分別是3,4,5.同一指定長度卷積一次.這種方法將原始詞向量序列卷積之后變得更為抽象,但是對原句子的編碼還是使用LSTM網(wǎng)絡(luò).

        Conv-LSTM層上卷積操作的對象是200維的詞向量,卷積窗口在由數(shù)據(jù)生成的詞向量矩陣序列上進(jìn)行滑動卷積操作,獲得不同位置的特征,即多個feature map,設(shè)為cj.通過映射操作把卷積后內(nèi)容相同的特征向量依次排列放在同一序列中,設(shè)為W.計算方法:

        cj=f(wj°m+b),

        (4)

        W=[c1;c2;…;cn],

        (5)

        其中,°表示的是矩陣元素相乘,映射函數(shù)f使用ReLU[26],b表示偏項,分號表示列向量連接.

        卷積后的窗口序列與輸入數(shù)據(jù)的序列相對應(yīng),因此本文模型中的卷積操作并不會影響文本內(nèi)容中的順序.窗口向量序列按順序輸出向量到下一層的LSTM.LSTM的實(shí)際輸入結(jié)果其實(shí)是CNN中間層的隱含輸出層的內(nèi)容.LSTM的輸入結(jié)果不能經(jīng)過max-pooling池化層,因為池化層用于卷積后的特征映射選擇出最重要的特征,映射選擇功能并不是連續(xù)按順序選擇特征,不能保證池化后的語句能保持原始順序讓模型進(jìn)行語義學(xué)習(xí),影響LSTM序列學(xué)習(xí).因此在卷積運(yùn)算后就不會進(jìn)行pooling操作.

        數(shù)據(jù)從LSTM層學(xué)習(xí)輸出后,進(jìn)入到全連接層,全連接層激活函數(shù)為tanh函數(shù).之后,2部分?jǐn)?shù)據(jù)會經(jīng)由合并層(merge layer)以向量拼接(concatenate,axis=-1)的形式進(jìn)行合并;輸出層的激活函數(shù)為sigmoid函數(shù),最終選取的模型損失函數(shù)(loss function)為binary_crossentropy,優(yōu)化器(optimizer)選擇為adam自適應(yīng)方法,迭代次數(shù)epoch=12,批尺寸batch_size=128.

        分類器是在有監(jiān)督的情況下對輸入進(jìn)行迭代訓(xùn)練,從而訓(xùn)練出模型的最優(yōu)參數(shù).

        3 實(shí)驗驗證

        在本節(jié)中,我們基于Stack Overflow的真實(shí)歷史數(shù)據(jù)對本文提出的方法進(jìn)行實(shí)驗驗證.

        3.1 研究問題

        在實(shí)驗驗證階段,我們希望通過分析4個問題來對所提出的方法進(jìn)行評估.

        1) RQ1.該方法是否能夠準(zhǔn)確有效對社區(qū)技術(shù)問題的解答狀態(tài)進(jìn)行預(yù)測?其查全率和查準(zhǔn)率是否優(yōu)于現(xiàn)有方法?

        2) RQ2.所提出的神經(jīng)網(wǎng)絡(luò)的2個特征輸入(標(biāo)題文本特征與數(shù)值特征)對最終結(jié)果分別有什么影響?即如果只有其中一個特征輸入,分類器的性能會如何變化?數(shù)值特征中的各項特征值又會對分類器的性能有什么影響?

        3) RQ3.利用其他網(wǎng)絡(luò)模型(如卷積神經(jīng)網(wǎng)絡(luò)CNN、長短時記憶神經(jīng)網(wǎng)絡(luò)LSTM)替代神經(jīng)網(wǎng)絡(luò)分類器中所使用的組合神經(jīng)網(wǎng)絡(luò),是否會影響分類器的性能,如查全率、查準(zhǔn)率?

        4) RQ4.訓(xùn)練集與測試集的數(shù)量規(guī)模是否會很大程度上的影響分類器的性能?即如果訓(xùn)練集如果數(shù)量較多或較少,能否進(jìn)行準(zhǔn)確的預(yù)測?

        研究問題RQ1關(guān)注的是所提出的深度學(xué)習(xí)方法與傳統(tǒng)機(jī)器學(xué)習(xí)方法的預(yù)測結(jié)果在查準(zhǔn)率(precision)與查全率(recall)等指標(biāo)上的區(qū)別.為了回答這個問題,我們選擇了KNN[17]和FastText[27]作為對比方法,KNN是典型的基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法,而FastText是非深度模型的神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練速度遠(yuǎn)高于深度學(xué)習(xí)的同時也保證訓(xùn)練的質(zhì)量.除此之外,我們還與隨機(jī)猜測進(jìn)行對比.隨機(jī)猜測方法首先統(tǒng)計訓(xùn)練集中正樣本的出現(xiàn)概率p,然后以恒定的概率p將測試數(shù)據(jù)預(yù)測為正樣本(能獲得滿意答案).

        研究問題RQ2關(guān)注神經(jīng)網(wǎng)絡(luò)分類器輸入特征選取的有效性.我們在保持模型其他部分不變的情況下,分別刪除原模型中的問題標(biāo)題文本及特征值中的不同位置,繼續(xù)將原模型加以調(diào)優(yōu)并訓(xùn)練.以各分類器在同一測試集上的各項指標(biāo)作為衡量指標(biāo)來分析所提出的各個特征分別在整個方法中所起的作用.

        研究問題RQ3主要關(guān)注在本方法所構(gòu)造的神經(jīng)網(wǎng)絡(luò)分類器中文本特征的處理效果.我們通過將所提出的網(wǎng)絡(luò)模型中的組合神經(jīng)網(wǎng)絡(luò)分別替換為長短時記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),并同樣以各分類器在同一數(shù)據(jù)集上的最優(yōu)平均F1值作為指標(biāo)來幫助考察和分析在已有的方法架構(gòu)下3種神經(jīng)網(wǎng)絡(luò)對于最終結(jié)果的影響.

        研究問題RQ4則關(guān)注訓(xùn)練樣本集和測試樣本集的內(nèi)容質(zhì)量因素,使用不同數(shù)量規(guī)模的問題樣本集進(jìn)行訓(xùn)練和測試在該分類器模型上是否會有影響.與其余文本分類問題不同,之前不能有滿意答案的問題可能隨著技術(shù)的發(fā)展變得可被解答,這種情況會擾亂分類器的訓(xùn)練,因此本問題對樣本集其數(shù)量范圍的影響進(jìn)行探討.

        3.2 實(shí)驗過程

        由于訓(xùn)練樣本是由Stack Overflow提供的數(shù)據(jù)集獲取而來,內(nèi)容量復(fù)雜,問題數(shù)量達(dá)到上億個,直接放入到神經(jīng)網(wǎng)絡(luò)里訓(xùn)練會使模型訓(xùn)練難度極具增大,并且提出的問題能夠獲得滿意答案的幾率并不高.按照本文設(shè)定的正負(fù)樣本集合,也就是按照是否有滿意答案標(biāo)注正負(fù)樣本,樣本比例很可能不均勻,從而影響分類器的訓(xùn)練效果.因此我們以2017年的Stack Overflow社區(qū)的問題為樣例參考,對問題有滿意答案和無滿意答案的內(nèi)容進(jìn)行統(tǒng)計,如表2所示.其中表2列1是問題的發(fā)布時間(月),列2是問題提出的總數(shù),列3和列4分別是有滿意答案與無滿意答案的數(shù)量,列5是有滿意答案的百分比.

        Table 2 History Data from Stack Overflow in 2017表2 2017年Stack Overflow歷史數(shù)據(jù)

        我們選取指定年份的問題作為語料庫,逐條生成固定格式的正負(fù)樣本數(shù)據(jù)集(詳見2.3節(jié)),構(gòu)建分類器的訓(xùn)練集,每個月以1周為時間跨度獲取2萬條,并抽取該月后面的2 000條問題作為測試樣本.每個訓(xùn)練集對應(yīng)當(dāng)月抽取的測試集進(jìn)行測試.具體選取數(shù)量原因可見研究問題RQ4.所提模型代碼基于Tensorflow實(shí)現(xiàn),實(shí)現(xiàn)評估的評價指標(biāo)有查準(zhǔn)率(precision)和查全率(recall)以及F1值.計算為

        (6)

        (7)

        (8)

        TP表示True Positive,即做出Positive的判定,而且判定是正確的,其數(shù)值表示正確的Positive判定的個數(shù),剩余同理.請注意,此處評估指標(biāo)的目標(biāo)為正樣本,即正樣本被判斷對是TP.

        3.3 RQ1:優(yōu)于現(xiàn)有方法

        為回答研究問題RQ1,我們總結(jié)了本方法與KNN以及FastText方法在相同測試集上的問題解答狀態(tài)預(yù)測結(jié)果,并使用隨機(jī)猜測的方法證明該方法的有用性.隨機(jī)猜測是假如訓(xùn)練集中正樣本概率為p,那么就以p的概率預(yù)測測試樣本為正樣本,正樣本的概率p值設(shè)定由表2可得,設(shè)置為37%.

        我們共使用了3個月的數(shù)據(jù)集分別進(jìn)行測試.對比方法是將特征合并成1條總體特征輸入到分類器中進(jìn)行訓(xùn)練與預(yù)測.

        結(jié)果如表3所示.其中,列1為預(yù)測問題的發(fā)布時間,列2為本方法的測試結(jié)果的查準(zhǔn)率、查全率和F1值.列3為使用KNN方法的查準(zhǔn)率、查全率和F1值,列4為FastText的查準(zhǔn)率、查全率和F1值.列5為隨機(jī)猜測的查準(zhǔn)率、查全率和F1值.

        Table 3 Results on Status Prediction for Post Questions表3 問題解答狀態(tài)預(yù)測的結(jié)果 %

        根據(jù)表3我們可以看出:

        1) 本文所提出方法的平均查準(zhǔn)率比KNN提高了15.96%(為58.87%-42.91%),比FastText提高了2.40%(為58.87%-56.47%),查全率和F1值也都有所提高.

        2) 與隨機(jī)猜測相比,本文查全率和查準(zhǔn)率分別提高了11.42%(為46.68%-35.26%)和20.10%(為58.87%-38.77%).

        除此之外,我們還使用單因素方差分析法(One-Way ANOVA)對本方法的性能提升的F1值進(jìn)行顯著性分析,設(shè)置α=0.05,圖4顯示了本文方法與不同分類方法分類效果的ANOVA結(jié)果.結(jié)果顯示F=69.585 7,P-value接近于0遠(yuǎn)小于0.05,表明不同分類方法之間有著顯著的差異.

        在設(shè)置相同的情況下我們也對Precision和Recall值分別進(jìn)行了單因素方差分析,F(xiàn)值分別為108.426 3與30.190 07,其P-value分別為8.091 29E-07和0.000 103.ANOVA分析結(jié)果表明,不同方法的處理對查準(zhǔn)率和查全率有顯著影響.

        我們從上述結(jié)論可得出,在技術(shù)問題的解答狀態(tài)的預(yù)測能力上,本文提出的深度學(xué)習(xí)方法在總體效果上優(yōu)于隨機(jī)猜測,并略優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)KNN和淺層神經(jīng)網(wǎng)絡(luò)FastText.

        3.4 RQ2:輸入特征的影響

        針對研究問題2,我們設(shè)計了一組對比試驗來考察所提出方法中的各個特征分別對于問題解答狀態(tài)預(yù)測結(jié)果的影響.通過神經(jīng)網(wǎng)絡(luò)的拆分與訓(xùn)練數(shù)據(jù)集中不同特征數(shù)據(jù)的刪除的方法,由表1可得title,code,tag都屬于文本特征,用戶特征reputation等屬于非文本特征.本實(shí)驗使用3個月的數(shù)據(jù),從其平均值中直觀地查看7個特征的作用.如圖5所示.圖5縱坐標(biāo)代表未輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練的特征,Default則表示輸入了全部特征.根據(jù)圖5可以看出:

        1) 刪除任意輸入特征都導(dǎo)致方法性能的降低.

        2) 文本型輸入的影響效果最大,刪除文本型輸入title導(dǎo)致方法的查準(zhǔn)率會大幅降低,其降幅高達(dá)50.83%(為58.87%-8.04%).

        3) 刪除tag和code文本特征時,查準(zhǔn)率會分別降低6.49%(為58.87%-52.38%)和4.43%(為58.87%-54.44%).而刪除非文本特征查準(zhǔn)率降幅最高為3.20%(為58.87%-55.67%).

        4) 問題提出者的聲譽(yù)值及評價會對查全率有較大的影響.刪除該輸入導(dǎo)致查全率降低了6.03%(為46.68%-40.65%).

        Fig.4 F1 ANOVA analysis圖4 方差分析F1

        Fig.5 Influences of different input features圖5 不同輸入特征的影響

        從上述結(jié)論可得,各個問題特征對于解答狀態(tài)的預(yù)測指標(biāo)都有著提高作用.其中文本特征對查準(zhǔn)率的影響大于非文本特征對查準(zhǔn)率的影響,用戶特征對方法查全率影響較大.

        3.5 RQ3:神經(jīng)網(wǎng)絡(luò)模型的影響

        為了回答研究問題RQ3,我們分別將卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)以及組合網(wǎng)絡(luò)這3種網(wǎng)絡(luò)模型運(yùn)用于分類器中的文本特征處理環(huán)節(jié),各分類器經(jīng)過調(diào)優(yōu)后在同一測試集上的具體表現(xiàn)如表4所示.需要注意的是,表4中3種分類器除文本特征提取環(huán)節(jié)所用模型不同外,網(wǎng)絡(luò)其余部分都保持一致.其中列2使用卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)依次處理文本特征信息,列3只使用2層長短期記憶網(wǎng)絡(luò)(同組合網(wǎng)絡(luò)中深度相同)處理,列4分類器則采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本提取.

        由表4可以看出:

        1) 本文方法的平均F1值與LSTM相比,高出了1.58%(為52.06%-50.48%),其平均查準(zhǔn)率的漲幅達(dá)1.43%(為58.87%-57.44%).

        2) 本文方法的平均F1值與CNN相比,高出了2.52%(為52.06%-49.54%),其平均查準(zhǔn)率的漲幅達(dá)2.33%(為58.87%-56.54%).

        設(shè)置α=0.05,對F1值進(jìn)行單因素方差分析,其F值為6.561 883,大于臨界值Fcrit為5.143 253;其P-value為0.030 884小于0.05,因此不同神經(jīng)網(wǎng)絡(luò)之間提取能力差異較明顯.

        Table 4 Influence of Deep Learning Models表4 深度學(xué)習(xí)模型對預(yù)測性能的影響 %

        Fig.6 Influences of training data size圖6 訓(xùn)練數(shù)據(jù)的規(guī)模對性能的影響

        從上述結(jié)論可得,組合神經(jīng)網(wǎng)絡(luò)對問題文本的提取能力會高于單種神經(jīng)網(wǎng)絡(luò).針對該情況,我們認(rèn)為選擇卷積神經(jīng)網(wǎng)絡(luò)與長短時記憶網(wǎng)絡(luò)的組合(Conv-LSTM)作為整個神經(jīng)網(wǎng)絡(luò)中的代碼文本特征提取層時,問題特征提取的效果最好.

        3.6 RQ4:訓(xùn)練數(shù)據(jù)的規(guī)模對性能的影響

        針對研究問題RQ4,我們對分類器訓(xùn)練集的最佳訓(xùn)練數(shù)量進(jìn)行了評估.從表2可以看出,1個月的問題數(shù)量大約為10萬左右,因此我們以1月的數(shù)據(jù)為范圍,分別抽取不同數(shù)量的訓(xùn)練集進(jìn)行訓(xùn)練,抽取數(shù)量按照不同的時間跨度為半天、半周、1周、半個月、1個月的范圍獲取并進(jìn)行測試.從圖6可以看出:

        1) 查準(zhǔn)率可根據(jù)數(shù)量提升而提高,漲幅最大時(2 000條增長為2萬條)可達(dá)30.15%(為58.34%-28.19%).

        2) 訓(xùn)練樣本過多反而會造成查準(zhǔn)率的降低,數(shù)量分別為2萬條和10萬條時分類器的查準(zhǔn)率差值可達(dá)6.61%(為58.34%-51.73%).

        從上述結(jié)論可得,訓(xùn)練集的數(shù)量對于評估指標(biāo)影響較大,訓(xùn)練集數(shù)量達(dá)到一定數(shù)值時可提高準(zhǔn)確性,訓(xùn)練集范圍在20 000~50 000條時訓(xùn)練效果最佳.針對該情況,因此我們選擇每個月的20 000條作為訓(xùn)練樣本,既可以減少數(shù)據(jù)預(yù)處理時間,也能保證查全率、查準(zhǔn)率的數(shù)值最高.此外,經(jīng)過人工分析,數(shù)量超越一定值時查準(zhǔn)率下降的原因是由于訓(xùn)練集之間時間跨度較大,內(nèi)容差異性較大,致使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效果降低,并且文本數(shù)據(jù)中存在較多數(shù)據(jù)噪音,如低質(zhì)量(標(biāo)題文本過短、內(nèi)容簡單)問題過多,致使神經(jīng)網(wǎng)絡(luò)無法從文本內(nèi)容中學(xué)習(xí)到有用信息.

        3.7 有效性威脅

        3.7.1 外部有效性威脅

        技術(shù)社區(qū)問題所在的地域不同、面向群眾不同,會造成技術(shù)論壇的使用語言也不同,因此技術(shù)論壇可能會有英語、中文等.語言的不同不僅會對問題特征提取產(chǎn)生影響,有可能提取到錯誤的信息,也會對神經(jīng)網(wǎng)絡(luò)理解文本信息產(chǎn)生威脅,因此我們選取了使用范圍最廣的英語作為分類器主要分析的文本語言,使用英語的技術(shù)論壇最多,也保證了本文模型可以適用于更多的技術(shù)社區(qū)的問題內(nèi)容.同時編程語言或文檔多以英文描述為主,自然語言處理技術(shù)在英文處理上更為成熟,從而盡量降低地特征提取和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本信息過程中產(chǎn)生的誤差,保證分類器的性能.

        其次,雖然選擇了以英文為描述語言的技術(shù)社區(qū),但因為論壇數(shù)量很多,本文只選擇了使用人群極多的Stack Overflow技術(shù)論壇進(jìn)行驗證,并沒有對所有英文論壇的數(shù)據(jù)進(jìn)行測試,這也是對分類器有效性的威脅.因為本文提出的方法除問題標(biāo)題外,還有問題特征如Reputation等,如果其余技術(shù)論壇無類似特征,那么會對本文所使用的方法特征提取與最后的問題解答狀態(tài)預(yù)測結(jié)果也會導(dǎo)致本文結(jié)論出現(xiàn)偏差,使得本文結(jié)論不適用于其余技術(shù)社區(qū).

        3.7.2 內(nèi)部有效性威脅

        對于評估有效性的威脅在于用來驗證實(shí)驗結(jié)果的數(shù)據(jù)集并沒有涵蓋所有Stack Overflow論壇的問題,選取的問題的某些特性可能會使結(jié)論產(chǎn)生偏差,從而導(dǎo)致所得結(jié)論不適用于其余論壇問題.為了減少這一威脅,我們選取了2017年的數(shù)據(jù)作為測試與驗證,可代表論壇一個長周期內(nèi)的數(shù)據(jù),以期減少某些問題的特定關(guān)聯(lián)對于驗證結(jié)果造成影響.

        此外,由于本文的數(shù)據(jù)集是自行標(biāo)注,根據(jù)問題的回答數(shù)量和問題的滿意答案標(biāo)志來生成問題標(biāo)簽,因此如果數(shù)據(jù)集中有錯誤,就會造成訓(xùn)練數(shù)據(jù)的標(biāo)簽出錯,進(jìn)而影響深度神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)效果,使結(jié)論產(chǎn)生偏差.此外,如果時間跨度過大,可能會造成相同問題不同解答情況即數(shù)據(jù)標(biāo)簽會出錯的情況.為降低該誤差的影響,本文在樣本抽取過程中采取隨機(jī)抽樣的方法,并盡可能的增大樣本數(shù)量從而降低單條樣本錯誤對分類器訓(xùn)練的影響.

        4 討論與總結(jié)

        4.1 討 論

        我們可通過對樣本質(zhì)量的改善從而提高模型的泛化能力[28],因此對于樣本中可能出現(xiàn)的樣本噪音,我們所提出的方法對神經(jīng)網(wǎng)絡(luò)的文本會進(jìn)行預(yù)處理.同時為增加神經(jīng)網(wǎng)絡(luò)的魯棒性[29],在神經(jīng)網(wǎng)絡(luò)設(shè)計過程中,會使用一些防過擬合[30]手段來減少樣本噪音對模型訓(xùn)練過程的干擾[31].

        由于技術(shù)論壇社區(qū)問題的時間跨度較長,實(shí)驗使用長度為1年的數(shù)據(jù)進(jìn)行訓(xùn)練預(yù)測時,查準(zhǔn)率只有0.34左右.經(jīng)過分析,是由于向量空間中距離相近的句子其標(biāo)簽不一致,原因是舊期不能解答的問題隨著技術(shù)的發(fā)展而能夠得以解答,會出現(xiàn)相同問題但解答狀態(tài)相反的情況,使得相同問題標(biāo)簽不同影響訓(xùn)練效果,產(chǎn)生數(shù)據(jù)噪音.如果時間跨度過大,文本數(shù)量過多,反而會降低分類器的效果.

        此外,問題的解答狀況與社區(qū)中人員,尤其是專業(yè)技術(shù)人員有很大關(guān)聯(lián),文獻(xiàn)[32]中顯示Stack Overflow上10%的“專家”解決了54%的問題,并提供了60%的最佳答案,因此這些人員的流動性以及成長性可能也會對技術(shù)論壇的這一解答能力造成影響.為降低該影響,實(shí)驗在選取數(shù)據(jù)時選取了近期的、連續(xù)的、跨度較短的時間段,從而降低專家流動的影響,并且將提問者專業(yè)程度的Reputation加入到分類內(nèi)容中.

        4.2 總 結(jié)

        技術(shù)社區(qū)論壇已經(jīng)成為程序員解決技術(shù)難題的一個重要渠道.提前預(yù)知技術(shù)問題的解答情況有助于程序員準(zhǔn)確制定最佳的應(yīng)對策略.為此,本文提出了一種基于深度學(xué)習(xí)的預(yù)測方法,能較為準(zhǔn)確地預(yù)測所提出的問題是否能及時獲得滿意答案.在Stack Overflow的真實(shí)數(shù)據(jù)上進(jìn)行了實(shí)驗驗證,實(shí)驗結(jié)果表明該方法的平均查全率可達(dá)46.68%,查準(zhǔn)率可達(dá)58.87%.而隨機(jī)猜測的平均查準(zhǔn)率為38.77%,查全率為35.26%,與本文提出的方法有明顯差距.

        盡管本文提出的方法在測試集上的性能比其他方法比有明顯提高,但總體來說準(zhǔn)確率依然有待進(jìn)一步提高.在未來的研究中,我們將對問題的解答狀態(tài)的預(yù)測方法做進(jìn)一步改進(jìn),并對問題特征中的特征選取與提取工作進(jìn)行更深的研究,詳細(xì)分析各種因素與問題解答狀態(tài)的關(guān)系,以期再提高預(yù)測的準(zhǔn)確率.

        猜你喜歡
        查準(zhǔn)率分類器卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        亚洲 美腿 欧美 偷拍| 亚洲人成网站18禁止久久影院| 国产白嫩美女在线观看| 天堂69亚洲精品中文字幕| 日本精品少妇一区二区| 久久婷婷五月综合色高清| 亚洲色大成网站www久久九| 在线精品无码一区二区三区| 一本久久伊人热热精品中文| 日韩在线观看入口一二三四| 另类老妇奶性生bbwbbw| 狠狠色综合播放一区二区| 精品国产一区二区三广区| 人妻诱惑中文字幕在线视频| 亚洲av日韩综合一区在线观看| 女性自慰网站免费看ww| 国产精品亚洲av无人区二区| 粗大猛烈进出高潮视频大全| 18分钟处破好疼哭视频在线观看| 国内久久婷婷精品人双人| 少妇呻吟一区二区三区| 国产精品私密保养| 精品熟女日韩中文十区| 久久国产A∨一二三| 日韩精品视频免费在线观看网站| 白色月光免费观看完整版| 本道天堂成在人线av无码免费| 久久夜色精品国产噜噜麻豆| 2021国产最新无码视频| 亚洲中文字幕永久网站| 蜜桃尤物在线视频免费看| 欧美成人免费全部| 尤物无码一区| 中文字幕亚洲一区视频| 比较有韵味的熟妇无码| 亚洲精品国产成人AV| 久久精品av一区二区免费| 日韩a级精品一区二区| 中国丰满熟妇xxxx| 高潮喷水无遮挡毛片视频| 亚洲一区二区三区偷拍视频|