孫啟蘊
(南京烽火軟件科技有限公司,南京 210019)
(武漢郵電科學研究院 通信與信息專業(yè),武漢 430073)
隨著人們對互聯(lián)網(wǎng)的使用量逐漸增大,互聯(lián)網(wǎng)進入了大數(shù)據(jù)時代.新浪微博作為一個公開社交平臺,使人們能夠有獲取最新最熱門的新聞、了解話題輿論、展現(xiàn)自我觀點、尋找志趣相投的朋友等途徑.截止到2017年第一季度,新浪微博約有2.97億日常活躍用戶,每天新增的微博數(shù)量約4億條.而新浪微博用戶性別這一基本屬性在不同領域都有著重要影響,如微博推薦系統(tǒng)會根據(jù)性別的不同給男性推薦車、體育相關的微博,而給女性推薦美妝、衣服相關的微博等等.因此對新浪微博用戶的性別做判斷很有意義.
目前國內外有不少研究人員對社交平臺中的用戶性別判斷進行研究.文獻[1]對twitter中非英文用戶性別的特征進行探索;文獻[2]利用用戶間的評論信息文本推測出交互雙方的性別;文獻[3]通過一個分類器尋找兩個博客之間的關系,從關聯(lián)來獲取未標注樣本中的分類信息;文獻[4]采用半監(jiān)督學習方法,通過博客文本和博客評論兩個視圖對用戶性別進行分類,取得了不錯的分類性能.文獻[5]從兩性表達情緒的差異出發(fā),利用微博發(fā)布文本內容中的情緒特征進行性別判斷;文獻[6]將用戶興趣標簽分成若干概念類來區(qū)分用戶性別,但這兩篇文獻在實踐過程中都需要大量人工標記樣本,且準確度不高.
本文從新浪微博爬取真實的用戶數(shù)據(jù),經(jīng)過前期數(shù)據(jù)清洗過濾之后,利用微博文本信息、微博用戶標簽、微博用戶昵稱三個可以刻畫微博用戶性別的方向作為三個不同的視圖,采用tri-training算法對三個不同的分類器進行互相訓練學習.實驗結果表明,在只用少量已標注訓練集的情況下,多視圖tri-training學習能有效的提高分類器的性別分類效果.
在傳統(tǒng)的機器學習分類問題中,一般分為有監(jiān)督和無監(jiān)督兩類學習方法[7].隨著大數(shù)據(jù)時代的發(fā)展,我們往往獲得的是大量未標記數(shù)據(jù)和少量已標記過的數(shù)據(jù).在訓練時,如果不考慮大量未標記的數(shù)據(jù)將會造成有用信息的丟失,同樣,如果只用少量已標記數(shù)據(jù)訓練,很難保證訓練器的準確性.半監(jiān)督學習[8]利用大量未標記數(shù)據(jù)和少量已標記數(shù)據(jù)對訓練器進行訓練,省去了人工打標的時間同時提高了分類器的性能.
在主流的半監(jiān)督學習算法中,最具代表性的就是協(xié)同訓練(co-training),它提出[9]如果數(shù)據(jù)集中有兩個充分冗余的視圖,那么分別用兩個視圖上已記數(shù)據(jù)各自訓練處一個分類器然后在協(xié)同訓練時,每個分類器從未標記數(shù)據(jù)中選擇置信度較高的數(shù)據(jù)進行標記,這樣另一分類器就可以根據(jù)這些新標記的數(shù)據(jù)重新進行訓練.這樣兩個分類器能通過互相訓練未知信息,使得自身準確性更高.
本文采用半監(jiān)督學習中的tri-training算法,通過三個不同的分類器之間相互學習訓練來處理未知類別分類問題.與co-training不同,tri-training算法采用了非顯示投票來處理置信度,在最初的分類器分類準確還很低的時候,輔助分類器對未打標數(shù)據(jù)的判斷可能會同時判斷成其他的類別,從而引入噪音[10].噪音學習理論[11]中提到,如果輔助分類器能正確的判斷大部分未標記訓練數(shù)據(jù),那么噪聲所帶來的錯誤率會被抵消.因此在不斷重復訓練分類器時,只要保證下一次的分類誤差率小于本次的分類誤差率就認為訓練過程正常.直到下一次的分類誤差率大于本次的分類誤差率,那么分類器訓練結束.
4)將Cu、Cn分類結果相同的Ui中的Uwi和Lw組合成新的訓練樣本Lw’;
輸入:
盡管半監(jiān)督學習已經(jīng)研究了十幾年,但是仍有其局限性,他們研究的數(shù)據(jù)只有一個特征集,忽略了大數(shù)據(jù)的異構性,會造成信息的丟失[13].現(xiàn)實情況中對象存在多個視圖,刻畫一個事物能通過不能的角度或者通過不同的工具[14].通??梢杂?xi,yi)來表示用單視圖描述的對象,其中xi是一個對象,yi是確定類別的標簽.而我們用([xi1,xi2,xi3],yi)來表示一個多視圖的對象,其中[xi1,xi2,xi3]是用一些不同視圖來刻畫同一個對象(比如多媒體數(shù)據(jù),xi1為文本視圖,xi2為圖像視圖,xi3為視頻視圖).雖然在進行協(xié)同訓練的時候并不一定需要多視圖,但是多視圖往往有錦上添花的能力.文獻[15]指出,在冗余的多視圖上,由于視圖之間有著有用信息,即使只用一個已標記數(shù)據(jù)作為起始訓練樣本,半監(jiān)督學習也能順利的進行下去.
本文采用基于多視圖tri-training學習的途徑來判斷性別.
山藥可以有性繁殖(山藥子),也可以無性繁殖(山藥苗頭和塊莖),但生產(chǎn)上以無性繁殖為主。苗頭一般長15-25 cm,重量在50 g以上,不能過小。段塊比苗頭出苗遲15-20天,但產(chǎn)量比苗頭的高,可采用育苗方法彌補出苗遲的缺點。一般每個段塊75-100 g重。
圖1 微博用戶性別判斷流程圖
微博文本信息在一定程度上能反映出用戶的性別,男性用戶在表達感情上更喜歡用表達憤怒厭惡的情緒相關的詞匯.而女性微博的發(fā)言更可能會出現(xiàn)“嗨皮??![親親][親親]希望男神的新專輯大麥!小女子支持到底!”包含“男神”、“小女子”以及連續(xù)重復表情符“[親親]”等詞匯.
本文在處理微博文本信息上先進行分詞、去停用詞的操作,然后采用向量空間模型(VSM)把文本轉換成空間向量.未做任何處理的空間向量由文本切分的所有詞組成,如果不降維會產(chǎn)生維度災難.因此需要對微博文本信息進行降維處理,本文采用信息增益(IG)來進行特征選擇.
3)將Ui中的用戶標簽Uui、Uni分別放入分類器Cu、Cn進行分類;
首先,在大學英語課堂教學設計和實施中,教師通過對“教”與“學”在時間、空間上的布局.通過對任務型教學活動的設計、組織,促進教學過程中的交互性.提升學生的參與度,確保課堂教學的有效性。
我們先對三個視圖(微博文本信息視圖、微博用戶標簽信息視圖、微博用戶昵稱視圖)建立維度特征,然后對這三個不同的視圖分別訓練三個不同的分類器并使它們互相學習訓練未標記的樣本數(shù)據(jù),最后將已經(jīng)訓練好的三個分類器進行集成,來對測試樣本進行分類.微博用戶性別判斷流程圖如圖1所示.
微博用戶標簽是微博用戶根據(jù)喜好或者自身屬性而打上的標簽,這些標簽能反映出用戶在當前階段的興趣、關注點和自身情況.據(jù)統(tǒng)計,約有53%的用戶會添加自己的標簽.
從表1微博用戶標簽信息舉例可以看出:女性用戶的標簽信息中往往會帶有透露自己性別的字眼,如“妞兒”、“女金?!钡?且往往標簽不止一個興趣詞來描述自己,而是會增加一些形容詞如“能吃的”、“不腦殘的”,或者表示程度的副詞“很”等等.而男性用戶的標簽大多僅為簡短的興趣詞匯,并未出現(xiàn)同表達程度和感情的形容詞或者副詞.因此在特征選擇時,加入程度詞頻率及標簽平均長度這兩個維度.
表1 微博用戶標簽信息舉例
微博用戶昵稱并非實名制,用戶可以按照自己的喜好和興趣或者情緒來創(chuàng)建昵稱.雖然沒有限制條件,但是用戶在取名的時候仍會受到性別的影響.如“葉仁琛”、“老男孩不加V”、“HelloWorld天真浪子”等男性化的詞匯更可能為男性用戶的昵稱,而女性用戶的昵稱更可能出現(xiàn)“沐雪瑩瑩”、“高姿態(tài)的妞兒”、“搗蛋_女孩”等女性化詞匯.
與微博文本信息不同,由于微博用戶昵稱字數(shù)較短,使用分詞可能會造成昵稱無法被正確切分,因此在對用戶昵稱的提取上采用n-Gram來提取特征來避免切詞障礙.我們選擇n-Gram中n=1和n=2,即unigram和bigram兩種特征提取方式.其中unigram為一元字特征,bigram為二元字特征.表2列舉了微博用戶昵稱“高姿態(tài)的妞兒”和“葉仁琛”分別用unigram、bigram、unigram+bigram和結巴中文分詞進行特征提取的結果.
本教研室在開展醫(yī)學統(tǒng)計學教學時采用板書教學方式,調查中有182名(50.42%)學生認為板書教學對于理解統(tǒng)計學知識效果很好,154名(42.66%)學生認為板書教學效果一般,25名(6.93%)學生認為板書教學不適合或不清楚是否適合。
表2 微博用戶昵稱文本特征舉例
三個視圖分別為微博文本信息、微博用戶標簽信息、微博用戶昵稱,經(jīng)過tri-training算法后生成三個不同的分類器,分別為微博文本分類器Cw、用戶標簽分類器Cu、用戶昵稱分類器Cn.由于傳統(tǒng)tri-training訓練的基分類器均為同一類型的監(jiān)督學習分類,泛化效果不理想[16],而且多視圖的內容各不相同,如果使用同一種類型的分類器,可能對于某幾個視圖該種分類器相比于其他類型分類器的分類性能弱.因此本文在傳統(tǒng)算法的基礎上,針對每個視圖的特征特點來選取不同的監(jiān)督學習分類器.由于SVM分類器能很好的解決在小樣本情況下高維模型的問題,本文在用戶標簽視圖分類器Cu選擇SVM分類器;而最大熵分類器融合信息的能力較好,可以解決較復雜的問題,因此在微博文本視圖分類器Cw和在用戶昵稱視圖分類器Cn選擇最大熵分類器.
2)紙地膜成本較高是限制大規(guī)模推廣應用的重要原因[4,20]。目前也有研究表明,紙地膜的成本可以有效降低,如專利00125308.5[11]采用較為低廉的普通農作物秸稈纖維,可以降低成本,使其成本低于聚乙烯地膜成本,從而有利于紙地膜的推廣應用。
算法流程如下:
當滿足表達式(1)的時候,就能保證下一次的分類誤差率小于本次的分類誤差率,未標記數(shù)據(jù)集可以作為訓練樣本對分類器進行訓練,使得大量新樣例加入到初始訓練集對分類器進行重復的訓練,從而使引入噪聲所帶來的負面影響被大量的未標記數(shù)據(jù)所帶來的好處抵消[12].
美國國家科學基金會 (NSF)很早就實行了間接費用政策。一般來說,NSF會通過與各個高校進行談判,來確定間接經(jīng)費在整個資助經(jīng)費中所占的比例。通常,談判學??蒲兴皆礁撸诘貐^(qū)經(jīng)濟發(fā)展水平越高,間接經(jīng)費所占比例就會相對較高?!蛾P于調整國家科技計劃和公益性行業(yè)科研專項經(jīng)費管理辦法若干規(guī)定的通知》借鑒美國等發(fā)達國家的通行做法,結合我國科研管理實際,正式建立了項目間接成本補償機制,將項目資金按照直接費用、間接費用進行了劃分。這一做法符合科研活動規(guī)律,體現(xiàn)了科學化管理的要求。通過提取一定比例的間接費用,補償依托單位的管理成本,有利于促進科研機構的良性發(fā)展。
原始已標記數(shù)據(jù)集L={微博文本Lw、用戶標簽Lu、用戶昵稱Ln}
根據(jù)此算法以及該3×750 t/d項目的實際運行數(shù)據(jù),多次迭代計算后得出,焚燒爐出口煙氣溫度最低為900℃,否則不能滿足環(huán)保要求。
原始未標記數(shù)據(jù)集U={微博文本Uw、用戶標簽Uu、用戶昵稱Un}
輸出:
總之,高考中鈉及其化合物考查難度并不大,通過對鈉及其化合物的總結歸納,我們可以全方位認識“鈉”,系統(tǒng)地掌握鈉及其化合物的知識結構,另外還要注重鈉與其他元素之間的綜合應用,學會對知識進行遷移,舉一反三、提綱挈領,對相關知識適當拓展,這樣就可以對元素及其化合物的知識融會貫通,取得理想的效果。
關鍵核心技術永遠是等不來、靠不來、要不來的,必須找準方向,自力更生,通過供給側結構性改革,尋求關鍵技術突破的理論、方法和措施,努力從加強基礎研究和應用基礎研究、加強大平臺大裝置等科學基礎設施建設、加強知識產(chǎn)權保護、聚集和釋放人才紅利等方面進行全方位布局。
微博文本分類器Cw、用戶標簽分類器Cu、用戶昵稱分類器Cn
步驟:
2)對每個分類器分別進行以下步驟直到滿足指定條件時停止(下面以Cw為例);
1)使用Lw、Lu、Ln分別對初始分類器進行訓練,得到Cw、Cu、Cn;
為倡導優(yōu)良學風,規(guī)范學術行為,凈化學術空氣,凡向本刊投稿的作者均須嚴格遵守《中華人民共和國著作權法》等國家有關法律、法規(guī),杜絕學術不端行為。
IG的重要衡量條件就是判斷該特征能帶來多大的信息量,信息越多則表明該特征越重要.如一個特征f,有該特征的信息量與沒有該信息的信息量差值即為f的信息增益.另外,在降維處理的幅度上,若減少的維度過多,會影響分類器的準確性,若特征數(shù)仍過多,會存在很多噪音.本文的特征選擇IG最高的前5000個.
l為訓練循環(huán)了第l次,el為第l次訓練過程中的誤差,Ll為第l次訓練過程中已打標樣本和另兩個分類器對未打標樣本分類相同的集合.
5)使用Lw’重新訓練分類器Cw;
6)將Uwi重新放回Uw中進行下一輪的分類;
7)當新分類器的迭代指定次數(shù)時或者原始未標記數(shù)據(jù)集U為空時終止.
傳統(tǒng)分類器的集成往往通過簡單投票法[17],比如三個中如果有2個分類器的結果相同那么就判定為該類別.但是這種方法在融合的時候沒有考慮到三個分類器自身分類強弱特性,當其中一個較強分類器判斷正確,另兩個分類器判斷錯誤時,會出現(xiàn)較大偏差導致最后的結果分類錯誤.因此本文在使用tri-training訓練結束生成三個視圖的分類器后,以準確率作為權重對這三個分類器進行集成,準確度越高的分類器的權重就越大.這樣能在分類器的分類性能存在差異的時,使判斷的結果更加準確.
本文實驗數(shù)據(jù)均來自真實新浪微博用戶數(shù)據(jù),使用python腳本爬蟲爬取15 000名用戶的微博文本、用戶標簽和用戶昵稱.并對內容做出限制,篩選出微博文本條數(shù)大于30條,用戶標簽大于4個的非企業(yè)認證(藍V)用戶共6841名.
1.小結:要想把一件事或一個活動寫具體,方法是次要的,關鍵是要細心觀察,用心感受,把自己的見聞和獨特感受大膽地寫出來。
由于6841名微博用戶是隨機爬取,因此在實驗前先人工對這些微博用戶進行打標,根據(jù)其微博文本、標簽、昵稱、相冊和評論來判定其性別,最后選出男女用戶各2500名,共計5000名.本文選取20%的數(shù)據(jù)(1000名用戶)作為測試樣本集,80%的數(shù)據(jù)(4000名用戶)作為訓練樣本集.其中選取訓練樣本的30%作為已打標數(shù)據(jù),剩下70%作為未打標數(shù)據(jù).
本文比較單一視圖下使用有限標記樣本進行監(jiān)督學習的分類器和使用多視圖tri-training學習后三個分類器的檢測準確度的差異,并比較了利用本文算法集成后的分類器準確度,實驗結果如圖2所示.從圖2可以看出基于多視圖tri-training學習后的分類器判斷效果更好,并且按照準確度權重進行集成后的分類器準確度提高了1%.
圖2 單一分類器和多視圖tri-training準確性比較
另外,在三個視圖的分類器選擇上,和傳統(tǒng)的tritraining采用同一種分類器不同,本文在比較多種分類器組合后選擇使用一個SVM分類器和兩個最大熵分類器.多種分類器組合情況和比較的結果如表3和表4所示.
表3 多種分類器組合情況
表4 多種分類器組合準確性比較
從對比可以看出,在對微博用戶性別進行判斷時,多視圖tri-training學習得到的分類器性能比單視圖分類器效果更好.而且在分類器的選擇上,三個視圖合各自特征選擇合適的分類器組合比三個視圖使用同一分類器準確度更高.
資產(chǎn)評估如果在審計前進行,那么審計的報告中需闡明:“我們在實施審計程序的同時,委托方還委托企業(yè)資產(chǎn)評估機構對被審計單位的實物資產(chǎn)進行了評估,報告披露的上述資產(chǎn)的價值,均可采用評估報告的相關數(shù)據(jù)?!?/p>
本文結合多視角學習和半監(jiān)督學習的方法,在大量新浪微博用戶性別數(shù)據(jù)打標困難的情況下,通過少量人工打標樣本和大量未標記樣本,利用微博文本、用戶標簽、用戶昵稱三個視圖對三個分類器相互學習訓練.通過真實用戶數(shù)據(jù)實驗后,發(fā)現(xiàn)多視圖學習后的分類器在對微博用戶性別進行分類的準確性上比單一視圖分類器效果更好.但本文在實驗過程中只從三個視圖出發(fā)對用戶性別做判斷,而微博中的話題、評論、關注人等都能在一定程度上體現(xiàn)出用戶性別,今后可以嘗試從更多角度判斷用戶性別.
1Ciot M,Sonderegger M,Ruths D.Gender inference of twitter users in Non-English contexts.Stroudsburg.Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle,WA,USA.2013.1136-1145.
2Li SS,Wang JJ,Zhou GD,et al.Interactive gender inference with integer linear programming.Proceedings of the 24th International Conference on Artificial Intelligence.Buenos Aires,Argentina.2015.2341-2347.
3Ikeda D,Takamura H,Okumura M.Semi-supervised learning for blog classification.Proceedings of the 23rd National Conference on Artificial Intelligence.Chicago,IL,USA.2008.1156-1161.
4Wang JJ,Xue YX,Li SS,et al.Leveraging interactive knowledge and unlabeled data in gender classification with co-training.International Conference on Database Systems for Advanced Applications.Hanoi,Vietnam.2015.246-251.
5劉寶芹,牛耘.基于情緒特征的中文微博用戶性別識別.計算機工程與科學,2016,38(9):1917-1923.
6錢鐵云,尤珍妮,陳麗,等.基于興趣標簽的緘默用戶性別預測研究.華中科技大學學報(自然科學版),2015,43(12):101-105.
7藍超,饒泓,浣軍.半監(jiān)督多視圖學習在大數(shù)據(jù)分析中的應用探討.中興通訊技術,2015,21(5):32-34.
8Yin CY,Xiang J,Zhang H,et al.A new SVM method for short text classification based on semi-supervised learning.Proceedings of International Conference on Advanced Information Technology and Sensor Application.Harbin,China.2015.100-103.
9郭翔宇,王魏.一種改進的協(xié)同訓練算法:Compatible Cotraining.南京大學學報(自然科學),2016,52(4):662-671.
10蘭霞.半監(jiān)督協(xié)同訓練算法的研究[碩士學位論文].成都:四川師范大學,2011.
11閆耀輝,臧洌,黃同心.基于協(xié)同訓練的Co-Forest算法在入侵檢測中的應用.2010通信理論與技術新發(fā)展——第十五屆全國青年通信學術會議論文集(下冊).昆明,中國.2010.305-309.
12Sun SL.A survey of multi-view machine learning.Neural Computing and Applications,2013,23(7-8):2031-2038.[doi:10.1007/s00521-013-1362-6]
13Xu C,Tao DC,Xu C.A survey on multi-view learning.arXiv:1304.5634,2013:1-49.
14于重重,劉宇,譚勵,等.組合標記的多視圖半監(jiān)督協(xié)同分類算法.計算機應用,2013,33(11):3090-3093.
15Qian TY,Liu B,Chen L,et al.Tri-Training for authorship attribution with limited training data:A comprehensive study.Neurocomputing,2016,171:798-806.[doi:10.1016/j.neucom.2015.07.064]
16Chou CL,Chang CH,Huang YY.Boosted web named entity recognition via tri-training.ACM Transactions on Asian and Low-Resource Language Information Processing,2016,16(2):10.
17張榮榮.圖像分類中融合Bagging的Tri-Training算法研究[碩士學位論文].重慶:西南大學,2016.