摘 要:隨著微信息應(yīng)用的發(fā)展,產(chǎn)生了對(duì)微信息分類識(shí)別的強(qiáng)烈需求。在自然算法中選擇人工免疫系統(tǒng)算法,應(yīng)用于微信息識(shí)別領(lǐng)域。針對(duì)微信息系統(tǒng)本身的一些特點(diǎn),提出了適應(yīng)這些特點(diǎn)的人工免疫算法。實(shí)驗(yàn)結(jié)果表明,基于人工免疫的微信息識(shí)別方法具有較低的錯(cuò)誤否定率和錯(cuò)誤肯定率。
關(guān)鍵詞:人工免疫;微信息;文本分類識(shí)別;匹配算法;檢測(cè)器生成
中圖分類號(hào):TP181
自然計(jì)算(Nature Inspired Computation)具有模仿自然界的特點(diǎn),通常是一類具有自適應(yīng)、自組織、自學(xué)習(xí)能力的模型與算法,能夠解決傳統(tǒng)計(jì)算方法難于解決的各種復(fù)雜問題。人工免疫系統(tǒng)是受生物免疫學(xué)啟發(fā),模擬生物體免疫系統(tǒng)功能、原理和模型來解決復(fù)雜問題的自適應(yīng)系統(tǒng)。[1]微信息是即時(shí)傳播的小容量文本信息。微信息既有傳統(tǒng)的短信,又有隨互聯(lián)網(wǎng)發(fā)展而產(chǎn)生的twitter、iMessage、微博、微信、陌陌等社交工具產(chǎn)生的簡(jiǎn)短信息,按照ETIS的標(biāo)準(zhǔn),最大字符數(shù)不超過140個(gè)字符[2],信息容量小,易于快速傳播。人工免疫系統(tǒng)可用于微信息的識(shí)別上,能夠適應(yīng)微信息待識(shí)別類型的變化,保持極高的識(shí)別率。
1 仿生學(xué)定義對(duì)照、識(shí)別算法
生物體中,基因是指攜帶有遺傳信息的DNA序列,是生物體蛋白質(zhì)的決定信息,入侵生物體的病毒、細(xì)菌均由蛋白質(zhì)組成,這些特異性蛋白是進(jìn)行自體/非自體識(shí)別的依據(jù)。在微信息識(shí)別中,特異性蛋白可以等同于待分類微信息所包含的字或詞;抗原是指待識(shí)別的這類微信息;抗體是指能與抗原能夠匹配的檢測(cè)器的集合,用來檢測(cè)微信息是否為待歸類信息。生物體中的自體對(duì)應(yīng)微信息識(shí)別是指正常非待歸類微信息。根據(jù)對(duì)應(yīng)關(guān)系,定義:
特異性蛋白集合:P={P1,P2,…Pn}; m,Pn Agm
抗原集合Ag={Ag1,Ag2,…Agn};
抗體集合Ab={Ab1,Ab2,…Abn};
自體集合B={B1,B2,…Bn}
2 抗原蛋白質(zhì)庫的組成
首先進(jìn)原始微信息進(jìn)行分類,并從分類的微信息中提取出特異性的蛋白,每一個(gè)這樣的蛋白都是檢測(cè)器,即抗原蛋白質(zhì)庫。
特異性蛋白的提呈:對(duì)已經(jīng)人工判定為垃圾信息的微信息進(jìn)行字元提取工作,得到原始的抗原蛋白庫:P={P1,P2,….Pn}。
3 生成檢測(cè)器庫
由微信息的字元數(shù)量比較小,決定檢測(cè)器的長度使用固定值,用隨機(jī)使用字元的方法生成檢測(cè)器集合。
檢測(cè)器生成算法有多種,效率各有優(yōu)劣,這里使用骨髓模型[3],設(shè)檢測(cè)器的字元數(shù)量為Np,使用隨機(jī)函數(shù)從檢測(cè)器集合中隨機(jī)選擇。在不同的應(yīng)用環(huán)境中,Np的取值有所不同,Np的值的大小與檢測(cè)器生成算法的復(fù)雜度有很大的關(guān)系,數(shù)值過大,檢測(cè)器生成算法時(shí)間復(fù)雜度高,檢測(cè)效率亦高,反之生成算法時(shí)間復(fù)雜度降低,但檢測(cè)效率亦相應(yīng)降低,因此需要選擇合適的值。根據(jù)應(yīng)用中抗原的特點(diǎn),Np的取值設(shè)定為6。
檢測(cè)器的數(shù)量應(yīng)該保持在較小的范圍,但又不能影響到錯(cuò)誤否定率、錯(cuò)誤肯定率。有學(xué)者提出初始檢測(cè)器與自體集合的大小是成指數(shù)關(guān)系的:
[4]
衡量匹配程序的值是Pm,衡量錯(cuò)誤否定率的值是Pf,開始時(shí),檢測(cè)器的數(shù)量為NR0,自身的集合用NS來表示。此外,檢測(cè)器的數(shù)量還要考慮實(shí)際因素進(jìn)行調(diào)整。
檢測(cè)器生成后,需要進(jìn)行自體耐受算法檢驗(yàn),保證不將正常微信息識(shí)別為待分類微信息,經(jīng)過耐受算法檢驗(yàn)的檢測(cè)器才能成熟為抗體。
4 微信息的識(shí)別
對(duì)于待檢測(cè)微信息,應(yīng)用親和力計(jì)算公式對(duì)檢測(cè)器集合中的元素逐一計(jì)算,當(dāng)一個(gè)檢測(cè)器與微信息的親和力達(dá)到一定程度時(shí),這個(gè)程度通常由匹配閥值Pf來決定,將該微信息歸類于已匹配信息,同時(shí)該微信息將作為下一輪特異性蛋白質(zhì)選擇時(shí)的候選對(duì)象。如微信息被匹配,則檢測(cè)器的生命周期值Tg變?yōu)?,如微信息未匹配檢測(cè)器,這個(gè)檢測(cè)器的Tg值則減去1,直到該值為零,則將該檢測(cè)器從集合中除去。因此,檢測(cè)器集合中的元素?cái)?shù)量始終保持在適度內(nèi)。
在微信息識(shí)別應(yīng)用中,根據(jù)生物體免疫系統(tǒng)二次應(yīng)答的這種特性,使用匹配公式Affinity()對(duì)抗原與檢測(cè)器進(jìn)行計(jì)算,衡量它們的匹配值,并根據(jù)該值進(jìn)行排列,該算法的效率較高。
算法的實(shí)際應(yīng)用表明,該算法具有較高的準(zhǔn)確度和效率。
5 抗體庫更新
隨著系統(tǒng)的運(yùn)行,抗原的數(shù)量會(huì)不斷擴(kuò)充,抗體庫必須具有淘汰無用抗體,集成新抗體的能力才能保持較高的識(shí)別率。
當(dāng)新的抗原的增加達(dá)到一定的數(shù)量時(shí),有必要在將抗原的變化反應(yīng)到特異性蛋白質(zhì)集合中。按照提取時(shí)的算法,對(duì)新抗原進(jìn)行特異性蛋白提呈,提呈的結(jié)果將被補(bǔ)充到蛋白集合P中。然后按照隨機(jī)原則生成一定數(shù)量的新檢測(cè)器,使用成熟算法對(duì)新檢測(cè)器進(jìn)行訓(xùn)練,使得檢測(cè)器集合維持動(dòng)態(tài)更新的狀態(tài)。
5.1 降低錯(cuò)誤肯定率、錯(cuò)誤否定率。檢測(cè)器的覆蓋集合超出待分類微信息集合時(shí),發(fā)生錯(cuò)誤肯定。對(duì)于此類檢測(cè)器,否認(rèn)是否能與其它正確對(duì)象匹配,均就進(jìn)行刪除操作。
5.2 檢測(cè)器集合中的所有對(duì)象均不能正確檢出目標(biāo)微信息時(shí),發(fā)生錯(cuò)誤否定,有兩種方法能夠處理:一是加大檢測(cè)器集合數(shù)量,以系統(tǒng)運(yùn)行效率來換取系統(tǒng)的正確率。二是實(shí)施人工干預(yù),重新將被錯(cuò)誤否定的微信息人工添加到已分類微信息集合中,稱之為人工協(xié)同刺激。
5.3 人工協(xié)同刺激。當(dāng)錯(cuò)誤否定發(fā)生時(shí),手工在已分類微信息集合中加入目標(biāo)微信息,并單獨(dú)對(duì)加入的新微信息進(jìn)行基因提呈,由提呈產(chǎn)生的基因集合為元素,以隨機(jī)原則生成若干數(shù)量的檢測(cè)器,再依上述步驟重新進(jìn)行檢測(cè)器的自體耐受的成熟訓(xùn)練,生成準(zhǔn)確的檢測(cè)器并加入檢測(cè)器集合中。這些檢測(cè)器對(duì)于這類的微信息及類似的待分類微信息具有極高的親和力。
算法的實(shí)際應(yīng)用表明,該算法具有較高的準(zhǔn)確度和效率。
參考文獻(xiàn):
[1]Dasgupta D,Attoh—Okine N.Immunity based systems:A survey:IEEE International Conference on Systems,Man,and Cybernetics[C].Orlando,F(xiàn)lorida,1997:369-374.
[2]ETIS.ETS90301 Digital cellular telecommunications system(Phase 2+).Technical realization of the Short Message Service (SMS);Point-to-Point(PP)[S].Sophia Antipolice:European Telecommunications Standards Institute,1998.
[3]李濤.計(jì)算機(jī)免疫學(xué)[M].北京:電子工業(yè)出版社,2004:44+47.
[4]R J De Boer,A S Perelson.How diverse should the immune system be?:Proceedings of the royal Society London B, v. [C].London,S.N.,1993:252.
作者簡(jiǎn)介:李倩(1978-),女,講師,本科,研究方向:人工智能、汽車電子;徐佳(1976-),男,副教授,碩士研究生,研究方向:人工智能、計(jì)算機(jī)網(wǎng)絡(luò);章麗芳(1975-),女,講師,碩士研究生,研究方向:人工智能。
作者單位:浙江汽車職業(yè)技術(shù)學(xué)院,浙江臺(tái)州 317000;浙江廣播電視大學(xué)臨海學(xué)院,浙江臺(tái)州 317000