楊 城,王云凱,洪瑞隆
(1.西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院,成都611130;
2.博伊斯州立大學(xué)計(jì)算機(jī)學(xué)院,美國(guó)博伊斯83725)
基于拼音分析的網(wǎng)民密碼行為研究
楊 城1,王云凱1,洪瑞隆2
(1.西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院,成都611130;
2.博伊斯州立大學(xué)計(jì)算機(jī)學(xué)院,美國(guó)博伊斯83725)
從網(wǎng)民密碼字符中26個(gè)字母與漢語(yǔ)拼音的關(guān)系入手,研究中國(guó)網(wǎng)民密碼的文化特征?;诰W(wǎng)絡(luò)漢字頻率及多音字處理方法進(jìn)行拼音字母的頻率統(tǒng)計(jì),在簡(jiǎn)單闡述網(wǎng)民密碼的一般性統(tǒng)計(jì)特征后,重點(diǎn)分析中西方網(wǎng)民密碼與拼音文本、英語(yǔ)文本中字母頻率之間的相似性,揭示中國(guó)網(wǎng)民的密碼設(shè)計(jì)與漢語(yǔ)拼音密切相關(guān),并且習(xí)慣于采用拼音式的助記符密碼。
信息安全;密碼;拼音;文化特色;相關(guān)性分析;助記符密碼
2011年12月下旬,中國(guó)互聯(lián)網(wǎng)爆發(fā)了一場(chǎng)最大規(guī)模的用戶(hù)資料泄密事件。從最初程序員網(wǎng)站CSDN(CSDN.net)的640萬(wàn)用戶(hù)數(shù)據(jù)被泄露,到天涯(Tianya.cn)被曝出3 000萬(wàn)用戶(hù)密碼遭泄露,而后人人網(wǎng)(renren.com)、多玩網(wǎng)(duowan.com)、7K7K網(wǎng)(7K7K.com)、百合網(wǎng)(baihe.com)、貓撲(maopu.com)等知名網(wǎng)站相繼傳出用戶(hù)信息被盜用的消息。截至12月29日,CNCERT通過(guò)公開(kāi)渠道獲得疑似泄露的數(shù)據(jù)庫(kù)有26個(gè),涉及賬號(hào)、密碼2.78億條。其中,具有與網(wǎng)站、論壇相關(guān)聯(lián)信息的數(shù)據(jù)庫(kù)有12個(gè),涉及數(shù)據(jù)1.36億條[1]。
由于這次泄密事件的涉及面相當(dāng)廣,不僅數(shù)量驚人,而且很多泄露賬戶(hù)采用明文密碼,沒(méi)有加密存儲(chǔ),由此引發(fā)了一場(chǎng)席卷中國(guó)互聯(lián)網(wǎng)的安全恐慌。但對(duì)于學(xué)術(shù)界而言,它卻為密碼安全和網(wǎng)絡(luò)行為學(xué)的研究提供了寶貴數(shù)據(jù)和絕好機(jī)遇。這是因?yàn)榛谟脩?hù)密碼的特殊性,以往的研究要么是針對(duì)少量泄密數(shù)據(jù)的統(tǒng)計(jì)分析,要么采用問(wèn)卷調(diào)查或小范圍測(cè)試的間接方式,還從未有過(guò)針對(duì)如此巨量密碼數(shù)據(jù)的直接研究[2-4]。更為重要的是,現(xiàn)有文獻(xiàn)的研究對(duì)象多為英語(yǔ)母語(yǔ)國(guó)家的密碼數(shù)據(jù),很少有專(zhuān)門(mén)針對(duì)非英語(yǔ)國(guó)家密碼特征的研究,而這些密碼數(shù)據(jù)中往往蘊(yùn)含著許多網(wǎng)民所在國(guó)特有的、新奇的、反映其文化特征的東西。
鑒于此,本文擬從網(wǎng)民密碼字符中26個(gè)字母與漢語(yǔ)拼音的關(guān)系入手,研究中國(guó)網(wǎng)民密碼的文化特征。重新計(jì)算網(wǎng)絡(luò)文獻(xiàn)中拼音字母的統(tǒng)計(jì)頻率,介紹本次研究所選密碼數(shù)據(jù)的概況,在簡(jiǎn)單闡述網(wǎng)民密碼的一般性統(tǒng)計(jì)特征之后,詳細(xì)對(duì)比分析中西方網(wǎng)民密碼與拼音文本、英語(yǔ)文本中字母頻率之間的相似關(guān)系,并給出相關(guān)建議。
自上世紀(jì)50年代中后期中國(guó)文字改革委員會(huì)研究制定漢語(yǔ)拼音方案以來(lái),國(guó)內(nèi)對(duì)拼音字母的頻率統(tǒng)計(jì)主要分為2個(gè)時(shí)期。第1階段是在漢字剛剛推行拉丁化拼音標(biāo)注后,相關(guān)學(xué)者和專(zhuān)家對(duì)紙質(zhì)文獻(xiàn)進(jìn)行的手工統(tǒng)計(jì),其代表人物有吳越、柳棉等[5-6]。第2階段是在進(jìn)入90年代以后,隨著計(jì)算機(jī)性能的不斷提升和應(yīng)用的廣泛普及,研究人員借助計(jì)算機(jī)進(jìn)行了更大規(guī)模的統(tǒng)計(jì)。其中,比較有代表性的是張春生、關(guān)薇薇的《漢語(yǔ)全拼碼中26個(gè)英文字母出現(xiàn)概率研究》,他們利用Visual Foxpro和漢字逆碼表,對(duì)文學(xué)、科技、政治三類(lèi)文獻(xiàn),總計(jì)超過(guò)500萬(wàn)漢字所作的統(tǒng)計(jì)分析[7]。但是,上述研究成果若直接應(yīng)用于網(wǎng)民密碼的特征分析,在針對(duì)性和準(zhǔn)確性上還有所欠缺,這主要表現(xiàn)在以下3個(gè)方面:
(1)在語(yǔ)料選擇上,前期研究多為紙質(zhì)文獻(xiàn)(包括掃描)或電子書(shū)籍和報(bào)刊,真正的網(wǎng)絡(luò)文獻(xiàn)并不多見(jiàn),這與網(wǎng)絡(luò)時(shí)代漢字“遠(yuǎn)離紙筆、親近鍵盤(pán)”的現(xiàn)實(shí)相違背,因而無(wú)法體現(xiàn)網(wǎng)民用詞用字的習(xí)慣。
(2)語(yǔ)料數(shù)量有限,即使是文獻(xiàn)[7]中的500萬(wàn)漢字也遠(yuǎn)未達(dá)到真正意義的大規(guī)模統(tǒng)計(jì),只能滿(mǎn)足常用漢字的拼音統(tǒng)計(jì)分析。
(3)在多音字問(wèn)題上,文獻(xiàn)[7]中漢字逆碼表將漢字與拼音簡(jiǎn)單地一一對(duì)應(yīng),缺乏對(duì)多音字的有效處理。雖然多音字常以某個(gè)單一讀音為主讀音(甚至部分讀音僅用于古文,現(xiàn)實(shí)中用得極少),并且很多僅僅是音調(diào)變化,但由于它們?cè)? 500個(gè)常用漢字中的比例高達(dá)15.94%[8],因此對(duì)拼音字母的統(tǒng)計(jì)仍然具有不可忽視的影響。
因此,為了取得更精準(zhǔn)的統(tǒng)計(jì)數(shù)據(jù),本文對(duì)網(wǎng)絡(luò)文獻(xiàn)中拼音字母的出現(xiàn)頻率重新進(jìn)行了統(tǒng)計(jì)。出于時(shí)間和人力的考慮,本次研究沒(méi)有直接進(jìn)行大規(guī)模的統(tǒng)計(jì)分析,而是借鑒前人對(duì)網(wǎng)絡(luò)漢字的統(tǒng)計(jì)結(jié)果,結(jié)合多音字分析的方法進(jìn)行計(jì)算。
首先利用郭曙綸、方有林在《網(wǎng)絡(luò)漢字的大規(guī)模統(tǒng)計(jì)與分析》和《網(wǎng)絡(luò)漢字使用頻率統(tǒng)計(jì)數(shù)據(jù)及其說(shuō)明》兩篇文章中的研究成果,得到每個(gè)漢字的頻率數(shù)據(jù)[9-10]。他們的研究是基于對(duì)14.06億網(wǎng)絡(luò)語(yǔ)料的統(tǒng)計(jì),其來(lái)源包括門(mén)戶(hù)網(wǎng)站、文學(xué)網(wǎng)站和報(bào)紙網(wǎng)站等,總共涉及 6 932個(gè)漢字,幾乎覆蓋一級(jí)字庫(kù)(3 755)和二級(jí)字庫(kù)(3 008)的全部漢字。然后利用類(lèi)似成分的語(yǔ)料結(jié)合多音字處理軟件,對(duì)前1 001個(gè)高頻常用漢字(累計(jì)頻率為90%[9])中的非音調(diào)變化型的多音字進(jìn)行辨音統(tǒng)計(jì),得出每個(gè)多音字的每個(gè)讀音對(duì)應(yīng)的比例(例如“的”字,“de”音占99.4%,而“di”音僅占0.6%),如表1所示。
表1 包含多音字處理的漢字拼音統(tǒng)計(jì)結(jié)果
最后,利用式(1)計(jì)算出每個(gè)拼音字母的頻率數(shù)值。
其中,hz表示每個(gè)漢字;Rate1(hz)表示該漢字的字頻;Rate2(hz)表示該漢字對(duì)應(yīng)讀音的比例;Letter(hz,α)表示該漢字的全拼是否包含字母α(包含為1,否則為0)。
圖1是本文的統(tǒng)計(jì)結(jié)果與文獻(xiàn)[7]的對(duì)比分析(字母順序按本文的統(tǒng)計(jì)值由高到低排列)??梢钥闯?雖然2次統(tǒng)計(jì)在整體趨勢(shì)上差異不大(除字母u和e外,相同字母頻率的絕對(duì)差值都在0.01以下),但在字母頻率的大小排序上仍有較大變化(有14個(gè)字母的排序位發(fā)生改變)。更為重要的是,新的統(tǒng)計(jì)數(shù)據(jù)更加準(zhǔn)確地反映了網(wǎng)絡(luò)時(shí)代中國(guó)人(尤其中國(guó)網(wǎng)民)的拼音輸入習(xí)慣,為網(wǎng)民密碼分析提供了更加可靠的數(shù)據(jù)支持。
圖1 字母頻率統(tǒng)計(jì)結(jié)果
雖然本次密碼泄露事件涉及多家不同類(lèi)型、不同主題的網(wǎng)站,但本文僅選取了最具代表性的天涯社區(qū)(Tianya)的泄露數(shù)據(jù)作為主要的分析對(duì)象,而將其他數(shù)據(jù)用作對(duì)比分析和輔助驗(yàn)證。這是因?yàn)門(mén)ianya作為一個(gè)以論壇、博客、微博為基礎(chǔ)交流方式,并以人文情感為特色的綜合性虛擬社區(qū)和大型網(wǎng)絡(luò)社交平臺(tái),是目前最具影響力的全球華人網(wǎng)上家園,其用戶(hù)群體分布廣泛,包含不同年齡、不同階層、不同職業(yè)的網(wǎng)民。同時(shí),Tianya也是此次數(shù)據(jù)泄露事件中被盜數(shù)據(jù)量最多、數(shù)據(jù)項(xiàng)最完備的一家網(wǎng)站。因此,它能夠基本反映中國(guó)網(wǎng)民的賬戶(hù)特征,將其選為分析對(duì)象是十分合適的。
此次Tianya的泄露數(shù)據(jù)為2009年的備份數(shù)據(jù),共計(jì)29 865 731條賬戶(hù)記錄,每條記錄包含賬號(hào)ID、密碼PWD和Email信息。由于原始數(shù)據(jù)不夠規(guī)范并且包含一些錯(cuò)誤的數(shù)據(jù)記錄,因此在數(shù)據(jù)分析前需要先進(jìn)行數(shù)據(jù)清洗,刪除那些密碼為空和E-mail存在明顯錯(cuò)誤的記錄(例如沒(méi)有@符號(hào),@符號(hào)前后部分為空等),以及一些公共的和內(nèi)部專(zhuān)用的賬戶(hù)對(duì)應(yīng)的記錄,例如馬甲A軍團(tuán)***@163.com(注:“馬甲”用于論壇隱身發(fā)帖)、user@hainan.net、idreg@tianya.cn、idreg@ hainan.cn等,以保證賬戶(hù)數(shù)據(jù)的普遍性。經(jīng)過(guò)清洗,最終用于分析的有效數(shù)據(jù)共計(jì)28 988 172條。
4.1 一般性密碼特征
通過(guò)一些簡(jiǎn)單的SQL語(yǔ)句,可以很快得出中國(guó)網(wǎng)民密碼的一些基本結(jié)構(gòu)特征。
例如,2/3以上的密碼長(zhǎng)度集中在6位~8位,平均長(zhǎng)度為7.94位,其中數(shù)字與字母的比例約為3:1,即一個(gè)8位的平均密碼中大約包含6位數(shù)字和2位字母??梢?jiàn),中國(guó)網(wǎng)民更加偏好于數(shù)字型密碼。就字符結(jié)構(gòu)而言,63.8%的賬戶(hù)為純數(shù)字型密碼,10.3%的為純字母型密碼,僅24%的為數(shù)字字母混合型,而選用特殊字符的密碼更是低至1.9%(后兩個(gè)數(shù)字在MySpace的網(wǎng)民中分別為81.0%和8.3%[11])。這表明中國(guó)網(wǎng)民的密碼安全意識(shí)普遍偏低。
在對(duì)常用密碼的分析上,筆者發(fā)現(xiàn)許多有別于西方的、獨(dú)具中國(guó)文化特色的密碼現(xiàn)象:除了傳統(tǒng)的123456,111111,000000,還有被國(guó)人視為吉祥數(shù)字的666666,888888,更有中文數(shù)字的諧音密碼,如5201314(我愛(ài)你一生一世)、7758520(親親我吧我愛(ài)你),以及拼音密碼woaini(我愛(ài)你)、woshishui(我是誰(shuí))、woaiwojia(我愛(ài)我家)等。
此外,通過(guò)分析最常見(jiàn)的密碼子串,筆者發(fā)現(xiàn)除123,000,111,520/521,1314這類(lèi)數(shù)字子串的出現(xiàn)頻率極高外(都在1%以上,123更是超過(guò)10%),一些常用漢字的拼音子串的頻率也非常高,如jia(家)、hao(好)、wan(玩)、xiao(小)等都在0.5%左右。而經(jīng)常出現(xiàn)在西方密碼中的password,baby,ball,boy等子串的頻率卻都在萬(wàn)分之五以下,僅abc和love的頻率接近0.5%。
最后,針對(duì)常用數(shù)字字符的分析顯示,除了最常用的1/2/0,數(shù)字8排在第4位(通“發(fā)”的音),而數(shù)字4則排在最后(通“死”的音)。但 Burnett和Kleiman的研究卻發(fā)現(xiàn),在西方的密碼字符中,數(shù)字8的頻率最低[12]。
4.2 密碼字母頻率分析
由于文化習(xí)慣和思維模式上的差異,中西方網(wǎng)民在選擇26個(gè)字母(不區(qū)分大小寫(xiě))作為密碼字符時(shí)存在較大差異。表2詳細(xì)展示了這些字母在不同應(yīng)用環(huán)境中的出現(xiàn)頻率,4組數(shù)據(jù)依次對(duì)應(yīng)英語(yǔ)文本(Type_A)[13]、西方網(wǎng)民密碼(Type_B)[12]、漢字拼音文本(Type_C)和中國(guó)網(wǎng)民密碼(Type_D)的具體頻率值,其中,灰色數(shù)值表示每一組數(shù)據(jù)中出現(xiàn)頻率最高的3位,下劃線(xiàn)數(shù)值表示出現(xiàn)頻率最低的一位。
表2 基于不同應(yīng)用環(huán)境的字母頻率分布 %
從表2可以看出,中國(guó)網(wǎng)民密碼中最常見(jiàn)的字母依次為A/I/N,出現(xiàn)頻率最低的字母為V;而西方網(wǎng)民密碼中最高和最低的字母依次為E/A/R和Q。同時(shí),雖然具體數(shù)值有差異,但Type_D同Type_C最為相似。深入比較還可以發(fā)現(xiàn),在頻率最高的前10個(gè)字母中,Type_D與Type_C有9個(gè)相同項(xiàng),而與Type_A僅有6個(gè)相同項(xiàng)。
以上比較表明中國(guó)人的密碼字母頻率更加接近于拼音字母的頻率,說(shuō)明國(guó)人在設(shè)置密碼時(shí)較多地參考了漢語(yǔ)字詞和短語(yǔ),而非英文單詞或短語(yǔ)。為了進(jìn)一步驗(yàn)證這一特征,本文對(duì)4組數(shù)據(jù)兩兩一組進(jìn)行相關(guān)性分析,利用空間向量的余弦公式來(lái)計(jì)算它們之間的相關(guān)性:
其中,D1,D2分別表示一個(gè)26維的空間向量;W1i和W2i分別表示對(duì)應(yīng)維度的權(quán)重(即字母的頻率值), Sim(D1,D2)表示2個(gè)向量的空間夾角的余弦值,該值越接近于1相似性越高。計(jì)算結(jié)果如表3所示。
表3 4組字母頻率數(shù)據(jù)的相關(guān)性分析結(jié)果
可以看出,西方網(wǎng)民密碼與英語(yǔ)文本高度相關(guān),而國(guó)內(nèi)網(wǎng)民密碼與拼音文本的相關(guān)性也非常高,印證了前面的分析。同時(shí)注意到,后者的相關(guān)性(0.928)相對(duì)于前者(0.961)略微偏低,原因可能是西方網(wǎng)民設(shè)置密碼的模式較為單一,只能參照英語(yǔ)文本;而國(guó)內(nèi)網(wǎng)民雖然主要基于漢語(yǔ)拼音設(shè)置密碼(尤其體現(xiàn)在年齡層次偏高、文化程度偏低的網(wǎng)民中),但也有少部分人參照英語(yǔ)單詞和短語(yǔ)。這一點(diǎn)從下面的數(shù)據(jù)能夠得到一定的印證:用類(lèi)似的方法分析CSDN(中國(guó)軟件開(kāi)發(fā)聯(lián)盟)的密碼特征,可以看到CSDN的網(wǎng)民密碼同英語(yǔ)文本的相關(guān)性為0.862,略高于此處Tianya網(wǎng)民的0.841。這是由于CSDN作為中國(guó)最大的程序開(kāi)發(fā)者技術(shù)社區(qū),其網(wǎng)民年齡普遍偏低,文化程度整體高于Tianya,并且他們?cè)诠ぷ髦写罅拷佑|英語(yǔ),因此其密碼結(jié)構(gòu)中的英語(yǔ)成分也體現(xiàn)得相對(duì)較多。
表2中Type_C與Type_D相比,網(wǎng)民密碼中輔音字母的頻率值普遍偏高(僅D/G/H/N例外)。這反映出國(guó)人喜歡采用拼音式助記符密碼,即基于某個(gè)漢語(yǔ)短語(yǔ)(稱(chēng)為助記符短語(yǔ))中每個(gè)漢字的拼音首字母來(lái)設(shè)置密碼。例如,參照成語(yǔ)“塞翁失馬,焉知非福”,其密碼可以設(shè)置為“swsmyzff”。對(duì)于4個(gè)密碼頻率較拼音文本偏低的輔音字母,H是因?yàn)槁N舌音zh/ch/sh在縮寫(xiě)時(shí)屏蔽了第2個(gè)字母,N/G是因?yàn)槿粗械那氨琼嵞?an/en/in/un/vn)和后鼻韻母(ang/eng/ing/ong)在縮寫(xiě)時(shí)都被刪除,而D是因?yàn)闈h字中的第一高頻字“的”(de)一般很少出現(xiàn)在助記符短語(yǔ)中。由此可見(jiàn),這些所謂的“例外”,恰好印證了本文對(duì)拼音式助記符密碼的分析。
此外,本文用同樣的方法分析拼音文本同中國(guó)網(wǎng)民的賬戶(hù)ID、Email賬號(hào)(@符號(hào)前面的部分)的相關(guān)性,2個(gè)數(shù)值分別為0.943和0.958,都高于同密碼的相似度(0.928)。這說(shuō)明網(wǎng)民在命名賬戶(hù)ID和Email賬號(hào)時(shí),比設(shè)置密碼更加習(xí)慣于參照漢字拼音。
綜上所述,中國(guó)網(wǎng)民的密碼設(shè)計(jì)與漢語(yǔ)拼音密切相關(guān),習(xí)慣于采用基于拼音短語(yǔ)式的助記符密碼。
需要注意的是,這些結(jié)論一方面為網(wǎng)絡(luò)安全、密碼分析以及行為學(xué)分析方面的專(zhuān)家學(xué)者提供了重要的研究素材和參考依據(jù),但另一方面它也暴露了網(wǎng)民密碼的結(jié)構(gòu)特點(diǎn),為居心叵測(cè)者提供了便利。例如,過(guò)去有很多文獻(xiàn)都認(rèn)為助記符密碼是一種不錯(cuò)的密碼設(shè)計(jì)模式,既方便記憶,又難于破解。但最近的研究表明[14],助記符密碼也并非萬(wàn)能,它并不比“普通”密碼更安全。只要熟悉密碼人群的設(shè)計(jì)模式和短語(yǔ)來(lái)源,通過(guò)構(gòu)造一個(gè)足夠廣泛的“助記符短語(yǔ)詞典”,結(jié)合常用的字符/短語(yǔ)變換模式(如o/0,1/L,我愛(ài)你/521,二月/Feb等相互替換),那么助記符密碼將變得同樣脆弱。
因此,本文建議中國(guó)網(wǎng)民在設(shè)計(jì)助記符密碼時(shí),助記符元素的選擇應(yīng)該更加廣泛,避免采用單純的拼音字母,而應(yīng)盡量選擇拼音與英語(yǔ)混合的助記符模式,并通過(guò)諧音或象形等方式添加數(shù)字和特殊字符,從而在保持易記性的同時(shí)進(jìn)一步增強(qiáng)密碼強(qiáng)度。例如,一個(gè)被網(wǎng)友戲稱(chēng)為“CSDN杯我最喜歡的密碼評(píng)選”最具詩(shī)意的密碼:“ppnn13%dkstFeb.1st”,其助記符短語(yǔ)為“娉娉裊裊十三余,豆蔻梢頭二月初”(杜牧《贈(zèng)別·其一》),它的密碼主體依舊是拼音式的助記符,但同時(shí)巧妙地結(jié)合了數(shù)字、單詞縮寫(xiě)和特殊符號(hào)。
[1] 國(guó)家互聯(lián)網(wǎng)應(yīng)急中心.關(guān)于相關(guān)網(wǎng)站用戶(hù)信息泄露事件的通報(bào)[EB/OL].(2011-12-30).http://www.cert. org.cn/articles/bulletin/common/2011123025709.shtml.
[2] Riley S.Password Security:What Users Know and What They Actually Do[J/OL].[2013-08-11].http://www. surl.org/usabilitynews/81/Passwords.asp.
[3] Florencio D,Herley C.A Large-scale Study of Web Password Habits[C]//Proc.of WWW'07.Banff, Canada:[s.n.],2007:657-666.
[4] Gilbert N,Clark T.Passwords and Perceptions[C]//Proc. of AISC'09.Wellington,New Zealand:[s.n.],2009.
[5] 吳 越.聲母和韻母出現(xiàn)率的統(tǒng)計(jì)[J].拼音,1956,8: 46-48.
[6] 柳 棉.關(guān)于字母和數(shù)字的相關(guān)統(tǒng)計(jì)[J].語(yǔ)文建設(shè), 1962,3:9.
[7] 張春生,關(guān)薇薇.漢語(yǔ)全拼碼中26個(gè)英文字母出現(xiàn)概率研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(7):146-147.
[8] 許艷平,張金城.現(xiàn)代漢語(yǔ)多音字定量考察[J].長(zhǎng)江學(xué)術(shù),2010,(2):168-172.
[9] 郭曙綸,方有林.網(wǎng)絡(luò)漢字的大規(guī)模統(tǒng)計(jì)與分析[M].漢字研究(第1輯).北京:學(xué)苑出版社,2005.12-18.
[10] 郭曙綸,方有林.網(wǎng)絡(luò)漢字使用頻率統(tǒng)計(jì)數(shù)據(jù)及其說(shuō)明[EB/OL].http://wenku.baidu.com/view/7ebd9b1 db7360b4c2e3f644f.html.
[11] Schneier B.Real-world Passwords[EB/OL].[2013-08-11].http://www.schneier.com/blog/archives/2006/12/ realworld_passw.html.
[12] Burnett M,Kleiman D.Perfect Password:Selection, Protection,Authentication[M].[S.l.]:Syngress,2006.
[13] 維基百科.字母頻率[EB/OL].[2013-08-11].http:// zh.wikipedia.org/wiki/%E5%AD%97%E6%AF% 8D%E9%A2%91%E7%8E%87.
[14] Cynthia K,Sasha R,Lorrie F C.Human Selection of Mnemonic Phrase-based[J/OL].[2013-08-11].http:// repository.cmu.edu/isr/36/.
編輯 金胡考
Behavior Research of Internet User Passwords Based on Pinyin Analysis
YANG Cheng1,WANG Yun-kai1,HONG Rui-long2
(1.School of Economic Information Engineering,Southwestern University of Finance and Economics,Chengdu 611130,China;
2.School of Computer Science and Engineering,Boise State University,Boise 83725,USA)
This paper studies the cultural features of Chinese Internet users password by studying the relationship of 26 letters from Internet users password characters with Pinyin.It does the frequency statistics based on the network of Chinese phonetic alphabet frequency and polyphone treatment method.After briefly general statistical characteristic of password,it is focus on analysis of the similarity between Internet users'password and the frequency of letters in the Pinyin text and English text in western countries and in China.It reveals that the password of Chinese Internet users design is closely related to Pinyin,and accustomed to using phrases mnemonic phrase-based passwords like Pinyin.
information security;password;Pinyin;culturalfeature;correlation analysis;mnemonic phrasebased password
1000-3428(2014)09-0174-04
A
TN918.1
10.3969/j.issn.1000-3428.2014.09.035
中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)基金資助項(xiàng)目(JBK130503);國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(11AZD077)。
楊 城(1977-),男,副教授、博士,主研方向:復(fù)雜系統(tǒng)仿真,經(jīng)濟(jì)博弈論,數(shù)據(jù)挖掘;王云凱(通訊作者),碩士研究生;洪瑞隆,副教授、博士。
2013-07-11
2013-10-28E-mail:tairur@yeah.net