劉艷婷,劉靜偉
(西安工程大學(xué),陜西西安 710048)
在科技飛速發(fā)展、信息傳播手段不斷更新迭代的當(dāng)今社會,人們面臨嚴(yán)峻的信息膨脹化和碎片化的問題,如何從大量的信息中準(zhǔn)確地獲得想要的資訊信息成為迫切需求,如何從大數(shù)據(jù)中挖掘隱含的知識理論也是當(dāng)今時代的熱點。服飾作為個人審美品味的載體,個人的服飾風(fēng)格就是一種自我的表達(dá)方式,隨著經(jīng)濟(jì)發(fā)展和人民生活水平的提高,消費者對服飾需求的個性化要求也越來越明顯,服裝個性化定制的生產(chǎn)銷售模式越來越普遍,服裝風(fēng)格作為感性知識,其影響因素十分復(fù)雜多變,迄今為止對特定服裝風(fēng)格的研究有專家訪談、用戶問卷調(diào)查等多種實驗手段,一般運用意象尺度法設(shè)立分級量表,通過感性工學(xué)的方式對風(fēng)格進(jìn)行量化,或者運用專業(yè)數(shù)據(jù)挖掘軟件對問卷調(diào)查的結(jié)果進(jìn)行各個設(shè)計要素的聚類計算[1-6]。本研究以網(wǎng)絡(luò)大數(shù)據(jù)為分析來源,運用智能語義分析方法進(jìn)行主題服裝的風(fēng)格分析,細(xì)化和提取各種不同的風(fēng)格詞匯,確立不同風(fēng)格的特征因素,為服裝設(shè)計者和服裝文化研究者提供參考。
本次數(shù)據(jù)采集遵循篇章性和個性化原則,服飾風(fēng)格影響因素的不確定性需要綜合篇章內(nèi)容進(jìn)行數(shù)據(jù)分析,從而計算提取相關(guān)因素,因此數(shù)據(jù)采集成篇的描繪唐代服飾的網(wǎng)絡(luò)文本數(shù)據(jù),本研究以唐代服飾的網(wǎng)絡(luò)文本數(shù)據(jù)為實驗對象,采集網(wǎng)站選擇現(xiàn)今幾大主流自媒體平臺來源選擇現(xiàn)今幾大主流自媒體平臺:百度百家號、網(wǎng)易號、東方號、搜狐號、頭條號、微信公眾號、簡書、新浪博客、騰訊公眾號、北京時間號、大魚號、一點號、大風(fēng)號、趣頭條[7-8]。自媒體作為一個隨著時代科技發(fā)展興起的信息傳播方式,其區(qū)別于傳統(tǒng)媒介的特征是更具個性化、便捷化和年輕化,受到廣泛歡迎。近年來,各大自媒體平臺發(fā)展迅速,極大地方便了廣大群眾的自我表達(dá)[9-10],其數(shù)據(jù)可以作為一個豐富龐大的調(diào)查對象。
采集工具的選擇遵循便捷化原則。數(shù)據(jù)需求來源廣泛,不同平臺的網(wǎng)頁結(jié)構(gòu)不盡相同,網(wǎng)頁里還存在許多與篇章內(nèi)容無關(guān)的元素比如廣告圖文,因此需要一款適合所有網(wǎng)頁結(jié)構(gòu)且能自定義對象數(shù)據(jù)位置的爬蟲軟件。本研究選用八爪魚采集器對各大自媒體平臺進(jìn)行以主題詞為中心的文本采集,針對不同網(wǎng)站設(shè)計自定義爬蟲的采集模式:輸入需要采集數(shù)據(jù)的網(wǎng)頁網(wǎng)址,手動定義其中不同網(wǎng)址所需數(shù)據(jù)的網(wǎng)頁X-Path,采集器自動識別和采集所有同類XPath的數(shù)據(jù)。這種方法可以有效避免和減少數(shù)據(jù)噪音。本實驗以“唐代服飾”為采集主題詞,對采集來的結(jié)果再進(jìn)行篩選去噪去重,最終采集結(jié)果如表1所示。
表1 自媒體平臺采集文本數(shù)量匯總
文本數(shù)據(jù)分析的前提是漢語分詞,在分詞的基礎(chǔ)上再進(jìn)行不同詞性詞匯之間的相關(guān)性計算和提取。因為唐代服飾是具有傳統(tǒng)特色的服飾,含有許多不常用且未被收錄在分詞核心詞典里的專有名詞(未登錄詞),分詞系統(tǒng)必須能識別這些專有名詞并進(jìn)行準(zhǔn)確分詞。目前,多數(shù)分詞算法都采用規(guī)則和統(tǒng)計相結(jié)合的方法,目的是降低統(tǒng)計對語料庫的依賴性,可以充分利用已有的詞法信息,同時還能彌補規(guī)則方法的不足。現(xiàn)在經(jīng)常使用的方法是利用詞典進(jìn)行初次切分,得出切分結(jié)果后,用其他的概率統(tǒng)計方法和簡單規(guī)則消歧進(jìn)行未登錄詞的識別。因此,本次分詞采用的是NLPIR-master大數(shù)據(jù)語義智能分析平臺(Natural Language Processing and Information Retriev?al Sharing Platform),NLPIR分詞法(Chen et al. 2014)利用詞典匹配進(jìn)行初詞切分,得到詞切分圖后,利用詞頻信息求詞圖N條最短路徑的N最短路徑法進(jìn)行分詞,自動識別人名、地名、機構(gòu)名等未登錄詞、新詞標(biāo)注以及詞性標(biāo)注[11]。
用NLPIR軟件對采集來的文本中所有候選詞語進(jìn)行切分標(biāo)注后,使用詞頻、詞性和互信息等多特征進(jìn)行融合,綜合計算提取關(guān)鍵詞[12],得到的唐代服飾領(lǐng)域關(guān)鍵詞詞表包含詞語(word)、詞性(part of speech縮寫POS)、權(quán)重(weight)和詞頻統(tǒng)計(frequency),系統(tǒng)默認(rèn)詞匯以權(quán)重值高低排序,結(jié)果如表2所示。
表2 關(guān)鍵詞提取結(jié)果(部分)
對采集來的文本關(guān)鍵詞進(jìn)行分析,根據(jù)中科院計算所制定的漢語詞性標(biāo)記集對提取的關(guān)鍵詞詞性進(jìn)行分類觀察,結(jié)果發(fā)現(xiàn)關(guān)鍵詞一般都是名詞(n)與動詞(v),還包含少量的形容詞與副詞;而介詞和助詞等在漢語中一般不能表述具體的意義,因此本實驗選擇忽略不具備本次服飾研究意義的詞,如“可以”“一個”“開始”“成為”等。對服飾風(fēng)格的相關(guān)影響因素進(jìn)行具體總結(jié)可以得到兩大類服飾風(fēng)格相關(guān)因素:(1)“顏色”“色彩”“造型”“圖案”“裝飾”等構(gòu)成服飾設(shè)計的重要因素;(2)“時代”“地位”“制度”“民族”“思想”等構(gòu)成服飾社會背景的重要因素,兩者綜合可以構(gòu)成一個朝代服飾風(fēng)格的基因。各因素具體占比按詞頻和權(quán)重高低依次排列,結(jié)果如表3所示。
表3 自媒體數(shù)據(jù)中與服飾風(fēng)格相關(guān)度最高的因素
由表3可以看出,詞頻和權(quán)重排列在前的有形象、時代、圖案、顏色/色彩、造型等因素,下面分別就這幾方面的關(guān)鍵詞再進(jìn)行語言統(tǒng)計分析。
運用NLPIR-master軟件對采集文本進(jìn)行語言統(tǒng)計,語言統(tǒng)計功能是在完成文本分詞的基礎(chǔ)上針對切分標(biāo)注結(jié)果,系統(tǒng)自動地進(jìn)行二元詞語轉(zhuǎn)移概率統(tǒng)計(統(tǒng)計兩個詞左右連接的頻次即概率)和二元詞對信息熵,其中共現(xiàn)頻次是指兩個詞以前后順序同時出現(xiàn)的頻率,二元詞對信息熵是指這兩個詞包含的信息廣度[11]。本次統(tǒng)計共得到二元詞對總數(shù)為22 7735對,從結(jié)果中除去不具備完整參考意義的單字和代詞,再對幾個具體因素進(jìn)行檢索,結(jié)果如表4、表5所示。
表4 自媒體數(shù)據(jù)中與“圖案”“造型”搭配最高的詞語排序表
續(xù)表4
表5 自媒體數(shù)據(jù)中“顏色”高搭詞以及高頻使用顏色排序表
以上各個方面的特征也是大眾對唐代服飾形成的一個普遍印象。同樣對“形象”“時代”進(jìn)行檢索,排序結(jié)果如表6所示。
表6 唐代服飾風(fēng)格影響因素總結(jié)(部分)
風(fēng)格本質(zhì)上就是描繪事物及人的狀態(tài)及屬性特征。漢語中的形容詞正是用來描寫或修飾名詞或代詞,表示人或事物的性質(zhì)、狀態(tài)、特征、屬性和情態(tài)的詞,因此本研究對關(guān)鍵詞表中的形容詞進(jìn)行了整體研究,發(fā)現(xiàn)以“a”為詞性標(biāo)注的形容詞共803個,另以“an”為詞性標(biāo)注的形名詞共97個,以“z”為詞性標(biāo)注的狀態(tài)詞共98個,其中形名詞和狀態(tài)詞也是形容詞的一種詞類。表7為形容詞作為風(fēng)格特征詞匯表。
表7 自媒體文本中風(fēng)格詞匯表(部分)
關(guān)于形容詞的聚類,早期在國內(nèi),朱德熙先生將詞的形式和意義結(jié)合起來,把形容詞分為性質(zhì)和狀態(tài)兩類。性質(zhì)形容詞通常與類名相組配以表述一類事物相對恒定的屬性;狀態(tài)形容詞一般與個體名相組配以表現(xiàn)個體事物相對暫時的情狀[13]。
而后學(xué)者在此基礎(chǔ)上進(jìn)行豐富細(xì)化,《現(xiàn)代漢語分類詞典》(A Thesaurus of Modern Chinese,簡稱“TMC”)中把形容詞分為性狀、性質(zhì)、情狀、才品、知覺和形貌6大類[14-15]。為了更清楚地了解唐代服飾風(fēng)格的特征偏向,本研究依據(jù)此詞典把以上描述唐代服飾風(fēng)格的形容詞進(jìn)行聚類,結(jié)果如表8所示。
表8 自媒體文本中風(fēng)格詞匯分類(部分)
(1)以“唐代服飾”為主題詞的大數(shù)據(jù)語義分析實驗從自媒體平臺數(shù)據(jù)中提取得到兩大類服飾風(fēng)格相關(guān)因素:①“顏色”“色彩”“造型”“圖案”“裝飾”等構(gòu)成服飾設(shè)計的重要因素;②“時代”“地位”“制度”“民族”“思想”等構(gòu)成服飾社會背景的重要因素。
(2)語言統(tǒng)計結(jié)果中,“形象”“時代”“顏色”“造型”等具體因素的高頻共現(xiàn)詞皆屬于唐代服飾中的典型特征,數(shù)據(jù)顯示高頻共現(xiàn)詞與盛唐以及武周時期的唐代服飾相關(guān)內(nèi)容居多,重點相關(guān)人物有唐玄宗、楊貴妃和武則天;對女性、婦女、仕女、侍女、女子和貴婦等女性形象的服飾關(guān)注度高;服飾相關(guān)圖案種類涉及動植物圖案和幾何圖案,其中纏枝花卉圖案出現(xiàn)頻次最高;對服飾顏色最主要的描述特點為鮮艷、絢麗、艷麗,紅色是唐代服飾的代表性顏色。
(3)結(jié)合服飾專業(yè)特點進(jìn)行分析,得到了服飾審美特征分類:性質(zhì)、性狀類形容詞多描述唐代服飾整體客觀給人的風(fēng)格感受,如華麗、曼妙、華貴;形貌知覺類形容詞多描述服飾造型的形狀,體量、外觀顏色或者面料上的觸覺,如豐滿、輕薄、鮮艷;才品類形容詞多描述穿著此種服飾的人群展現(xiàn)出來的才情與品味,帶有情感色彩,如飄逸、自由、大膽;情狀類形容詞多形容服飾時代背景的樣態(tài)以及人們當(dāng)下的情感期望,即時代繁榮發(fā)達(dá),人們生活美好。經(jīng)相關(guān)史料查詢可以驗證這些描述基本符合唐代服飾風(fēng)格特征。
(4)此種方法對采集和分析主題服飾的風(fēng)格特征具有一定的可行性,希望能給服裝文化研究和設(shè)計工作者以參考。