劉芷茵
(廣州市越秀區(qū)圖書館,廣東 廣州510030)
在信息技術高速發(fā)展的當下,人們獲取的信息資源日益豐富,資源載體多樣,傳輸渠道多元,信息傳播進入智能融媒體時代。圖書館作為傳統(tǒng)文化資源的收藏、傳播場所,要充分發(fā)揮文化宣傳的陣地作用,讓讀者接觸優(yōu)質的信息資源,了解中華優(yōu)秀傳統(tǒng)文化。近年來,圖書館向讀者提供的多媒體資源的數(shù)量與種類日漸增多。其中,有聲資源越來越受到人們的重視,利用有聲讀物進行聽閱讀已逐漸成為一種新型的閱讀方式。中老年讀者視力減弱,更傾向于解放眼睛,采用聽的方式來閱讀。青少年學習壓力大,課外閱讀時間少,也傾向于采取隨時隨地想聽就聽的方式作為汲取新知識的補充手段。此外,圖書館面向社會大眾提供的大量地方曲藝、民族風情音樂等地方特色音頻資源,也為廣大音樂愛好者、學習者、研究者提供了優(yōu)質的平臺。向讀者推介優(yōu)質的、符合其信息需求的音頻資源,可以促進文化信息資源共享,讓讀者感受到傳統(tǒng)文化的魅力,提升讀者的文化素養(yǎng),但這類資源具有數(shù)據(jù)量大、媒體種類多、非結構化等特點,且讀者的需求難以捕捉,需借助智能技術實現(xiàn)。深度學習是實現(xiàn)人工智能的有效手段,得益于分布式運算的廣泛應用、算力的大幅提升,深度學習逐漸升溫,利用深度學習為讀者進行音頻資源個性化推薦是圖書館界值得研究的課題。
一直以來,為了促進全民閱讀,推動公共文化服務數(shù)字化、均等化,實現(xiàn)文化惠民,圖書館界在數(shù)字資源建設方面不遺余力,建設了大量的資源數(shù)據(jù)庫。為了解決視障人士的文化需求,滿足社會公眾除了用眼看,還樂于用耳聽的閱讀需求,圖書館界加大了數(shù)字有聲資源的建設力度。文化和旅游部全國公共文化發(fā)展中心于2013年起建設“心聲·音頻館”音頻庫,建有各類文化藝術音頻5萬余小時,全國多地圖書館引進開通使用。山東省圖書館于2014年建成“光明之家”數(shù)字圖書館,幫助視障群體跨越數(shù)字鴻溝。2015年武漢圖書館攜手武漢音樂廣播推出“武圖之聲”廣播節(jié)目,將圖書館的薦書、講座、地方文化研究等資源通過媒體向大眾傳播[1]。溫州市甌海區(qū)圖書館2017年開始啟用“有聲閱讀館”供讀者錄制朗讀作品,為全市讀者搭建朗讀共享平臺。太原市圖書館于2018年推出“太圖之聲”聽媒體平臺,以“文字+圖像+音頻”的方式分享好書。2020年以來,眾多圖書館將閱讀推廣活動從線下轉移到了線上,活動開展的如火如荼。內蒙古圖書館為少兒提供繪本閱讀服務,打造“哈尼之聲”。金陵圖書館在微信公眾平臺推出館員原創(chuàng)對話節(jié)目“青青云譚微電臺”。廣州市越秀區(qū)圖書館組織志愿者團隊誦讀經典錄制音頻作品,還組織館員自制“紅閱讀”音頻資源,在官網與微信公眾平臺與讀者分享。近年來,各類由資源服務商提供的有聲讀物資源平臺也應運而生,如書香中國聽書館、云圖有聲數(shù)據(jù)庫、時夕有聲讀物數(shù)據(jù)庫、天方有聲數(shù)字圖書館、新語聽書館、朗銳百聽數(shù)字聽書平臺、“聽世界”博看期刊數(shù)據(jù)庫等,涵蓋了黨建、文學、文化、藝術、科學、歷史、經濟、教育等領域,內容涉及有聲書、評書、相聲、童謠、少兒故事、影視賞析等方面。此類有聲資源平臺基本上都開放了資源的題名、著者、演播者、簡介、章節(jié)全文等元數(shù)據(jù)供用戶檢索利用。
傳承和弘揚傳統(tǒng)文化是圖書館承擔的重要使命,國內眾多公共圖書館收集、整理獨具地方特色的音頻資源以及相關學術資料,經數(shù)字化加工處理形成專題數(shù)據(jù)庫。例如,上海圖書館自建的特色老唱片數(shù)據(jù)庫,陜西省圖書館自建的聽遍陜西特色資源音頻庫,四川省圖書館自建的四川清音資源庫,吉林省圖書館自建的吉劇音頻庫、吉林二人轉數(shù)據(jù)庫,安徽省圖書館自建的安徽戲曲藝術普及資源庫,河南省圖書館自建的河南地方戲曲數(shù)據(jù)庫,廣西省圖書館自建的廣西音樂專題資源庫,桂林圖書館自建的聽遍桂林資源庫[2]。除了自建特色音頻庫外,不少圖書館還外購了數(shù)字音樂數(shù)據(jù)庫,比較有代表性的是中華傳統(tǒng)音樂資源數(shù)據(jù)庫和庫客數(shù)字音樂圖書館。前者收錄了大量中華傳統(tǒng)音樂經典音樂以及各地區(qū)、各民族的近百種曲藝曲種,共有5個子庫;后者收藏了世界上近4.2萬位藝術家的近2000種樂器的音樂作品,總計超過180萬首曲目,包括民族音樂、爵士音樂、古典音樂、電影音樂、新世紀音樂等多種音樂類型[3]。這些數(shù)據(jù)庫不僅提供音頻流媒體播放,還提供藝術家信息、出版時間、出版者、主題分類、唱片或劇目介紹、資料圖片等元數(shù)據(jù)供用戶檢索利用。數(shù)據(jù)庫收藏的資料具有獨特的藝術價值、歷史價值、研究價值、學術價值,對于全民藝術素質培養(yǎng)有著重要的意義。
綜上所述,公共圖書館為讀者提供的音頻資源極其豐富,學術類、教育類、藝術類、消遣類……應有盡有。應加強對這些音頻資源的挖掘和闡發(fā),向社會推廣與普及,讓大眾接觸并接受文化熏陶。然而大部分圖書館面臨著資源服務知曉率低,優(yōu)質資源難以被活化利用的問題。而智能推薦是幫助圖書館讀者發(fā)現(xiàn)與接觸更多優(yōu)質資源的有效途徑。
圖書館服務的對象是多層次多類型的,他們在利用圖書館館藏音頻資源時所呈現(xiàn)出來的需求和目的意圖是不同的,有些讀者專注于某一領域,對特定的內容感興趣,可能會反復地聽他們最感興趣的內容;有些讀者需求多樣化,喜歡涉獵范圍更廣的內容。圖書館使用智能推薦系統(tǒng)可以更人性化地理解讀者的需求,更深入地挖掘館藏,向讀者推薦其可能感興趣的音頻資源,提供給讀者有價值的信息。
智能推薦是人工智能應用研究領域之一。機器學習是實現(xiàn)智能推薦的工具和途徑。機器學習研究的是計算機如何模擬人類的學習行為,機器學習的過程,是使用算法解析數(shù)據(jù)、挖掘特征、從中學習,然后做出決策和預測的過程[4]。從算法網絡深度的角度可以分為淺層學習與深度學習。傳統(tǒng)的推薦系統(tǒng)使用的是淺層學習算法,依賴于人工設計的特征,且只能用于結構化數(shù)據(jù)的預測場景。當前,深度學習是機器學習的熱點研究領域,被認為是許多機器學習問題的前沿,特別是對于文本、圖像、音視頻等非結構化數(shù)據(jù)類型的處理,可以提取更深層次的特征。
深度學習起源于人類對大腦神經元的模仿,其本質是人工神經網絡。研究發(fā)現(xiàn),大腦在識別物體的時候,是通過神經元的逐層抽象來實現(xiàn)的[4]。
圖1是深度學習架構[4],由輸入層、隱藏層、輸出層組成,隱藏層可以包含很多層,用于自動提取數(shù)據(jù)特征。
圖1 深度學習架構
深度學習的模型種類很多,比較常用的模型有DNN、CNN、RNN、LSTM等幾種。在自然語言處理領域,除了應用以上深度學習模型進行數(shù)據(jù)分析和預測外,還可以使用以向量表示單詞、短語和句子,搭建多層神經網絡自主學習的模型,包括Word2Vec、paragraph2vec、Doc2Vec等。以下是常用深度學習模型的介紹,由于每種模型均由輸入層、隱藏層、輸出層3部分組成,只是隱藏層針對處理數(shù)據(jù)的種類和特點的不同,衍生出不同的結構,故主要介紹各種模型的隱藏層結構。
(1)深度神經網絡DNN
DNN的隱藏層可以構造很多層,每一層可提取新特征,神經網絡的權重定義了特征在下一層上的重要性,通過逐層特征提取獲得最終輸出結果[5]。
(2)卷積神經網絡CNN
CNN的隱藏層包含卷積層、池化層和全連接層。卷積層的功能是學習輸入數(shù)據(jù)的特征描述,池化層對卷積層輸出的特征進行特征抽樣,保留有效的信息,全連接層會對抽樣的特征進行非線性組合以得到輸出[6]。
(3)循環(huán)神經網絡RNN
RNN是一種環(huán)狀的深度神經網絡,參數(shù)在隱藏層可以環(huán)狀傳導,即參數(shù)在隱藏層的輸出可以作為自身的輸入[4]。這種架構當前時刻的隱藏層可以受上一時刻隱藏層的影響,更適合用于時間序列的問題解決。
(4)長短期記憶網絡LSTM
LSTM是對循環(huán)神經網絡的衍生,循環(huán)神經網絡只考慮了短期因素,而LSTM還考慮了長期因素。該架構采用了特殊的隱藏層結構,通過遺忘門(遺忘次要的,記住主要的)、輸入門(對輸入選擇性地記憶,記住重要的)、輸出門(決定輸出)3個不同的門結構實現(xiàn)長短期時序上下文信息的保留和傳遞[7、8]。
(5)Word2Vec、paragraph2vec、Doc2Vec
Word2Vec是一套能將詞向量化的模型,它將文本中的每個詞映射成為指定維度大小的向量表示,通過向量定義詞語的含義。詞向量空間上的相似度可以用來表示詞語語義的相似度,根據(jù)詞向量可以預測詞語的上下文[9]。Paragraph2Vec是在Word2Vec的基礎上增加了一個段向量輸入,段向量和其他詞向量通過拼接或相加的方式輸入到隱藏層,在訓練詞向量的時候,也訓練段向量,訓練結束時得到段落的向量化表示。Doc2Vec的原理跟Paragraph2Vec類似,就是在Word2Vec的基礎上增加了一個文檔向量輸入,最終獲得文檔的向量化表示。
音頻資源具有復合性的特點,不是單純的音頻格式文件,還附帶有跟音頻資源相關的文本、圖像信息。深度學習善于處理復雜特征,應用于各種類型的數(shù)據(jù),可以學習到其更加抽象的深層次的隱性特征。深度學習可以幫助圖書館處理復雜的數(shù)據(jù)結構和數(shù)據(jù)關系,利用大數(shù)據(jù)深入挖掘讀者行為,通過對讀者參與數(shù)據(jù)的智能分析,發(fā)現(xiàn)讀者的隱性情感和需求,感知讀者在生活、學習、工作等方面?zhèn)€性化需求的發(fā)展趨勢與變化,為讀者構建更精準的畫像,實現(xiàn)音頻資源的智慧推送。
音頻資源推薦主要基于推薦對象和音頻資源兩者的特征之間的關聯(lián)匹配來實現(xiàn)。深度學習應用于音頻資源推薦,其流程是采集讀者數(shù)據(jù)和音頻資源數(shù)據(jù),利用深度學習模型自動地學習合適的特征及其表征,經過模型訓練研究揭示讀者興趣、需求與音頻資源之間的隱含關系,從而對推薦做出準確的預測。針對該流程,可以從內容特征處理、行為特征處理、環(huán)境特征處理等方面提升推薦的性能。
4.1.1 推薦思路
基于內容特征的音頻資源推薦旨在為讀者找到與讀者單個或多個感興趣類別相匹配的資源。結合深度學習技術,可以將讀者歷史收聽的音頻資源和候選集中的所有音頻資源共同輸入訓練模型,計算資源相似度,對資源進行分類,在候選集中選擇讀者歷史收聽類別中相似度最高的資源推薦給讀者。在此過程中,能否全面而準確地挖掘內容特征是關鍵。深度學習分析和處理高維、非線性數(shù)據(jù)方面的能力,有助于多維度、多層次抽取音頻資源內容特征,對于館藏音頻資源可從聲學特征、文本特征、屬性元數(shù)據(jù)特征三方面提取其內容特征。
4.1.2 聲學特征方面
在數(shù)字化時代,圖書館為讀者提供的音頻資源基本上是數(shù)字化加工過的數(shù)據(jù)。音頻數(shù)據(jù)不同于文本字符,其數(shù)據(jù)量非常龐大。一個音頻數(shù)據(jù)文件有許多信號特征,特征復雜且維度高。表1以“特征提取過程的差異”為主要分類基準,分類列出了比較常見的特征,通過這些特征可以表示音頻的音色、音調、旋律。
表1 音頻特征的類型[10]
對于樂曲、詩歌、歌劇、兒歌等音樂類資源,從資源的MFCC、頻譜通量、節(jié)奏、韻律特征中可以提取出多維聲學特征,采用深度學習模型(DNN、CNN、RNN中的一種),可將多維特征投影到低維、稠密的特征空間,獲取特征向量,度量音頻相似度。
4.1.3 文本特征方面
為了便于讀者利用及進行學術研究工作,圖書館提供的音頻數(shù)據(jù)附帶了多種信息集成描述。如有聲讀物,則附帶摘要、章節(jié)全文等信息。如音樂類資源,則附帶資源簡介、背景來源、曲詞、劇本等信息。曲詞是一首樂曲的重要特征之一,對于有聲讀物來說尤其如此,全文文本是其內容的主要體現(xiàn)。相比結構化數(shù)據(jù),文本數(shù)據(jù)中的結構信息量少,語義理解難度較高,需采用自然語言處理技術加以分析。首先,可使用中文分詞系統(tǒng)將句子分解成單個詞語,對詞語進行比較,找出詞語中的特征值,形成詞向量。其次,除了考慮單個文本中每個詞語之間的關系外,還要考慮文本與文本之間的關系。采用Doc2Vec模型可以提取文本特征,得到文本的詞向量與文本向量,從而計算出音頻資源相似度。
4.1.4 屬性元數(shù)據(jù)特征方面
元數(shù)據(jù)是用于描述數(shù)據(jù)屬性信息的數(shù)據(jù),圖書館的館藏音頻資源通常以標題、類別、語種、創(chuàng)作者、出版年代、出版者、關鍵詞、時長等元數(shù)據(jù)描述其屬性。元數(shù)據(jù)是音頻資源的另一個重要的特征,是領域專家對資源內容、語義的精確描述。深度學習同樣可以處理結構化數(shù)據(jù),且表現(xiàn)出良好的性能[11]。構建深度語義數(shù)據(jù)模型,將所有描述資源的屬性元數(shù)據(jù)輸入模型,學習其向量化表示,對向量空間降維,可以度量音頻資源之間的相似度。
4.1.5 融合推薦
融合不同維度的特征綜合評價資源是提高推薦預測精確度的一種重要手段。將深度學習應用于推薦系統(tǒng),雖然推薦的效果與性能得到了提升,但建模時間與復雜度相比傳統(tǒng)推薦均有增加,為了降低多特征融合訓練預測的時間復雜度和計算復雜度,同時保持各維度特征訓練的獨立性,適宜采用“后融合”的方式,即將不同數(shù)據(jù)訓練模型的輸出進行融合。
音樂類音頻資源的融合推薦:使用4.1.2、4.1.3、4.1.4提出的方法,對資源的聲學特征、文本特征、屬性元數(shù)據(jù)特征進行分析處理,采用“后融合”的方式融合三方面的特征,推算出適合目標讀者的音樂類音頻資源,給出推薦結果。
非音樂類音頻資源的融合推薦:使用4.1.3、4.1.4提出的方法,對資源的文本內容特征、屬性元數(shù)據(jù)特征進行分析處理,采用“后融合”的方式融合兩方面的特征,推算出適合目標讀者的非音樂類音頻資源,給出推薦結果。
讀者閱讀興趣偏好可以從揭示讀者行為的顯式反饋數(shù)據(jù)與隱式反饋數(shù)據(jù)中獲取。通常,檢索、瀏覽、收藏、播放、下載等隱式反饋數(shù)據(jù)比評分的顯式反饋數(shù)據(jù)分布更廣,采集相對容易。利用深度學習技術可對讀者交互數(shù)據(jù)的復雜結構進行捕捉。
針對讀者興趣偏好動態(tài)演變的特點,適宜使用長短期記憶網絡LSTM模型在捕捉讀者興趣偏好時,度量讀者興趣偏好轉移與時間上下文之間的相關性。首先,從讀者的隱性反饋行為得到“讀者—音頻資源”交互矩陣,然后輸入LSTM模型學習讀者行為序列中的隱藏關系,確定哪些音頻資源與當前讀者的興趣偏好關系最密切,實現(xiàn)動態(tài)智能推薦。
在復雜的網絡環(huán)境中,各種各樣的因素可能會對讀者利用資源的動機和行為產生一定程度的影響。例如,為舒緩備考時的緊張情緒,讀者可能會聽節(jié)奏輕柔的歌曲或者輕松愉悅的相聲段子。準確捕獲用戶的收聽需求和意圖是不容易的,從讀者所處環(huán)境的上下文信息分析讀者當前狀態(tài)并綜合考慮其歷史行為推薦符合其需求的音頻資源,能夠進一步提升讀者對所推薦內容的滿意度。
環(huán)境的上下文信息可劃分為時間、位置、情境、活動、情感等維度,使用智能手機、智能傳感器等終端設備可以感知讀者,獲取讀者當前狀態(tài)的上下文信息。智能設備的應用將產生大量的異構數(shù)據(jù),將深度學習與智能感知技術相結合,利用深度學習在多源異構數(shù)據(jù)自動特征提取方面的優(yōu)勢,能夠更直接地收集讀者反饋,從各種環(huán)境中獲取顯式與隱式項目,快速建模分析,高度感知讀者需求,提供更智能的音頻資源推薦信息。由于所采集的數(shù)據(jù)來源于讀者的真實反饋,推薦結果將具有更強的可解釋性。
深度學習在音頻資源推薦中所發(fā)揮的作用主要體現(xiàn)在對讀者潛在興趣與目的意圖的發(fā)掘、音頻資源內容的深層挖掘、讀者與音頻資源內在關聯(lián)關系的揭示等方面,實現(xiàn)的途徑離不開讀者與音頻資源有關特征的深層次學習。筆者從內容特征處理、行為特征處理、環(huán)境特征處理的角度提出推薦的策略,以提升音頻資源推薦的有效性,從資源推薦的層面增加圖書館音頻資源的曝光率,使讀者更容易地獲取到所需信息資源,有助于增強其獲得感與幸福感。