“音樂導(dǎo)航”技術(shù)作為微軟亞洲研究院眾多的創(chuàng)新的細(xì)胞之一,正被植入微軟的未來。
一杯茶、一本書,Allan坐在陽臺上的藤椅上,iPod里小野麗莎在低吟淺唱,一曲過后,傳來諾拉·瓊斯慵懶的聲音,Allan在柔和的歌曲中過了一個愜意的下午。健身時,充滿朋克風(fēng)格的搖滾樂最適合Allan揮灑汗水……微軟亞洲研究院的技術(shù)正在讓機器變得如此聰明,你欣賞的音樂風(fēng)格可能是RB或藍(lán)調(diào)、你也許在開車或是在慢跑,微軟音樂導(dǎo)航技術(shù)會為你挑出最適合當(dāng)下情景的音樂,在與機器的交互中,科技與人產(chǎn)生了共鳴。
“我工作的大部分時間都在跟聲音打交道。”微軟亞洲研究院語音組蘆烈博士用一曲情歌代替了開場白。他拿著手機,把嘴湊到手機聲筒邊,瞇著眼睛唱“你問我愛你有多深,我愛你有幾分”,幾秒鐘后,儲存在手機里的鄧麗君的《月亮代表我的心》就被自動搜索出來。
用人哼唱出的曲調(diào)來找歌的技術(shù),只是蘆烈和他的研究團隊眾多語音、音樂研究課題中的一個。
從2002年起,微軟亞洲研究院就開始了關(guān)于節(jié)奏分析、音樂分類、音樂情緒檢測一類的基礎(chǔ)性研究。有了一定的積累后,2005年左右開始考慮怎么把這些功能集成起來,從而做成一個方便的應(yīng)用。整個過程中,蘆烈和同事們不斷搜集用戶的反饋,分析人們聽歌的習(xí)慣。為了讓用戶體驗更酷、更方便,蘆烈已經(jīng)記不清有多少次與研究院的設(shè)計師們討論界面設(shè)計細(xì)節(jié)了。
音樂是突破了國界和語言的,與人們產(chǎn)生的是情緒上的共鳴,現(xiàn)在,蘆烈和同事們愈發(fā)偏執(zhí)地為他們的音樂夢想努力,他們希望做“讀懂”音樂的人,再讓音樂“讀懂”人們的心。于是,就有了開頭的一幕。
心有靈犀的播放器
人們常常遇到Allan的情況——當(dāng)你有幾千首歌儲存在音樂播放器中(比如Zune,iPod,和智能手機),如何選擇想要聽的音樂便成了一個問題?!澳憧赡軟]有時間從中選擇所有想聽的音樂;而且在不同的時候也想聽不同的音樂。目前音樂播放器提供的‘shuffle’功能,基本上是隨機播放音樂,只能滿足用戶最基本的需求?!庇谑?,蘆烈和同事們想到了用“音樂導(dǎo)航”技術(shù)來解決這個問題。
“音樂導(dǎo)航提供給用戶一種‘smartshuffle’功能,用一種便捷的方式來選擇和欣賞音樂?!碧J烈對記者介紹,通過“音樂導(dǎo)航”,用戶可以只選擇一首音樂,系統(tǒng)就會自動生成一個“音樂電臺”,推薦給用戶一些相似的音樂。用戶還可以通過音樂篩選來選擇適合不同場景下聽的音樂,比如在閱讀時聽柔和的音樂。這個過程就好像機器會先猜測你的喜好,列出一個初步的菜單。用戶可以欣賞推薦的歌曲,也可以作進(jìn)一步篩選,選擇喜歡或刪除不喜歡的歌曲。機器會基于用戶對于音樂的移除等行為反饋,進(jìn)一步分析用戶的音樂偏好,自動調(diào)整組合歌曲推薦列表(電臺中的音樂),使推薦的音樂越來越接近于用戶的“口味”。通過音樂內(nèi)容分析、推薦和篩選,交互式生成音樂列表,用戶就可以方便地找到想聽的歌曲。
一首簡單的歌
在蘆烈和他的同事們看來,即使是很簡單的一首歌,也包含著多重音樂要素,包括風(fēng)格、樂器、音調(diào)、旋律和節(jié)奏等。這樣看來,所有曲子都并不簡單。 一種做研究的慣性使得蘆烈在聽歌時,耳朵自然而然變成一把鋒利的解剖刀,把每首歌的情緒、節(jié)奏、樂器、音色等重新解構(gòu)。 “現(xiàn)在,我們會選擇十種要素來表征音樂的特性。把這些因素量化、檢測和分類之后,形成一個大體的框架,基本上就可以實現(xiàn)對音樂的描述。比如音樂風(fēng)格,會分為流行、鄉(xiāng)村、搖滾、藍(lán)調(diào)等十幾種;樂器也會區(qū)分十幾種;音樂情感會有正面積極的感情、負(fù)面悲傷的感情和自然的中性表情三種;節(jié)奏的強弱和速度的快慢也量化為三種等等。”
在分析音樂的時候,最困難的就是多種樂器,多重旋律都混合在一起,很難把它們分離開來。不同的風(fēng)格會用不同的樂器,每首歌里的起承轉(zhuǎn)臺又非常復(fù)雜。而且,在學(xué)術(shù)界甚至沒有對音色的一個標(biāo)準(zhǔn)的定義。所以只能不斷嘗試提取特征來表征不同的音樂要素。
蘆烈進(jìn)一步向記者介紹道,作為一種算法,希望它能學(xué)習(xí)哪些要素在音樂中更加重要,這樣就能更準(zhǔn)確的分析用戶偏好,現(xiàn)在就有算法正在做這個事情。另外,有時用戶對想要聽的歌只有一個粗略的概念,比如說想要聽一些優(yōu)雅的歌,這時,mood filter(音樂篩選器)就可以幫助用戶設(shè)置選擇。同時,用戶還可以通過一些預(yù)先設(shè)定的場景,比如在睡覺前,運動時,和閱讀時,來找到符合自己場景的歌曲。這些,有的還是概念性的想法,正在蘆烈和同事們的不斷努力下越來越接近現(xiàn)實。
微軟創(chuàng)新之音
“剛加入微軟的時候,就開始做語音、音頻方面的處理,慢慢的我才能做到檢測一些精細(xì)的特性?,F(xiàn)在自動音樂標(biāo)注準(zhǔn)確率其實也只有60%左右,但用戶還是比較能接受的?!倍殡S著蘆烈在微軟亞洲研究院成長的軌跡,音樂導(dǎo)航技術(shù)也在隨之完善。
“我們要更完善這些東西,希望能有更多的屬性,比如現(xiàn)在大部分的屬性都是針對歐美的一些流行音樂,對古典音樂現(xiàn)在還沒有涉及,對中文或日韓音樂的一些專有屬性也不能精確的表達(dá)。另外,因為我們是非專業(yè)的音樂人士,意味著我們標(biāo)注的一些訓(xùn)練數(shù)據(jù)質(zhì)量不一定很高,所以,我們希望跟一些公司合作,用他們專業(yè)人員標(biāo)好的數(shù)據(jù)來訓(xùn)練模型,在這個的基礎(chǔ)上把自動音樂分析做得更加準(zhǔn)確、完整?!?/p>
音樂導(dǎo)航技術(shù)可以用在手持設(shè)備、音樂播放器里,還可以用在電腦上。不過,現(xiàn)在自動音樂分析的計算強度很高,蘆烈和他的團隊正在想怎么在保證精度的情況下提高速度、應(yīng)用、完整性、準(zhǔn)確性。
把技術(shù)成果放進(jìn)微軟產(chǎn)品里去是蘆烈和同事們一直以來引以為傲的事情和希望,現(xiàn)在,微軟的產(chǎn)品組非常喜歡“音樂導(dǎo)航”,蘆烈正在跟不同的團隊頻繁溝通,也在對產(chǎn)品集成作一些測試。這個過程,就像把一個個創(chuàng)新的細(xì)胞植入到微軟充滿活力的未來。