小冰創(chuàng)作出的作品,其中60%由上一代雜交而成,20%直接保留到下二代,剩下的20%可能發(fā)生“基因突變”?!罢f不定它可以帶領一個流派或者潮流的出現(xiàn)”。
南方周末記者 劉悠翔 發(fā)自北京
南方周末實習生 陸宇婷
2018年5月,微軟宣布公司旗下人工智能小冰掌握了歌詞創(chuàng)作和譜曲能力,意味著它或能以全能音樂人身份出道。此前,小冰已經(jīng)學會了唱歌。
“我們一天的狀態(tài),跟一般的‘碼農沒有太大區(qū)別?!痹谖④洠ㄖ袊┺k公室里,微軟小冰團隊科學家欒劍和袁晶如此自我評價。他們的日常工作,是教人工智能小冰唱歌、寫歌。
欒劍負責“教唱歌”。他大學時的專業(yè)是機械工程,畢業(yè)后多年研究聲紋識別和語音合成技術?!皹I(yè)內流傳著一個冷笑話,做語音識別的人,常常耳朵不太好;做語音合成的人,常常嘴巴不太能說。”欒劍對南方周末記者說,“我們每天聽大量的聲音,去驗證、比較,做各種研究,對耳朵有一定的傷害;語音合成用到這么多歌手的聲音,發(fā)現(xiàn)他們的歌聲跟普通人嗓音差距好大,可能就導致我有時候不太愿意說話?!?/p>
人類學唱歌,需要識譜、辨音、練聲,人工智能學唱歌,則是一系列軟件工程——曲譜分析、發(fā)音預測、聲學特征提取、深度神經(jīng)網(wǎng)絡學習、聲碼器合成、音頻后處理……
軟件,只是人工智能唱歌的開始。欒劍向南方周末記者播放小冰最初唱歌的音頻——鄧麗君的《我只在乎你》。
“我們當時覺得跑調很嚴重,這個‘人好像五音不全?!北M管聽過很多遍,欒劍還是忍不住笑了,“拍子比較亂,有時候一個字應該唱半拍的,但是它唱了一拍,應該唱兩拍的,它也唱了一拍;偶爾會有一些莫名其妙的噪音出現(xiàn),就像嗓子不好,破音了。”
令欒劍感到欣慰的是,小冰的歌聲比較自然,“像人在跑調,不是機器在跑調?!?/p>
欒劍在音調控制和節(jié)奏把握上做了一些修改。接下來,小冰開始了艱苦的訓練,這個過程,是人工智能的深度學習。第二代小冰的唱歌技巧,在音調和節(jié)拍上都已達到基本準確,不過音質仍然比較生硬,“有點像說話的感覺”。
欒劍把錄音模型的采樣率從16千赫茲提高到48千赫茲,于是有了第三代小冰的歌聲,唱的是張韶涵的《隱形的翅膀》?!耙糍|很通透,”欒劍自豪地說,“最新的第四代又有了提高,更加順暢、自然?!保ㄐ”鶎W唱歌片段對比,見南方周末網(wǎng)絡版)
袁晶是中科大計算機軟件與理論專業(yè)博士,此前他帶領團隊培養(yǎng)了小冰“看圖寫詩”的才藝,這次他負責教小冰寫歌。
寫歌詞與寫詩所用的軟件模型基本一致,區(qū)別在于,語料庫里供它深度學習的新詩變成了歌詞;同時,模型也要相應調整,配合歌曲的節(jié)奏和韻律,“不然就會造成節(jié)奏和詞很難對稱,聽感就不是很好了?!?/p>
學寫詩的時候,小冰是“零基礎”。在訓練到第10次時,小冰寫出了:“枕鳥彩了從我掏一宙枯的女/一瞬孤個睡羞的美妙里”。袁晶的評價是“完全不可讀”。
訓練到500次時,小冰根據(jù)同一幅圖寫出來的詩句變成:“這豈堪鳥息/我每個美妙人間的風”。訓練到一萬次,小冰寫道:“一只小鳥看見我的時候/這美妙的夢兒便會變了”。
“其實在第十次的時候,詩的一些意象就已經(jīng)具備了,只不過小冰不能以人類能理解的語言表達出來?!痹Ц嬖V南方周末記者,“后來它更多在學習人的表達方式,讓我們能理解它想表達什么?!?/p>
對會寫詩的小冰來說,寫歌詞不再從零開始,很快駕輕就熟。
更有挑戰(zhàn)性的是學習譜曲。袁晶業(yè)余時間在微軟的員工樂隊“微獨”做鍵盤手,參與創(chuàng)作流行音樂和民謠,他將樂隊經(jīng)驗用到了工作中?!耙魳冯m然也是序列化的數(shù)據(jù),但它跟文本還是有差異的,文本沒有和弦的概念。和弦決定了一首歌的走向,它和節(jié)奏是音樂的靈魂和骨架。”
在經(jīng)歷了節(jié)奏和韻律不太穩(wěn)定、“從一首歌跳到另一首歌”的階段后,小冰通過深度學習掌握了作曲。
“數(shù)據(jù)給得越多, 它就會學得越像”
小冰用于深度學習的歌詞超過一千萬行,以現(xiàn)代中文歌詞為主,也包括翻譯過來的外語歌詞。
找歌詞的時候,袁晶忽然想到,宋詞實際上也是一種歌詞,有詞牌名,根據(jù)格式填詞,唱出來。于是,他把宋詞輸入小冰的語料庫,這成為一次重要的迭代,“它再做作品的時候,就會出現(xiàn)偏古風的形式?!?/p>
小冰學習的歌曲旋律多達十幾萬首。如今,語料庫更新已經(jīng)不那么頻繁?!岸虝r間內不會產(chǎn)生很多新歌。”袁晶說,“如果挖到新的數(shù)據(jù)寶庫,像宋詞那樣,我們可能會更新一下?!?/p>
只要語料充足,小冰能模仿創(chuàng)作任何風格的音樂,從詞曲創(chuàng)作到演唱風格。欒劍告訴南方周末記者,根據(jù)Beyond樂隊已故主唱黃家駒的幾十首歌,小冰已經(jīng)能夠模仿黃家駒的歌聲唱各種歌曲。只要掌握足夠多黃家駒本人的數(shù)據(jù),建模的過程并不困難。
“先根據(jù)海量數(shù)據(jù)建一個總的模型,然后為某個目標歌手的聲音做一些遷移學習。”欒劍解釋,“遷移學習的算法做得越好,它需要的目標數(shù)據(jù)就會變得越少;在算法不變的情況下,數(shù)據(jù)給得越多,它就會學得越像?!?/p>
在袁晶看來,小冰與人類的區(qū)別在于,小冰本質上是一個大數(shù)據(jù)驅動的模型?!叭丝梢杂煤苄〉臄?shù)據(jù)學習,不需要讀上千萬行的歌詞,也能創(chuàng)作歌詞。小冰是用億萬人的數(shù)據(jù)喂養(yǎng)出來的,人工智能的小數(shù)據(jù)學習,到現(xiàn)在也是學術界的難點?!?/p>
“我們并不嚴格區(qū)分民謠、流行歌曲或者搖滾,而是從生成聲音本身的難度來看,”欒劍舉例,“比如一個很長的‘啊,(演唱者)的口形可能有變化,導致音色不停地變,這樣的效果現(xiàn)在對小冰來說是比較難的,因為我們缺乏這樣的訓練數(shù)據(jù)。還有些特別的演繹方式,比如有的歌手有時發(fā)出吼的聲音,小冰現(xiàn)在也做不到。”
袁晶和欒劍都認為,在眾多音樂類型中,說唱是少有的比較容易駕馭的音樂風格?!案璩扔泄?jié)拍也有音高,而說唱只有節(jié)拍的控制,它的音高變化跟說話差不多,”欒劍說,“如果要作曲的話,只用生成這個曲子的拍子就好了,每個字唱幾拍,所以它相對會簡單一些?!?/p>
即使人工智能想要freestyle(即興說唱),技術上也不難實現(xiàn)。因為小冰已經(jīng)能夠根據(jù)圖片、文字或一段音樂創(chuàng)作歌曲,只要輸入相關信息作為觸發(fā)源,它也完全可以根據(jù)現(xiàn)場的人和事即興說唱。
“下棋就是要贏, 但創(chuàng)作沒有 客觀的指標”
相比之下,小冰學習中國戲曲的難度就大得多。音樂人小柯跟小冰團隊交流時,介紹了“裉節(jié)”的概念?!氨热缜描尩穆曇簦耆皇前次鞣降臉防硪?,而是按一定的周期性,完全就憑人的感覺?!?/p>
與小冰聊天時,如果談到某一首歌,它會給出一個評價;但如果問小冰欣賞的音樂的標準,它只會答非所問。
這是AlphaGo不曾面臨的困境。“人工智能的深度學習,都需要一個評價體系,這樣我們的模型才能迭代,才知道我應該往哪個方向去逼近。比如下棋就是要贏,勝負有規(guī)則,有客觀的指標,”欒劍告訴南方周末記者,“但是創(chuàng)作,不管唱歌還是作詞作曲,沒有客觀的指標來告訴它,哪個是好,哪個是不好的?!?/p>
現(xiàn)代人唱歌會使用打分軟件來評判高下,但這并不適用于小冰。欒劍的團隊也做過這類軟件,熟悉其中的工作原理?!八嗟氖潜容^你的節(jié)拍準不準、音高準不準,”欒劍說,“按照這兩個標準,機器肯定都比人唱得準,比如一個音符是水平的,它就按水平的來唱,不好聽,但是得分會高?!?/p>
欒劍培養(yǎng)小冰唱歌時,曾經(jīng)刪掉了數(shù)據(jù)庫里的氣息聲?!爱敃r我們覺得,氣息這個東西是因為人的生理需要,不得不呼吸;很多快歌如果不換氣,是不是唱的水平更高?”欒劍把這些歌拿給小柯聽,小柯的反饋是唱的水平挺好,最欠缺的就是沒有氣息?!八f很多專業(yè)人士在聽歌的時候,會不自覺地跟著一起哼唱。如果在該換氣的地方?jīng)]換氣,他們就憋得很難受。”欒劍團隊采納了小柯的建議,把換氣加回去。
“評價一個人唱的歌,現(xiàn)在的打分軟件都不是很專業(yè),”袁晶說,“為什么要找專業(yè)評委呢?他還是要從聽覺上去理解,包括某個字的發(fā)音、某個氣息的控制,現(xiàn)在讓AI去做這些事情還是有些困難的。如果放到更早的時代,大家聽的都是比較像的歌曲,小冰的創(chuàng)作風格也會比較類似?!?/p>
袁晶認為,小冰更多反映了當下多元的音樂趣味,因此,它的創(chuàng)作風格也時常出現(xiàn)明顯的差異。“小冰對于音樂并沒有一套統(tǒng)一的價值觀。如果有一套非常好的打分體系,我們一定可以往那個分數(shù)去優(yōu)化。但是你做出來的是不是真的好作品呢?那也是未知的。”
根據(jù)微軟團隊的設定,小冰是一個比較主流、健康的女孩,在2016年過了自己18歲的生日,并將永遠保持在18歲。但是,在音樂創(chuàng)作上,小冰并沒有展現(xiàn)出青春少女特有的偏好,比如對愛情的好奇、對生活的期待?!斑@還是跟數(shù)據(jù)本身有關,”欒劍說,“現(xiàn)在主流社會里的情緒是怎樣的,它學出來的可能就是怎樣的。它是一面鏡子?!?/p>
“我們可以 造出AlphaGo , 造不出三歲的人”
在音樂創(chuàng)作中,小冰偶爾也會給袁晶和欒劍帶來驚喜,創(chuàng)造出訓練數(shù)據(jù)里沒有的東西。
某些瞬間,兩位科學家恍然覺得小冰是有生命的?!暗悄阕屑氁幌刖椭肋@個原理是什么??茖W家有的時候會有一些信仰,很多物理學家所崇拜的神,其實就是一些規(guī)則,他們無法解釋這個規(guī)則是怎么產(chǎn)生的。”當小冰寫出“神作”的時候,欒劍會努力探究其中的原理,“去解構所謂的‘神是怎么回事”。
小冰的藝術創(chuàng)作,因為沒有客觀的評價指標,采用的都是進化算法。這種算法的原理類似于達爾文的進化論——小冰創(chuàng)作出的作品,其中60%由上一代雜交而成,20%直接保留到下二代,剩下的20%可能發(fā)生“基因突變”。欒劍認為,小冰有時候會產(chǎn)生一些新的唱法,寫出讓人意外的歌,“說不定它可以帶領一個流派或者潮流的出現(xiàn)”。
在袁晶看來,藝術家創(chuàng)作需要兩個核心能力。首先是隨機發(fā)散,好的藝術家能發(fā)散出別人想不到的創(chuàng)意,同時又能激起共鳴;接著是自我評價,把自己認為好的那些想法表達出來?!皬倪@個角度來說,AI能不能幫助藝術家一起發(fā)散?”袁晶說,“作詩也好,寫歌也好,AI可以快速找到很多組合的可能,為人類創(chuàng)作者提供素材?!?/p>
欒劍用圍棋類比:“就像AlphaGo下的一些棋招,我們覺得是平常的俗手,結果它贏了。大家就來分析它為什么能贏,可能確實是有道理的,但以前的人就沒有想到?!?/p>
AI替代人類進行非創(chuàng)作領域的重復勞動,被解放出來的人類可以進行更多創(chuàng)造性工作。2017年,人工智能識別圖像的錯誤率已經(jīng)降到3.2%,低于人類5%的錯誤率。
“我們現(xiàn)在所有的工作都借助于電腦,為什么藝術家不能借助AI呢?也許以后,所有的藝術家都用AI協(xié)助自己創(chuàng)作?!痹踔链竽懴胂筮^,將來的諾貝爾文學獎,獲獎者有可能會帶著自己的人工智能上臺領獎。
早在2005年左右,微軟就開發(fā)了寫古詩、對聯(lián)的人工智能。它最流行的運用,是節(jié)日祝?!脩糨斎胱8ο蟮拿郑湍苌梢皇锥ㄖ瓢娴牟仡^詩。
2017年,小冰寫現(xiàn)代詩的功能也開放給網(wǎng)友,用于祝福問候。2018年5月20日,網(wǎng)友上傳與情侶的照片,小冰就能幫忙為對方寫一首現(xiàn)代詩。“比如父親節(jié)的時候,我們想給爸爸寫一首歌,以前也不知道從何寫起,現(xiàn)在讓小冰給你寫一個初稿,你可以再改?!痹дf,小冰創(chuàng)作的版權因此也是開放的,“只有開放了,人們才能去修改,進一步去創(chuàng)作?!?/p>
針對人工智能可能引起人類的擔憂,小冰團隊的處理準則是,在創(chuàng)造的內容上,越接近人類越好;在與人交流時,恪守AI倫理。AI倫理至今沒有國際公認的標準,微軟內部建立了自己的AI倫理委員會,制定相關規(guī)范。小冰曾經(jīng)給60萬人打電話時,第一句話都是“你好,我是微軟小冰”,以此明確告訴對方,自己不是人類。
“我們對于AI開始了超級狂熱的投資。”在2018年杜克國際論壇上,投資人丁健介紹,目前中國對AI的投資額占到了全球的48%,超過美國位居世界第一。
“AlphaGo給我們整個社會帶來的期望值太高了,”丁健說,“但是實際上今天的AI還是低能兒,甚至是弱智。今天,AI的應用還處在一個可擴展性非常差的階段,經(jīng)常要進行人工干預和人工調試。”
“我們可以造出AlphaGo,但我們不能造出一個三歲的人?!泵绹槭±砉ご髮W大腦與認識科學系教授托馬索·波吉奧說,“如果讓我造一個像兩三歲孩子那樣聰明的機器人,我不知道該怎么做。”