您好,歡迎進(jìn)入美譽(yù)度品牌管理官網(wǎng)!

江蘇危機(jī)公關(guān)公司

一站式提供商

提供設(shè)計(jì),生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁(yè) > 新聞中心 > 公司資訊
幾句話就能寫歌,還能模擬各種音效,Meta發(fā)布開(kāi)源AI工具AudioCraft
發(fā)布時(shí)間:2023-12-01 11:01瀏覽次數(shù):

美譽(yù)度8月3日消息,今天,Meta發(fā)布了一款開(kāi)源AI工具AudioCraft,該工具可以幫助用戶根據(jù)文本提示創(chuàng)作音樂(lè)和音頻。

Meta稱,這款開(kāi)源AI工具綜合使用了AudioGen、EnCodec和MusicGen等大模型,不僅可以生成各種模擬音頻效果,還能減少音損。用戶使用該AI工具,可在輸入文本內(nèi)容后,生成高質(zhì)量、逼真的音頻和音樂(lè)。

目前來(lái)看,由于生成任何類型高保真度的音頻都需要對(duì)不同尺度的復(fù)雜信號(hào)和模型進(jìn)行建模,音樂(lè)在某種程度被看作是最具挑戰(zhàn)性的音頻類型。Meta通過(guò)自我監(jiān)督音頻表示學(xué)習(xí)的方式(self-supervised audio representation learning)以及許多分層或級(jí)聯(lián)模型(hierarchical or cascaded models)來(lái)生成音樂(lè),這樣將原始音頻輸入到系統(tǒng)中,就可捕獲信號(hào)中的遠(yuǎn)程結(jié)構(gòu)(long-range structures),同時(shí)生成音頻。

與此前的AI工具相比,AudioCraft背后的模型經(jīng)過(guò)授權(quán)音樂(lè)庫(kù)的訓(xùn)練,避免了版權(quán)風(fēng)險(xiǎn);其次,由于接受公共音效訓(xùn)練,它可以生成包括狗叫、腳步聲在內(nèi)的各種模擬音效;最后它簡(jiǎn)化了音頻生成模型的整體設(shè)計(jì),同時(shí)開(kāi)源的形式也有助于其他人開(kāi)發(fā)自己音樂(lè)模型。但目前來(lái)看,AudioCraft仍然代替不了人類生成復(fù)雜且優(yōu)秀的音樂(lè)作品。

一、經(jīng)2萬(wàn)小時(shí)授權(quán)音樂(lè)訓(xùn)練,壓縮文件大小比MP3格式小10倍

從目前Meta的介紹來(lái)看,Audiocraft背后使用三種模型中,MusicGen接受過(guò)Meta擁有的和特別授權(quán)的音樂(lè)庫(kù)進(jìn)行訓(xùn)練,可以從文本提示生成音樂(lè)。

今年6月初,這個(gè)名為MusicGen的開(kāi)源AI模型由Meta推出。據(jù)悉,這是一種深度學(xué)習(xí)語(yǔ)言模型。它接受了2萬(wàn)小時(shí)的音樂(lè)訓(xùn)練,其中包括大約40萬(wàn)個(gè)錄音、文本描述及元數(shù)據(jù)等。

▲AI模型MusicGen背后的論文基礎(chǔ),來(lái)源:Meta AI博客

此外,另一款模型AudioGen接受過(guò)公共音效訓(xùn)練,可從文本提示生成音頻,比如模擬狗叫或腳步聲。從Meta的介紹來(lái)看,AudioGen是一個(gè)來(lái)自Meta和耶路撒冷希伯來(lái)大學(xué)的研究團(tuán)隊(duì)的AI模型,可以通過(guò)輸入文本來(lái)生成音頻,亦可以擴(kuò)展現(xiàn)有音頻。AudioGen可以區(qū)分不同的聲音對(duì)象,并在聲學(xué)上將它們分開(kāi)。

▲Meta展示AudioGen文本轉(zhuǎn)音頻效果,來(lái)源:Meta AI博客

最后要說(shuō)的就是EnCodec編解碼器,此前,由于需要對(duì)原始音頻信號(hào)中極長(zhǎng)的序列進(jìn)行建模,原始信號(hào)生成音頻對(duì)研究人員來(lái)說(shuō)存在巨大挑戰(zhàn)。以一個(gè)幾分鐘的音樂(lè)曲目為例,它在通過(guò)44.1Hz的標(biāo)準(zhǔn)質(zhì)量采樣后,會(huì)形成數(shù)百萬(wàn)個(gè)時(shí)間步(timesteps)。

相比之下,在Llama和Llama 2等大模型的加持下,用戶輸入的文本可被處理為子詞(sub-words),這樣每個(gè)樣本僅會(huì)產(chǎn)生幾千個(gè)時(shí)間步。

因此,Meta團(tuán)隊(duì)使用基于深度學(xué)習(xí)的音頻編解碼器(neural audio codec)EnCodec,該編碼器由AI驅(qū)動(dòng),可以從原始信號(hào)中學(xué)習(xí)離散音頻標(biāo)記(autoregressive language models),從而為研究人員提供了音樂(lè)樣本的新固定的“詞匯”(vocabulary)。研究人員可以在這些離散的音頻標(biāo)記上訓(xùn)練自回歸語(yǔ)言模型,最后,研究人員可使用EnCodec的解碼器將標(biāo)記轉(zhuǎn)回音頻空間時(shí)生成的新標(biāo)記及新音樂(lè)。

▲編解碼EnCodec背后的論文基礎(chǔ),來(lái)源:Meta AI博客

據(jù)悉,EnCodec可以在音頻質(zhì)量沒(méi)有損失的前提下,將音頻壓縮到比MP3格式還要小10倍的程度。這主要得益于EnCodec中帶有殘差矢量量化瓶頸(residual vector quantization bottleneck),該瓶頸可以生成多個(gè)具有固定詞匯的并行音頻標(biāo)記流,由于不同的標(biāo)記流可以捕獲不同級(jí)別的音頻波形信息(audio waveform),所以研究人員可從所有音頻流中重建高保真度的音頻。

二、推動(dòng)模型開(kāi)源,Meta稱AudioCraft生成復(fù)雜音樂(lè)仍存在困難

Meta在公告中還演示了MusicGen和AudioGen工作的流程圖,并表示將讓這些模型開(kāi)源,讓研究人員和從業(yè)人員可以用自己的數(shù)據(jù)集訓(xùn)練適合自己的模型,并幫助推進(jìn)人工智能生成音頻和音樂(lè)領(lǐng)域的發(fā)展。

▲MusicGen和AudioGen工作的流程圖,來(lái)源:Meta AI博客

與其他音樂(lè)模型相比,AudioCraft系列模型不僅能夠生成長(zhǎng)期一致的高質(zhì)量音樂(lè)和音頻,還簡(jiǎn)化了音頻生成模型的整體設(shè)計(jì),使得該工具簡(jiǎn)單易用。Meta認(rèn)為,MusicGen可以變成一種新型的樂(lè)器,就像最初出現(xiàn)的合成器一樣。

當(dāng)然,Meta也指出,使用AudioCraft創(chuàng)作復(fù)雜而又優(yōu)秀的音樂(lè)還是比較困難的,因此它選擇將AudioCraft開(kāi)源,以使用于訓(xùn)練它的數(shù)據(jù)多樣化。

今年早些時(shí)候,谷歌也發(fā)布了名為MusicLM的音樂(lè)生成模型,并于5月向用戶開(kāi)放。今天,Google Labs還在官網(wǎng)中介紹了知名音樂(lè)家Dan Deacon正在使用該模型創(chuàng)作音樂(lè)。除此之外,目前比較常見(jiàn)的音樂(lè)模型還有Riffusion、Mousai和Noise2Music等。

結(jié)語(yǔ):巨頭“押注”音樂(lè)大模型,音樂(lè)創(chuàng)作或受到影響

從目前的公告信息來(lái)看,AudioCraft不僅可以根據(jù)用戶的文本提示生成音樂(lè),還可以對(duì)音頻進(jìn)行無(wú)損壓縮。同時(shí)開(kāi)源的形式也有助于更多人參與相關(guān)音樂(lè)模型的構(gòu)建,從推動(dòng)更高質(zhì)量的音樂(lè)創(chuàng)作的生成。

隨著,Meta和谷歌兩大巨頭“押注”音樂(lè)大模型,音樂(lè)的創(chuàng)作或受到生成式AI影響。但正如Meta所指出的,生成式AI生成復(fù)雜的音樂(lè)還有很長(zhǎng)的路要走。

400-021-0821