热思思99RE久久精品国产首页,欧美第20页精品视频,国产乱码伦精品一区二区三区麻豆

幾句話就能寫歌，還能模擬各種音效，Meta發(fā)布開(kāi)源AI工具AudioCraft

發(fā)布時(shí)間：2023-12-01 11:01瀏覽次數(shù)：

美譽(yù)度8月3日消息，今天，Meta發(fā)布了一款開(kāi)源AI工具AudioCraft，該工具可以幫助用戶根據(jù)文本提示創(chuàng)作音樂(lè)和音頻。

Meta稱，這款開(kāi)源AI工具綜合使用了AudioGen、EnCodec和MusicGen等大模型，不僅可以生成各種模擬音頻效果，還能減少音損。用戶使用該AI工具，可在輸入文本內(nèi)容后，生成高質(zhì)量、逼真的音頻和音樂(lè)。

目前來(lái)看，由于生成任何類型高保真度的音頻都需要對(duì)不同尺度的復(fù)雜信號(hào)和模型進(jìn)行建模，音樂(lè)在某種程度被看作是最具挑戰(zhàn)性的音頻類型。Meta通過(guò)自我監(jiān)督音頻表示學(xué)習(xí)的方式（self-supervised audio representation learning）以及許多分層或級(jí)聯(lián)模型（hierarchical or cascaded models）來(lái)生成音樂(lè)，這樣將原始音頻輸入到系統(tǒng)中，就可捕獲信號(hào)中的遠(yuǎn)程結(jié)構(gòu)（long-range structures），同時(shí)生成音頻。

與此前的AI工具相比，AudioCraft背后的模型經(jīng)過(guò)授權(quán)音樂(lè)庫(kù)的訓(xùn)練，避免了版權(quán)風(fēng)險(xiǎn)；其次，由于接受公共音效訓(xùn)練，它可以生成包括狗叫、腳步聲在內(nèi)的各種模擬音效；最后它簡(jiǎn)化了音頻生成模型的整體設(shè)計(jì)，同時(shí)開(kāi)源的形式也有助于其他人開(kāi)發(fā)自己音樂(lè)模型。但目前來(lái)看，AudioCraft仍然代替不了人類生成復(fù)雜且優(yōu)秀的音樂(lè)作品。

一、經(jīng)2萬(wàn)小時(shí)授權(quán)音樂(lè)訓(xùn)練，壓縮文件大小比MP3格式小10倍

從目前Meta的介紹來(lái)看，Audiocraft背后使用三種模型中，MusicGen接受過(guò)Meta擁有的和特別授權(quán)的音樂(lè)庫(kù)進(jìn)行訓(xùn)練，可以從文本提示生成音樂(lè)。

今年6月初，這個(gè)名為MusicGen的開(kāi)源AI模型由Meta推出。據(jù)悉，這是一種深度學(xué)習(xí)語(yǔ)言模型。它接受了2萬(wàn)小時(shí)的音樂(lè)訓(xùn)練，其中包括大約40萬(wàn)個(gè)錄音、文本描述及元數(shù)據(jù)等。

▲AI模型MusicGen背后的論文基礎(chǔ)，來(lái)源：Meta AI博客

此外，另一款模型AudioGen接受過(guò)公共音效訓(xùn)練，可從文本提示生成音頻，比如模擬狗叫或腳步聲。從Meta的介紹來(lái)看，AudioGen是一個(gè)來(lái)自Meta和耶路撒冷希伯來(lái)大學(xué)的研究團(tuán)隊(duì)的AI模型，可以通過(guò)輸入文本來(lái)生成音頻，亦可以擴(kuò)展現(xiàn)有音頻。AudioGen可以區(qū)分不同的聲音對(duì)象，并在聲學(xué)上將它們分開(kāi)。

▲Meta展示AudioGen文本轉(zhuǎn)音頻效果，來(lái)源：Meta AI博客

最后要說(shuō)的就是EnCodec編解碼器，此前，由于需要對(duì)原始音頻信號(hào)中極長(zhǎng)的序列進(jìn)行建模，原始信號(hào)生成音頻對(duì)研究人員來(lái)說(shuō)存在巨大挑戰(zhàn)。以一個(gè)幾分鐘的音樂(lè)曲目為例，它在通過(guò)44.1Hz的標(biāo)準(zhǔn)質(zhì)量采樣后，會(huì)形成數(shù)百萬(wàn)個(gè)時(shí)間步（timesteps）。

相比之下，在Llama和Llama 2等大模型的加持下，用戶輸入的文本可被處理為子詞（sub-words），這樣每個(gè)樣本僅會(huì)產(chǎn)生幾千個(gè)時(shí)間步。

因此，Meta團(tuán)隊(duì)使用基于深度學(xué)習(xí)的音頻編解碼器（neural audio codec）EnCodec，該編碼器由AI驅(qū)動(dòng)，可以從原始信號(hào)中學(xué)習(xí)離散音頻標(biāo)記（autoregressive language models），從而為研究人員提供了音樂(lè)樣本的新固定的“詞匯”（vocabulary）。研究人員可以在這些離散的音頻標(biāo)記上訓(xùn)練自回歸語(yǔ)言模型，最后，研究人員可使用EnCodec的解碼器將標(biāo)記轉(zhuǎn)回音頻空間時(shí)生成的新標(biāo)記及新音樂(lè)。

▲編解碼EnCodec背后的論文基礎(chǔ)，來(lái)源：Meta AI博客

據(jù)悉，EnCodec可以在音頻質(zhì)量沒(méi)有損失的前提下，將音頻壓縮到比MP3格式還要小10倍的程度。這主要得益于EnCodec中帶有殘差矢量量化瓶頸（residual vector quantization bottleneck），該瓶頸可以生成多個(gè)具有固定詞匯的并行音頻標(biāo)記流，由于不同的標(biāo)記流可以捕獲不同級(jí)別的音頻波形信息（audio waveform），所以研究人員可從所有音頻流中重建高保真度的音頻。

二、推動(dòng)模型開(kāi)源，Meta稱AudioCraft生成復(fù)雜音樂(lè)仍存在困難

Meta在公告中還演示了MusicGen和AudioGen工作的流程圖，并表示將讓這些模型開(kāi)源，讓研究人員和從業(yè)人員可以用自己的數(shù)據(jù)集訓(xùn)練適合自己的模型，并幫助推進(jìn)人工智能生成音頻和音樂(lè)領(lǐng)域的發(fā)展。

▲MusicGen和AudioGen工作的流程圖，來(lái)源：Meta AI博客

與其他音樂(lè)模型相比，AudioCraft系列模型不僅能夠生成長(zhǎng)期一致的高質(zhì)量音樂(lè)和音頻，還簡(jiǎn)化了音頻生成模型的整體設(shè)計(jì)，使得該工具簡(jiǎn)單易用。Meta認(rèn)為，MusicGen可以變成一種新型的樂(lè)器，就像最初出現(xiàn)的合成器一樣。

當(dāng)然，Meta也指出，使用AudioCraft創(chuàng)作復(fù)雜而又優(yōu)秀的音樂(lè)還是比較困難的，因此它選擇將AudioCraft開(kāi)源，以使用于訓(xùn)練它的數(shù)據(jù)多樣化。

今年早些時(shí)候，谷歌也發(fā)布了名為MusicLM的音樂(lè)生成模型，并于5月向用戶開(kāi)放。今天，Google Labs還在官網(wǎng)中介紹了知名音樂(lè)家Dan Deacon正在使用該模型創(chuàng)作音樂(lè)。除此之外，目前比較常見(jiàn)的音樂(lè)模型還有Riffusion、Mousai和Noise2Music等。

結(jié)語(yǔ)：巨頭“押注”音樂(lè)大模型，音樂(lè)創(chuàng)作或受到影響

從目前的公告信息來(lái)看，AudioCraft不僅可以根據(jù)用戶的文本提示生成音樂(lè)，還可以對(duì)音頻進(jìn)行無(wú)損壓縮。同時(shí)開(kāi)源的形式也有助于更多人參與相關(guān)音樂(lè)模型的構(gòu)建，從推動(dòng)更高質(zhì)量的音樂(lè)創(chuàng)作的生成。

隨著，Meta和谷歌兩大巨頭“押注”音樂(lè)大模型，音樂(lè)的創(chuàng)作或受到生成式AI影響。但正如Meta所指出的，生成式AI生成復(fù)雜的音樂(lè)還有很長(zhǎng)的路要走。

上一篇：AI煉丹從娃娃抓起！超十省搶跑

下一篇：救火阿里云，張勇要闖五道關(guān)

公司資訊

新聞中心

公司資訊

公司資訊

新聞中心

公司資訊

微信號(hào)：15221830078微信二維碼