首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

投稿

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時(shí)代>人工智能

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

新智元 2024/11/22 13:04:32 責(zé)編：問舟

評(píng)論：

Meta 最近開源了一個(gè) 7B 尺寸的 Spirit LM 的多模態(tài)語言模型，能夠理解和生成語音及文本，可以非常自然地在兩種模式間轉(zhuǎn)換，不僅能處理基本的語音轉(zhuǎn)文本和文本轉(zhuǎn)語音任務(wù)，還能捕捉和再現(xiàn)語音中的情感和風(fēng)格。

在純文本大模型取得進(jìn)展的同時(shí)，其他模態(tài)數(shù)據(jù)，如語音與文本結(jié)合的語言模型（SpeechLMs）也成為了一個(gè)熱門的研究領(lǐng)域，但現(xiàn)有的模型要么在僅包含語音的數(shù)據(jù)上進(jìn)行訓(xùn)練，要么是關(guān)注特定任務(wù)，如文本轉(zhuǎn)語音（TTS）、自動(dòng)語音識(shí)別（ASR）或翻譯，在其他模態(tài)數(shù)據(jù)和任務(wù)上的泛化能力十分有限。

在大型語言模型（LLM）性能不斷提升的情況下，一個(gè)常用的方法是先用 ASR 模型將語音轉(zhuǎn)錄成文本，然后用文本模型來生成新的文本，最后再用 TTS 模型將文本轉(zhuǎn)換成語音，這種流程的一個(gè)顯著缺陷就是語音表達(dá)性不佳，語言模型無法建模并生成富有表現(xiàn)力的語音數(shù)據(jù)。

Meta 開源了一個(gè)基礎(chǔ)多模態(tài)語言模型 Spirit LM，基于一個(gè) 70 億參數(shù)的預(yù)訓(xùn)練文本語言模型，交錯(cuò)使用文本和語音數(shù)據(jù)進(jìn)行訓(xùn)練，使模型能夠自由地混合文本和語音，在任一模態(tài)中生成語言內(nèi)容。

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

項(xiàng)目主頁：https://speechbot.github.io/ spiritlm/

論文鏈接：https://arxiv.org/ pdf/2402.05755

代碼鏈接：https://github.com/ facebookresearch / spiritlm

開源鏈接：https://huggingface.co/ spirit-lm / Meta-spirit-lm

將語音和文本序列拼接成一條 token 流，并使用一個(gè)小型的、自動(dòng)整理（automatically-curated）的語音-文本平行語料庫，采用逐詞交錯(cuò)的方法進(jìn)行訓(xùn)練。

Spirit LM 有兩個(gè)版本：基礎(chǔ)版（Base）使用語音音素單元（HuBERT），表達(dá)版（Expressive）還額外使用音高和風(fēng)格單元來模擬表達(dá)性，以增強(qiáng)模型在生成語音時(shí)的表現(xiàn)力，也就是說模型不僅能夠理解和生成基本的語音和文本，還能在表達(dá)情感和風(fēng)格方面表現(xiàn)得更加豐富和自然。

對(duì)于兩個(gè)版本的模型，文本都使用子詞 BPE 標(biāo)記進(jìn)行編碼，最終得到的模型既展現(xiàn)了文本模型的語義能力，也具備語音模型的表達(dá)能力；模型還能夠在少量樣本的情況下跨模態(tài)學(xué)習(xí)新任務(wù)（例如自動(dòng)語音識(shí)別、文本轉(zhuǎn)語音、語音分類）。

不過需要注意的是，和其他預(yù)訓(xùn)練模型一樣，Sprit LM 也可能會(huì)生成一些不安全的內(nèi)容，所有基于該技術(shù)的應(yīng)用都需要進(jìn)行額外的安全測試和調(diào)整。

Spirit LM

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

模型的架構(gòu)比較簡單，訓(xùn)練過程就是基本的「預(yù)測下一個(gè)詞」，不過「詞」是通過編碼器從語音或文本中提取的，然后通過解碼器以原來的模態(tài)進(jìn)行重新呈現(xiàn)；訓(xùn)練數(shù)據(jù)包括三種：僅包含文本的序列、僅包含語音的序列以及交錯(cuò)的語音-文本序列的混合數(shù)據(jù)。

基礎(chǔ)版

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

語音編碼器

使用的 HuBERT 模型，該模型在多個(gè)數(shù)據(jù)集的混合上進(jìn)行訓(xùn)練，包括多語言的 LibriSpeech、Vox Populi、Common Voice、Spotify 以及 Fisher，最后得到一個(gè)包含 501 個(gè)音素語音 token 的詞匯表。

語音和文本分詞器

使用 LLaMA 默認(rèn)的分詞器來處理文本，使用前述的 HuBERT 分詞器來處理語音；為了提高模型的質(zhì)量，對(duì) HuBERT 的 token 進(jìn)行了去重處理；對(duì)于單模態(tài)數(shù)據(jù)集（僅文本和僅語音），在分詞后的數(shù)據(jù)前加上相應(yīng)的模態(tài)標(biāo)記。

文本數(shù)據(jù)：[TEXT] 這是一個(gè)文本句子
音頻數(shù)據(jù)：[SPEECH][Hu262][Hu208][Hu499][Hu105]

交錯(cuò)語音和文本（Interleaving Speech and Text）

對(duì)于對(duì)齊的語音 + 文本數(shù)據(jù)集，通過在單詞級(jí)別交錯(cuò)語音和文本來混合“[TEXT] the cat [SPEECH][Hu3][Hu7]..[Hu200][TEXT] the mat”。

研究人員認(rèn)為，交錯(cuò)訓(xùn)練可以幫助模型學(xué)習(xí)語音和文本之間的對(duì)應(yīng)關(guān)系，從而實(shí)現(xiàn)更好的文本到語音的轉(zhuǎn)換；在每個(gè)訓(xùn)練步驟中，句子中的語音和文本部分是隨機(jī)采樣的。

語音解碼器

在從語音 token 進(jìn)行語音合成方面，研究人員在 Expresso 數(shù)據(jù)集上訓(xùn)練了一個(gè) HifiGAN 聲碼器，其依賴于 HuBERT 語音 token 和 Expresso 特定說話人的嵌入向量。

在訓(xùn)練期間，HifiGAN 模型會(huì)輸入重復(fù)的 token，但同時(shí)也會(huì)訓(xùn)練一個(gè)時(shí)長預(yù)測模塊，可以更準(zhǔn)確地知道每個(gè)語音 token 在實(shí)際語音中應(yīng)該持續(xù)多久，最終生成一個(gè)語音波形。

表達(dá)版

HuBERT 能夠從語音中捕獲良好的音素信息，但在表達(dá)性方面表現(xiàn)不佳。

研究人員的目標(biāo)是在不依賴生物特征識(shí)別的情況下，模型依然能夠理解和保留輸入語音中的情感，所以需要用額外的音高 token 和風(fēng)格 token 來補(bǔ)充 HuBERT 的音素語音 token，并將其包含在語言模型訓(xùn)練中，以便訓(xùn)練后的 Spirit LM Expressive 模型能夠捕獲并生成更具表現(xiàn)力的語音。

pitch（音高） token

在語音合成和處理中，音高是一個(gè)關(guān)鍵因素，決定了聲音的高低，對(duì)人類理解語句的情感和語氣來說非常關(guān)鍵。音高 token 可以用來捕捉音高變化。當(dāng)我們說話時(shí)，聲音的高低起伏不僅可以表達(dá)不同的情感，比如興奮時(shí)聲音高亢，悲傷時(shí)聲音低沉，還可以幫助我們在口語交流中區(qū)分不同的詞語和句子的意圖。

研究人員在 Expresso 數(shù)據(jù)集上訓(xùn)練了一個(gè) VQ-VAE 模型，碼本大小為 64，下采樣率為 128，即每秒可以產(chǎn)生 12.5 個(gè)音高 token；在訓(xùn)練音高量化器時(shí)，使用 pyaapt8 提取基頻（F0）；使用 FCPE9，一個(gè)基于 Transformer 的快速音高估計(jì)器，來提高推理速度。

style（風(fēng)格） token

研究人員提取了語音風(fēng)格特征來捕捉輸入語音的表達(dá)風(fēng)，在輸入片段上進(jìn)行平均池化處理，每秒生成一個(gè)特征，然后在 Expresso 數(shù)據(jù)集上微調(diào)特征來預(yù)測表達(dá)風(fēng)格，從而進(jìn)一步從語音風(fēng)格特征中去除說話人信息，最后在 Expresso 數(shù)據(jù)集的規(guī)范化特征上訓(xùn)練了一個(gè)有 100 個(gè)單元的 k 均值聚類。

表達(dá)性語音分詞器（Expressive Speech Tokenization）

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

將三種類型的標(biāo)記（每秒 25 次的 HuBERT 標(biāo)記、每秒 12.5 次的音高標(biāo)記和每秒 1 次的風(fēng)格標(biāo)記）按照對(duì)應(yīng)的時(shí)間戳進(jìn)行排序，混合成一個(gè)單一的 token 序列。

與 Spirit LM 基礎(chǔ)版相同，表達(dá)版同樣對(duì) HuBERT 的 token 和音高 token 進(jìn)行去重，最后輸入序列類似于：[SPEECH][St10][Pi0][Hu28][Hu22][Pi14][Hu15][Pi32][Hu78][Hu234][Hu468]

表達(dá)性語音解碼器（Expressive Speech Decoder）

研究人員訓(xùn)練了一個(gè) HifiGAN 模型，依賴于 HuBERT token、音高 token、風(fēng)格 token 以及來自 Expresso 聲音的 1-hot 說話人嵌入向量。同時(shí)還訓(xùn)練了一個(gè)時(shí)長預(yù)測器來預(yù)測 HuBERT token 持續(xù)時(shí)間。在推理過程中，將每個(gè) HuBERT token 與相應(yīng)的音高 token 和風(fēng)格標(biāo)記 token，并根據(jù)需要進(jìn)行重復(fù)。

實(shí)驗(yàn)結(jié)果

Spirit LM 能夠在接收語音 token 或文本 token 的提示時(shí)，生成語義和表達(dá)上一致的內(nèi)容，將通過定量評(píng)估一系列需要生成文本或語音 token 的基準(zhǔn)測試，特別評(píng)估 Spirit LM 在單模態(tài)和跨模態(tài)場景中的語義能力。

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

自動(dòng)語音識(shí)別（ASR）和文本轉(zhuǎn)語音（TTS）

與文本語言模型類似，SPIRIT 語言智能體可以通過少量樣本提示來執(zhí)行特定任務(wù)。

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

可以看到，Spirit LM 使用 10 個(gè)樣本的提示能夠獲得最佳性能，最佳模型在 Librispeech 清潔數(shù)據(jù)上的詞錯(cuò)誤率為 21.9，文本轉(zhuǎn)語音的字符錯(cuò)誤率為 45.5

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

在訓(xùn)練中加入平行的 ASR 和 TTS 樣本可以極大提高性能，但加入 ASR 和 TTS 數(shù)據(jù)對(duì)其他任務(wù)的影響非常有限。

在執(zhí)行語音意圖分類（IC）任務(wù)時(shí)可以發(fā)現(xiàn)，隨著樣本數(shù)量的增加，準(zhǔn)確率也提高了，模型準(zhǔn)確率達(dá)到了 79%。

跨模態(tài)對(duì)齊

為了更好地理解模型在僅在交錯(cuò)數(shù)據(jù)和原始語音和文本上訓(xùn)練的情況下，如何實(shí)現(xiàn)良好的跨模態(tài)性能的隱藏機(jī)制，研究人員查看了模型特征的 token 級(jí)相似性，其中特征來自于 HuBERT token 的輸入序列和相應(yīng)的 BPE token，計(jì)算了從不同層提取的語音和文本特征的相同單詞的最大相似性。

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

結(jié)果發(fā)現(xiàn)，模型內(nèi)部口語和書面序列之間的相似性從第 2 層和第 20 層開始增加，并且在早期到中間層中，在用單詞級(jí)轉(zhuǎn)錄訓(xùn)練的模型中效果較差，表明模態(tài)混合可以對(duì)齊語音和文本，使模型能夠?qū)⒄Z音序列與相應(yīng)的文本序列映射起來。

表達(dá)性建模

當(dāng)不給智能體任何先前的樣本，直接根據(jù)語音或文本提示生成內(nèi)容（零樣本）時(shí)，可以發(fā)現(xiàn)帶有額外音高和風(fēng)格 token 的表達(dá)版模型在大多數(shù)情況下都比基礎(chǔ)版模型的表現(xiàn)更好，只是在文本內(nèi)容生成（文本到文本）方面兩者表現(xiàn)差不多。

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)

當(dāng)給模型少量樣本來學(xué)習(xí)時(shí)，可以發(fā)現(xiàn)這種方法對(duì)于除了語音內(nèi)容生成（語音到語音）之外的所有情況都有幫助。無論是零樣本還是少量樣本，保持情感的連續(xù)性在相同類型的數(shù)據(jù)（比如文本到文本或語音到語音）中比在不同類型的數(shù)據(jù)（比如語音到文本）中做得更好；在所有測試中，語音到文本的方向得分最低。

此外，研究人員還直接評(píng)估了模型對(duì)輸入提示的處理能力，結(jié)果發(fā)現(xiàn)，無論是哪種提示，模型都能得到很高的評(píng)分，表明還有很大的空間來進(jìn)一步提高模型在保持情感表達(dá)方面的能力，也意味著，智能體在理解和生成情感豐富的內(nèi)容方面還有很大的潛力可以挖掘。

參考資料：

https://x.com/AIatMeta/status/1847383580269510670

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

首個(gè)可保留情感的音頻 LLM：Meta 重磅開源 7B-Spirit LM，一網(wǎng)打盡“音頻 + 文本”多模態(tài)任務(wù)