當前位置：主頁 > 互聯網資訊 > 微軟發布AI聲音生成工具 VALL-E：可模仿人說話I

微軟發布AI聲音生成工具 VALL-E：可模仿人說話I

時間:2023-05-16 08:05:16 閱讀: 文章分類: 互聯網資訊作者: 網站技術員

導讀:IT資訊IT資訊周四，微軟研究人員宣布了一種名為VALL-E的新文本到語音 AI 模型，在給定三秒鐘的音頻樣本時，它可以準確地模擬人的聲音。一旦它學會了一種特定的聲音，VALLito導電玻璃知識itp知識問答。

ito導電玻璃知識itp知識問答

周四，微軟研究人員宣布了一種名為VALL-E的新文本到語音 AI 模型，在給定三秒鐘的音頻樣本時，它可以準確地模擬人的聲音。一旦它學會了一種特定的聲音，VALL-E 就可以合成那個人說任何話的音頻——并以一種試圖保持說話者情緒基調的方式進行合成。

微軟將 VALL-E 稱為“神經編解碼器語言模型”，它建立在Meta 于 2022 年 10 月宣布的名為 EnCodec 的技術之上。與通常通過操縱波形合成語音的其他文本轉語音方法不同，VALL-E 生成來自文本和聲音提示的離散音頻編解碼器代碼。它基本上分析了一個人的聲音，借助 EnCodec 將該信息分解為離散的組件（稱為“令牌”），并使用訓練數據來匹配它“知道”的內容，如果它說出三個之外的其他短語，該聲音將如何發聲- 第二個樣本。

VALL-E官網：https://valle-demo.github.io/

微軟發布AI聲音生成工具 VALL-E：可模仿人說話

微軟在一個名為Li網站seo優化軟件briLight的由 Meta 組裝的音頻庫上訓練了 VALL-E 的語音合成能力。它包含來自 7000 多名演講者的 60000公司網站建設小時英語演講，大部分來自LibriVox公共領域有聲讀物。為了使 VALL-E 產生良好的結果，三秒樣本中的語音必須與訓練數據中的語音非常匹配。微軟 AR/VR 重要團隊整體被解雇：放棄進軍元宇宙？

在 VALL-E示例網站上，Microsoft 提供了數十個 AI 模型的音頻示例。樣本中，“Speaker Prompt”是提供給VALL-E必須模仿的三秒音頻。“Ground Truth”是同一位說話者說出特定短語的預先存在的錄音，用于做對比。“B網站建設公司aseline”是傳統的文本到語音合成方法提供的合成示例，“VALL-E”示例是VALL-E模型的輸出。

微軟發布AI聲音生成工具 VALL-E：可模仿人說話

也許是由于 VALL-E 可能助長惡作劇和欺騙的行為，微軟沒有提供 VALL-E 代碼供其他人試驗，因此我們目前還無法自行測試 VALL-E 的能力。

微軟Phone Link讓iPhone用戶也能在PC電腦上使用iMessage相關ito導電玻璃知識itp知識問答。

關鍵詞標簽: AI 資訊人說

聲明: 本文由我的SEOUC技術文章主頁發布于:2023-05-16 ，文章微軟發布AI聲音生成工具 VALL-E：可模仿人說話I主要講述資訊,人說,AI網站建設源碼以及服務器配置搭建相關技術文章。轉載請保留鏈接: http://www.bifwcx.com/article/news_1195.html