微軟發布AI聲音生成工具 VALL-E:可模仿人說話I
導讀:IT資訊IT資訊周四,微軟研究人員宣布了一種名為VALL-E的新文本到語音 AI 模型,在給定三秒鐘的音頻樣本時,它可以準確地模擬人的聲音。一旦它學會了一種特定的聲音,VALLito導電玻璃知識itp知識問答。
周四,微軟研究人員宣布了一種名為VALL-E的新文本到語音 AI 模型,在給定三秒鐘的音頻樣本時,它可以準確地模擬人的聲音。一旦它學會了一種特定的聲音,VALL-E 就可以合成那個人說任何話的音頻——并以一種試圖保持說話者情緒基調的方式進行合成。
微軟將 VALL-E 稱為“神經編解碼器語言模型”,它建立在Meta 于 2022 年 10 月宣布的名為 EnCodec 的技術之上。與通常通過操縱波形合成語音的其他文本轉語音方法不同,VALL-E 生成來自文本和聲音提示的離散音頻編解碼器代碼。它基本上分析了一個人的聲音,借助 EnCodec 將該信息分解為離散的組件(稱為“令牌”),并使用訓練數據來匹配它“知道”的內容,如果它說出三個之外的其他短語,該聲音將如何發聲- 第二個樣本。
- VALL-E官網:https://valle-demo.github.io/
微軟在一個名為Li網站seo優化軟件briLight的由 Meta 組裝的音頻庫上訓練了 VALL-E 的語音合成能力。它包含來自 7000 多名演講者的 60000公司網站建設 小時英語演講,大部分來自LibriVox公共領域有聲讀物。為了使 VALL-E 產生良好的結果,三秒樣本中的語音必須與訓練數據中的語音非常匹配。微軟 AR/VR 重要團隊整體被解雇:放棄進軍元宇宙?
在 VALL-E示例網站上,Microsoft 提供了數十個 AI 模型的音頻示例。樣本中,“Speaker Prompt”是提供給VALL-E必須模仿的三秒音頻。“Ground Truth”是同一位說話者說出特定短語的預先存在的錄音,用于做對比。“B網站建設公司aseline”是傳統的文本到語音合成方法提供的合成示例,“VALL-E”示例是VALL-E模型的輸出。
也許是由于 VALL-E 可能助長惡作劇和欺騙的行為,微軟沒有提供 VALL-E 代碼供其他人試驗,因此我們目前還無法自行測試 VALL-E 的能力。
微軟Phone Link讓iPhone用戶也能在PC電腦上使用iMessage相關ito導電玻璃知識itp知識問答。聲明: 本文由我的SEOUC技術文章主頁發布于:2023-05-16 ,文章微軟發布AI聲音生成工具 VALL-E:可模仿人說話I主要講述資訊,人說,AI網站建設源碼以及服務器配置搭建相關技術文章。轉載請保留鏈接: http://www.bifwcx.com/article/news_1195.html