來源:映維網(wǎng) 作者 廣州客
Facebook人工智能團隊日前介紹了一種由單個麥克風同時分離多達五種聲音的方法。所述方法在多個語音源分離基準(包括具有挑戰(zhàn)性的噪聲和混響的基準測試)測試中優(yōu)于以往的方法。利用WSJ0-2mix和WSJ0-3mix數(shù)據(jù)集,以及通過四個和五個共時揚聲器的變體,模型在尺度不變信噪比(分離質(zhì)量的常用度量)方面比當前最先進的模型提高了1.5 dB(分貝)以上。
相關(guān)論文:Voice separation with an unknown number of multiple speakers
為了建立所述的模型,團隊使用了一種直接作用于原始音頻波形的全新遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。以前最好的模型主要是利用遮罩和解碼器來對每個說話人的聲音進行分類。當揚聲器數(shù)目較多或未知時,這類模型的性能會迅速下降。
與標準語音分離系統(tǒng)一樣,F(xiàn)acebook人工智能團隊的模型要求事先知道說話人的總數(shù)。但為了應(yīng)對未知說話人數(shù)量所帶來的挑戰(zhàn),研究人員構(gòu)建了一個新的系統(tǒng)來自動檢測說話人數(shù)量,并選擇最相關(guān)的模型。
1. 工作原理
語音分離模型的主要目標是,當給定一個輸入混合語音信號時,估計輸入源并為每個說話人生成一個單獨信道輸出。
所述模型使用了一個將輸入信號映射到一個潛在表示的編碼器網(wǎng)絡(luò)。團隊應(yīng)用一個由多個區(qū)塊組成的語音分離網(wǎng)絡(luò),其中輸入為潛在表示,輸出為每個說話人的估計信號。以前的方法通常在執(zhí)行分離時使用遮罩,但當遮罩未定義,并且在處理過程中可能丟失一定的信號信息時,問題就會出現(xiàn)。
研究人員通過置換不變訓練來訓練模型并利用多個損失函數(shù)直接優(yōu)化信噪比。團隊在每個分離區(qū)塊后插入一個損失函數(shù),從而進一步改進優(yōu)化過程。最后,為了確保每個說話人一致地映射到特定的輸出信道,F(xiàn)acebook使用預先訓練的說話人識別模型來添加感知損失函數(shù)。
團隊同時構(gòu)建了一個處理未知數(shù)量說話人的分離的新系統(tǒng)。對于新系統(tǒng),其主要是通過訓練不同的模型來分離兩個、三個、四個和五個說話人。研究人員將輸入混合輸入輸入到設(shè)計為最多可容納5個共時說話人的模型中,以便它能夠檢測到當前活動(非靜止)信道的數(shù)量。然后,F(xiàn)acebook用一個訓練模型重復同樣的過程,并檢查是否所有的輸出信道都為活動。重復這個過程,直到所有信道都被激活,或者找到目標說話人數(shù)量最少的模型。
2. 意義
從多人對話中分離出單個語音的能力可以改善和增強我們通過各種應(yīng)用實現(xiàn)的日常交流,例語音消息、數(shù)字助手和視頻工具,以及AR/VR語音交互創(chuàng)新。它同時可以提高需要聽力輔助的人群的體驗,這樣他們在擁擠嘈雜的環(huán)境中都能更清晰地聽到其他人地聲音,如聚會或餐廳等等。
除了分離不同的聲音之外,這個新系統(tǒng)同時可以應(yīng)用于從混合聲音(如背景噪聲)中分離其他類型的語音信號。另外,這項研究可以應(yīng)用到音樂錄音,改進以前從單一音頻文件分離不同樂器的研究。Facebook表示,下一步將致力于改進模型的生成屬性,直到它能夠在現(xiàn)實世界條件中實現(xiàn)高性能為止。
原文鏈接:https://yivian.com/news/76452.html