<pre id="igbdb"><div id="igbdb"></div></pre>

Facebook最新麥克風聲音分離可帶來更優(yōu)AR/VR語音交互創(chuàng)新

VR/AR

2020

07/20

21:30

映維網(wǎng)

評論

來源：映維網(wǎng) 作者廣州客

Facebook人工智能團隊日前介紹了一種由單個麥克風同時分離多達五種聲音的方法。所述方法在多個語音源分離基準（包括具有挑戰(zhàn)性的噪聲和混響的基準測試）測試中優(yōu)于以往的方法。利用WSJ0-2mix和WSJ0-3mix數(shù)據(jù)集，以及通過四個和五個共時揚聲器的變體，模型在尺度不變信噪比（分離質(zhì)量的常用度量）方面比當前最先進的模型提高了1.5 dB（分貝）以上。

相關(guān)論文：Voice separation with an unknown number of multiple speakers

為了建立所述的模型，團隊使用了一種直接作用于原始音頻波形的全新遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。以前最好的模型主要是利用遮罩和解碼器來對每個說話人的聲音進行分類。當揚聲器數(shù)目較多或未知時，這類模型的性能會迅速下降。

與標準語音分離系統(tǒng)一樣，F(xiàn)acebook人工智能團隊的模型要求事先知道說話人的總數(shù)。但為了應(yīng)對未知說話人數(shù)量所帶來的挑戰(zhàn)，研究人員構(gòu)建了一個新的系統(tǒng)來自動檢測說話人數(shù)量，并選擇最相關(guān)的模型。

1. 工作原理

語音分離模型的主要目標是，當給定一個輸入混合語音信號時，估計輸入源并為每個說話人生成一個單獨信道輸出。

所述模型使用了一個將輸入信號映射到一個潛在表示的編碼器網(wǎng)絡(luò)。團隊應(yīng)用一個由多個區(qū)塊組成的語音分離網(wǎng)絡(luò)，其中輸入為潛在表示，輸出為每個說話人的估計信號。以前的方法通常在執(zhí)行分離時使用遮罩，但當遮罩未定義，并且在處理過程中可能丟失一定的信號信息時，問題就會出現(xiàn)。

研究人員通過置換不變訓練來訓練模型并利用多個損失函數(shù)直接優(yōu)化信噪比。團隊在每個分離區(qū)塊后插入一個損失函數(shù)，從而進一步改進優(yōu)化過程。最后，為了確保每個說話人一致地映射到特定的輸出信道，F(xiàn)acebook使用預先訓練的說話人識別模型來添加感知損失函數(shù)。

團隊同時構(gòu)建了一個處理未知數(shù)量說話人的分離的新系統(tǒng)。對于新系統(tǒng)，其主要是通過訓練不同的模型來分離兩個、三個、四個和五個說話人。研究人員將輸入混合輸入輸入到設(shè)計為最多可容納5個共時說話人的模型中，以便它能夠檢測到當前活動（非靜止）信道的數(shù)量。然后，F(xiàn)acebook用一個訓練模型重復同樣的過程，并檢查是否所有的輸出信道都為活動。重復這個過程，直到所有信道都被激活，或者找到目標說話人數(shù)量最少的模型。

2. 意義

從多人對話中分離出單個語音的能力可以改善和增強我們通過各種應(yīng)用實現(xiàn)的日常交流，例語音消息、數(shù)字助手和視頻工具，以及AR/VR語音交互創(chuàng)新。它同時可以提高需要聽力輔助的人群的體驗，這樣他們在擁擠嘈雜的環(huán)境中都能更清晰地聽到其他人地聲音，如聚會或餐廳等等。

除了分離不同的聲音之外，這個新系統(tǒng)同時可以應(yīng)用于從混合聲音（如背景噪聲）中分離其他類型的語音信號。另外，這項研究可以應(yīng)用到音樂錄音，改進以前從單一音頻文件分離不同樂器的研究。Facebook表示，下一步將致力于改進模型的生成屬性，直到它能夠在現(xiàn)實世界條件中實現(xiàn)高性能為止。

原文鏈接：https://yivian.com/news/76452.html

THE END

廣告、內(nèi)容合作請點擊這里尋求合作

免責聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點和立場。

相關(guān)熱點

Facebook新AR專利提出用于近眼波導顯示器的VBG體布

對于增強現(xiàn)實領(lǐng)域，衍射光柵是常用的耦入器和耦出器，而主要的類型包括表面浮雕光柵（Surface-Relief Gratings）和體布拉格光柵(Volume Bragg Gratings；VBG)。

海南純國產(chǎn)計算機下線自研處理器系統(tǒng)

隨著重慶、沈陽下線了量產(chǎn)了國產(chǎn)計算機“天玥”，海南作為重點發(fā)展城市也及時跟進了，7月16日海南省國產(chǎn)天玥計算機生產(chǎn)基地正式下線了國產(chǎn)計算機，生產(chǎn)基地位于?？诘暮Ｄ蠈毻▽崢I(yè)公司，預計年產(chǎn)量為10萬...

臺積電3nm晶體管密度將提高15%：將代工蘋果A16

兩年前，臺積電量產(chǎn)了7nm工藝，今年將量產(chǎn)5nm工藝，這讓臺積電在晶圓代工領(lǐng)域保持著領(lǐng)先地位。現(xiàn)在3nm工藝也在按計劃進行。根據(jù)臺積電的規(guī)劃，3nm風險試產(chǎn)預計將于今年進行，量產(chǎn)計劃于2021年下半年開始。

虛幻5引擎使游戲文件體積暴漲未來游戲1T起

Epic Games 為大家演示了虛幻5 引擎可為大家?guī)砀泳毜挠螒虍嬅?，但這也從側(cè)面反映了開發(fā)者需要為新游戲準備更加精細的圖形素材，但是將這些素材量轉(zhuǎn)換成文件體積，就十分驚人了。

華碩推出PN50 Mini PC 搭載Ryzen 4000移動處理器和V

Mini PC對于很多對主機有一定便攜性要求的用戶來說是一個不錯的形態(tài)，而且還可以定制化適合自己要求的顯示器使用。最近華碩推出了PN50：一款由Ryzen 7 4800U移動處理器提供動力的新型Mini PC。它的外形尺...

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

Facebook最新麥克風聲音分離可帶來更優(yōu)AR/VR語音交互創(chuàng)新

相關(guān)熱點

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

Facebook最新麥克風聲音分離可帶來更優(yōu)AR/VR語音交互創(chuàng)新

相關(guān)熱點

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！