視頻會(huì)議的音視頻處理技術(shù)要點(diǎn)
- 2023-11-08 09:29:44
- 0
- 廣州市歐力音響設(shè)備有限公司
圖像預(yù)處理:
1)圖像清晰度優(yōu)化
由于受光照、噪聲、焦距、鏡頭等的影響,攝像頭實(shí)際采集的圖像會(huì)出現(xiàn)清晰度、對(duì)比度、亮度等不佳等情況,無(wú)法給用戶最佳的視頻觀看體驗(yàn)。
全時(shí)云會(huì)議結(jié)合詳細(xì)的客戶反饋以及最新的學(xué)術(shù)前沿,對(duì)采集的圖像通過(guò)銳化、亮度提升,膚色檢測(cè)、膚色調(diào)整、去噪等算法的結(jié)合進(jìn)行清晰度優(yōu)化,給予客戶最佳的體驗(yàn)。與此同時(shí)考慮到客戶硬件資源的強(qiáng)弱情況,全時(shí)云會(huì)議采用了硬件加速策略,使得清晰度優(yōu)化可以針對(duì)全部用戶使用。
2)虛擬背景
云會(huì)議中的虛擬背景主要用于用戶由于個(gè)人隱私或所處位置比較敏感時(shí)需要將背景信息用已有的圖像或視頻替換,簡(jiǎn)稱虛擬化。
全時(shí)云會(huì)議結(jié)合2020 CVPR的最佳分割論文自研人像分割模型,通過(guò)改變數(shù)據(jù)的通道、多種不同的loss、Matting模塊、人臉檢測(cè);增加圖像邊緣開(kāi)閉運(yùn)算、光流法、時(shí)域參考、高斯濾波等圖像后處理,給予客戶最佳的視覺(jué)體驗(yàn)。
3)美顏
全時(shí)云會(huì)議依據(jù)自研人臉檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)模型,對(duì)人臉區(qū)域進(jìn)行磨皮、美白、大眼、瘦臉等操作。同時(shí)由于視頻會(huì)議的特殊性,不能對(duì)人臉區(qū)域進(jìn)行力度較大的美顏效果,我們通過(guò)測(cè)試近百人進(jìn)行效果調(diào)優(yōu),達(dá)到視頻會(huì)議中最佳的用戶體驗(yàn)。
音頻前處理:
在實(shí)時(shí)語(yǔ)音通訊中用戶對(duì)語(yǔ)音的敏感度會(huì)很高,好的語(yǔ)音質(zhì)量會(huì)大大提升視頻會(huì)議滿意度。全時(shí)自主研發(fā)了智能語(yǔ)音質(zhì)量增強(qiáng)技術(shù),解決了在實(shí)時(shí)語(yǔ)音通訊過(guò)程中影響用戶體驗(yàn)的問(wèn)題,其核心技術(shù)包括:
噪聲抑制(ANS)自適應(yīng)各種平穩(wěn)、非平穩(wěn)噪聲環(huán)境,讓通話者專注于通話,不用擔(dān)心所處環(huán)境;回聲消除(AEC)覆蓋全平臺(tái)的回聲消除算法,收斂快,ERLE高,保證通話不受干擾;自動(dòng)增益(AGC)控制,保證通話過(guò)程語(yǔ)音信號(hào)平穩(wěn);支持48khz全頻帶采樣,還原聲音高保真度,為用戶提供極致高清音質(zhì)體驗(yàn)。
全球分布式平臺(tái)可提供具有企業(yè)級(jí)可靠性和服務(wù)質(zhì)量的高清安全語(yǔ)音服務(wù),支持電話(PSTN)、網(wǎng)絡(luò)語(yǔ)音(VOIP)、硬件終端(H323)的無(wú)縫融合,兼容外置拾音器/揚(yáng)聲器、耳機(jī)、聽(tīng)筒、外放、藍(lán)牙模式,讓語(yǔ)音通訊不再受限于終端設(shè)備、變得更加便捷舒適。