- Details
De huidige systemen om gesproken teksten om te zetten in uitgeschreven teksten, maken doorgaans alleen gebruik van audio-opnames. Eigenlijk is dat gek want mensen gebruiken vaak de bewegingen van de mond van een gesprekspartner om te begrijpen wat iemand zegt.
Dat laatste gegeven heeft Meta - het moederbedrijf van Facebook - als uitgangspunt genomen voor het systeem Audio-Visual Hidden Unit BERT (AV-HuBERT). Het bedrijf claimt door het systeem te laten liplezen tot wel 75% betere transcripties te komen. Vooral in situaties waar achtergrondgeluiden een rol spelen, zoals op een feestje of buiten op een markt, bewijst de gecombineerde aanpak zijn voordelen.
Het voordeel van AV-HuBERT is bovendien dat het maar een tiende van de gelabelde data nodig heeft om te trainen ten opzichte van eerdere AV-spraakherkenningssystemen. Dat biedt veel kansen voor het gebruik bij talen waarvan niet zoveel gelabelde audiofragmenten beschikbaar zijn, meldt Venturebeat.
Het gehele artikel staat hier.