Met veel plezier kondigd OpenAI de nieuwste versie van Whisper aan, genaamd large-v3. Whisper-v3 heeft dezelfde architectuur als de vorige large-modellen, met uitzondering van de volgende kleine verschillen:
- De input gebruikt 128 Mel frequentie bins in plaats van 80 Mel frequentie
- Een nieuw taalteken voor Kantonees
Het large-v3 model is getraind op 1 miljoen uur zwak gelabelde audio en 4 miljoen uur pseudolabelde audio verzameld met large-v2. Het model is gedurende 2,0 epochs getraind op deze gemengde dataset.
Het large-v3 model laat verbeterde prestaties zien over een grote verscheidenheid aan talen, en de plot hieronder bevat alle talen waar Whisper large-v3 lager dan 60% foutpercentage presteert op Common Voice 15 en Fleurs, met 10% tot 20% minder fouten vergeleken met large-v2:
Uitsplitsing naar Taal
Talen die zijn geëvalueerd met behulp van tekenfoutenpercentages (CER's) in plaats van woordfoutenpercentages (WER's) zijn cursief weergegeven.
We gebruikten ook tekenfoutenpercentages voor Koreaans, naast de vijf talen waarvoor we CER's gebruikten in het artikel (Chinees, Japans, Thai, Laotiaans en Myanmar). Hoewel het Koreaans spaties gebruikt om woorden van elkaar te scheiden, zijn er veel gevallen waarin het acceptabel is om spaties tussen woorden weg te laten, en het viel ons op dat de labels in zowel Common Voice 15 als Fleurs veel inconsistente of onjuiste spaties bevatten.
Het artikel is een samenvatting/vertaling van het origineel dat hier te zien is: https://github.com/openai/whisper/discussions/1762