Meta komt met taalmodel MMS dat “groter is dan ChatGPT”
Meta heeft zijn eigen taalmodel ontwikkeld. Massively Multilingual Speech (MMS) is voor een keertje geen kloon van OpenAI's ChatGPT.
MMS kan meer dan 4.000 gesproken talen herkennen en ondersteunt text-to-speech voor 1.100 talen. Naar goede gewoonte maakt Meta zijn projecten opensource en dat geldt nu ook voor MMS, “om taaldiversiteit te bewaren en onderzoekers aan te moedigen om op die fundering voort te bouwen”, zo laat het socialmediaplatform weten.
Om modellen voor spraakherkenning en text-to-speech te ontwikkelen zijn doorgaans duizenden uren training nodig van audio met bijhorende transcriptielabels. Die laatsten zijn nodig om de algoritmes data correct te laten categoriseren en begrijpen. In het geval van talen die niet (veel) gebruikt worden in de moderne maatschappij, kan het taalmodel een middel zijn om te voorkomen dat die rijkdom verdwijnt.
MMS gebruikt religieuze teksten
Opvallend is dat Meta een ongebruikelijke aanpak hanteerde om de audiodata te verzamelen. Zo baseerde het zich op opnames van vertaalde religieuze teksten. “We gebruikten religieuze teksten, zoals die in de Bijbel, die door de jaren heen al in heel veel talen omgezet zijn en waarvan de vertalingen al uitgebreid bestudeerd zijn voor op tekst gebaseerd vertaalonderzoek”, aldus Zuckerberg en co. De onderzoekers zouden er op die manier in geslaagd zijn om de beschikbare talen voor het model op te trekken tot meer dan 4.000.
“Hoewel de inhoud van de opnames religieus is, toont ons onderzoek aan dat dit geen bias teweegbrengt voor het produceren van nog meer religieuze taal”, schreef Meta. “Dat komt omdat onze aanpak gebaseerd is op een ‘connectionist temporal classification’ (CTC), die veel compacter en gerichter is dan andere large language models (LLM’s). Bovendien hebben zowel mannen als vrouwen tekst ingesproken”, klinkt het.
Vervolgens is Meta aan de slag gegaan met zijn wav2vec 2.0, een zelflerende model, dat kan trainen op basis van ongelabelde data. “De resultaten zijn goed. Ze tonen dat het Massively Multilingual Speech-model het erg goed doet in vergelijking met bestaande modellen. “Het ondersteunt 11 keer zoveel talen ondersteunen als Whisper van OpenAI”, besluiten de onderzoekers.