Om zo’n ‘gebarenvertaler’ te maken, zet een team van onderzoekers aan de Boston University meerdere doventolken voor een batterij camera’s terwijl ze de 3000 begrippen uit de American Sign Language uitbeelden. De camera’s – die de tolk van voren en van de zijkanten filmen – leggen ook gezichtsuitdrukkingen vast.
De wetenschappers analyseren de beelden, bepalen het begin en einde van een gebaar en leggen het vast in een visuele database waarmee computers gebaren moeten herkennen.
Het probleem bij gebarentaal is dat de grammatica driedimensionaal is opgebouwd. In gesproken taal gaan we af op de woordvolgorde, in gebarentaal bepaalt de positie van handen en vingers, de beweging ervan, de handvorm en lipbewegingen, gezichtsuitdrukkingen en andere lichaamtaal wat er wordt gezegd. Verbuigingen en vervoegingen komen in gebarentaal op een heel andere manier tot stand. Gebarentaal kent, net als het Russisch, ook geen lidwoorden.
De Amerikanen hopen dat hun werk de ouders van dove kinderen helpt de betekenis van onbekende gebaren te achterhalen. Maar ze werken ook aan een Google-voor-doven, zodat dove mensen met gebarentaal zoekopdrachten kunnen invoeren.
Voor dat laatste moet nog wel wat werk worden verzet, zegt een van de onderzoekers in Technology Review, het blad van het Massachusetts Institute of Technology (MIT). Gebarentaalherkenning gaat een computer nog wel aardig af in een studio met gevoelige camera’s en een geheel lege achtergrond. Maar gebruikers thuis zullen kwalitatief minder sterke camera’s hebben, misschien werken in gedempt licht en tegen een rommelige achtergrond.
Bron: De Volkskrant