Probeer in een drukke bus of op een feestje maar eens tegen je smartphone te praten. Grote kans dat de virtuele assistenten van Apple, Google en Microsoft je niet goed kunnen verstaan. Wetenschappers werken daarom aan technologie om computers te leren liplezen.

Aan de Jordaanse Mu’tah Universiteit sleutelt Ahmad Hassanat aan een methode om klanken te herkennen aan de stand van de lippen, schrijft weekblad The Economist.

Er zijn ongeveer een dozijn unieke posities van de mond, maar het probleem is dat daar veel meer klanken mee geproduceerd kunnen worden. Spreek maar eens de woorden ‘pet’ en ‘bed’ uit. Voor een liplezer — en dus ook de computer — ziet dat er nagenoeg identiek uit.

Hassanat probeert daarom hele woorden te herkennen door de combinatie van opeenvolgende lipstanden te analyseren. Dat lukt redelijk: als een proefpersoon eerst een tekst inspreekt die de computer kent, dan herkent de software driekwart van de woorden die de persoon daarna uitspreekt. Is er geen ijkmoment van tevoren, dan keldert dat percentage echter maar 33 procent.

Focus op andere locaties

De Japanse techneut Yasuhiro Oikawa focust niet op de lippen, maar op de keel. In zijn proefopstelling aan de Waseda-universiteit meet hij met een hogesnelheidscamera de trillingen van de huid rondom de stembanden, schrijft The Economist. Maar tot dusver is Oikawa niet erg succesvol. Hij heeft voor slechts één Japans woord de trillingskarakteristieken in kaart gebracht.

De Israëlische startup VocalZoom boekt tot nu toe de beste resultaten met een optische microfoon. De software van het bedrijf filtert omgevingsgeluid weg door een laser op de wang van de spreker te richten. Die meet de trillingen bij het praten en kan daaruit de frequenties van het geluid afleiden. Zo zijn de woorden van de spreker te isoleren.

Op technologiebeurs CES gaf VocalZoom twee maanden geleden een demonstratie:

De technologie van VocalZoom is voorlopig nog erg groot, dus het zal even duren voordat het in smartphones te vinden is. Automakers hebben wellicht meer interesse in de optische microfoon van het Israëlische bedrijf. Perfecte spraakherkenning kan een beslissend voordeel zijn in de ontluikende strijd in autosoftware. Al is praten tegen je auto wel levensgevaarlijk.

Dit artikel is oorspronkelijk verschenen op z24.nl