CapisciAMe

Progetto: CapisciAMe

Youtube
Download PDF

Le attuali tecnologie di riconoscimento vocale basate su sistemi cloud disponibili nelle piattaforme di virtual assistants, come Google Assistant o Amazon Alexa, consentono di usare la propria voce per controllare sistemi domotici e\o accedere ai dispositivi informatici. Purtroppo, questa forma di interazione si rivela inaccessibile per le persone con disartria, un disturbo neuromotorio del linguaggio ma spesso associato a tetraparesi, SLA, esiti di ictus ed altre tipologie di disturbi degenerativi, che provocano gravi impedimenti fisici a chi ne è affetto e che troverebbe grande giovamento da questo utilizzo della voce.

La disartria è caratterizzata da una grande variabilità del linguaggio (intra ed inter-utenti) e ciò, insieme alla scarsissima disponibilità di contributi vocali di persone con disartria, provoca un bassissimo livello di comprensione da parte dei virtual assistants. Di conseguenza, gli utenti con disartria e disabilità motorie, che troverebbero utilissimo sfruttare i servizi degli assistenti virtuali, non possono usufruirne. Il progetto “CapisciAMe” usa il machine learning supervisionato per realizzare soluzioni altamente personalizzate di riconoscimento vocale on edge destinati ad utenti con disartria. Queste tecniche di speaker-dependent permettono di riconoscere un set limitato di parole quando sono pronunciate da chi ha contribuito, con la sua voce, al training del sistema di intelligenza artificiale.

Per rendere più agevole la raccolta delle voci, è stata sviluppata una app mobile, denominata “CapisciAMe”, disponibile gratuitamente sul Google Play Store. Con essa le persone con disartria usano uno smartphone per registrare i propri campioni vocali, in modo guidato e il più possibile non faticoso. Questi serviranno al training di reti neurali specializzate sulle quali è basato poi il riconoscimento. Attualmente le lingue supportate sono l’italiano e l’inglese, ma potenzialmente è estendibile ad altre lingue. Il modello vocale è stato integrato con OpenHab, un framework open source per smart home in esecuzione su sistemi Raspberry, al fine di utilizzare le parole riconosciute per controllare elementi di smart home. Simili risultati sono stati ottenuti attraverso la sua integrazione con Google Assistant. Attualmente il sistema di riconoscimento vocale in tempo reale on edge è in fase di ulteriore implementazione su piattaforme embedded nelle quali si sperimenta la voce per interagire con video games e semplici robot.

CapisciAMe

Project: CapisciAMe

Youtube
Download PDF

Current cloud-based speech recognition technologies available in virtual assistants’ platforms, such as Google Assistant or Amazon Alexa, allow you to use your voice to control home automation systems and / or access IT devices. Unfortunately, this form of interaction turns out to be inaccessible for people with dysarthria, a neuromotor language disorder but often associated with tetraparesis, ALS, stroke outcomes and other types of degenerative disorders, which cause serious physical impediments to those affected and who would find great benefit from this use of the voice.

Dysarthria is characterized by a great variability of language (intra and inter-users) and this, together with the very scarce availability of speech contributions of people with dysarthria, causes a very low level of understanding by the virtual assistants. Consequently, users with dysarthria and motor disabilities, who would find it very useful to exploit the services of virtual assistants, cannot use them. The “CapisciAMe” project uses supervised machine learning to create highly customized on-edge speech recognition solutions for users with dysarthria. These speaker-dependent techniques allow to recognize a limited set of words when they are spoken by those who have contributed, with their voice, to the training of the artificial intelligence system.

To make it easier to collect the items, a mobile app was developed, called “CapisciAMe”, available for free on the Google Play Store. With it, people with dysarthria use a smartphone to record their vocal samples, in a guided and as easy as possible way. These will be used for the training of specialized neural networks on which recognition is then based. Currently the supported languages are Italian and English, but it can potentially be extended to other languages. The voice model has been integrated with OpenHab, an open source framework for smart homes running on Raspberry systems, in order to use recognized words to control smart home elements. Similar results have been achieved through its integration with Google Assistant. Currently, the real-time on-edge voice recognition system is being further implemented on embedded platforms in which voice is experimented to interact with video games and simple robots.