Apple ha pubblicato un articolo in cui il gruppo di ricercatori affronta un problema complesso che riguarda l'intelligenza artificiale e l'apprendimento automatico: riconoscere non solo quello che è stato effettivamente detto ma anche come è stato detto. Nel lavoro, i ricercatori spiegano un framework per l'analisi del parlato che utilizza quelle che vengono chiamate Voice Quality Dimensions o VQD.
Le "Dimensioni della qualità della voce" sono caratteristiche soggette a interpretazione come intelligibilità, durezza, affanno, monotonia del tono e altri aspetti simili, attributi a cui fanno attenzione i logopedisti quando hanno a che fare con persone affette da patologie alla voce o neurologiche. Apple è partita da questi aspetti per sviluppare dei modelli che consentano di tenere traccia di questi aspetti come farebbe un logopedista.
La questione è infatti quella di insegnare in qualche maniera all'intelligenza artificiale a capire comandi o espressioni anche se questi non provengono da voci "sane" o "tipiche". Se i modelli vocali attuali per gran parte hanno difficoltà a capire in condizioni "limite", Apple vuole porre le basi per rendere il suo ecosistema più accessibile.
I ricercatori di Cupertino hanno addestrato dei modelli diagnostici basati su sistemi vocali esistenti su un ampio set di dati pubblici, tra cui voci di persone affette da Parkinson, SLA o paralisi cerebrale. In altri termini hanno insegnato alle fredde macchine ad ascoltare con "orecchio" critico, ossia come farebbe un medico, senza limitarsi alla mera analisi delle parole. I risultati sono stati ottimi nella maggior parte delle caratteristiche elencate sopra, anche se c'è ancora qualcosa da affinare.