Principale tecnologia

Tecnologia di riconoscimento vocale

Tecnologia di riconoscimento vocale
Tecnologia di riconoscimento vocale

Video: Comandi vocali - Con Arduino 2024, Luglio

Video: Comandi vocali - Con Arduino 2024, Luglio
Anonim

Riconoscimento vocale, capacità dei dispositivi di rispondere ai comandi vocali. Il riconoscimento vocale consente il controllo a mani libere di vari dispositivi e attrezzature (un vantaggio particolare per molte persone disabili), fornisce input per la traduzione automatica e crea dettati pronti per la stampa. Tra le prime applicazioni per il riconoscimento vocale c'erano sistemi telefonici automatizzati e software di dettatura medica. È spesso usato per dettare, per interrogare database e per dare comandi a sistemi basati su computer, specialmente nelle professioni che si basano su vocabolari specializzati. Consente inoltre assistenti personali in veicoli e smartphone, come Siri di Apple.

Prima che qualsiasi macchina possa interpretare il parlato, un microfono deve tradurre le vibrazioni della voce di una persona in un segnale elettrico simile a un'onda. Questo segnale a sua volta viene convertito dall'hardware del sistema, ad esempio la scheda audio di un computer, in un segnale digitale. È il segnale digitale analizzato da un programma di riconoscimento vocale per riconoscere fonemi separati, i mattoni fondamentali del discorso. I fonemi vengono quindi ricombinati in parole. Tuttavia, molte parole suonano allo stesso modo e, per selezionare la parola appropriata, il programma deve fare affidamento sul contesto. Molti programmi stabiliscono il contesto attraverso l'analisi del trigramma, un metodo basato su un database di frequenti cluster di tre parole in cui è assegnata la probabilità che una qualsiasi parola sia seguita da una determinata terza parola. Ad esempio, se un oratore dice "chi sono", la parola successiva verrà riconosciuta come il pronome "io" anziché come un "occhio" dal suono simile ma meno probabile. Tuttavia, a volte è necessario l'intervento umano per correggere gli errori.

I programmi per riconoscere alcune parole isolate, come i sistemi di navigazione vocale del telefono, funzionano per quasi tutti gli utenti. D'altra parte, i programmi vocali continui, come i programmi di dettatura, devono essere formati per riconoscere i modelli linguistici di un individuo; la formazione prevede che l'utente legga ad alta voce campioni di testo. Oggi, con la crescente potenza di personal computer e dispositivi mobili, l'accuratezza del riconoscimento vocale è notevolmente migliorata. I tassi di errore sono stati ridotti a circa il 5 percento nei vocabolari contenenti decine di migliaia di parole. Una precisione ancora maggiore è raggiunta in vocabolari limitati per applicazioni specializzate come la dettatura delle diagnosi radiologiche.