Epiphan LiveScrypt: Precisione AI da sintesi vocale a testo. È abbastanza buona per i tuoi eventi dal vivo? Di Michael Monette

EpiphanAI speech to text accuracyL'attuale tecnologia di trascrizione automatica offre una valida alternativa ai tradizionali servizi di trascrizione dal vivo? Risposta breve: sì. 
Con i progressi nella tecnologia di riconoscimento vocale, l'accuratezza della sintesi vocale da testo a testo ha raggiunto un livello adatto per eventi dal vivo, dalle presentazioni di conferenze e riunioni aziendali alle lezioni universitarie e ai sermoni della chiesa.

Questa non è affatto una conclusione infondata. 
Si basa sulla nostra ricerca 
(Epiphan Video) che esamina le prestazioni delle principali API di riconoscimento vocale per determinare la loro "disponibilità in tempo reale". 

Contenuti

Metodi: valutazione dell'accuratezza della sintesi vocale da testo dell'intelligenza artificiale

Risultati: AI e trascrizione umana a confronto

Conclusione: l'accuratezza del parlato in testo dell'IA è paragonabile a quella degli esseri umani

Ottieni il meglio della tecnologia di trascrizione automatica oggi stesso

Ottieni la migliore precisione di sintesi vocale da testo

Cattura l'audio cristallino che è essenziale per una trascrizione AI accurata con Epiphan LiveScrypt, un dispositivo di trascrizione automatica dedicato con ingressi per audio professionale (XLR / TRS) e molte altre potenti funzionalità.

Metodi: valutazione dell'accuratezza della sintesi vocale in testo

Abbiamo confrontato tre principali interfacce di programmazione di applicazioni (API) di riconoscimento vocale - Amazon Transcribe, Google Cloud Speech-to-Text e IBM Watson Speech to Text - con i trascrittori umani in base a una serie di criteri:

Precisione: la velocità con cui la soluzione commette errori nella trascrizione delle parole pronunciate, misurata come Tasso di errore delle parole (WER [Trascrizione, Riferimento] = [Sostituzioni + Eliminazioni + Inserimenti] / Parole in riferimento).

Latenza della prima ipotesi: il tempo che intercorre tra l'enunciazione di una parola e l'output del testo.

Latenza ipotesi stabile: il tempo che intercorre tra l'enunciazione di una parola e l'output del testo corretto.

Costo: la tariffa per l'utilizzo del servizio associato.

Per valutare le prestazioni della trascrizione automatica, abbiamo fornito a ciascuna API oltre 1.500 frasi campione da un set di test reso disponibile da Texas Instruments e dal Massachusetts Institute of Technology (TIMIT). 
Abbiamo confrontato i risultati con le trascrizioni di riferimento incluse nel set di test e abbiamo misurato la latenza. 
Alla fine, abbiamo deciso di non regolare i tempi di trascrizione per il tempo di andata e ritorno (RTT) poiché RTT costituiva una porzione relativamente piccola della latenza complessiva in ogni caso.

Per stabilire una linea di base per le prestazioni di trascrizione umana, abbiamo attinto e generalizzato i risultati da più fonti accademiche.

Una nota sulla terminologia.

Per "trascrittore" si intende un professionista che trascrive il discorso utilizzando la tastiera di un computer rispetto a uno stenografo, che sarebbe in grado di digitare a velocità più elevate utilizzando uno stenografo. 
I mercati aziendali, dell'istruzione e degli eventi speciali tendono a utilizzare i trascrittori perché gli stenografi applicano tariffe notevolmente più elevate.

Per quanto riguarda il test set TIMIT, la registrazione di tali campioni è avvenuta in un ambiente a controllo acustico. 
Abbiamo normalizzato le trascrizioni dei riferimenti convertendo le lettere maiuscole in minuscole, rimuovendo la punteggiatura e scrivendo i termini numerici. 
Quindi abbiamo calcolato il tasso di errore della parola (WER) per ogni espressione. Sulla base del set di test completo, per ogni motore abbiamo anche calcolato un intervallo di confidenza WER e WER medio (bilaterale, confidenza 95%, distribuzione t, se vuoi essere specifico).

Il nostro set di dati includeva alcune variazioni poiché le frasi di prova erano composte da una varietà di persone che parlavano a velocità diverse. 
Ma questo è vero per le varie velocità di pronuncia, toni e altre differenze di parlato che potresti trovare nelle impostazioni del mondo reale. 
Nessuno degli oratori è stato incaricato di parlare lentamente in un microfono per rendere più probabile una trascrizione accurata. 
Alla luce di tutte queste precauzioni, siamo certi che i dati unificati riflettono fedelmente la reale accuratezza di ciascuna API.
Vale anche la pena notare che i nostri test erano solo in inglese. 
L'inglese è la lingua più utilizzata nelle applicazioni che abbiamo analizzato, il che potrebbe significare che l'inglese è la parte del leone nell'attenzione degli sviluppatori. In ogni caso, sospettiamo che ci sarebbero solo piccole differenze tra le lingue.

Sul case study di Epiphan sono riportati i costi dei provider citati sopra per minuto.Sul case study di Epiphan sono riportati i costi dei provider citati sopra per minuto. 

È importante notare che tali risultati riflettono lo stato di ciascuna API nel gennaio 2020, quando si sono svolti i test. Le prestazioni potrebbero essere migliori solo se eseguissimo gli stessi test oggi, poiché la tecnologia di riconoscimento vocale, come parte dell'apprendimento automatico, migliora nel tempo.

Conclusione: l'accuratezza del parlato in testo dell'IA è paragonabile a quella degli esseri umani.

Ogni API ha raggiunto un livello di precisione e latenza adatto per i sottotitoli in tempo reale. 
La latenza dell'API di Amazon era leggermente superiore a quella dei motori di IBM e Google, ma i tre sono paragonabili in termini di accuratezza e costo. 
Abbiamo anche testato ogni motore per la resilienza al rumore (accuratezza della trascrizione in presenza di rumore) e abbiamo scoperto che la qualità delle apparecchiature audio, il posizionamento del microfono e altri fattori sono essenziali per prestazioni accettabili.

Cosa significa tutto questo in termini pratici? Queste API sono pronte per l'uso in scenari di eventi dal vivo, ma come possono le organizzazioni sfruttarle effettivamente?

Ciò richiederebbe lo sviluppo di:

Un edge agent di riconoscimento vocale automatico per acquisire e trasmettere dati audio al cloud.

Una piattaforma di digital signage e un agente per ricevere, eseguire il rendering e visualizzare le trascrizioni.

Un portale Web o un'applicazione mobile per accogliere gli utenti che sono seduti lontano dai monitor in camera o che hanno problemi di vista o perdita della vista.

E così via. L'altra opzione, meno onerosa, è quella di utilizzare un dispositivo di trascrizione automatico dedicato disponibile in commercio.

LiveScrypt, trascrizione dal vivo accurata, conveniente e automatica.

Epiphan LiveScrypt converte la voce in testo in tempo reale per la visualizzazione su monitor e dispositivi mobili durante gli eventi dal vivo, migliorando l'accessibilità e il coinvolgimento dei partecipanti in modo economico.

Basato sull'avanzata tecnologia di riconoscimento vocale di Google, LiveScrypt dispone di ingressi audio professionali (XLR, TRS) in modo da poter acquisire un audio cristallino che favorisce un'elevata precisione di sintesi vocale da testo. LiveScrypt include anche ingressi HDMI e SDI per catturare l'audio incorporato, uno schermo integrato per la configurazione e un sistema di codici QR per un facile streaming, semplificando la configurazione e riducendo i punti di errore.

INFO: https://epiphan.com/products/livescrypt