• Presspool.it
    UfficioStampa in Pixel
    multi platform contents
  • Presspool.it
    PressOffice in Pixel
    case studies, press releases, comunicati stampa, news stories
  • Presspool.it
    UfficioStampa in Pixel
    articoli, interviste, video, socialing
  • Presspool.it
    UfficioStampa in Pixel
    digital reputation, awareness, return on relation RoR
  • Techwise PressOffice
    Presspool.it

Epiphan LiveScrypt: Precisione AI da sintesi vocale a testo. È abbastanza buona per i tuoi eventi dal vivo? Di Michael Monette

EpiphanAI speech to text accuracyL'attuale tecnologia di trascrizione automatica offre una valida alternativa ai tradizionali servizi di trascrizione dal vivo? Risposta breve: sì. 
Con i progressi nella tecnologia di riconoscimento vocale, l'accuratezza della sintesi vocale da testo a testo ha raggiunto un livello adatto per eventi dal vivo, dalle presentazioni di conferenze e riunioni aziendali alle lezioni universitarie e ai sermoni della chiesa.

Questa non è affatto una conclusione infondata. 
Si basa sulla nostra ricerca 
(Epiphan Video) che esamina le prestazioni delle principali API di riconoscimento vocale per determinare la loro "disponibilità in tempo reale". 

Contenuti

Metodi: valutazione dell'accuratezza della sintesi vocale da testo dell'intelligenza artificiale

Risultati: AI e trascrizione umana a confronto

Conclusione: l'accuratezza del parlato in testo dell'IA è paragonabile a quella degli esseri umani

Ottieni il meglio della tecnologia di trascrizione automatica oggi stesso

Ottieni la migliore precisione di sintesi vocale da testo

Cattura l'audio cristallino che è essenziale per una trascrizione AI accurata con Epiphan LiveScrypt, un dispositivo di trascrizione automatica dedicato con ingressi per audio professionale (XLR / TRS) e molte altre potenti funzionalità.

Metodi: valutazione dell'accuratezza della sintesi vocale in testo

Abbiamo confrontato tre principali interfacce di programmazione di applicazioni (API) di riconoscimento vocale - Amazon Transcribe, Google Cloud Speech-to-Text e IBM Watson Speech to Text - con i trascrittori umani in base a una serie di criteri:

Precisione: la velocità con cui la soluzione commette errori nella trascrizione delle parole pronunciate, misurata come Tasso di errore delle parole (WER [Trascrizione, Riferimento] = [Sostituzioni + Eliminazioni + Inserimenti] / Parole in riferimento).

Latenza della prima ipotesi: il tempo che intercorre tra l'enunciazione di una parola e l'output del testo.

Latenza ipotesi stabile: il tempo che intercorre tra l'enunciazione di una parola e l'output del testo corretto.

Costo: la tariffa per l'utilizzo del servizio associato.

Per valutare le prestazioni della trascrizione automatica, abbiamo fornito a ciascuna API oltre 1.500 frasi campione da un set di test reso disponibile da Texas Instruments e dal Massachusetts Institute of Technology (TIMIT). 
Abbiamo confrontato i risultati con le trascrizioni di riferimento incluse nel set di test e abbiamo misurato la latenza. 
Alla fine, abbiamo deciso di non regolare i tempi di trascrizione per il tempo di andata e ritorno (RTT) poiché RTT costituiva una porzione relativamente piccola della latenza complessiva in ogni caso.

Per stabilire una linea di base per le prestazioni di trascrizione umana, abbiamo attinto e generalizzato i risultati da più fonti accademiche.

Una nota sulla terminologia.

Per "trascrittore" si intende un professionista che trascrive il discorso utilizzando la tastiera di un computer rispetto a uno stenografo, che sarebbe in grado di digitare a velocità più elevate utilizzando uno stenografo. 
I mercati aziendali, dell'istruzione e degli eventi speciali tendono a utilizzare i trascrittori perché gli stenografi applicano tariffe notevolmente più elevate.

Per quanto riguarda il test set TIMIT, la registrazione di tali campioni è avvenuta in un ambiente a controllo acustico. 
Abbiamo normalizzato le trascrizioni dei riferimenti convertendo le lettere maiuscole in minuscole, rimuovendo la punteggiatura e scrivendo i termini numerici. 
Quindi abbiamo calcolato il tasso di errore della parola (WER) per ogni espressione. Sulla base del set di test completo, per ogni motore abbiamo anche calcolato un intervallo di confidenza WER e WER medio (bilaterale, confidenza 95%, distribuzione t, se vuoi essere specifico).

Il nostro set di dati includeva alcune variazioni poiché le frasi di prova erano composte da una varietà di persone che parlavano a velocità diverse. 
Ma questo è vero per le varie velocità di pronuncia, toni e altre differenze di parlato che potresti trovare nelle impostazioni del mondo reale. 
Nessuno degli oratori è stato incaricato di parlare lentamente in un microfono per rendere più probabile una trascrizione accurata. 
Alla luce di tutte queste precauzioni, siamo certi che i dati unificati riflettono fedelmente la reale accuratezza di ciascuna API.
Vale anche la pena notare che i nostri test erano solo in inglese. 
L'inglese è la lingua più utilizzata nelle applicazioni che abbiamo analizzato, il che potrebbe significare che l'inglese è la parte del leone nell'attenzione degli sviluppatori. In ogni caso, sospettiamo che ci sarebbero solo piccole differenze tra le lingue.

Sul case study di Epiphan sono riportati i costi dei provider citati sopra per minuto.Sul case study di Epiphan sono riportati i costi dei provider citati sopra per minuto. 

È importante notare che tali risultati riflettono lo stato di ciascuna API nel gennaio 2020, quando si sono svolti i test. Le prestazioni potrebbero essere migliori solo se eseguissimo gli stessi test oggi, poiché la tecnologia di riconoscimento vocale, come parte dell'apprendimento automatico, migliora nel tempo.

Conclusione: l'accuratezza del parlato in testo dell'IA è paragonabile a quella degli esseri umani.

Ogni API ha raggiunto un livello di precisione e latenza adatto per i sottotitoli in tempo reale. 
La latenza dell'API di Amazon era leggermente superiore a quella dei motori di IBM e Google, ma i tre sono paragonabili in termini di accuratezza e costo. 
Abbiamo anche testato ogni motore per la resilienza al rumore (accuratezza della trascrizione in presenza di rumore) e abbiamo scoperto che la qualità delle apparecchiature audio, il posizionamento del microfono e altri fattori sono essenziali per prestazioni accettabili.

Cosa significa tutto questo in termini pratici? Queste API sono pronte per l'uso in scenari di eventi dal vivo, ma come possono le organizzazioni sfruttarle effettivamente?

Ciò richiederebbe lo sviluppo di:

Un edge agent di riconoscimento vocale automatico per acquisire e trasmettere dati audio al cloud.

Una piattaforma di digital signage e un agente per ricevere, eseguire il rendering e visualizzare le trascrizioni.

Un portale Web o un'applicazione mobile per accogliere gli utenti che sono seduti lontano dai monitor in camera o che hanno problemi di vista o perdita della vista.

E così via. L'altra opzione, meno onerosa, è quella di utilizzare un dispositivo di trascrizione automatico dedicato disponibile in commercio.

LiveScrypt, trascrizione dal vivo accurata, conveniente e automatica.

Epiphan LiveScrypt converte la voce in testo in tempo reale per la visualizzazione su monitor e dispositivi mobili durante gli eventi dal vivo, migliorando l'accessibilità e il coinvolgimento dei partecipanti in modo economico.

Basato sull'avanzata tecnologia di riconoscimento vocale di Google, LiveScrypt dispone di ingressi audio professionali (XLR, TRS) in modo da poter acquisire un audio cristallino che favorisce un'elevata precisione di sintesi vocale da testo. LiveScrypt include anche ingressi HDMI e SDI per catturare l'audio incorporato, uno schermo integrato per la configurazione e un sistema di codici QR per un facile streaming, semplificando la configurazione e riducendo i punti di errore.

INFO: https://epiphan.com/products/livescrypt

- Broadcast Radio & TV -

IBC 2021 Innovation Awards tempo...

IBC 2021 Innovation Awards tempo...

Gli IBC Innovation Awards sono tornati e torneranno ad Amsterdam insieme a IBC2021. Quest'anno, i premi...

| In Associazioni-Fiere| 13 Maggio, 2021
AIMS TechFest 2021 Presenta: IP...

AIMS TechFest 2021 Presenta: IP...

La popolare vetrina IP del settore è tornata. Programma virtuale gratuito di tre giorni per educare sugli...

| In Associazioni-Fiere| 11 Maggio, 2021
Aviwest attrezza SNG e obvan IP...

Aviwest attrezza SNG e obvan IP...

I van SNG di nuova generazione di TV2 si affidano alle soluzioni AVIWEST per espandere in modo significativo...

| In Acquisizione-Produzione| 10 Maggio, 2021

- Audio Pro -

SICA Loudspeakers: nuovi subwoofer...

SICA Loudspeakers: nuovi subwoofer...

La storia delle Marche accarezza suoni, colori, profumi e sapori genuini e restituisce energia...

| In Audio-Professionale| 14 Maggio, 2021
Lawo, console di produzione audio...

Lawo, console di produzione audio...

La nuova console di produzione audio mc²36 di seconda generazione di Lawo, un mixer incredibilmente potente...

| In Audio-Professionale| 11 Maggio, 2021
Soundplant effetti e colonne sonori...

Soundplant effetti e colonne sonori...

Soundplant è un software audio per performance dal vivo che trasforma la tastiera del tuo computer (sì,...

| In Audio-Professionale| 29 Aprile, 2021

- Post & Graphics -

EVS rilascia ufficialmente il servizio...

EVS rilascia ufficialmente il servizio...

Il nuovo servizio su richiesta utilizza l'intelligenza artificiale per creare replay in super slow motion...

| In Post & Graphics| 13 Maggio, 2021
Nvidia Ampere GPU RTX di nuova...

Nvidia Ampere GPU RTX di nuova...

GTC - NVIDIA ha annunciato una gamma di otto nuove GPU con architettura NVIDIA Ampere per laptop, desktop...

| In Post & Graphics| 06 Maggio, 2021
Vizrt: Storytelling 3D di Discovery...

Vizrt: Storytelling 3D di Discovery...

Vizrt ha fornito un flusso di lavoro personalizzato end-to-end su un'unica piattaforma per controllare...

| In Post & Graphics| 04 Maggio, 2021

- Sports & News Broadcast -

Trentasei anni al servizio della...

Trentasei anni al servizio della...

Lega Serie A produce la TIM Cup chiamando in gioco Mediapro Italia/Euroscena: finale Coppa Italia 19...

| In Sports Broadcast| 12 Maggio, 2021
Chyron soluzioni unificate per la...

Chyron soluzioni unificate per la...

CAMIO, CG Lyric X e l'aggiunta di PRIME Video Wall consentono a RTVE di creare negli...

| In Sports Broadcast| 11 Maggio, 2021
VSN: 5 punti chiave per una soluzione MAM...

VSN: 5 punti chiave per una soluzione MAM...

Fino a non molto tempo fa, la produzione di news richiedeva il controllo totale del team umano,...

| In Sports Broadcast| 11 Maggio, 2021

- World News -

Riedel Bolero per comunicare sul...

Riedel Bolero per comunicare sul...

Il direttore della fotografia Jeremy Benning CSC sceglie Bolero per semplificare le comunicazioni dell'equipaggio...

| In World-News| 13 Maggio, 2021
BATON Media Player di Interra supporta...

BATON Media Player di Interra supporta...

Interra Systems, fornitore globale di prodotti e soluzioni software per l'industria dei media digitali,...

| In World-News| 05 Maggio, 2021
TSL: monitoraggio audio e controllo...

TSL: monitoraggio audio e controllo...

Quando Gentec, noto appaltatore saudita per progetti di telecomunicazioni, elettronica...

| In World-News| 04 Maggio, 2021

- SVG Europe -

SVG EUROPE SPORTS TV AWARDS 20...

SVG EUROPE SPORTS TV AWARDS 20...

Gli SVG Europe Sports TV Awards 2021, sponsorizzati da Canon, riconosceranno e onoreranno le aziende,...

| In Svg-Europe| 12 Maggio, 2021
Remote production of SuperLega...

Remote production of SuperLega...

  The number of cameras used to capture the action has been doubled from two to four 3Zero2...

| In Svg-Europe| 04 Maggio, 2021
SVG Europe: Football Summit 2021,...

SVG Europe: Football Summit 2021,...

SVG Europe's Football Summit, sponsorizzato da EVS, ritorna per il 2021 con un pomeriggio di presentazioni,...

| In Svg-Europe| 12 Aprile, 2021

- Video Professionale -

Harmonic e Veygo al Trinity Christian...

Harmonic e Veygo al Trinity Christian...

Harmonic qualche mese addietro annunciava che il Trinity Christian Center, un luogo di culto...

| In Video-Professionale| 04 Maggio, 2021
Riedel con MediorNet: un'infrastruttura...

Riedel con MediorNet: un'infrastruttura...

Riedel Communications ha annunciato che la popolare rete televisiva francese Metropole Television (M6...

| In Video-Professionale| 04 Maggio, 2021
Bitmovin Analytics, contrassegnare...

Bitmovin Analytics, contrassegnare...

Solo per individui reattivi! Di: Christoph Prager In tutti i ceti sociali e le varietà di affari,...

| In Video-Professionale| 02 Maggio, 2021

- Tecnologie Innovative -

S.M. di Pino Stillitano, restyling del nuovo...

S.M. di Pino Stillitano, restyling del nuovo...

“Siamo sempre concentrati sul miglioramento dell'esperienza". Dopo molti mesi di duro lavoro e dedizione...

| In Tecnologie-Innovative| 17 Maggio, 2021
I sistemi video TAG Video Systems migliorano...

I sistemi video TAG Video Systems migliorano...

Mentre i servizi OTT continuano a salire alle stelle, TAG risponde alla necessità...

| In Tecnologie-Innovative| 02 Maggio, 2021
Editshare, fare il primo passo:...

Editshare, fare il primo passo:...

Poiché le organizzazioni adottano le tecnologie cloud per la produzione video, spesso la prima area di...

| In Tecnologie-Innovative| 30 Aprile, 2021

Presspool.it Ufficio Stampa in Pixel

Dicono di noi
Special Mention
applausi
Progetto & Contenuti
Project & Contents
Video
Link ai filmati
LINKED-IN e Soci(al)
I link ai social network
Contatti - Contacts
www.presspool.it

Latest News - Ultimissime (2)

News Alert

Copyright © Roberto Landini PressPool.it 2000-2020. PIIT‭039 12510967. All rights reserved. We strive for accuracy and fairness. If you see something that doesn't look right, contact us: info [At] presspool. it