• Presspool.it
    UfficioStampa in Pixel
    multi platform contents
  • Presspool.it
    PressOffice in Pixel
    case studies, press releases, comunicati stampa, news stories
  • Presspool.it
    UfficioStampa in Pixel
    articoli, interviste, video, socialing
  • Presspool.it
    UfficioStampa in Pixel
    digital reputation, awareness, return on relation RoR
  • Techwise PressOffice
    Presspool.it

Epiphan LiveScrypt: Precisione AI da sintesi vocale a testo. È abbastanza buona per i tuoi eventi dal vivo? Di Michael Monette

EpiphanAI speech to text accuracyL'attuale tecnologia di trascrizione automatica offre una valida alternativa ai tradizionali servizi di trascrizione dal vivo? Risposta breve: sì. 
Con i progressi nella tecnologia di riconoscimento vocale, l'accuratezza della sintesi vocale da testo a testo ha raggiunto un livello adatto per eventi dal vivo, dalle presentazioni di conferenze e riunioni aziendali alle lezioni universitarie e ai sermoni della chiesa.

Questa non è affatto una conclusione infondata. 
Si basa sulla nostra ricerca 
(Epiphan Video) che esamina le prestazioni delle principali API di riconoscimento vocale per determinare la loro "disponibilità in tempo reale". 

Contenuti

Metodi: valutazione dell'accuratezza della sintesi vocale da testo dell'intelligenza artificiale

Risultati: AI e trascrizione umana a confronto

Conclusione: l'accuratezza del parlato in testo dell'IA è paragonabile a quella degli esseri umani

Ottieni il meglio della tecnologia di trascrizione automatica oggi stesso

Ottieni la migliore precisione di sintesi vocale da testo

Cattura l'audio cristallino che è essenziale per una trascrizione AI accurata con Epiphan LiveScrypt, un dispositivo di trascrizione automatica dedicato con ingressi per audio professionale (XLR / TRS) e molte altre potenti funzionalità.

Metodi: valutazione dell'accuratezza della sintesi vocale in testo

Abbiamo confrontato tre principali interfacce di programmazione di applicazioni (API) di riconoscimento vocale - Amazon Transcribe, Google Cloud Speech-to-Text e IBM Watson Speech to Text - con i trascrittori umani in base a una serie di criteri:

Precisione: la velocità con cui la soluzione commette errori nella trascrizione delle parole pronunciate, misurata come Tasso di errore delle parole (WER [Trascrizione, Riferimento] = [Sostituzioni + Eliminazioni + Inserimenti] / Parole in riferimento).

Latenza della prima ipotesi: il tempo che intercorre tra l'enunciazione di una parola e l'output del testo.

Latenza ipotesi stabile: il tempo che intercorre tra l'enunciazione di una parola e l'output del testo corretto.

Costo: la tariffa per l'utilizzo del servizio associato.

Per valutare le prestazioni della trascrizione automatica, abbiamo fornito a ciascuna API oltre 1.500 frasi campione da un set di test reso disponibile da Texas Instruments e dal Massachusetts Institute of Technology (TIMIT). 
Abbiamo confrontato i risultati con le trascrizioni di riferimento incluse nel set di test e abbiamo misurato la latenza. 
Alla fine, abbiamo deciso di non regolare i tempi di trascrizione per il tempo di andata e ritorno (RTT) poiché RTT costituiva una porzione relativamente piccola della latenza complessiva in ogni caso.

Per stabilire una linea di base per le prestazioni di trascrizione umana, abbiamo attinto e generalizzato i risultati da più fonti accademiche.

Una nota sulla terminologia.

Per "trascrittore" si intende un professionista che trascrive il discorso utilizzando la tastiera di un computer rispetto a uno stenografo, che sarebbe in grado di digitare a velocità più elevate utilizzando uno stenografo. 
I mercati aziendali, dell'istruzione e degli eventi speciali tendono a utilizzare i trascrittori perché gli stenografi applicano tariffe notevolmente più elevate.

Per quanto riguarda il test set TIMIT, la registrazione di tali campioni è avvenuta in un ambiente a controllo acustico. 
Abbiamo normalizzato le trascrizioni dei riferimenti convertendo le lettere maiuscole in minuscole, rimuovendo la punteggiatura e scrivendo i termini numerici. 
Quindi abbiamo calcolato il tasso di errore della parola (WER) per ogni espressione. Sulla base del set di test completo, per ogni motore abbiamo anche calcolato un intervallo di confidenza WER e WER medio (bilaterale, confidenza 95%, distribuzione t, se vuoi essere specifico).

Il nostro set di dati includeva alcune variazioni poiché le frasi di prova erano composte da una varietà di persone che parlavano a velocità diverse. 
Ma questo è vero per le varie velocità di pronuncia, toni e altre differenze di parlato che potresti trovare nelle impostazioni del mondo reale. 
Nessuno degli oratori è stato incaricato di parlare lentamente in un microfono per rendere più probabile una trascrizione accurata. 
Alla luce di tutte queste precauzioni, siamo certi che i dati unificati riflettono fedelmente la reale accuratezza di ciascuna API.
Vale anche la pena notare che i nostri test erano solo in inglese. 
L'inglese è la lingua più utilizzata nelle applicazioni che abbiamo analizzato, il che potrebbe significare che l'inglese è la parte del leone nell'attenzione degli sviluppatori. In ogni caso, sospettiamo che ci sarebbero solo piccole differenze tra le lingue.

Sul case study di Epiphan sono riportati i costi dei provider citati sopra per minuto.Sul case study di Epiphan sono riportati i costi dei provider citati sopra per minuto. 

È importante notare che tali risultati riflettono lo stato di ciascuna API nel gennaio 2020, quando si sono svolti i test. Le prestazioni potrebbero essere migliori solo se eseguissimo gli stessi test oggi, poiché la tecnologia di riconoscimento vocale, come parte dell'apprendimento automatico, migliora nel tempo.

Conclusione: l'accuratezza del parlato in testo dell'IA è paragonabile a quella degli esseri umani.

Ogni API ha raggiunto un livello di precisione e latenza adatto per i sottotitoli in tempo reale. 
La latenza dell'API di Amazon era leggermente superiore a quella dei motori di IBM e Google, ma i tre sono paragonabili in termini di accuratezza e costo. 
Abbiamo anche testato ogni motore per la resilienza al rumore (accuratezza della trascrizione in presenza di rumore) e abbiamo scoperto che la qualità delle apparecchiature audio, il posizionamento del microfono e altri fattori sono essenziali per prestazioni accettabili.

Cosa significa tutto questo in termini pratici? Queste API sono pronte per l'uso in scenari di eventi dal vivo, ma come possono le organizzazioni sfruttarle effettivamente?

Ciò richiederebbe lo sviluppo di:

Un edge agent di riconoscimento vocale automatico per acquisire e trasmettere dati audio al cloud.

Una piattaforma di digital signage e un agente per ricevere, eseguire il rendering e visualizzare le trascrizioni.

Un portale Web o un'applicazione mobile per accogliere gli utenti che sono seduti lontano dai monitor in camera o che hanno problemi di vista o perdita della vista.

E così via. L'altra opzione, meno onerosa, è quella di utilizzare un dispositivo di trascrizione automatico dedicato disponibile in commercio.

LiveScrypt, trascrizione dal vivo accurata, conveniente e automatica.

Epiphan LiveScrypt converte la voce in testo in tempo reale per la visualizzazione su monitor e dispositivi mobili durante gli eventi dal vivo, migliorando l'accessibilità e il coinvolgimento dei partecipanti in modo economico.

Basato sull'avanzata tecnologia di riconoscimento vocale di Google, LiveScrypt dispone di ingressi audio professionali (XLR, TRS) in modo da poter acquisire un audio cristallino che favorisce un'elevata precisione di sintesi vocale da testo. LiveScrypt include anche ingressi HDMI e SDI per catturare l'audio incorporato, uno schermo integrato per la configurazione e un sistema di codici QR per un facile streaming, semplificando la configurazione e riducendo i punti di errore.

INFO: https://epiphan.com/products/livescrypt

- Broadcast Radio & TV -

GLP impression S350 Wash per Virtual...

GLP impression S350 Wash per Virtual...

I tempi di risposta rapidi e l'emissione luminosa di alta qualità sono fondamentali nelle complesse applicazioni...

| In Lighting-Projection| 21 Ottobre, 2021
MediaPower ARKKI Ingest, la nuova...

MediaPower ARKKI Ingest, la nuova...

Registratore digitale multi canale, multi codec e streamer.  ARKKI Suite è la risposta di MediaPower...

| In Acquisizione-Produzione| 18 Ottobre, 2021
AVIWEST ​​lancia il trasmettitore...

AVIWEST ​​lancia il trasmettitore...

PRO460 è un'unità di produzione all-in-one che offre funzionalità 4K/UHD e multicamera su reti 5G. AVIWEST,...

| In Acquisizione-Produzione| 15 Ottobre, 2021

- Audio Pro -

Riedel: sistemi di interfono e...

Riedel: sistemi di interfono e...

Crealine Media Systems AG sta portando le sue produzioni di eventi dal vivo a un livello superiore con...

| In Audio-Professionale| 15 Ottobre, 2021
ASI Audio x Sensaphonics 3DME Music...

ASI Audio x Sensaphonics 3DME Music...

Ron Young, fondatore e frontman della band hard rock Little Caesar, ha viaggiato con il suo sistema in-ear...

| In Audio-Professionale| 07 Ottobre, 2021
REDIAcoustics:nuovo approccio scientifico...

REDIAcoustics:nuovo approccio scientifico...

NIRO™ (ottimizzazione iterativa della stanza non cuboide). Uno strumento software di analisi acustica...

| In Audio-Professionale| 06 Ottobre, 2021

- Post & Graphics -

Zero Density rilascia la Virtual...

Zero Density rilascia la Virtual...

La società turca Zero Density annuncia la disponibilità immediata della sua prima soluzione hardware...

| In Post & Graphics| 18 Ottobre, 2021
VSN. Una guida per comprendere cos’è...

VSN. Una guida per comprendere cos’è...

Oggi, la competitività nel settore Broadcast e Media è cresciuta al punto che ogni secondo conta, ancora...

| In Post & Graphics| 18 Ottobre, 2021
AJA Diskover Media Edition: cerca,...

AJA Diskover Media Edition: cerca,...

AJA Diskover Media Edition è la più recente offerta di software di AJA progettata per aiutare a risolvere...

| In Post & Graphics| 13 Ottobre, 2021

- Sports & News Broadcast -

Flowics con la rete BetQL per l'integrazione...

Flowics con la rete BetQL per l'integrazione...

BetQL Network, un canale digitale lineare e live, ha scelto Flowics per integrazione rapida e scalabile...

| In Sports Broadcast| 19 Ottobre, 2021
Appear fornisce collegamenti ai...

Appear fornisce collegamenti ai...

Appear fornisce collegamenti di contributo video a bassa latenza per il sistema VAR per le partite di...

| In Sports Broadcast| 28 Settembre, 2021
Eurovision Services e le 4 prove...

Eurovision Services e le 4 prove...

Attraverso la sua partnership con Aurora Media Worldwide, Eurovision Services ha fornito una...

| In Sports Broadcast| 22 Settembre, 2021

- World News -

Limelight completa l'acquisizione...

Limelight completa l'acquisizione...

Limelight Networks, Inc. fornitore di servizi cloud edge, a luglio annunciava di aver stipulato...

| In World-News| 12 Ottobre, 2021
NVIDIA AI Enterprise rende l'AI...

NVIDIA AI Enterprise rende l'AI...

Il software NVIDIA offre a centinaia di migliaia di aziende in tutto il mondo la possibilità di eseguire...

| In World-News| 07 Ottobre, 2021
Epiphan Pearl-2 e NDI produzione...

Epiphan Pearl-2 e NDI produzione...

Pearl-2 e NDI hanno potenziato la produzione video per l'”immagine” del Senato dello...

| In World-News| 29 Settembre, 2021

- SVG Europe -

Eurovision Services con Infront...

Eurovision Services con Infront...

Infront Moto Racing estende l'accordo con Eurovision Services per la distribuzione mondiale e lo streaming...

| In Svg-Europe| 15 Ottobre, 2021
Lega Serie A, Media Operations...

Lega Serie A, Media Operations...

In una precedente intervista [LINK] abbiamo descritto alcune delle molte novità con cui si è aperta la...

| In Svg-Europe| 22 Settembre, 2021
Eurovision Services e la remote...

Eurovision Services e la remote...

Effettuato con successo un test di produzione remota basata su cloud in occasione di un evento della...

| In Svg-Europe| 04 Agosto, 2021

- Video Professionale -

Riedel e Backstage Academy collaborano...

Riedel e Backstage Academy collaborano...

Con una forte mossa per supportare la prossima generazione di professionisti degli eventi dal vivo, Riedel...

| In Video-Professionale| 18 Ottobre, 2021
Aja T-Tap Pro, monitoraggio mobile,...

Aja T-Tap Pro, monitoraggio mobile,...

T-TAP Pro è la soluzione perfetta per molteplici scenari di produzione, inclusi sul set, in remoto, in...

| In Video-Professionale| 15 Ottobre, 2021
IBC Show: 3 - 6 December, di persona!...

IBC Show: 3 - 6 December, di persona!...

1. È dove l'industria si incontra per fare affari. Amsterdam è aperta agli affari, IBC è aperta...

| In Associazioni-Fiere| 12 Ottobre, 2021

- Tecnologie Innovative -

La Famiglia Amaran cresce, Apu...

La Famiglia Amaran cresce, Apu...

Amaran P60c è un pannello LED a colori RGBWW progettato per creatori di contenuti, videografi e registi...

| In Tecnologie-Innovative| 21 Ottobre, 2021
A world of value-added opportunities...

A world of value-added opportunities...

MAM/DAM Arkki EVO changes skin with Micro-Services.With a significant development effort aimed at exponentially...

| In Tecnologie-Innovative| 13 Ottobre, 2021
Dalet Flex e Spectra BlackPearl:...

Dalet Flex e Spectra BlackPearl:...

L'integrazione tra Dalet e #SpectraLogic non è una novità, ma l'ultima offerta di Spectra Logic,#SpectraBlackPearl...

| In Tecnologie-Innovative| 05 Ottobre, 2021

Presspool.it Ufficio Stampa in Pixel

Dicono di noi
Special Mention
applausi
Progetto & Contenuti
Project & Contents
Video
Link ai filmati
LINKED-IN e Soci(al)
I link ai social network
Contatti - Contacts
www.presspool.it

Latest News - Ultimissime (2)

News Alert

Copyright © Roberto Landini PressPool.it 2000-2021. PIIT‭039 12510967. All rights reserved. We strive for accuracy and fairness. If you see something that doesn't look right, contact us: info [At] presspool. it