 PressPool ufficio stampa digitale

Descrittori compatti per l'analisi visiva (CDVA)

Il formato MLAF (Media Linking Application Format), formalmente referenziato come ISO / IEC 23000-18, è uno standard internazionale ISO / IEC proposto e sviluppato con importanti contributi dai membri del progetto BRIDGET dell'UE tra il 2015 e il 2016. Il suo scopo è quello di fornire un formato comune e condivisibile per lo scambio e la memorizzazione di informazioni di collegamento multimediali in modo agnostico all'applicazione.


Gli oggetti multimediali intercollegati possono essere di qualsiasi natura, secondo la definizione ISO / IEC 21000-2 (MPEG-21 Digital Item) e possono essere associati a metadati descrittivi estesi.
MLAF può essere sfruttato da tutte le entità interessate a produrre e monetizzare le informazioni di collegamento, compresi i produttori di media, gli inserzionisti, le emittenti e gli utenti finali. L'impatto di MLAF sarebbe quello di consentire l'esistenza di un ampio ecosistema di media link in cui le inter-relazioni tra gli elementi dei media sarebbero comprensibili e utilizzabili da chiunque.

Descrittori compatti per l'analisi visiva (CDVA) -Ricerca efficiente in contenuti video su larga scala

Gestire e organizzare il volume in rapida crescita dei contenuti video è una sfida per molti settori industriali, come i media, l'intrattenimento o la sorveglianza. Un'attività di esempio è la ricerca scalabile di istanze, ovvero la ricerca di un contenuto con un'istanza o una posizione di un oggetto specifica in un database video molto grande.
Ciò richiede descrittori video che possano essere estratti, archiviati e abbinati in modo efficiente.
La standardizzazione consente di estrarre descrittori interoperabili su diversi dispositivi e utilizzare software di provider diversi, in modo che solo i descrittori compatti anziché i video di origine molto più grandi possano essere scambiati per trovare le corrispondenze o l'esecuzione di query.
Il Gruppo MPEG ha già specificato un descrittore compatto per le immagini fisse, denominato Descrittore compatto per Ricerca visiva (CDVS, ISO / IEC 15938-13).
Tuttavia, la ridondanza temporale nel video consente di ottenere descrittori più compatti rispetto a quanto ottenuto utilizzando i descrittori di immagini fisse per una sequenza di fotogrammi chiave di un video.
Lo standard Descrittori compatti per analisi video (CDVA) definisce quindi un descrittore che sfrutta la ridondanza temporale nel video. Inoltre, vi aggiunge un componente descrittore basato su funzionalità estratte utilizzando una rete neurale convoluzionale (CNN) per beneficiare dei recenti progressi compiuti nel deep learning.

Descrittori compatti per analisi video per applicazioni di ricerca e recupero:
abilitano la progettazione di applicazioni interoperabili di ricerca su istanze di oggetti;
riducono al minimo le dimensioni dei descrittori video;
garantiscono elevate prestazioni di corrispondenza degli oggetti (in termini di accuratezza e complessità);
abilitano l'implementazione efficiente di tali funzionalità su sistemi professionali o incorporati.
Applicazioni
CDVA si rivolge a una vasta gamma di applicazioni che richiedono una corrispondenza o una ricerca efficiente nei contenuti video su larga scala. In particolare nelle applicazioni distribuite, che coinvolgono dispositivi con capacità di elaborazione limitate (ad es. Dispositivi mobili, telecamere intelligenti, set top box), l'estrazione e l'archiviazione efficiente dei descrittori sono rilevanti.
I seguenti paragrafi presentano esempi di applicazioni di domini diversi che traggono vantaggio da CDVA.
Media e intrattenimento
indicizzazione dei contenuti video in produzione e archiviazione
rilevamento di pubblicità indesiderata / inserimento di prodotti
identificazione del contenuto in applicazioni di realtà aumentata e mista, ad es. per collegare i contenuti aumentati al contenuto del mondo reale
crowd & citizen journalism: filtraggio e organizzazione dei contenuti
Sorveglianza
ricerca istanze di oggetti specifiche attraverso una raccolta di contenuti
estrazione / corrispondenza su telecamere intelligenti per restituire solo i descrittori a un componente del sistema centrale
Video in mobilità
elaborazione del contenuto sui dispositivi client
elaborazione dei contenuti in edge per scaricare il backbone della rete
Automotive, produzione, robotica, ...
navigazione e sicurezza basate sulla visione

Scopo di MPEG CDVA e della tecnologia sottostante
Lo standard CDVA specifica uno strumento di descrizione video progettato per abilitare applicazioni di ricerca visiva efficienti e interoperabili, consentendo la corrispondenza di contenuti visivi in video e immagini.
Questo restituisce la corrispondenza delle visualizzazioni di oggetti, punti di riferimento e scene, inclusa la sovrapposizione temporale parziale nel video, mentre è indifferente rispetto alle occlusioni parziali così come i cambiamenti nel punto di vista, i parametri della fotocamera, le condizioni di illuminazione.
La progettazione e lo sviluppo di CDVA si rivolge alla standardizzazione della tecnologia di riconoscimento di istanze di oggetto (in movimento), sfruttando una serie di vantaggi e funzionalità descritti di seguito.
Per evitare la corrispondenza a coppie dei fotogrammi video utilizzando descrittori di immagini ferme compatte come CDVS, l'unità descritta da CDVA è un segmento di video temporale. Un tale segmento di video è caratterizzato da omogeneità visiva, e può corrispondere a uno sparo o anche a un segmento temporale più piccolo.
CDVA consente la corrispondenza rapida senza elaborare tutte le informazioni per il segmento e supporta la compressione lungo la dimensione temporale selezionando un frame rappresentativo per segmento, fornendo un descrittore compatto per questo frame e rappresentando altri descrittori nel segmento prevedendoli da questo descrittore di riferimento.

Un descrittore CDVA per un segmento video è costituito da tre componenti.
I descrittori di feature globali e locali si basano sui componenti del descrittore CDVS.
Il descrittore di funzioni profonde viene estratto utilizzando una CNN e applicando una procedura denominata nested invariance pooling (NIP) per migliorare la sua robustezza alle trasformazioni geometriche.
Il descrittore risultante viene quindi binarizzato per l'archiviazione e la corrispondenza efficienti. Per la compressione lungo la dimensione temporale, la compressione senza perdita viene applicata ai descrittori di feature globali e profondi (risparmiando il 25% anche per i descrittori già binarizzati), mentre la compressione lossless o lossy viene applicata ai descrittori di feature locali.
Ciò consente il ridimensionamento tra la dimensione del descrittore e l'accuratezza della corrispondenza.
Mentre il componente deep feature appena aggiunto è il singolo a migliore performance, la combinazione dei componenti descrittore continua a essere superiore.

Caratteristiche
Le specifiche MPEG CDVA includono una serie di funzionalità, la maggior parte delle quali sono allineate con le funzionalità note da CDVS:
Confronti pair-wise: CDVA consente la corrispondenza dei contenuti visivi a coppie che è resistente alle occlusioni parziali così come i cambiamenti nel punto di osservazione, i parametri della telecamera e le condizioni di illuminazione. CDVA supporta anche la corrispondenza parziale lungo la timeline.
Recupero di database su larga scala: CDVA fornisce mezzi per eseguire ricerche su database di dimensioni estremamente elevate (ad esempio su scala Web) in un tempo più breve, generando così rapidamente una breve lista di candidati per ulteriori perfezionamenti.
Bit-stream scalabili: CDVA supporta diverse dimensioni di flussi di bit di descrittori compatti, supportando quindi applicazioni che vanno dalla corrispondenza a grana fine a scenari di larghezza di banda estremamente limitati.
Descrittori estratti con dimensioni diverse possono interagire in modo efficiente. Il descrittore supporta sia modalità di compressione lossy che lossless lungo la dimensione temporale.
Estensibilità con le future architetture di reti neurali: la CNN fornita come rete predefinita (VGG16) può essere sostituita da una rete neurale personalizzata, consentendo in tal modo alle applicazioni di beneficiare dei rapidi progressi nel campo dell'apprendimento in profondità.
Compatibilità con CDVS: i componenti del descrittore di funzione globale e locale di CDVA sono compatibili con i rispettivi componenti di CDVS. Inoltre, CDVA supporta i fermi immagine, facilitando così l'interoperabilità tra i due standard.
Efficienza nell'implementazione hardware: lo sviluppo dello standard CDVA è stato guidato puntando a soluzioni con una complessità computazionale molto bassa e un ingombro ridotto della memoria, facilitando così implementazioni hardware a bassa potenza. In particolare, entrambi i componenti che utilizzano funzionalità basate su CNN e artigianali possono trarre vantaggio da hardware che supporta l'esecuzione massicciamente parallela, come le GPU. È stato inoltre dimostrato che le funzioni basate sulla CNN possono essere estratte utilizzando una versione della rete con pesi quantizzati a soli 4 bit per un'efficiente estrazione del descrittore su dispositivi con limiti di potenza e di memoria.
Sufficienza: i descrittori sono autonomi, non sono necessari altri metadati per abilitare la ricerca. Tuttavia, i descrittori di CDVA possono essere facilmente combinati con altri metadati pertinenti (ad esempio coordinate GPS) allo scopo di restringere l'ambito della ricerca e migliorare l'efficienza di recupero.
Generalità: la tecnologia CDVA si rivolge a scenari generici: pertanto, la soluzione standard è progettata per garantire la robustezza con qualsiasi categoria di contenuti video.
Software di riferimento e prestazioni
Il software di riferimento MPEG CDVA viene utilizzato per estrarre i descrittori compatti per l'analisi video da una determinata immagine o video.
I descrittori compatti possono essere utilizzati in abbinamento a coppie, ovvero il confronto di due descrittori per determinare la somiglianza tra i video e il recupero, ovvero la proiezione di un descrittore di query in un database di descrittori in modo da recuperare i segmenti temporali più simili dei video di database alla domanda video / immagine.
Le prestazioni del software di riferimento sono state valutate su un ampio set di dati raccolti da MPEG in una serie di esperimenti.

In un set di contenuti diversi, la dimensione di un descrittore CDVA è compresa nell'intervallo di 2-4 kByte al secondo del video, con un tempo di estrazione di circa 0,7 secondi al secondo (utilizzando solo un core CPU singolo)
Il descrittore raggiunge un tasso di corrispondenza corretto dell'88% (al tasso di corrispondenza errato dell'1%) mentre nel recupero viene raggiunta una precisione media media (MAP1) dell'83%.
Gli standard associati CDVA MPEG
Le specifiche principali di CDVA si trovano in ISO / IEC 15938-15: "Parte 15: descrittori compatti per analisi video".
Il comitato MPEG ha sviluppato una parte aggiuntiva da aggiungere alle specifiche principali. ISO / IEC 15938-16 "Parte 16: Software di conformità e di riferimento per descrittori compatti per analisi video" specifica il software di conformità e di riferimento che implementa le clausole normative della Parte 15. Inoltre, il software di riferimento fornisce contenitori Docker per una facile implementazione e sperimentazione con il software di riferimento.

PressPool

PressPool Abroad

PressPool Abroad

OUR MAIN COURSES (FOR INTERNATIONAL CUSTOMERS): PressPool Press office "main courses" (for international customers) are: * Creating press releases and case studies on target * Create and populate international websites * Web videos, pure...

PressPool Abroad

PressPool Abroad

OUR MAIN COURSES (FOR INTERNATIONAL CUSTOMERS): PressPool Press office "main courses" (for international customers) are: * Creating press releases and case studies on target * Create and populate international websites * Web videos, pure...

Adsense XP

  PressPool p.iva 03912510967