Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

Nous avons testé Azure Video Indexer, un outil puissant pour les transcriptions automatiques de vidéos et podcasts

Carole Tisserand-Barthole
Bases no
403
publié en
2022.05
1728
Nous avons testé Azure Video Indexer, un outil puissant ... Image 1

Les contenus multimédias et notamment les vidéos et les podcasts continuent de se multiplier sur le Web et les réseaux sociaux, avec des contenus potentiellement pertinents et professionnels pour la veille et la recherche d’information, que l’on ne retrouve pas nécessairement sous un autre format.

Mais tous ces contenus restent difficiles à appréhender et à intégrer pleinement dans nos processus de veille ou de recherche. À tous les niveaux d’ailleurs, qu’il s’agisse du sourcing, de la collecte, de l’analyse ou de la diffusion.

Trouver ces contenus est un premier défi, car on ne recherche généralement que sur les métadonnées (titre, descriptif, tags), ce qui est très (trop) restrictif. Et les solutions qui indexent en texte intégral et permettent de rechercher efficacement sur le contenu sont généralement onéreuses.

Une fois que l’on a identifié des vidéos a priori pertinentes, les analyser et capitaliser sur leur contenu est un défi tout aussi grand.

C’est à cette phase que nous allons nous intéresser dans cet article avec un outil qui coche pratiquement toutes les cases : Azure Video Indexer qui est gratuit, performant et simple à utiliser.


Lire aussi :

Comment intégrer YouTube dans votre dispositif de veille 
Avec le Live Streaming, les médias innovent mais le veilleur souffre
Recherche et veille Radio Télévision : les meilleurs outils
Mediatree veut faire profiter les veilleurs et professionnels de l’information de sa technologie de veille audiovisuelle
La révolution multimédia bouscule la veille


Dans cet article, nous expliquons en détail la démarche à suivre pour utiliser tout le potentiel de l’outil et récupérer les transcriptions de vidéos et podcasts et les explorer. Dans un second temps, nous évaluons les qualités et défauts de cet outil et son intérêt pour toute personne confrontée à la veille ou la recherche d’information sur les contenus multimédias.

Présentation d’Azure Video Indexer (anciennement Azure Video Analyzer)

Azure Video Indexer est une application qui utilise l’IA pour extraire des données de vidéos et contenus audio : la transcription en speech to text tout d’abord, mais l’outil va également plus loin : détection d’entités nommées, de marques de noms de personnes, analyse du sentiment, traduction de la transcription dans la langue de son choix, reconnaissance faciale, etc.

Il est gratuit à condition de ne pas charger plus de 10 heures de vidéos ou contenus audio. Au-delà, le paiement se fait à la minute. Mais il suffit de supprimer des vidéos/podcasts de sa bibliothèque et ainsi redescendre en dessous des 10 heures de contenus indexés pour continuer à l’utiliser gratuitement.

On trouve sur le site d’Azure une infographie illustrant le fonctionnement de l’outil et de tous les éléments qu’il est capable d’extraire à partir d’un fichier audio et vidéo (voir Figure 1. Illustration du fonctionnement d’Azure Video Indexer)

azur video indexer

Figure 1. Illustration du fonctionnement d’Azure Video Indexer (source : https://docs.microsoft.com/en-us/azure/azure-video-indexer/video-indexer-overview)

Ce qu’il faut savoir pour utiliser tout le potentiel d’Azure Video Indexer

Azure Video Indexer est disponible à l’adresse suivante : https://www.videoindexer.ai/

Étape 1 : Se créer un compte

Pour commencer à l’utiliser, il faut se connecter à l’outil.

Trois méthodes de connexion sont possibles :

  1. Avec un compte Google (un compte Gmail par exemple) ;
  2. Avec les identifiants de son compte Microsoft professionnel (dont on dispose si l’entreprise utilise Microsoft 365) ;
  3. Avec un compte personnel Microsoft.

Étape 2 : Récupérer les vidéos et podcasts aux formats MP3 ou MP4

Avant d’utiliser l’outil, il faut récupérer les vidéos ou podcasts que l’on souhaite analyser aux formats MP3 pour les contenus audio et mp4 pour les contenus vidéo. D’autres formats sont également disponibles.

Pour ce faire, rien de plus simple, il suffit de récupérer l’URL de la vidéo et d’utiliser un outil en ligne gratuit qui permet de télécharger les vidéos et contenus audio en ligne en fichier MP3 ou mp4.

Il existe des centaines d’outils de ce type sur le Web que l’on pourra identifier en effectuant une recherche sur Google du type :

  • convertisseur video mp4
  • converter video mp4
  • convertisseur video youtube mp4

Voici quelques outils que nous avons déjà eu l’occasion de tester et qui fonctionnent bien :

Ces outils étant très instables, il faut être en mesure d’en identifier de nouveaux si ceux cités venaient à ne plus fonctionner.

Ces outils ont tous un fonctionnement similaire :

  • On entre l’URL de la vidéo en ligne ;
  • On choisir le format de sortie (MP3, MP4ou autre) ;
  • On clique sur convertir/convert ;
  • On télécharge ensuite le fichier MP3 ou MP4 sur son ordinateur.

Étape 3 : Charger la vidéo ou le podcast dans Azure Video Indexer

L’étape suivante consiste à charger le fichier MP3/MP4 dans l’outil.

On cliquera sur « Charger » dans l’interface d’accueil.

On devra alors choisir :

  • La langue source de la vidéo/fichier audio (très important - il ne faut pas se tromper) ;
  • Si cette vidéo doit être chargée en privé ou public (nous conseillerons privé) et donc visible ou non par d’autres internautes ;
  • Si on indexe l’audio et la vidéo, l’audio seulement ou la vidéo seulement ;
  • Puis on lance le téléchargement.

Attention : Le fichier ne doit pas dépasser 30 Go de taille et 4 heures de durée. L’indexation n’est pas instantanée et peut prendre plusieurs dizaines de minutes selon la taille de la vidéo.

L’outil est capable d’indexer des vidéos et contenus audio uniquement dans les langues suivantes : arabe, chinois, tchèque, néerlandais, anglais, finnois, français, allemand, hébreu, hindi, italien, japonais, coréen, norvégien, persan, polonais, portugais, russe, espagnol, suédois, thai et turc.

azur intégrer un audio

Figure 2. Charger une vidéo ou podcast sur Azure Video Indexer

Étape 4 : Explorer toutes les fonctionnalités offertes sur une vidéo

Une fois la vidéo indexée, il suffit de cliquer sur la petite icône de la vidéo pour visualiser toutes les données extraites et analysées par Azure Video Indexer.

Nous avons fait le test sur une vidéo provenant du site du Monde sur la viande de laboratoire.

azur video paul shapiro

Figure 3. Données extraites par Azure Video Indexer à partir d’une vidéo

Explorer toutes les entités extraites

Sur l’écran principal, on visualise la vidéo et, sur la droite, toutes les données extraites de la vidéo :

  • Les visages de personnes apparaissant dans la vidéo. Et s’il s’agit d’une personnalité suffisamment connue, on peut même avoir le nom et prénom de la personne, sa profession, un lien vers sa biographie et un lien pour rechercher de l’information sur cette personne dans Bing ;
  • Les grands thèmes et sujets traités dans la vidéo (santé par exemple) ;
  • Les effets audio (silence par exemple) ;
  • Une liste de mots-clés prononcés dans la vidéo (viande cultivée, souffrance animale par exemple) ;
  • Une liste de labels (c’est-à-dire d’éléments visuels repérés par l’IA comme des visages, des lunettes, une vache sans que le terme ne soit nécessairement cité) ;
  • Une liste d’entités nommées (personnes, lieux ou marques) ;
  • Des émotions détectées dans la vidéo (colère, tristesse, etc.) ;
  • La vidéo découpée en séquences.

Pour chaque élément, on peut voir à quel(s) endroit(s) de la vidéo cela apparaît (les moments précis où le visage de telle personne apparaît, le moment précis où telle entité nommée est citée, etc.). Il suffit alors de cliquer dessus pour que la vidéo se mette en marche à l’endroit correspondant.

Explorer la transcription

  • L’outil réalise également une transcription en speech to text et à laquelle on peut accéder dans l’onglet « Chronologie ».

Par défaut, on visualise la transcription simple dans la langue originale de la vidéo avec un système d’horodatage permettant de se rendre directement au bon endroit dans la vidéo.

  • On dispose également d’un moteur de recherche qui recherche uniquement sur une chaîne de caractères et non des mots-clés.
  • Mais l’outil va encore plus loin même si ce n’est pas visible. En plus de la transcription en speech to text, l’outil propose une fonctionnalité d’océrisation qui permet d’extraire tout ce qui est écrit textuellement sur l’image (sous-titres, schémas contenant des éléments textuels).

Ces fonctionnalités spécifiques sont disponibles dans l’onglet « Afficher ». Cela permettra alors de visualiser et rechercher sur les contenus textuels qui ne sont pas prononcés à l’écran.

  • Dernière fonctionnalité autour de la transcription et pas des moindres : la traduction automatique de la transcription. Une soixantaine de langues sont disponibles.

Notre avis
Nous avons été très impressionnés par la qualité et la puissance des fonctionnalités de cet outil qui, dans sa version gratuite, peut satisfaire les besoins de nombreux professionnels. En plus, l’outil est très simple à prendre en main.⚠️Mais comme tout outil, il y a quelques limites et inconvénients à connaître.

Quand une vidéo mélange plusieurs langues

Tout d’abord, l’outil se focalise sur une langue en particulier, celle indiquée lorsque l’on charge le fichier MP3 ou MP4. Si la vidéo mélange plusieurs langues, l’outil ne sera pas capable de la prendre en compte et négligera l’une des langues.

Dans notre exemple, certains intervenants s’exprimaient en anglais et leurs propos étaient donc sous-titrés en français. Leurs propos en anglais n’étaient pas pris en compte dans la transcription, mais les sous-titres en français l’étaient bien grâce à la fonctionnalité OCR. Il n’y avait donc finalement pas de perte d’information dans ce cas précis si ce n’est une légère perte de nuance ou de sens du fait de la traduction.

Une couverture des langues encore incomplète

L’outil est capable de travailler sur 22 langues, ce qui est très honorable, mais pas toujours suffisant. Dans le cas de langues non prises en compte par Azure Video Indexer, on conseillera alors l’utilisation d’outils et services payants comme :

L’IA n’est jamais exhaustive

L’outil n’est pas complètement exhaustif dans les données qu’il extrait. Certains noms de marques, mots-clés, nom de lieu ou de personnes ne sont pas toujours extraits. On ne peut donc pas garantir une totale exhaustivité.

Il y a des erreurs de transcriptions notamment pour les noms propres

La transcription est globalement de très bonne qualité, mais il subsiste quelques erreurs notamment pour les noms de personnes, de lieux ou les marques. Si on recherche spécifiquement un mot-clé, on a quand même intérêt à passer rapidement en revue la transcription ou à rechercher des variantes et autres formes du mot-clé qui pourraient avoir été mal orthographiées.

La traduction permet un premier niveau de compréhension

La traduction (nous avons testé une vidéo en français avec une traduction en anglais) permet de comprendre le sens général d’une vidéo ou contenu audio, mais la qualité ne sera pas suffisante pour l’utiliser directement dans un livrable. Il nous a d’ailleurs semblé que la qualité était un peu moindre que ce que l’on peut avoir sur Deepl ou Google Translate. Comme il s’agit d’un produit Microsoft, il est hautement probable qu’il utilise Microsoft Translator.

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...

HELIX_CLOSE_MENU