Google Cloud Vision


Technique

Le 18 février 2016, la galaxie des API Google voit débarquer un nouvel arrivant : Cloud Vision. Jusqu’alors disponible en “limited preview”, il est désormais accessible à tous en version bêta.

Cloud Vision, c’est quoi ?

Cloud Vision est une API (interface de programmation) qui permet d’ajouter à vos applications la capacité de reconnaissance d’entités au sein d’une image.

Par entité, il faut comprendre :

  • des objets,
  • des visages (ainsi que les expressions faciales qui apparaissent sur ces visages),
  • des textes (avec la langue associée).

google cloud vision detection visage texte Google Cloud Vision

Détection d’expression faciale et de texte

 

A cela, il faut ajouter la possibilité de détecter :

  • du contenu inapproprié comme le fait déjà le fameux “Safe Search” de Google,
  • des lieux importants tels des monuments ou les sites remarquables de notre belle planète,
  • des logos renvoyant par la même occasion à la marque associée,
  • les attributs propres d’une image tels que la couleur, etc.

Comment ça marche ?

Google Cloud Vision analyse les images que vous lui fournissez en ayant recours à de l’IA (intelligence artificielle), et plus précisément au machine learning (capacité pour un programme “d’apprendre” via des algorithmes et de faire de la prédiction de données).

Pour ce faire, Google utilise TensorFlow, un de leurs outils ayant récemment basculé dans le monde de l’Open Source. Le programme traite les données de l’image et vous laisse la possibilité de retourner une ou plusieurs données par image. Les données ainsi retournées sont pondérées en fonction de leur pertinence.

google cloud vision donnees ponderees 1 Google Cloud Visiongoogle cloud vision donnees ponderees 2 Google Cloud Vision

Exemples de données extraites d’une image et pondérées.

Coût de l’utilisation

Comme la plupart des API Google, l’utilisation de Google Cloud Vision est gratuite mais limitée.

Google découpe son outil en 3 groupes de fonctionnalités :

  • la récupération de texte depuis une image (avec le support des langues),
  • la détection d’objet,
  • le reste des fonctionnalités.

Lorsque l’API analyse une image, chaque fonctionnalité sera comptabilisée individuellement. Ainsi, si votre  image comprend un visage et du texte, comme c’est le cas dans la première image de notre article, une détection sera prise en compte pour le groupe lié à la récupération de texte et une autre pour la reconnaissance faciale.

Au delà de 1000 détections/mois/groupe, vous devrez passer sur une version payante de l’outil :

google cloud vision version payante Google Cloud Vision

Au delà de 20 millions de détections par mois, vous pourrez contacter le service commercial de Google pour leur expliquer votre projet et vos besoins.

Pour conclure

Google nous a gratifiés d’une petite vidéo présentant leur API au travers de GoPiGo, un robot construit autour d’un RPi. Une démonstration qui laisse rêveur…

Laisser un commentaire