L'étiquetage des données est une étape indispensable du Machine Learning (supervisé) ou Apprentissage Profond en français. Pour entraîner une IA à partir de données, il est impératif d’étiqueter ces données au préalable.
Ces données peuvent autant être une image qu'un fichier audio, une séquence vidéo ou même du texte.
L'étiquetage consiste à classifier, catégoriser : par exemple dans une image, ceci est un chien, ceci est un chat !
Ces annotations permettent aux algorithmes "d'apprendre" à distinguer un élément d'un autre.
Or l'étiquetage de ces données sont préparés (supervisé)... par des humains.
Ces personnes sont appelées " human-in-the-loop " ou " humain dans la boucle " en français.
Leurs activités consistent à nettoyer, structurer et étiqueter les données - grâce à des outils spécialisés, souvent basé dans le cloud.
(CoreNLP, Bella, Labelbox pour le texte, Speechalyzer, Praat pour l'audio, Annotorious, Sloth pour les images et vidéos, LabelMe, Detectors pour la détection d'objet, Pixorize, VGG Image Annotator, FastAnnotationTool, RectLabel...)
En un mot, l'IA ne pourrait fonctionner sans intervention humaine !
L’importance et les jeux de l’annotation des données dans la réalisation d’un projet d’IA - 2020
Avec Aymeric Chevreux et Séraphin Gaborit
En savoir +
. Comment l'industrie de l'IA profite de la catastrophe (au Venezuela) - MIT avril 2022
Cet article fait partie de la série (anglais, en 4 parties) de MIT Technology Review sur le colonialisme de l'IA, l'idée que l'intelligence artificielle crée un nouvel ordre mondial colonial.
Soutenu par le MIT Knight Science Journalism Fellowship Program et le Pulitzer Center.
- L'introduction
- 1ère partie
Direction l'Afrique du Sud, où les outils de surveillance basés sur l'IA, basés sur l'extraction des comportements et des visages des personnes, ré-enracinent les hiérarchies raciales et alimentent un apartheid numérique.
- 2ème partie (lien au-dessus) :
Direction le Venezuela, où les entreprises d'étiquetage de données d'IA ont trouvé des travailleurs bon marché et désespérés au milieu d'une crise économique dévastatrice, créant un nouveau modèle d'exploitation du travail.
- 3ème partie :
Direction Indonésie
Des conducteurs de VTC qui apprennent à résister au contrôle algorithmique et à la fragmentation.
- 4ème partie :
Direction Nouvelle-Zélande, où un couple autochtone reprend le contrôle des données de sa communauté pour revitaliser sa langue.
Introduction au Machine Learning - 2021
Présentation de l'Association d'IA de CentraleSupélec