Jonas Forman

Jonas Forsman

Directeur-conseil expert

Le concept « à données inexactes, résultats erronés » n’a jamais été aussi pertinent dans notre monde de plus en plus fondé sur l’intelligence artificielle (IA). Ce concept s’applique lorsque des intrants de mauvaise qualité entraînent des extrants de mauvaise qualité, et certaines des premières expériences d’IA générative en sont de parfaits exemples. Peu importe le type de solution d’IA utilisée, elle nécessitera toujours des données complètes, exactes et opportunes pour produire des résultats fiables.

Alors que les organisations de tous les secteurs d’activité investissent de plus en plus dans l’IA, il devient plus difficile d’utiliser les bonnes données au bon moment et de la bonne façon (et de manière responsable). Dans ce billet de blogue, j’aborde quelques-uns de ces défis et propose une voie à suivre : l’utilisation de données synthétiques (ou produites artificiellement) pour l’IA.

Défis liés à l’entraînement des données d’IA

L’entraînement des moteurs d’IA et d’apprentissage machine nécessite de vastes quantités de données pour qu’ils puissent accomplir leurs tâches. Bien que le volume de données ne soit généralement pas un problème, on ne peut pas en dire de même de l’utilisation des données. Trois problèmes associés à l’utilisation de données organiques pour l’IA méritent une attention particulière.

Protection des données personnelles  - Premièrement, l’utilisation des données est assujettie à une réglementation importante axée sur la protection des données personnelles. Le Règlement général sur la protection des données (RGPD) de l’Union européenne est un bon exemple. Il vise à assurer le traitement responsable et sécuritaire des renseignements personnels, tout en donnant à chaque personne plus de contrôle sur ses données. Il limite la façon dont les données peuvent être recueillies et utilisées, ainsi que la durée de leur stockage. En raison de règlements comme le RGPD, les données des clients et des employés ne peuvent pas être utilisées librement pour entraîner les moteurs d’IA. Pour rendre possible l’utilisation légale de données personnelles, une anonymisation complète est souvent requise, ce qui exige un processus compliqué et coûteux. De plus, l’anonymisation des données ne garantit pas la sécurité.

Droit d’auteur  - Deuxièmement, certaines données sont protégées par un droit d’auteur. L’utilisation de données protégées par un droit d’auteur pour l’IA fait l’objet de nombreux débats. Compte tenu des discussions sur la réglementation qui ont lieu au sein de plusieurs entités gouvernementales, nous prévoyons la publication prochaine de nouvelles lignes directrices qui obligeront les organisations à indiquer clairement les données publiques qui ont été utilisées pour entraîner une fonction ou un module d’IA particulier..

Qualité  - Troisièmement, les données peuvent comprendre des erreurs et des biais qui seront ou ne seront pas faciles à corriger, même si elles sont produites de façon organique. En outre, il peut être fastidieux et coûteux de déceler les données de grande qualité parmi la quantité de données disponibles.

Utilité des données synthétiques

Les données synthétiques constituent une solution de rechange aux données produites de façon organique. Contrairement aux données recueillies à partir d’événements réels, les données synthétiques sont générées artificiellement. Toutefois, elles présentent les mêmes propriétés statistiques que les données organiques et fournissent donc les mêmes conclusions statistiques. Elles sont donc très utiles pour les solutions d’IA.

Les données synthétiques peuvent être générées par programmation à l’aide de diverses techniques. Grâce à l’apprentissage machine, par exemple, il est possible de produire des données synthétiques qui reflètent les propriétés statistiques des données réelles. Les données peuvent également être recueillies à partir de personnes, d’événements ou d’objets réels au moyen de simulations informatiques ou d’algorithmes, puis converties en données synthétiques. Les experts en science des données prennent les données réelles et en extraient les renseignements désirés, qu’ils convertissent ensuite en ensembles de données synthétiques.

Voici quelques-uns des avantages de l’utilisation de données synthétiques pour l’IA :

  1. Buts et types multiples – Les données synthétiques peuvent être générées à diverses fins et dans plusieurs formats, allant de simples données de tableau à des types de données plus avancés comme l’imagerie, le texte et la parole.
  2. Entraînement facile – Les données synthétiques permettent aux organisations d’éviter bon nombre des défis susmentionnés associés à l’entraînement des données. Elles peuvent être générées selon le volume souhaité et être complètement anonymisées pour assurer la conformité réglementaire, tout en fournissant les mêmes conclusions statistiques que les données organiques.
  3. Contrôle de la qualité – Il est possible de contrôler le niveau de qualité des données synthétiques. Dans certains cas, comme pour les données d’essai servant au développement de systèmes, la qualité des données peut être moindre. D’autres utilisations peuvent toutefois nécessiter des données de grande qualité pour garantir l’atteinte des résultats souhaités. N’oubliez pas que l’évaluation de la qualité des données synthétiques est un nouveau champ d’exploration, et que les définitions et les mesures commencent tout juste à voir le jour.
  4. Réduction des risques – Grâce aux données synthétiques, les organisations et les chercheurs peuvent effectuer des analyses approfondies et élaborer des modèles d’IA sans se soucier des limites et des risques associés à l’utilisation de données réelles confidentielles ou sensibles. Une telle réduction des risques permet aux données synthétiques de faire progresser l’utilisation responsable de l’IA par les organisations. (Pour en savoir plus sur le sujet, consultez les billets de blogue de ma collègue Diane Gutiw : Adopter l’IA de façon responsable pour passer de l’automatisation à la création et Règles de protection des données à l’ère de l’intelligence artificielle générative.)
  5. Économies de coûts – Les données synthétiques offrent des économies de coûts potentielles, car leur génération peut être moins coûteuse que la collecte de données réelles.

Cas d’utilisation de données synthétiques et défis connexes

Étant donné qu’il n’existe aucune limite quant au type ou à la taille des données synthétiques pouvant être générées – que ce soit à partir de données réelles, y compris des images, ou à partir de zéro – les cas d’utilisation potentiels abondent. À titre d’exemple, des données synthétiques peuvent être générées dans le secteur des soins de santé pour soutenir la recherche et le développement sans compromettre les données réelles sur les patients. Leur utilisation dans les secteurs du commerce de détail et du transport, entre autres, peut servir à refléter le comportement des clients sur le plan statistique et à stimuler l’innovation en matière de produits et de services.

L’utilisation de données synthétiques s’accompagne toutefois de défis. Ces données ne sont peut-être pas aussi précises que les données réelles ou ne reflètent pas nécessairement les scénarios du monde réel à la perfection. Par exemple, les valeurs aberrantes et les événements dont la probabilité est faible sont communs dans les ensembles de données réels, mais sont difficiles à reproduire dans le cas de données synthétiques.

Les données synthétiques peuvent également présenter un risque de sécurité lorsqu’elles sont utilisées pour soutenir les modèles d’IA. Par exemple, l’utilisation malveillante d’ensembles de données synthétiques peut mener à la création de modèles d’IA plus vulnérables aux attaques de sécurité.

L’avenir des données synthétiques

Les données synthétiques constituent une branche intéressante de l’IA et permettent de résoudre certains des plus grands défis en matière de gestion des données, notamment ceux liés à la protection des données personnelles et à la disponibilité et à la qualité des données. Elles peuvent offrir de nouvelles occasions d’explorer les innovations en matière d’IA, tout en maintenant un niveau élevé de protection des données et de conformité réglementaire. Nous recommandons aux organisations qui évaluent l’utilisation de données synthétiques de faire ce qui suit :

Nous recommandons aux organisations qui évaluent l’utilisation de données synthétiques de faire ce qui suit :

  • Définissez clairement vos objectifs – Comprenez ce que vous voulez faire avec les données synthétiques et établissez la logique d’affaires pour leur utilisation.
  • Déterminez le niveau de qualité des données synthétiques dont vous avez besoin – Des données synthétiques qui correspondent à des données réelles à 80 % sont-elles suffisantes? Un niveau de correspondance plus élevé est-il nécessaire?
  • Évaluez le coût de production des données synthétiques dont vous avez besoin – Y aura-t-il un rendement du capital investi clair?
  • Tenez compte des enjeux de sécurité et de réglementation, notamment des exigences du RGPD.

La qualité des données synthétiques est un sujet qui m’intéresse particulièrement. CGI s’est récemment associée à l’Université de Karlstad (en suédois) afin de trouver de meilleures méthodes d’évaluation de la qualité des données synthétiques et de publier conjointement un rapport de recherche (en anglais). N’hésitez pas à communiquer avec moi pour discuter des données synthétiques, de l’utilisation des données ou de l’intelligence artificielle (IA) en général. Vous pouvez également explorer les capacités et l’expérience de CGI en matière d’IA.

À propos de l’auteur

Jonas Forman

Jonas Forsman

Directeur-conseil expert

Jonas Forsman possède plus de 20 ans d’expérience dans la conception, le développement, la mise à l’essai et la mise en œuvre de solutions de technologies avancées pour l’ensemble des secteurs d’activité, mettant à profit l’intelligence artificielle (IA), les données massives, l’analyse de données de ...