L’année dernière, l’équipe de Prague spécialisée en science des données a eu l’immense honneur de remporter le défi Kaggle de prédiction d’achat, parrainé par Allstate*. L’équipe se mesurait à 1 500 autres équipes à l’échelle mondiale. Je voudrais vous faire part de quelques-unes des leçons apprises au cours de cet événement.
Kaggle* est une communauté ouverte où les meilleurs scientifiques de données peuvent résoudre des problématiques d’entreprise complexes et apprendre les plus récentes techniques. La communauté travaille en collaboration avec des organisations majeures (p. ex. Amazon, Facebook, GE, Microsoft, la NASA, etc.) ainsi qu’avec des universités de renom et est considérée comme une référence en matière de compétences professionnelles.
Le défi Allstate consistait à prédire le choix d’achat le plus probable d’un consommateur parmi une combinaison de produits d’assurance, en fonction des profils démographiques et de l’historique des produits récemment visionnés. Idéalement, les réponses devaient aider Allstate à réduire le taux de désabonnement des clients et à accroître les ventes en proposant la juste combinaison de produits, et ce, très tôt dans le processus de décision.
Leçon apprise no 1 – Le prétraitement
Un élément clé observé par notre équipe consiste en l’importance de bien comprendre les ensembles de données fournis. Il est impossible de concevoir un modèle efficace en se contentant de « mettre des données dans une machine » et de s’attendre à des résultats probants. Le prétraitement des données constitue 70 % à 80 % du travail.
Notre solution au défi Allstate a été établie en fonction de trois modèles indépendants. Les données que nous avons utilisées étaient différentes pour chacun des modèles. Pour le premier, nous avons simplement utilisé les données telles que fournies. Pour le second, nous avons ajouté des variables telles que le coût moyen pour chaque État et chaque emplacement. Le troisième était le plus complexe; il proposait également plusieurs fonctionnalités concernant les changements par rapport aux offres précédentes visionnées par un consommateur (p. ex. ratio des coûts actuels et antérieurs, différence d’heure, etc.).
Leçon apprise no 2 – Les mesures d’évaluation
Une autre leçon essentielle apprise par l’équipe réside dans l’importance de comprendre les mesures d’évaluation et la façon dont ces mesures peuvent grandement influencer l’approche à adopter.
Lorsque confrontés à des problèmes réels, vous devrez déterminer quelle question permettra d’obtenir les résultats ayant le plus de valeur et savoir comment évaluer si une réponse est juste. Les mesures d’évaluation doivent être choisies avec soin, en fonction des facteurs coûts-avantages sous-jacents. Différentes mesures peuvent exiger des approches complètement différentes, et l’adoption d’une mesure inappropriée peut se traduire en une solution sous-optimale.
Le facteur le plus important dans le choix de notre approche était la mesure d’évaluation fournie : toutes les options de la police d’assurance devaient être prédites avec justesse. Kaggle fournissait une heuristique simple appelée « last quoted benchmark » (« LQB »). Cette mesure représentait la dernière option de produit d’assurance visionnée par un client. Cette règle heuristique permettait d’atteindre de très bons résultats et, avant d’y apporter des changements, nous voulions être vraiment certains de la nécessité de le faire. Il nous est donc arrivé, même lorsque les trois modèles suggéraient un changement à la cote LQB, de la garder. Au final, moins de 4 % de nos propositions ont été changées par rapport à l’indice LQB. C’est peu, mais contrairement à nos concurrents, nous avons misé sur la qualité plutôt que sur la quantité.
Participation régulière
Nous participons régulièrement aux concours Kaggle, car nous sommes d’avis qu’ils sont d’excellents exercices de perfectionnement professionnel. Ils permettent aux membres d’élargir leurs compétences et d’apprendre auprès des meilleurs de la discipline. CGI choisit les concours qui s’apparentent le plus à nos activités et dont nos clients peuvent tirer parti. Par exemple, nous avons prédit des taux de clics publicitaires, déterminé des risques de défaut de paiement d’un prêt, et avons repéré des consommateurs susceptibles de devenir des acheteurs fréquents. Kaggle est une communauté géniale pour la mise à l’essai de technologies de pointe.
J’ai personnellement participé à environ 20 concours Kaggle – c’est addictif!
Cette entrevue* vous en apprendra davantage sur l’expérience de mes collègues dans le cadre du concours Allstate.
Membres de l’équipe gagnante : Lukáš Drápal, Jana Papoušková, Jiří Materna, Nomindalai Naranbaatar, Emil Škultéty
*en anglais