Actualités

Automatiser l’automatisation : zoom sur l’Automatic Machine Learning (AutoML), par notre partenaire Ilyeum !
Actu

Partenaires

[ 30/09/2019 ]

Automatiser l’automatisation : zoom sur l’Automatic Machine Learning (AutoML), par notre partenaire Ilyeum !

Véritable vitrine de l’IA, le Machine Learning (ML) a changé notre vision de la donnée et de son traitement, si bien que de nouvelles professions ont émergé pour répondre aux opportunités nouvelles et vastes. Néanmoins, le ML n’est-il pas (déjà) lui-même sujet à une révolution ? C’est la question qui se pose face à l’émergence récente de l’Automatic Machine Learning (AutoML), ou apprentissage automatique… automatique ! Notre partenaire Ilyeum vous éclaire !

Qu'est ce que le Machine Learning ?

Alors qu’il est longtemps resté dans l’ombre des systèmes experts, le Machine Learning (ML) connait un formidable essor depuis une quinzaine d’années grâce aux avancées matérielles et à l’explosion des données. Aujourd’hui omniprésent, les récents progrès et son impact sur la société sont indéniables, comme souligné par le dernier prix Turing qui a récompensé des pionniers du ML. Il faut dire que le ML ouvre des possibilités qui étaient jusqu’à présent verrouillées. Comme son nom le suggère, le ML permet aux ordinateurs d’apprendre par eux-mêmes à réaliser une tâche à partir de données. Rien que ça !

En effet, au cœur des solutions de ML se trouve la phase d’apprentissage où la machine va s’entrainer à partir d’un jeu de données (dataset) à déterminer une sorte de fonction de transfert logique qui va traduire les différentes corrélations entre les données. Le dataset peut être annoté dans ce cas on parle d’apprentissage supervisé ; ou non supervisé dans ce cas on parle d’apprentissage non supervisé. Aujourd’hui, plus qu’une discipline, le ML constitue un domaine à part entière et regroupe un vaste ensemble d’outils et de méthodes. Il existe dans ce sens, différents algorithmes d’apprentissage, parmi lesquels se trouvent les réseaux de neurones (qui peuvent être profonds, on parle alors de Deep Learning), machines à vecteur de support (SVM) ou encore les forêts aléatoires.

Une fois l’apprentissage achevé, le modèle entrainé peut être utilisé pour effectuer la tâche sur des données de production. Les données d’exemple sont clefs pour le ML, mais ce dernier peut tirer avantage des larges quantités de données entreposées par les applications au cours de ces dernières années. Ainsi, les possibilités sont grandes, le ML permet de valoriser les données pour créer des systèmes intelligents, de mieux comprendre les données et leur relations (en particulier avec les approches non supervisées), de prédire des tendances, mais aussi de créer des œuvres de toutes pièces. A ce titre, le ML est appliqué et s’est illustré dans de nombreux domaines allant de la vision par ordinateur au business intelligence en passant par la recommandation de contenus.

Néanmoins derrière ce formidable potentiel, qui peut paraitre utopique, se trouve une expertise. En effet, il ne s’agit pas là de magie : préparer un modèle d’apprentissage est tout un art. Il convient de bien sélectionner les données, de correctement les préparer, de sélectionner un algorithme adéquat et de régler avec précision les hyperparamètres. C’est une tâche qui est loin d’être aisée, qui demande temps, expérience et intuition ; d’où l’apparition du domaine qu’est la data science. Pour répondre aux besoins grandissants, de plus en plus d’entreprises font appel à des data scientists, si bien que des départements entiers de data science se forment. En bref, le ML est très populaire, mais sa mise en place demande une expertise particulière.

Toutefois, si le ML se popularise à grande vitesse, les choses pourraient changer tout aussi rapidement. Comme nous l’avons dit, mettre en place une solution de ML n’est pas évident, or, si par le ML les machines peuvent apprendre à faire certaines tâches, pourquoi ne pas les laisser faire cette mise en place par elle-même ?

Automatiser l'automatisation !

C’est la tendance que nous observons actuellement avec l’émergence de l’Automatic Machine Learning (AutoML). Le principe est donc simple : automatiser la mise en place de solution de ML et rendre trivial son utilisation. Inutile de dire que cela peut apparaitre comme une solution miracle. C’est pour cela que plusieurs acteurs majeurs proposent des solutions en ce sens, parmi lesquels GoogleMicrosoftH2O ou encore Dataiku. On dénote également un bon nombre de solutions open-source, comme TPOT,MLBoxauto-sklearnAuto-WEKA ou Auto-Keras, pour n’en citer que quelques-unes. La simplicité d’utilisation de l’AutoML est déconcertante : créer un modèle ne prend que quelques lignes de code, voir quelques clics seulement sur une interface dédiée, sans voire une ligne de code. Les techniques AutoML vont évaluer et tester différentes configurations, algorithmes, paramétrages et optimisations de manière intelligente en s’appuyant sur des techniques de pointe comme l’optimisation Bayésienne, l’apprentissage par renforcement ou la programmation génétique.

Chaque approche a ainsi ses caractéristiques et ses spécialités ; certaines abordent exclusivement le paramétrage de réseaux de neurones, quand d’autres fournissent un pipeline complet avec des algorithmes classiques de ML par exemple. La contrepartie principale de l’AutoML n’est autre que son besoin en ressources, temporelles comme matérielles. L’AutoML est en effet demandeur en puissance de calculs et/ou en temps (parfois plusieurs jours) pour préparer un modèle. Cependant, l’émergence des solutions Cloud à la demande, qui offrent un accès a de forte puissance de calcul selon le besoin, permet de pallier ce problème, moyennant finance. Mais à ce prix, le ML devient accessible à tous.

Va-t-on donc (déjà) vers la fin de la data science ?

Pour l’heure, non. Aussi performantes soient les méthodes d’AutoML, elles ne couvrent pas la totalité des challenges et besoins des data scientists. A commencer par la connaissance du métier, qui est clef dans la mise en place du ML, en particulier dans le choix de données et le rôle des modèles. Cette connaissance experte est nécessaire pour orienter et paramétrer correctement le ML en fonction du besoin, or, l’AutoML ne peut prendre en compte cette connaissance assez abstraite par lui-même. Une autre limite d’AutoML est sa faiblesse dans certains types de ML ; alors qu’il excelle dans la classification et la régression supervisée, les apprentissages non supervisés et/ou par renforcement sont plus délicats à automatiser. Enfin, certains types de données, en particulier complexes, sont particulièrement difficiles à considérer automatiquement et requièrent une forte expertise et préparation en amont. Ainsi, le rôle des data scientists reste essentiel dans de nombreux cas. De fait, l’AutoML est plutôt un outil complémentaire, c’est d’ailleurs ce qui est avancé par TPOT qui se présente comme l’assistant du data scientist. De plus, l’AutoML reste un formidable effort de démocratisation et est utilisable par tous les profils. Il est en effet parfaitement adapté pour essayer ou évaluer le ML, au travers de preuves de concept, et ce sans expertise. Mais la mise en place de la solution en production nécessitera toujours l’expertise de data scientists.

L’AutoML ne va pas remplacer la data science, mais va l’enrichir. Son accessibilité lui permet de faciliter et d’accélérer la mise en place de solution de ML. Le ML, et plus généralement l’IA, progresse déjà (très) rapidement, et l’AutoML ne va qu’accentuer cette émergence. C’est une technologie prometteuse qui a encore du chemin devant elle ; et il convient de la surveiller, car nul doute qu’elle sera au cœur de la démocratisation de l’IA dans l’ensemble de la société.

L’équipe du Lab Inno d’ILYEUM

 

Nous sommes positionnés sur la globalité des grands
Enjeux de transformation digitale de nos clients.

Voir toutes
nos expertises

+ 35 000 Experts
Indépendants du numérique

DÉCOUVREZ LA
PLATEFORME XXE