Publications de jeux de données

Dans le cadre de ses activités de recherche, l'ANSSI publie des jeux de données (datasets) afin de valider les résultats expérimentaux obtenus et de stimuler la recherche dans les domaines concernés.

Publié le 21 Juillet 2022 Mis à jour le 02 Octobre 2023

Avec l'essort des méthodes d'apprentissage automatique, couramment appelées « techniques d'intelligence artificielle », l'accès à des jeux de données fiables devient un élément determinant. En effet si le jeu de données est biaisé, alors la phase d'apprentissage se retrouve faussée et les prédictions fournies par l'algorithme d'Intelligence Artificielle (IA) ne sont pas fiables. D'un point de vue académique, la publication d'un jeu de données permet de fournir des données de référence pour à la fois reproduire des résultats expérimentaux, comparer les performances des techniques utilisées, et faire progresser la recherche dans le domaine concerné. Par exemple, le jeu de données MNIST (Mixed National Institute of Standards and Technology) publié en 1998 par Y. LeCun et al. a permis de montrer la pertinence des réseaux de neurones dans le domaine de la reconnaissance de caractère manuscrit, et sert encore de test pour comparer les techniques plus récentes. De même, le jeu de données ImageNet a contribué à l'essort des techniques d'apprentissage profond (Deep Learning) appliqués à la reconnaissance visuelle. Enfin plus récemment, la base de données Protein Data Bank a permis d'ouvrir  un nouveau champ de recherche au domaine de l'IA, apportant ainsi des résultats spectaculaires pour le problème du repliement des protéines.

Dans le cadre de ses activités de recherche, l'ANSSI publie des jeux de données afin de valider les résultats expérimentaux obtenus et stimuler la recherche dans le domaine concerné.

ASCAD (ANSSI SCA Database)

Les jeux de données ASCAD (ANSSI SCA Database) visent à fournir des jeux de données de référence dans le domaine des attaques par canaux auxiliaires basées sur du Deep Learning. L'objectif est de montrer la pertinence de ces nouvelles attaques, qui permettent de retrouver la clef de chiffrement utilisée par un composant cryptographique grâce à une analyse de la consommation de courant ou du rayonnement électromagnétique par un algorithme de Deep Learning. Les jeux de données permettent également de comparer les différentes techniques entre elles, et facilitent le travail de recherche sur ces attaques. Les travaux ainsi menés permettent de définir l'impact de ces nouvelles attaques pour l'évaluation des produits de sécurité et de déterminer les contre-mesures efficaces.

ASCAD v1

ASCADv1 a été obtenu en mesurant le rayonnement electromagnétique d'un composant ATMega 8bit pendant un chiffrement d'AES protégé par masquage booléen.
L'implémentation d'AES, développée par l'ANSSI, est disponible ici.

Le jeu de données est associé à des scripts démontrant l'efficacité des attaques Deep Learning sur cette implémentation disponibles ici.

De plus l'article « Study of Deep Learning Techniques for Side-Channel Analysis and Introduction to ASCAD Database » fournit une méthodologie pour sélectionner les hyperparamètres du réseau de neurones.

ASCADv1 est disponible sur le site data.gouv.fr. Il est formé de deux sous jeux de données : ASCADv1 à clef fixe et ASCADv1 à clef variable.

ASCAD v2

ASCADv2 a été obtenu en mesurant la consommation de courant d'un composant ARM 32bit de type Cortex M.

L'implémentation d'AES ciblée a été développée par l'ANSSI et est protégée par masquage affine et shuffling, elle est disponible ici.

Cette implémentation offre plus de sécurité que celle d'ASCADv1, ce qui permet d'approfondir l'étude des attaques Deep Learning.

ASCADv2 est disponible sur le site data.gouv.fr au travers de ce lien.

Sur le même sujet :