Expert-in-the-Loop Supervised Learning for Computer Security Detection Systems


Anaël Beaugnon, du laboratoire exploration et recherche en détection, a soutenu sa thèse portant sur l'application de méthodes d'apprentissage automatique à la détection de comportements malveillants.

Thèse soutenue le 25 juin 2018

Jury :

Président du jury :
Hervé Debar – Télécom Sud Paris

Rapporteurs :
Massih-Reza Amini – Université Grenoble Alpes
Valérie Viet Triem Tong – CentraleSupelec

Directeur de thèse :
Francis Bach – INRIA Paris, DI ENS,

Encadrant de thèse :
Pierre Chifflier – ANSSI

Examinateur
Pierre Gaillard – INRIA Paris

Invité
Benjamin Morin – ANSSI

 

Résumé

L’objectif de cette thèse est de faciliter l’utilisation de l’apprentissage supervisé dans les systèmes de détection pour renforcer la détection. Dans ce but, nous considérons toute la chaîne de traitement de l’apprentissage supervisé (annotation, extraction d’attributs, apprentissage, et évaluation) en impliquant les experts en sécurité.

Tout d’abord, nous donnons des conseils méthodologiques pour les aider à construire des modèles de détection supervisés qui répondent à leurs contraintes opérationnelles. De plus, nous concevons et nous implémentons DIADEM, un outil de visualisation interactif qui aide les experts en sécurité à appliquer la méthodologie présentée. DIADEM s’occupe des rouages de l’apprentissage supervisé pour laisser les experts en sécurité se concentrer principalement sur la détection.

Par ailleurs, nous proposons une solution pour réduire le coût des projets d’annotations en sécurité informatique. Nous concevons et implémentons un système d’apprentissage actif complet, ILAB, adapté aux besoins des experts en sécurité. Nos expériences utilisateur montrent qu’ils peuvent annoter un jeu de données avec une charge de travail réduite grâce à ILAB.

Enfin, nous considérons la génération automatique d’attributs pour faciliter l’utilisation de l’apprentissage supervisé dans les systèmes de détection. Nous définissons les contraintes que de telles méthodes doivent remplir pour être utilisées dans le cadre de la détection de menaces. Nous comparons trois méthodes de l’état de l’art en suivant ces critères, et nous mettons en avant des pistes de recherche pour mieux adapter ces techniques aux besoins des experts en sécurité.

Nous fournissons des implémentations en source ouverte de ILAB et de DIADEM pour que les experts en sécurité puissent annoter leur propres jeux de données, entraîner et évaluer des modèles de détection supervisés.

 

Abstract

The overall objective of this thesis is to foster the deployment of supervised learning in detection systems to strengthen detection. To that end, we consider the whole machine learning pipeline (data annotation, feature extraction, training, and evaluation) with security experts as its core since it is crucial to pursue real-world impact.

First, we provide methodological guidance to help security experts build supervised detection models that suit their operational constraints. Moreover, we design and implement DIADEM, an interactive visualization tool that helps security experts apply the methodology set out. DIADEM deals with the machine learning machinery to let security experts focus mainly on detection.

Besides, we propose a solution to effectively reduce the labeling cost in computer security annotation projects. We design and implement an end-to-end active learning system, ILAB, tailored to security experts needs. Our user experiments on a real-world annotation project demonstrate that they can
annotate a dataset with a low workload thanks to ILAB.

Finally, we consider automatic feature generation as a means to ease, and thus foster, the use of machine learning in detection systems. We define the constraints that such methods should meet to be effective in building detection models. We compare three state-of-the-art methods based on these criteria, and we point out some avenues of research to better tailor automatic feature generation to computer security experts needs.

We provide open source implementations of DIADEM and ILAB to allow security experts to annotate their own datasets, to train and to evaluate supervised detection models.

 

 

  • pdf

    Manuscrit

    3.36 Mo