Soutenance de th

Forum 'Annonces' - Sujet créé le 2009-06-16

Bonjour,

J'ai le plaisir de vous annoncer la soutenance de ma thèse, qui aura lieu le lundi 6 juillet à 10 heures, à l'université de Versailles Saint-Quentin en Yvelines, salle 301.

Titre : Spam filtering : Optimization approaches to content-based filtering

Membres du jury :

- Mr John Tomlin, directeur de recherche, rapporteur, Yahoo! Research
- Mr Van-Dat Cung, professeur, rapporteur, institut polytechnique de Grenoble
- Mr Patrick Gallinari, professeur, rapporteur, université de Paris 6
- Mr Philippe Baptiste, professeur, examinateur, école polytechnique LIX
- Mr Yves Lechevallier, professeur, examinateur, INRIA-Rocquencourt
- Mr Samir Tohmé, professeur, examinateur, université de versailles Saint-Quentin en Yvelines
- Mr Ider Tseveendorj, enseignant-chercheur HDR, co-encadrant, université de versailles Saint-Quentin en Yvelines
- Mme Catherine Roucairol, professeur, directrice de thèse, université de versailles Saint-Quentin en Yvelines

Résumé : Le filtrage du spam est un problème dont le monde universitaire s'est emparé au début des années 2000. Aujourd'hui envisagé sous l'angle de la classification supervisée, le filtrage du spam pose toutefois des problèmes atypiques dans le monde de l'apprentissage automatique : classification compétitive (le filtre doit prédire la classe d'un message en sachant que celui-ci a pu être manipulé par un spammeur dans le but de leurrer toute tentative de filtrage), faux-positif (messages légitimes incorrectement rejetés), ou encore besoin d'automatisation complète dans un contexte en ligne, où un flux de messages imprévisibles est dirigé vers le filtre.

L'objectif de cette thèse consiste à répondre à ces enjeux en apportant une approche orientée optimisation au domaine des filtres anti-spam. En considérant un classificateur comme une structure à optimiser, nous montrons qu'il est possible de formuler le problème de l'apprentissage d'un filtre comme un problème d'optimisation, sur nous appliquons des méthodes méta-heuristiques nous permettant d'induire des filtres plus efficaces et autonomes.

Notre travail nous a également conduit à explorer des paradigmes alternatifs pour le filtrage du spam (analyse par réseaux sociaux, théorie des jeux) et à leur articulation dans un système de filtrage unifié.

Enfin, nous proposons un nouvel outil, le package spamtools, permettant l'implémentation rapide et efficace de filtre anti-spam expérimentaux, et leur interfaçage avec les systèmes d'évaluation standardisés tels que l'outil TREC.

Spam filtering is a problem which have drawn the attention of the academic world in the early 2000s. While it is mostly viewed as a supervised classification problem, spam filtering brings issues which are not well addressed by a machine learning approach : adversarial classification, or the need for a filter to include the existence of an aware adversary in its classification process, cost-sensitive classification, and the need to minimize human assistance in the learning process, especially in an online context.

The purpose of this thesis is to address these issues by bringing an optimization approach to the spam filtering problem. Viewing classifiers as structures to optimize, we formulate the learning processus as an optimization problem, on which we propose to apply a meta-heuristic method, allowing for the induction of more efficient and autonomous filters.

Our work also lead us to explore alternative paradigms for spam filtering (social network analysis, game theoretic models), and their association in a unified filtering system.

Finally, we propose the spamtools java package, a library designed to ease the implementation of experimental filters, and their interfacing with standardized evaluation tools such as the TREC evaluation toolkit.

Cordialement,

Didier Colin.