Proposition de thèse CIFRE SNCF/laboratoire LIRIS (Lyon), 2016-2019
Forum 'Emplois' - Sujet créé le 2016-06-03
Bonjour,
Vous trouverez ci-dessous une annonce de thèse CIFRE entre le laboratoire LIRIS et la SNCF se déroulant sur Lyon à partir de Sept. 2016, sur le sujet :
Détection d?anomalies dans les flux temps réels sol-bord de la SNCF
N'hésitez pas à diffuser à des étudiant(e)s qui pourraient être intéressé(e)s par la thématique.
Bien cordialement,
Proposition de sujet de thèse CIFRE 2016-2019 :
Détection d?anomalies dans les flux temps réels sol-bord de la
SNCF
Mots clés :
· Apprentissage automatique
· Détection d?anomalies
· Supervision de flux temps réel
· Fouille de données
· Modélisation de séries temporelles
· Trains communicants
Entités d?accueil :
? Laboratoire LIRIS (UMR 5205), Domaine Scientifique La Doua, 43 bd 11
Novembre 1918, 69100 Villeurbanne
? SNCF, DSI Voyageurs - DD SI PF - Div. Architecture et Socles Communs,
Tour Oxygène, 10-12 Bd Marius Vivier Merle 69393, Lyon Cedex 03.
1
Contexte
La Société Nationale des Chemins de fer Français (SNCF) produit et exploite
dans son système d?informations une grande quantité de données hétérogènes ré-
coltées en temps réel. Certaines d?entre elles, généralement liées à l?information
voyageurs, sont en provenance du SI au sol et de ses applications opérationnelles,
telles que les prochains départs ou passages de trains, les dessertes prévues, l?esti-
mation des retards, les perturbations, la localisation au sol, etc. Mais elle dispose
également d?informations en provenance du bord, à partir de trains dits « com-
municants », telles que les données de géo-localisation par GPS, les données de
télé-maintenance, de suivi de mission, de comptage voyageurs, etc. La volumétrie
de ces flux est variable et pourra aller, par exemple pour la géo-localisation, jusqu?à
200 messages par seconde.
Tous ces flux sont collectés en temps réel, agrégés, uniformisés et diffusés par
des plate-formes dites « de médiation » en haute disponibilité. Ces dernières né-
cessitent une supervision de bout-en-bout, c?est-à-dire depuis les nombreux équi-
pements émetteurs, variés et hétérogènes, jusqu?aux applications d?exploitation
métier consommatrices de ces données, en passant par de multiples équipements
intermédiaires. Ce type de supervision permet d?observer de nombreuses variations
dans le trafic de données. Elles peuvent d?une part être causées par la dynamique
des données récoltées (une perturbation du trafic, par exemple), et sont dans ce
cas tout à fait normales. Cependant, elles peuvent aussi être non pas liées aux don-
nées observées, mais à l?infrastructure de collecte et de communication utilisée pour
produire et faire transiter ces données. On parle alors de dysfonctionnements ou
anomalies techniques de l?infrastructure, par opposition aux perturbations métier.
1Ces anomalies concernent alors non pas les données métier circulant, mais les
méta-données ou indicateurs relatifs aux flux observés (nombre de messages reçus
par unité de temps, latence entre l?émission et la réception, etc.).
Lorsqu?une telle anomalie se produit, il est parfois difficile de s?en rendre
compte, et le délai entre le début de l?anomalie et son constat peut être d?une
journée entière, selon les cas. Quand à la détermination de la cause de l?anomalie,
nécessaire à sa résolution, elle pourra s?étendre sur plusieurs journées.
Ce sont la détection automatique et l?analyse de ces anomalies liées à l?infras-
tructure informatique et de communication qui sont au c?ur de cette thèse. Le
travail consistera notamment au développement et à l?évaluation de techniques de
détection d?anomalies appliquées aux flux temps réels sol-bord, et s?inscrit dans
la continuité d?un stage de Master M2 dans lequel une première modélisation des
flux et un algorithme de détection d?anomalies ont été mis en place. L?objectif
de la thèse est d?obtenir un modèle dynamique complet capable de s?adapter aux
changements de régimes dans les flux temps-réels d?une part, en limitant le nombre
de faux positifs, et permettant d?autre part de prendre en compte un ensemble de
connaissances métier comme le plan de transport théorique des trains et ses adap-
tations, le parc des trains communicants, ainsi que les relations de corrélations et
de causalité éventuelles entre différents indicateurs.
La thèse s?effectuera dans le domaine et avec l?équipe « Trains Communi-
cants » de la Direction Déléguée SI « Production Ferroviaire », au sein de la « DSI
Voyageurs », dans l?EPIC « SNCF Mobilité » du groupe SNCF.
1.1
Rattachement au projet de supervision de bout-en-bout
Cette thèse est rattachée au projet de « supervision de bout-en-bout des flux
temps réel sol-bord ». Il s?agit d?un projet initié par l?activité Transilien, ayant
pour principal objectif d?assurer, en temps réel également, une supervision efficace,
24h/7J, des flux temps réel sol-bord, à tous les niveaux de la « chaîne » (émission,
collecte, traitement et communication). Cette supervision implique d?être capa-
ble de détecter au plus tôt des situations anormales impactant ces flux et leur
bonne exploitation, et ce, quelle qu?en soit la nature, le composant impacté, ou le
composant responsable du problème.
L?objectif majeur de la thèse sera de contribuer à la détection et éventuellement
l?analyse et la qualification des anomalies techniques de l?infrastructure informa-
tique, mais avec pour seules données d?entrée l?observation des flux de messages
(en termes de nombre de messages reçus, de latence des messages, et de certaines
méta-données de contexte telles que les engins émetteurs, l?activité concernée, la
position géographique, ou les numéros de train, de missions et de lignes concernés).
1.2
Objectifs applicatifs SNCF et positionnement vis à vis de la
stratégie de l?entreprise
La principale problématique SNCF à laquelle ce travail contribuera est celle
de l?alerting et de la réduction du délai de détection des problèmes. En effet,
la détection d?anomalies devrait permettre de repérer au plus tôt une situation
2anormale ? voire même de la détecter avant que cette dernière n?impacte le métier
? en générant une alerte adéquate dans les IHM des consoles de supervision.
Cette alerte pourra soit déclencher une analyse plus approfondie par le service
desk des exploitants, soit générer une nouvelle alerte escaladée vers les niveaux de
supervision supérieurs ou vers les études.
Une autre problématique importante est celle de la pré-identification ou pré-
qualification (automatique) de l?anomalie : la détection de l?anomalie, si elle est
associée à une procédure de classification (par apprentissage ou par un mécanisme
de type raisonnement à partir de cas) pourrait aider à pré-qualifier le type et le
niveau de l?anomalie, pour mieux adresser les destinataires de l?alerte correspon-
dante, et aider à sa résolution.
Cette détection d?anomalie et son éventuelle pré-qualification pourraient aussi
contribuer, dans un contexte de retour d?expérience, à l?analyse a posteriori d?ano-
malies récurrentes présentant les mêmes caractéristiques (cycle et saisonnalité,
durée, indicateurs et corrélations affectés, autres informations de contexte, etc.)
sur un historique donné.
D?une manière générale, ce travail de thèse représentera une contribution im-
portante dans les domaines de l?aide à la décision temps réel et de la supervision des
flux temps réel, et présente donc un intérêt stratégique certain pour la SNCF. Ces
sujets sont en effet particulièrement importants en cette période où l?information
voyageurs temps réel et la production ferroviaire sont au centre des préoccupa-
tions. Ce travail s?articule d?ailleurs autour d?autres projets et axes de recherches
identifiés au sein du réseau des experts internes de la SNCF (réseau Synapses), en
particulier le cluster d?innovation et de recherche « Optimisation des Ressources
et Exploitation » (ORE).
1.3
Disponibilité des données utiles à la thèse
Les plate-formes de médiation du domaine « Trains Communicants » traitent
l?ensemble des flux temps réel sol-bord de l?activité Transilien, mais aussi des autres
activités de transport de voyageurs comme Voyages (TGV et grandes lignes) ou
TER.
Cela nous garantit un accès privilégié aux données des flux temps réel sol-bord.
Les données de géo-localisation sont d?ores et déjà historisées, il conviendra pour
les autres flux de s?assurer de disposer d?un historique suffisant pour permettre un
apprentissage supervisé ou semi-supervisé.
2
État de l?art et verrous scientifiques
La détection d?anomalie est une application importante des deux domaines de
l?apprentissage automatique et de la fouille de données en intelligence artificielle.
Elle s?intéresse à la capacité d?un système à identifier des observations qui ne
se conforment pas à une structure prévue, ou à un motif déjà présent dans un
ensemble de motifs probables déjà observés. Alors que des données aberrantes
(« outliers ») vont se traduire par une certaine rareté [1], des données anormales
3vont pouvoir suivre des comportements plus complexes (poussées d?activité, délais
variables de réapparition, variabilité de la probabilité d?apparition, etc.) [2]. Ainsi,
des méthodes classiques de détection d?aberrations seront incapables de détecter
de telles anormalités, ou bien au contraire détecteront de trop nombreux faux-
positifs. Les méthodes de détection d?anomalies se divisent en trois principales
familles :
? les méthode supervisées, qui vont se baser sur le pré-traitement d?un en-
semble restreint de données sous la forme d?un étiquetage a priori (normal
ou anormal), et qui utilisent principalement l?entraînement d?un classifieur
destiné à classer les futures données dans l?une de ces deux classes [3,4] ;
? les méthodes non-supervisées, qui travaillent sur l?ensemble des données
disponibles et partent du principe que les instances d?une même classe sont
proches dans un espaces de représentation bien choisi et que donc cet es-
pace est partitionnable ? la classe « normale » étant a priori largement
sur-représentée, il est facile de la distinguer de la classe « anormale » [5] ;
? les méthodes semi-supervisées, qui supposent que les instances d?entraîne-
ment ne sont étiquetées que pour une partie des données d?apprentissage ?
le modèle de représentation qu?elles construisent profite alors des avantages
des deux familles ci-dessus (précision de l?étiquetage de l?approche supervisée
et complétude de l?espace des données de l?apprentissage non supervisé) ?
c?est dans le cadre de ces deux dernières familles de méthodes que nous
proposons de lever certains verrous scientifiques.
Dans le contexte de cette thèse, plusieurs questionnements seront explorés en util-
isant les données mises à disposition :
1. Tout d?abord, la distinction normal/anormal sera élargie à un concept plus
flou, qui permettra de détecter des comportements « suspicieux » ou « étran-
ges ». Une mesure permettant d?évaluer la distance à la normalité devra être
définie et normalisée, mais une méthode permettant d?adapter dynamique-
ment cette distance à l?évolution de l?infrastructure métier sera aussi pro-
posée. À titre d?exemple, les experts analysant actuellement les données sont
régulièrement confrontés à des événements prenant leur source dans le métier
lui-même (une perturbation du trafic liée à une panne sur le réseau ferré,
par exemple). Or ces événements sont actuellement difficilement dissociables
d?autres pannes relatives à l?infrastructure de communication (un routeur
bufferisant temporairement les données qu?il est censé faire transiter immé-
diatement, par exemple) sans prendre en compte le contexte de l?anomalie
(présence ou absence d?une information connexe validant ou pas la panne du
réseau ou la perturbation du trafic). Cette prise en compte du contexte de la
dynamique d?apparition des événements sera un apport de cette thèse, ainsi
que la formalisation de concepts d?expertise métier qui viendront enrichir
le modèle de détection. Dans cette piste, il est aussi possible d?envisager
l?utilisation de la fouille de motifs dynamiques dans des séries temporelles
multiples (validés dans des concepts métiers) pour enrichir le modèle d?ap-
prentissage, et s?adresser ainsi au cas de distributions complexes difficiles à
4évaluer par échantillonnage.
2. Ensuite, une spécialisation de certaines méthodes actuelles de construction
de modèles, caractérisées par leur application au cas particulier des séries
temporelles hétérogènes multivariées (modèles à espace d?états), sera pro-
posée. L?état de l?art actuel sur ces questionnements nous oriente vers la
mise en ?uvre de méthodes telles que l?inférence Bayesienne causale [6], et
l?analyse de séries temporelles à l?aide d?outils de la dynamique des systèmes
non linéaires [7]. La question de l?apprentissage ensembliste de tels mod-
èles (combinaison optimale de classifieurs hétérogènes sous optimaux) devra
notamment être abordée.
3. Enfin, une attention particulière sera portée sur la capacité de ces nouvelles
méthodes à effectuer de l?apprentissage incrémental dans le temps, et à no-
tamment remettre rapidement en question un ensemble d?instance observées
dans le passé dans le cas ou une évolution de l?infrastructure rend de facto
obsolète une partie du modèle appris (évolution du plan de transport ou du
parc d?engins communicants, par exemple). Dans ce contexte, la détection et
la prise en compte de changements de régime est une première piste possible,
et la possibilité de permettre à un expert humain de guider l?apprentissage
en fonction de ses connaissances métier en est une autre.
3
Jalons et organisation
Le travail de thèse sera articulé autour de différents jalons correspondant aux
phases de la thèse et aux principaux axes développés, avec un jalon final sur la
production du mémoire de thèse et la réalisation d?un prototype. À ces jalons
s?ajouteront les productions d?articles scientifiques (et présentations associées en
conférences), qui donneront également chacune lieu à une validation interne SNCF.
Pour l?instant, nous pouvons identifier les jalons potentiels suivants (toutefois
ce lotissement évoluera en fonction des axes mis en avant de manière prioritaire) :
? amélioration de la détection d?anomalie, et application éventuelle à d?autres
flux et à d?autres indicateurs ;
? prise en compte des changements de régime ;
? prise en compte de la corrélation et de la causalité entre indicateurs ;
? pré-qualification et/ou classification automatique ou semi-automatique des
anomalies ;
? démonstration du prototype réalisé et présentation des résultats finaux.
À une échelle temporelle plus fine, le suivi de thèse sera assuré par les trois en-
cadrants lors de réunions hebdomadaires. Un comité de pilotage regroupant des
membres du laboratoire LIRIS et de la SNCF sera par ailleurs mis en place en
début de première année. Son rôle sera d?effectuer des bilans trimestriels réguliers
sur l?avancement des travaux. Enfin, la réinscription d?une année sur l?autre sera
validée localement par la conseil de suivi des thèses du laboratoire LIRIS (qui
fournira de plus au doctorant toute l?infrastructure de suivi classique du labora-
toire), ainsi que par une commission annuelle de l?école doctorale InfoMath.
54
Informations pratiques et candidature
La date de démarrage prévue se situe entre Septembre et Novembre 2016. Les
candidats intéressés doivent envoyer les documents suivants aux contacts listés
dans la Section ci-dessous :
? une courte déclaration d?intérêt ;
? un CV détaillé ;
? une liste des cours et des évaluations scolaires des deux dernières années ;
? des lettres de recommandations potentielles.
La SNCF étant une entreprise dans laquelle le Français est l?unique langue utilisée,
les candidats devront la maîtriser. Une connaissance de l?Anglais est bien-sûr aussi
nécessaire.
Toutes les candidatures seront examinées au fur et à mesure de leur arrivée, et
le poste restera ouvert jusqu?à ce qu?il soit pourvu.
Contacts
? Denis Jouvin, Architecte SOA du domaine Trains Communicants, Expert
scientifique et technique du réseau SNCF SYNAPSES
(denis.jouvin@sncf.fr), tél. 04 27 44 48 64, bureau 15-86
? Serge Fenet, Maître de conférences, Laboratoire LIRIS
(serge.fenet@liris.cnrs.fr)
? Christophe Rigotti, Maître de conférences, HDR, Laboratoire LIRIS
(christophe.rigotti@liris.cnrs.fr)
Bibliographie
[1] Charu C. Aggarwal, Philip S. Yu, Outlier Detection for High Dimensional
Data. SIGMOD Conference 2001 : 37-46
[2] Varun Chandola, Arindam Banerjee, and Vipin Kumar. 2009. Anomaly
detection : A survey. ACM Comput. Surv. 41, 3, Article 15 (July 2009).
[3] Joshi, M. V., Agarwal, R. C., and Kumar, V. 2001. Mining needle in a
haystack : classifying rare classes via two-phase rule induction. In Proceedings of
the 2001 ACM SIGMOD international conference on Management of data. ACM
Press, New York, NY, USA, 91?102.
[4] Vilalta, R. and Ma, S. 2002. Predicting rare events in temporal domains. In
Proceedings of the 2002 IEEE International Conference on Data Mining. IEEE
Computer Society, Washington, DC, USA, 474.
[5] Keogh, E., Lin, J., and Fu, A. 2005. Hot sax : Efficiently finding the most
unusual time series subsequence. In Proceedings of the Fifth IEEE International
Conference on Data Mining. IEEE Computer Society, Washington, DC, USA,
226?233.
6[6] Pearl, Judea. 2000. Causality : Models, Reasoning, and Inference. Cambridge
University Press.
[7] Huanfei, Kazuyuki, Luonan. 2014. Detecting Causality from Nonlinear
Dynamics with Short-term Time Series. In Nature.
[8] Hsu, Srivastava. 2009. Diversity in combinations of heterogeneous classifiers.
Advances in Knowledge Discovery and Data Mining, 13th Pacific-Asia
Conference, PAKDD, Lecture Notes in Computer Science, vol. 5476, 2009,
Springer, Berlin, Heidelberg, 923?932.
7