[Stage R&D pre-Thèse CIFRE] : Modèles à base d'arbres explicables et contrôlables, applications sur cas réels

Artefact

Paris, Frankreich

Praktikum, Wissenschaft/Forschung, Französisch

47 Besuche			0 Bewerbungen

Anmelden

Beschreibung:

Présentation d'Artefact

Artefact est une société internationale de services autour de la data et l'IA, dont la mission est de transformer la donnée en délivrant des résultats tangibles sur l'ensemble de la chaîne de valeur des entreprises. L'approche unique d'Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d'atteindre leurs objectifs business de façon dédiée et efficace. Nos 1700 employés allient leurs compétences pluridisciplinaires au profit de l'innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu'à la formation et l'accompagnement au changement. Le centre de recherche d'Artefact comporte 20 membres et est dédié à améliorer les modèles de machine learning, afin de les rendre plus transparents et contrôlables. Sa recherche est intégralement open source, à travers des publications scientifiques et des packages en licence libre.
Présentation du laboratoire académique - LPSM (Sorbonne Université)
Le Laboratoire de Probabilités, Statistique et Modélisation (LPSM, UMR 8001) est une unité mixte de recherche dédiée aux mathématiques de l'aléatoire et des données. Les thèmes de recherche du LPSM concernent des domaines très variés et couvrent aussi bien des mathématiques fondamentales que des applications et des interactions dans de nombreuses disciplines : sciences des données, médecine, sciences humaines, sciences de la vie, physique, finance, actuariat, etc. Au total, le laboratoire compte environ 200 membres (env. 90 personnels permanents). L'étudiant sera encadré du côté académique par Erwan Scornet, enseignant-chercheur au LPSM depuis 2023, travaillant sur les thématiques des forêts aléatoires et de l'interprétabilité.

Contexte

Offre de stage de recherche de fin d'études d'une durée de 4 à 6 mois, débutant au printemps 2026, pouvant déboucher sur une thèse CIFRE, débutant en septembre 2026. Cette offre liste les possibles directions de recherche, qui seront affinées durant le stage. Ces directions constituent également les développements qui pourront être menés durant la thèse. Dès le stage, l'étudiant aura accès à des données entreprise et sera confronté à des cas concrets. L'objectif général est double : proposer une solution technique à un problème métier avéré ; formaliser et publier les travaux sous la forme d'articles scientifiques et diffuser ses travaux lors de présentations en conférences internationales.
Cas d'application
Les travaux porteront sur un cas d'application récurrent du machine learning classique : l'utilisation des modèles à base d'arbre (forêt aléatoire, Gradient Boosting, XGBoost) pour la prédiction sur des séries temporelles. Le cadre métier et illustratif sont les modèles de forecasting, qui prédisent les ventes futures de différents produits, par exemple de la grande distribution. Les séries temporelles sont donc les ventes historiques, produit par produit. Une variable d'entrée particulièrement importante dans ce cadre est le prix, qui impacte fortement la prédiction, et qui fait l'objet de manipulations par des utilisateurs métier, voire est automatiquement optimisé pour un objectif donné (campagne de promotion, pricing). Le stage commencera par évaluer quantitativement les limites de l'existant sur un jeu de données de vente interne d'un grand groupe de distribution français. Dans l'hypothèse de la thèse, le cas d'application pourra évoluer, et ne sera pas strictement maintenu sur le forecasting.
Problématiques Scientifiques
Les modèles de forecasting ont besoin d'être entraînés sur un gros volume de données (XGBoost [4] ou LightGBM [5] étant gourmands), l'état de l'art est de regrouper toutes les séries temporelles des produits pour l'entraînement [8] (approche dite du "global model"), et donc, mélanger des produits différents. Les implémentations existantes couramment utilisées sont les packages XGBoost, LightGBM et Gradient Boosting de scikit-learn. Les questions de recherches identifées par Artefact sur ces modèles sont multiples, en voici la description, avec les implications dans le cas de prédiction de volumes de vente:
* Contrainte de monotonie
Cette contrainte est une décision de l'utilisateur en amont de l'apprentissage, pour une variable d'entrée donnée. Elle garantit que les prédictions du modèle respecteront strictement la croissance ou décroissance selon cette variable. Il existe des méthodologies existantes, qui assurent la contrainte en imposant à chaque nœud des bornes supérieures et inférieures aux prédictions possibles, les coupures menant à des prédictions hors de ces bornes étant exclus lors de la recherche de la coupure optimale [1]. Ces bornes sont récursivement imposées à chaque coupure faite sur la variable de contrainte monotone, avec comme borne intermédiaire (supérieure pour le nœud de gauche et inférieure pour le nœud de droite) la moyenne entre les bornes supérieures et inférieures précédentes, selon le principe détaillé dans [6]. Ces méthodes de la contrainte monotone ne sont pas satisfaisantes, car la contrainte imposée est globale : (i) elle est trop stricte pour l'approche "global model", qui mélange des séries temporelles, qui n'a besoin de contrainte qu'à l'échelle de la série ; (ii) prendre la moyenne des bornes pour imposer récursivement des bornes n'est pas optimal, et reste indépendant de la distribution des données ; (iii) les prédictions finales restent constantes par morceau ("en escalier", comme pour tout modèle à base d'arbre), alors que la connaissance externe d'une contrainte monotone nous amène à imaginer une courbe plus régulière ; (iv) cette approche est récursive (dite "greedy"), alors que les bornes pourraient être ajustées selon les coupures ultérieures, ce qui impacterait néanmoins le temps de calcul [7].
* Features importance
Il existe plusieurs approches pour attribuer un pourcentage d'importance globale aux variables d'entrée, à l'issue de l'apprentissage [9]. Généralement, cette importance provient de la mesure d'impureté associée aux coupures selon ladite variable, ou de la perte de précision du modèle lorsque sont permutées aléatoirement les valeurs de la variable sur des points de validation. Ces méthodes sont habituellement satisfaisantes, mais présentent un risque dans le cas de l'approche "global model" : en effet, si une variable est utilisée pour distinguer la série temporelle avec les autres, comme une feature discriminative, alors elle aura une importance élevée. Cependant, dans le cas de forecasting, l'importance attendue par les utilisateurs est à l'échelle de la série temporelle, et ne doit pas comporter des composantes "discriminantes". Afin de pouvoir proposer une méthodologie améliorée pour estimer ces features importances corrigées, nous ferons l'hypothèse que l'information de l'ID de la série temporelle sera donnée lors de l'apprentissage. Ce point pourra aussi être étendu aux SHAPley values, qui peuvent être considérées comme des features importances locales, pour un échantillon donné.
* Causalité
Une variante des forêts aléatoires existe pour capturer les effets de causalité, basé sur les generalized random forests [10], appelées les forêts causales (Causal Forests [11]). Ces modèles ont besoin de savoir si le traitement a été appliqué ou non, ce qui constitue donc une variable d'entrée, à priori binaire. Cela est particulièrement pertinent dans notre cas d'application pour les changements de prix ou les promotions, qui permettent idéalement de capturer l'élasticité au prix, mais sont en pratique observées avec de nombreux autres phénomènes. Il a été proposé un modèle pour isoler l'impact du prix (ou plus généralement du traitement) des autres patterns de vente, SDID (Synthetic differences in difference [12]), qui est cependant basé sur un modèle linéaire. Dans une logique avant tout applicative, un sujet sera d'expérimenter les forêts causales sur nos données, ce qui nécessitera en premier lieu de préparer les données pour exprimer le traitement, c'est-à-dire identifier les périodes de promotions ou de changements de prix.
* Données manquantes
Une force des modèles à base d'arbre est de prendre en compte nativement les données manquantes, ce qui peut être utile pour, dans un premier temps, imputer les données (MissForest, [13]), ou pour entraîner un modèle à base d'arbres sur des données incomplètes [14]. Dans notre cadre des séries temporelles, il y a une donnée généralement manquante, qui est l'information de pénurie du produit ("out of stock"). Elle est en effet partiellement renseignée, et n'est pas toujours fiable. Or cette donnée est d'un grand intérêt pour le secteur de la grande distribution, que ce soit pour l'avoir de façon plus fiable (et ainsi mieux organiser le réapprovisionnement), ou pour mieux prédire les ventes futures. Il s'agit du cas de "missing at random" (MAR), qui est un cas assez complexe de données manquantes.

Votre profil

* Le profil recherché pour ce poste est le suivant :
* BAC+5 : Formation en mathématiques appliquées, statistiques ou machine learning au sein d'une université ou école d'ingénieur
* Stage de fin d'études
* Date de début : printemps 2026
* Durée : 4 à 6 mois
* Pour postuler, veuillez envoyer via email votre CV avec votre dernier relevé de notes à emmanuel.malherbe@artefact.com et anouk.joubert@artefact.com

Ausführliche Beschreibung lesen

Quelle:	Website des Unternehmens
Datum:	24 Dez 2025 (geprüft am 03 Jan 2026)
Stellenangebote:	Praktikum
Bereich:	Internet / New Media
Dauer:	6 Monate
Sprachkenntnisse:	Französisch

Anmelden

[Stage R&D pre-Thèse CIFRE] : Modèles à base d'arbres explicables et contrôlables, applications sur cas réels

Über iAgora

Firma

Arbeit

Studien