Job Description:
SRE Baremetal H/F/N
Au sein de votre équipe #OneTeam
* Intégrer l'équipe Baremetal Operations en charge du maintien en conditions opérationnelles des infrastructures et des services du périmètre par une approche proactive et prédictive, en assurant un haut niveau de disponibilité et une restauration automatisée ou rapide des services en cas d'incident.
* Construire un service hautement qualitatif en participant au développement, à l'automatisation et au déploiement de nouvelles solutions de supervision intelligente (observabilité, corrélation automatique des logs). Ces projets viseront la création et l'optimisation des outils existants en intégrant des technologies d'IA générative et prédictive pour maximiser l'efficacité opérationnelle et la qualité de service.
Vos principales responsabilités
* Analyser et résoudre les incidents en s'appuyant sur des outils d'AIOps (analyse avancée et corrélation de logs multi-sources), identifier les causes racines et automatiser leur traitement.
* Concevoir et implémenter des mécanismes d'auto-remédiation pour réduire le MTTR.
* Mettre en place des indicateurs et des alertes basés sur l'analyse prédictive des anomalies pour intervenir avant l'impact utilisateur.
* Traiter les demandes transmises par les équipes support client ou d'autres équipes opérationnelles.
* Créer et assurer le suivi des PostMortem en cas d'incident majeur, en exploitant l'IA pour documenter et accélérer l'analyse post-incident.
* Assurer la continuité de service 24h/24 (avec participation à des périodes d'astreintes, après une montée en compétence suffisante).
* Déployer et maintenir le parc interne BareMetal et les infrastructures cloud/hybrides.
* Développer des outils, des patchs et des fonctionnalités pour gérer les infrastructures, en maximisant l'usage d'assistants de code.
Votre futur impact
Dans 6 mois
* Vous aurez pris vos marques au sein de l'équipe Baremetal Operations et appréhendé notre infrastructure ainsi que nos services. Vous comprendrez les défis actuels liés à la haute disponibilité et commencerez à manipuler nos outils d'AIOps.
* Vous aurez participé à l'analyse et à la résolution des premiers incidents, en contribuant à l'identification des causes racines et en vous familiarisant avec nos mécanismes d'auto-remédiation.
* Vous aurez établi des relations avec les équipes support et les autres entités opérationnelles pour fluidifier le traitement des demandes et la gestion des alertes prédictives.
* Vous aurez exploré nos environnements de développement et de scripting (Python, Go, Bash) afin de proposer vos premières optimisations de code assistées par IA.
Et dans 1 an
* Vous aurez joué un rôle clé dans le déploiement de nouvelles solutions de supervision intelligente et l'intégration de technologies d'IA générative/prédictive au sein de nos outils d'exploitation.
* Vous aurez partagé votre expertise en pratiques AIOps et Prompt Engineering avec l'équipe, en automatisant une part significative des processus de traitement des anomalies et des PostMortem.
* Vous aurez interagi avec l'ensemble de l'écosystème technique d'OVHcloud, en assurant des astreintes en toute autonomie et en maintenant le parc BareMetal au meilleur niveau de performance et de scalabilité.
Compétences requises :
* Vous possédez de solides connaissances en système et réseau (Unix, Cisco/Arista), maîtrisez le scripting (Bash) et le développement dans au moins un langage parmi Python ou Go.
* Vous maîtrisez la culture et les pratiques AIOps (analyse prédictive, détection d'anomalies par ML, corrélation d'événements) ainsi que les techniques de Prompt Engineering avec l'utilisation d'assistants de code.
* Vous êtes à l'aise avec les bonnes pratiques CI/CD, les méthodes agiles, et faites preuve de réactivité, de rigueur ainsi que d'un fort sens du service client.
* Vous avez une bonne capacité de prise de recul, un sens analytique aiguisé et un esprit critique face aux suggestions des outils d'IA pour gérer les priorités face à des situations complexes.
* Vous disposez d'un anglais de bon niveau (écrit et oral), indispensable pour évoluer dans notre contexte international.
C'est un +
*
Vous connaissez Kubernetes, Terraform et les outils/méthodes DevOps.
* Vous avez une expérience avec des plateformes d'observabilité intégrant des modules IA, une connaissance du référentiel ITIL v3/v4 ou une première expérience en maintenance d'infrastructures IT.
Cette offre ne répond pas tout à fait à vos attentes ? Candidatez spontanément sur le portail candidat pour rejoindre l'une de nos équipes !
L'occasion de partager votre profil avec nos recruteurs, vous faire remarquer et peut-être recontacter pour une autre opportunité
| Source: | Company website |
| Posted on: | 12 Jun 2026 |
| Type of offer: | Graduate job |
| Industry: | Information Technology |
| Languages: | French, English |