Site Reliability Engineer (SRE) - AI GPU ClustersScaleway

Paris 08 (75)CDI
Il y a 7 jours

L'entreprise : Scaleway

Rejoignez Scaleway et façonnez le cloud souverain de demain ! Depuis 1999, nous concevons des infrastructures sécurisées, durables et pensées pour accompagner les entreprises les plus ambitieuses.

 Historiquement reconnus pour nos serveurs dédiés Dedibox, nous avons pris en 2015 un virage stratégique vers le cloud computing.


En restant fidèles à nos principes de simplicité, flexibilité et d'excellence technique, nous avons su trouver notre place parmi les leaders européens du secteur. Avec l’essor de l’intelligence artificielle, nous avons choisi de renforcer notre engagement en bénéficiant du soutien du groupe Iliad, qui investit aujourd’hui 3 milliards d’euros pour développer une alternative IA souveraine et sérieuse aux géants américains et asiatiques. Chaque jour et grâce à notre riche catalogue de produits et services (bare metal, conteneurisation, serverless, IA etc.), Scaleway sert fièrement 38 000 clients privés et du secteur public, de Photoroom à Mistral AI en passant par Golem.AI ou l’ADEME. 


Nos bureaux se trouvent à Paris, Lille, Rouen, Rennes, Toulouse, Bordeaux et Lyon.

Description du poste

POURQUOI AVONS-NOUS BESOIN DE VOUS ?
Notre croissance nous pousse à renforcer notre équipe SRE afin de soutenir et de faire
évoluer nos environnements de production.
Votre mission sera de concevoir et maintenir une infrastructure IA fiable, observable et
sécurisée pour garantir une disponibilité optimale des services destinés à nos clients dans
le monde entier.


VOTRE FUTUR ÉQUIPE :
Nous travaillons dans un environnement collaboratif et international, où la diversité des
Scalers combinée à l’esprit de partage permettent de faire émerger de nouveaux projets
chaque jour et d’avancer ensemble dans la concrétisation de nos ambitions.
Vous rejoindrez une équipe nouvellement créée, dédiée à la construction et à
l’exploitation de l’infrastructure IA de Scaleway. Au sein de ce groupe, vous serez
impliqué dans la conception, la maintenance et la scalabilité des systèmes centraux et des
outils d’observabilité, en partenariat avec les équipes produit, afin d’assurer la fiabilité et la
performance des services IA de Scaleway.


VOTRE QUOTIDIEN :
● Construire une infrastructure IA à grande échelle avec monitoring, diagnostic et
remédiation des incidents de production
● Résoudre les incidents de production à fort impact en collaboration avec les autres
équipes d’ingénierie
● Participer à un système d’astreinte pour gérer les incidents et garantir la continuité
de service
● Implémenter et maintenir des solutions d’observabilité pour surveiller l’état de santé
de l’infrastructure IA et des applications
● Contribuer à la gestion du cycle de vie de l’infrastructure IA à travers différents
environnements et pays
● Promouvoir et appliquer les bonnes pratiques en matière de stabilité, résilience,
scalabilité et sécurité
● Maintenir une documentation technique claire pour les outils et procédures
● Contribuer à l’évolution des systèmes et outils sur la base des retours de production
● Collaborer étroitement avec les équipes de développement pour assurer la
préparation de l’infrastructure
● Participer aux rituels d’équipe et aux initiatives de partage de connaissances


À PROPOS DE VOUS :
SOFTSKILLS
● Esprit proactif et orienté solutions
● Passion pour l’automatisation et l’amélioration continue
● Solides compétences de collaboration et de communication
● Capacité à travailler en autonomie comme en équipe
● Envie de partager vos connaissances et de mentorer vos pairs


HARDSKILLS
● Expérience en Go, Python ou Rust
● Solides compétences en scripting (Bash, Python)
● Expérience pratique des systèmes Linux (Ubuntu/Debian)
● Expérience sur des infrastructures GPU & HPC
● Connaissances réseaux (TCP/IP, DNS, BGP, load-balancing, IPv6, etc.)
● Familiarité avec les outils de monitoring et logging (Prometheus, Grafana, Elastic,
etc.)
● À l’aise avec l’Infrastructure-as-Code (Ansible, Salt, AWX, etc.)
● Expérience en gestion de bases de données relationnelles (PostgreSQL)
● Compréhension des pipelines CI/CD (GitLab)
● Anglais opérationnel (écrit et parlé)


CE QUE VOUS TROUVEREZ CHEZ SCALEWAY ++++
● Travail hybride : jusqu’à 3 jours de télétravail par semaine
● Locaux : espaces de travail spacieux, dynamiques et au design audacieux, proches
des transports. La plupart offrent des espaces extérieurs (terrasses) et des
stationnements vélos.
● Restauration : service de repas équilibrés assuré par notre chef au siège,
petit-déjeuner offert sur tous les sites toute l’année. Carte Swile pour les équipes en
régions.
● Engagements QVT : salle de sport, berceaux d’entreprise, tarifs préférentiels pour
services à la personne… Scaleway s’engage pour une vie équilibrée.
● Environnement international : plusieurs dizaines de nationalités, un cadre
stimulant où l’anglais est aussi utilisé que le français.
● Carrière & mobilités : culture forte de mobilité interne, avec des passerelles
possibles vers d’autres entités du groupe Iliad.


Pourquoi rejoindre l’aventure Scaleway ?
✔ Une offre produit riche et diversifiée : plus de 100 produits cloud public sur le IaaS, PaaS
et IA
✔ Un environnement technique de pointe : infrastructures modernes, serveurs bare metal
haute performance, défis techniques stimulants
✔ Un engagement pour un cloud responsable : datacenters alimentés uniquement par de
l’énergie renouvelable depuis 2017, empreinte écologique réduite, certification au plus haut
niveau


LA SUITE …
● Call de découverte avec un recruteur (30 min)
● Entretien manager pour comprendre vos compétences techniques et votre approche
du rôle (45 min)
● Entretien technique pour valider vos expertises (1h)
● Entretien avec le Head of de la tribe pour approfondir vos échanges et valider votre
fit avec l’équipe (45 min)
● Entretien RH pour visiter nos locaux et échanger avec vos futurs collègues


Chez Scaleway, nous nous engageons à construire un environnement inclusif et
respectueux où chacun a une juste opportunité de s’épanouir.
Toutes les candidatures sont étudiées avec soin, sans distinction d’âge, de genre,
d’orientation sexuelle, d’origine ethnique ou sociale, de religion, de handicap ou de toute
autre caractéristique.
Nous croyons que les grandes idées viennent de partout et de chacun — c’est pourquoi
vous devriez absolument postuler.

Description du profil



Postulez chez Scaleway

au poste de Site Reliability Engineer (SRE) - AI GPU Clusters - CDI.

Par exemple : prenom.nom@domaine.com. Ce champ est obligatoire.
En cliquant sur "Postuler à cette offre", j'accepte les conditions générales d'utilisation du site Agefiph
Référence : AB0270AL