PhD-Détection,mitigation des biais de résumé par LLM en services EntrepriseOrange
Caen (14)CDD
Il y a 16 jours
Critères de l'offre
Métiers :
- Responsable innovation (H/F)
- + 1 métier
Expérience min :
- débutant à 20 ans
Diplômes :
- Diplôme de grande école d'ingénieur
- + 2 diplômes
Lieux :
- Caen (14)
Conditions :
- CDD
- 35 000 € - 40 000 € par an
- Temps Plein
L'entreprise : Orange
L'ambition de la Division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème digital mondial.
Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité.
La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité...), les femmes et les hommes de Innovation sont à l'écoute et au service des pays, des régions et des business units pour faire d'Orange un opérateur multiservices de confiance.
Au sein de la division Innovation, vous serez intégré(e) dans une équipe de recherche à la pointe de l'innovation et de l'expertise sur les usages des grands modèles de langage (LLM) et les biais associés. Vous ferez partie d'un écosystème de recherche côtoyant des ingénieurs d'études en anticipation (plus court terme) permettant la mise en oeuvre concrète des concepts étudiées, bénéficiant de plateformes de benchmarks.
Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité.
La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité...), les femmes et les hommes de Innovation sont à l'écoute et au service des pays, des régions et des business units pour faire d'Orange un opérateur multiservices de confiance.
Au sein de la division Innovation, vous serez intégré(e) dans une équipe de recherche à la pointe de l'innovation et de l'expertise sur les usages des grands modèles de langage (LLM) et les biais associés. Vous ferez partie d'un écosystème de recherche côtoyant des ingénieurs d'études en anticipation (plus court terme) permettant la mise en oeuvre concrète des concepts étudiées, bénéficiant de plateformes de benchmarks.
Description du poste
Votre rôle est d'effectuer un travail de thèse sur la détection et la mitigation des biais de résumé par des LLM dans les services Entreprise, pour des usages de l'Intelligence Artificielle (IA) tels que : des résumés de réunions ou verbatims dans une organisation ; synthèses d'interactions client ; résumés d'échanges interpersonnels non structurés via des services de communication et de collaboration. Il ne s'agit pas ici simplement de résumer des échanges, mais d'en produire une synthèse utile pour son destinataire, dont les besoins peuvent être différents en fonction de son métier / de ses objectifs.
Les biais dans la production de synthèse peuvent entraîner des inégalités, des inexactitudes ou des préjudices résultant de divers facteurs. Or, avec l'apparition des self supervised pretrained large language model, il n'est plus possible de mesurer des corrélations entre les signaux d'entrées, les choix algorithmiques et les biais observés. Concernant la détection de ces biais, seule une approche fondée sur des observations est réalisable, reposant sur la construction de métriques avec des évaluations effectuées par des humains et/ou des modèles de langage (LLM as a Judge).
Les étapes principales de la thèse seront donc :
1. Etudier puis élaborer une méthodologie et des protocoles d'évaluation adaptée, dans une optique de modularité et généricité et mise en place d'un benchmark les implémentant.
2. Conduire des tests basés sur ce benchmark en définissant des métriques dédiées.
3. Identifier des stratégies de mitigation des biais, en comparant les approches avec ou sans entraînement supplémentaire des modèles.
Les data sets privés Orange non contaminés ou publics seront utilisés. Les métriques seront élaborées par itération progressive, les biais se manifestant de manière statistique. Il faudra aller au-delà de l'aspect test et d'étendre à la recherche de règles heuristiques sur la corrélation entre les différentes étapes de construction et d'utilisation des LLMs avec la présence de biais. Enfin, il s'agira de construire une méthode adaptée pour les corriger en identifiant les stratégies d'alignement avec apprentissage supervisé ou avec apprentissage par renforcement. La solution proposée sera comparée à des méthodes de mitigation de biais sans entrainement supplémentaire (auto-diagnostic, prompt engineering et roleplay).
Contexte : https://hellofuture.orange.com/fr/ne-pas-reproduire-prejuges-et-erreurs-humaines-dans-les-llms-comment-faire/
Les biais dans la production de synthèse peuvent entraîner des inégalités, des inexactitudes ou des préjudices résultant de divers facteurs. Or, avec l'apparition des self supervised pretrained large language model, il n'est plus possible de mesurer des corrélations entre les signaux d'entrées, les choix algorithmiques et les biais observés. Concernant la détection de ces biais, seule une approche fondée sur des observations est réalisable, reposant sur la construction de métriques avec des évaluations effectuées par des humains et/ou des modèles de langage (LLM as a Judge).
Les étapes principales de la thèse seront donc :
1. Etudier puis élaborer une méthodologie et des protocoles d'évaluation adaptée, dans une optique de modularité et généricité et mise en place d'un benchmark les implémentant.
2. Conduire des tests basés sur ce benchmark en définissant des métriques dédiées.
3. Identifier des stratégies de mitigation des biais, en comparant les approches avec ou sans entraînement supplémentaire des modèles.
Les data sets privés Orange non contaminés ou publics seront utilisés. Les métriques seront élaborées par itération progressive, les biais se manifestant de manière statistique. Il faudra aller au-delà de l'aspect test et d'étendre à la recherche de règles heuristiques sur la corrélation entre les différentes étapes de construction et d'utilisation des LLMs avec la présence de biais. Enfin, il s'agira de construire une méthode adaptée pour les corriger en identifiant les stratégies d'alignement avec apprentissage supervisé ou avec apprentissage par renforcement. La solution proposée sera comparée à des méthodes de mitigation de biais sans entrainement supplémentaire (auto-diagnostic, prompt engineering et roleplay).
Contexte : https://hellofuture.orange.com/fr/ne-pas-reproduire-prejuges-et-erreurs-humaines-dans-les-llms-comment-faire/
Description du profil
Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste : forte autonomie, écoute, motivation et rigueur scientifique, compétences en modèles de langages (LLM), apprentissage (deep learning), intelligence artificielle (IA) et bonnes capacité en développement logiciel.
Formation demandée : Master 2 ou diplôme d'ingénieur avec une spécialisation en intelligence artificielle
Expériences souhaitées : une expérience liée aux biais dans les LLM serait un plus
Formation demandée : Master 2 ou diplôme d'ingénieur avec une spécialisation en intelligence artificielle
Expériences souhaitées : une expérience liée aux biais dans les LLM serait un plus
Salaire et avantages
un plan d'épargne entreprise et retraite, l'intéressement, la participation, une couverture santé et prévoyance, des réductions sur les offres et produits d'Orange ainsi que les activités sociales et culturelles proposées par le comité social d'entreprise, un restaurant d'entreprise
Référence : 2025-44039