Critères de l'offre
L'entreprise : Orange
Le département Audio et Telco Services a pour ambition d'offrir à nos clients la meilleure expérience digitale, en anticipant, développant et intégrant de bout en bout les services de communication temps réel multicanaux. Le département porte également une expertise sur les devices mobiles et une expertise audio/voix, de la recherche au delivery.
3 équipes constituent le département :
· Equipe Rich Instant Messaging qui porte le Skill center Google RCS et les activités de messaging
· Equipe Mobile Service and Sollicitation qui assure le développement des services mobiles et des plateformes associées
· Equipe Immersive Communications and Audio Expertise qui travaille sur les activités de recherche et de standardisation dans le domaine de l'audio.
3 équipes constituent le département :
· Equipe Rich Instant Messaging qui porte le Skill center Google RCS et les activités de messaging
· Equipe Mobile Service and Sollicitation qui assure le développement des services mobiles et des plateformes associées
· Equipe Immersive Communications and Audio Expertise qui travaille sur les activités de recherche et de standardisation dans le domaine de l'audio.
Description du poste
En compression audio, les approches conventionnelles ont atteint une saturation technologique, en particulier pour les signaux mono et stéréo ; l'état de l'art représenté par des codecs comme EVS ou Opus s'appuie sur des méthodes de codage par prédiction linéaire ou par bancs de filtres/transformées fréquentielles. Depuis 2018, on observe une émergence de méthodes de compression audio basées sur les réseaux de neurones, avec des méthodes telles que WaveNet, LPCNet et plus récemment des codecs comme SoundStream.
Le codage audio neuronal est ainsi un domaine de recherche très actif, offrant la promesse d'atteindre une bonne qualité audio à des débits jusque-là inatteignables avec des techniques classiques.
L'objectif du stage est d'étudier les modèles de compression audio neuronale de l'état de l'art et de concevoir et tester de nouveaux algorithmes utilisant des techniques de quantification avancées.
Les modèles actuels de l'état de l'art s'appuient sur une approche ' de bout en bout ' par autoencodeur, avec une représentation discrète de l'espace latent (qui est l'espace dans lequel le signal d'entrée est ' plongé ' en sortie d'un encodage neuronal). Cette représentation discrète est typiquement apprise en appliquant une quantification de type scalaire ou vectorielle.
Le travail de stage (6 mois) se déroulera selon un calendrier décrit ci-dessous :
Etude des modèles de compression audio neuronale actuels (1 mois)
Conception de nouvelles méthodes de codage audio, développements, tests de qualité subjectifs et objectifs (4 mois)
Rédaction (1 mois)
En particulier, vous travaillerez directement avec un doctorant dont la thèse traite de la problématique du codage audio par réseaux de neurones.
Bibliographie indicative
[1] N. Zeghidour, A. Luebs, A. Omran, J. Skoglund, and M. Tagliasacchi, 'SoundStream: An End-to-End Neural Audio Codec,' Jul. 2021, http://arxiv.org/abs/2107.03312
[2] Hong Goo Kang, W. Bastiaan Kleijn, Jan Skoglund, Michael Chinen, Convolutional Transformer for Neural Speech Coding, 155th Audio Engineering Society Convention, Oct. 2023
[3] Andreas Brendel, Nicola Pia, Kishan Gupta, Lyonel Behringer, Guillaume Fuchs, Markus Multrus, Neural Speech Coding for Real-time Communications using Constant Bitrate Scalar Quantization, Sept. 2024, https://arxiv.org/abs/2405.08417
Le codage audio neuronal est ainsi un domaine de recherche très actif, offrant la promesse d'atteindre une bonne qualité audio à des débits jusque-là inatteignables avec des techniques classiques.
L'objectif du stage est d'étudier les modèles de compression audio neuronale de l'état de l'art et de concevoir et tester de nouveaux algorithmes utilisant des techniques de quantification avancées.
Les modèles actuels de l'état de l'art s'appuient sur une approche ' de bout en bout ' par autoencodeur, avec une représentation discrète de l'espace latent (qui est l'espace dans lequel le signal d'entrée est ' plongé ' en sortie d'un encodage neuronal). Cette représentation discrète est typiquement apprise en appliquant une quantification de type scalaire ou vectorielle.
Le travail de stage (6 mois) se déroulera selon un calendrier décrit ci-dessous :
Etude des modèles de compression audio neuronale actuels (1 mois)
Conception de nouvelles méthodes de codage audio, développements, tests de qualité subjectifs et objectifs (4 mois)
Rédaction (1 mois)
En particulier, vous travaillerez directement avec un doctorant dont la thèse traite de la problématique du codage audio par réseaux de neurones.
Bibliographie indicative
[1] N. Zeghidour, A. Luebs, A. Omran, J. Skoglund, and M. Tagliasacchi, 'SoundStream: An End-to-End Neural Audio Codec,' Jul. 2021, http://arxiv.org/abs/2107.03312
[2] Hong Goo Kang, W. Bastiaan Kleijn, Jan Skoglund, Michael Chinen, Convolutional Transformer for Neural Speech Coding, 155th Audio Engineering Society Convention, Oct. 2023
[3] Andreas Brendel, Nicola Pia, Kishan Gupta, Lyonel Behringer, Guillaume Fuchs, Markus Multrus, Neural Speech Coding for Real-time Communications using Constant Bitrate Scalar Quantization, Sept. 2024, https://arxiv.org/abs/2405.08417
Description du profil
Formation souhaitéeVous êtes actuellement en Master 2 ou école d'ingénieur à dominante recherche et vous préparez une formation dans le domaine du traitement du signal, de l'apprentissage automatique et/ou de l'audio
Pré-requis techniques :
Maîtrise du traitement du signal audio
Bonnes connaissances en théorie des probabilités
Connaissances en méthodes d'apprentissage automatique, si possible en réseaux de neurones
Maîtrise de Python. Idéalement expérience avec PyTorch.
Aptitudes personnelles :
Forte appétence pour le traitement du signal et l'audio
Maîtrise de l'anglais
Salaire et avantages
Salaire : Salaire selon profil
Référence : 2024-39428