Beschreibung
EPFL, l'École polytechnique fédérale de Lausanne, est l'un des Instituts fédéraux suisses de technologie les plus dynamiques d'Europe et figure parmi les 20 meilleures universités au monde. L'EPFL emploie plus de 6 500 personnes soutenant les trois principales missions de l'institution : la recherche et le campus de l'EPFL offre un environnement de travail exceptionnel au cœur d'une communauté de plus de 17 000 personnes, dont plus de 12 500 étudiants et 4 000 chercheurs de 120 pays différents. Ingénieur de recherche - NLP et grands modèles de langageÀ propos du rôleNous recherchons un ingénieur de recherche en traitement du langage naturel (NLP) et en grands modèles de langage (LLMs) pour contribuer à la conception, à la formation et à l'évaluation de modèles. Le rôle se situe à l'intersection de la recherche et de l'ingénierie de production, avec un fort accent sur l'après-formation, la multimodalité et les techniques de modélisation avancées, y compris basées sur la diffusion. Vous travaillerez en étroite collaboration avec des chercheurs et des scientifiques appliqués pour transformer des idées novatrices en systèmes évolutifs et reproductibles, et Pour faire progresser l'état de l'art dans des systèmes ouverts, responsables et multilingues.ResponsabilitésConcevoir, mettre en œuvre et maintenir des pipelines de formation et d'après-formation pour des modèles de langage et multimodaux de grande taille (ajustement d'instructions, alignement, recherche et ingénierie sur les méthodes d'après-formation). Contribuer à la modélisation multimodale, au texte avec des modalités telles que la vision, la parole ou l'audio. Explorer et appliquer des modèles basés sur la diffusion et des approches hybrides pour l'apprentissage du langage et multimodal. Optimiser la formation à grande échelle et l'inférence. Développer des pipelines et des benchmarks pour la compréhension du langage, le raisonnement, l'alignement et la multimodalité avec des chercheurs pour prototyper de nouvelles idées, reproduire des résultats et contribuer à des rapports techniques. Assurer la qualité du code, la reproductibilité et la viabilité à long terme, et préparer pour une publication en open source.ExigencesMaster ou doctorat en informatique, apprentissage machine, IA ou dans un domaine connexe (ou expérience pratique équivalente). Solide expérience en NLP et en apprentissage profond, avec une expérience pratique avec de grands modèles de langage. Compétences en programmation solides en Python, avec expérience des frameworks ML modernes (tels que TensorFlow, PyTorch). Expérience de travail avec des modèles ou des poids ouverts, y compris la publication de modèles ou de benchmarks. Familiarité avec les techniques d'après-formation pour les LLMs (ajustement d'instructions, alignement de préférences). Rigueur expérimentale forte : capacité à concevoir des expériences contrôlées, analyser des résultats et les communiquer efficacement.Souhaité / BonusConnaissance des modèles de diffusion (par exemple, diffusion de texte, diffusion auditive ou diffusion multimodale). Expérience pratique avec des modèles multimodaux (systèmes texte-image, texte-audio, parole-langage). Exposition à l'alignement des LLM, la sécurité, ou au-delà des métriques de modélisation linguistique standard. Expérience avec la formation distribuée et des modèles à grande échelle dans des contextes linguistiques multilingues ou à ressources limitées. Contributions à des projets open source en ML et recherche en NLP, multimodalité ou autre.Nous offronsUn environnement axé sur la recherche avec un accès à des ressources informatiques à grande échelle et à des techniques modernes de ML. La possibilité de travailler avec des chercheurs de premier plan en NLP, multimodalité et modélisation. Un soutien pour la publication de recherches, la contribution à des projets open source et l'engagement avec la communauté de recherche au sens large. Un salaire et des avantages compétitifs, à convenir. Date de début : à convenirActivité : 1 an, renouvelableType de contrat : Contrat à durée déterminée (CDD) jid94f4a09afr jit0414afr jpiy26afr
