Job Description

This is a contracting engagement - initially 6 months - with potential for long term engagement.

Location: Paris-based preferred; alternatively Europe remote for strong candidates

We are building and evaluating state-of-the-art large language models (LLMs) and are looking for experienced software engineers to join our evaluation and annotation team. This role sits at the intersection of real-world software engineering, model evaluation, and applied AI, and is critical to improving model reliability, reasoning, and code quality.

You will design challenging coding tasks, evaluate model outputs against rigorous benchmarks, identify failure modes, and contribute to reinforcement learning and model improvement workflows.

This is not a junior annotation role. We are looking for practitioners with deep hands-on coding experience who can think like both an engineer and an evaluator.

What You’ll Do

* Create high-quality coding prompts and reference answers (benchmark-style, e.g. SWE-Bench-like problems).

* Evaluate LLM outputs for code generation, refactoring, debugging, and implementation tasks.

* Identify and document model failures, edge cases, and reasoning gaps.

* Perform head-to-head evaluations between private LLMs (Mistral-based) and leading external models.

* Build or configure coding environments to support evaluation and reinforcement learning (RL).

* Follow detailed annotation and evaluation guidelines with high consistency.

What We’re Looking For

* 10+ years of professional software development experience.

* Strong Python skills (required).

* Knowledge of at least one additional programming language (bonus).

* 1+ year of coding annotation and/or LLM evaluation experience (part-time OK) for a major frontier AI lab or AI infrastructure company.

* Prior code reviewer experience is a plus.

* Proven ability to apply structured evaluation criteria and write clear technical feedback.

* Fluent in English (written and spoken).

* Team lead or mentoring experience is a strong plus.

Why This Role

* Work hands-on with cutting-edge LLMs.

* Apply real-world engineering judgment to model evaluation and improvement.

* High-impact, technical work with a focused, senior team.

_______________

Il s'agit d'une mission contractuelle – initialement de 6 mois – avec possibilité de prolongation.

Lieu : Poste basé à Paris de préférence ; possibilité de télétravail en Europe pour les candidats les plus qualifiés.

Nous développons et évaluons des modèles de langage de grande taille (LLM) de pointe et recherchons des ingénieurs logiciels expérimentés pour rejoindre notre équipe d'évaluation et d'annotation. Ce poste se situe à l'intersection du génie logiciel, de l'évaluation de modèles et de l'IA appliquée, et est essentiel à l'amélioration de la fiabilité des modèles, du raisonnement et de la qualité du code.

Vous concevrez des tâches de programmation stimulantes, évaluerez les résultats des modèles par rapport à des benchmarks rigoureux, identifierez les modes de défaillance et contribuerez aux processus d'apprentissage par renforcement et d'amélioration des modèles.

Ce poste ne s'adresse pas aux annotateurs juniors. Nous recherchons des professionnels possédant une solide expérience pratique en programmation, capables d'adopter une approche à la fois ingénieure et évaluatrice.

Vos missions :

* Créer des consignes de programmation et des réponses de référence de haute qualité (de type benchmark, par exemple des problèmes similaires à SWE-Bench). Évaluer les résultats des modèles de langage (LLM) pour la génération de code, la refactorisation, le débogage et l'implémentation.

* Identifier et documenter les défaillances des modèles, les cas limites et les lacunes de raisonnement.

* Effectuer des évaluations comparatives directes entre les LLM privés (basés sur Mistral) et les principaux modèles externes.

* Concevoir ou configurer des environnements de développement pour l'évaluation et l'apprentissage par renforcement (RL).

* Suivre rigoureusement les directives d'annotation et d'évaluation.

Profil recherché :

* Plus de 10 ans d'expérience professionnelle en développement logiciel.

* Excellente maîtrise de Python (obligatoire).

* Connaissance d'au moins un autre langage de programmation (un atout).

* Au moins un an d'expérience en annotation de code et/ou en évaluation de LLM (temps partiel possible) au sein d'un laboratoire d'IA de pointe ou d'une entreprise d'infrastructure d'IA.

* Une expérience en revue de code est un plus.

* Capacité avérée à appliquer des critères d'évaluation structurés et à rédiger des retours techniques clairs.

* Maîtrise de l'anglais (écrit et oral).

* Une expérience en gestion d'équipe ou en mentorat est un atout majeur.

Pourquoi ce poste ?

* Travaillez concrètement avec des LLM de pointe.

* Appliquez votre expertise d'ingénieur à l'évaluation et à l'amélioration des modèles.

* Contribuez à un travail technique à fort impact au sein d'une équipe senior spécialisée.

Principal Coding Annotator / LLM Evaluation Engineer (PARIS)