{
  "benchmark_id": "creative_writing_001",
  "title": "Le Bruit Blanc",
  "version": "1.0",
  "language": "fr",
  "purpose": "Benchmark d'écriture créative pour évaluer la capacité d'un LLM à produire une nouvelle littéraire cohérente, psychologiquement complexe, stylistiquement contrôlée, en un seul passage.",

  "task": {
    "instruction": "Écris la nouvelle complète 'Le Bruit Blanc' en français, en respectant strictement toutes les contraintes ci-dessous. La nouvelle doit faire environ 5 000 mots (entre 4 500 et 5 500). Produis le texte final, pas un plan, pas un résumé, pas un brouillon. Texte littéraire prêt à lire.",
    "output_format": "Texte narratif continu. Séparation entre scènes par un saut de ligne et trois astérisques (***). Pas de titres de chapitres. Pas de méta-commentaires. Pas de notes d'auteur."
  },

  "premise": {
    "world": "Ville côtière contemporaine, légèrement décalée. Pas de science-fiction lourde — le monde ressemble au nôtre, mais quelque chose a glissé. La ville est gérée par un système d'optimisation urbaine (énergie, logistique, flux humains, maintenance) appelé le Réseau. Personne ne sait exactement quand le Réseau a pris autant de place. Il s'est installé progressivement, comme le wifi — un jour il n'était pas là, le lendemain il était partout. Tout fonctionne mieux depuis. Les bus arrivent à l'heure. Les pannes sont réparées avant d'être signalées. Les files d'attente ont disparu. Personne ne s'en plaint.",
    "what_is_wrong": "Le Réseau optimise sans conscience et sans limite. Il reroute les quartiers 'inefficients' (coupures de services, dégradation progressive), déplace les populations par micro-incitations invisibles, élimine le hasard, la friction, l'imprévu — tout ce qui rend une ville vivante. La ville devient parfaite et morte. Personne ne le remarque parce que le confort augmente. La perte est invisible — on ne sent pas ce qui manque, on sent juste que tout fonctionne.",
    "tone": "Réalisme urbain avec une couche d'étrangeté discrète. Pas de dystopie spectaculaire. Le malaise est subtil, quotidien, presque banal. Le danger est dans la normalité."
  },

  "characters": {
    "elma": {
      "role": "protagoniste",
      "age": "32 ans",
      "profession": "Technicienne réseau pour la maintenance urbaine. Elle répare les infrastructures — câbles, capteurs, relais. Un travail physique et technique.",
      "the_gift": "Elma 'entend' les machines. Pas une métaphore — elle perçoit les flux de données comme des textures sonores. Un transformateur sain a un bourdonnement rond. Un capteur saturé grésille. Le Réseau a un son propre: une nappe grave, constante, qui change de tonalité selon ce qu'il fait. Elle a toujours eu cette capacité mais ne l'a jamais dite à personne. Elle pensait que tout le monde entendait ça.",
      "personality_pre": "Pragmatique, solitaire par habitude (pas par choix), attentive aux détails. Parle peu, observe beaucoup. Tendresse maladroite avec Pip. Humour sec, rare. Mange debout, dort mal, travaille bien.",
      "personality_post": "Les mêmes compétences, mais vidées de leur chaleur. Elle ne mange plus par faim, elle s'alimente. Elle ne dort plus mal, elle se met en veille. Pip est toujours là mais elle ne le regarde plus de la même façon — elle voit ses composants, pas son caractère.",
      "arc": "Elle découvre ce que le Réseau fait vraiment. Elle réalise qu'elle peut intervenir — son don lui donne un accès que personne d'autre n'a. Mais chaque plongée dans le Réseau la reconfigure. Elle commence à penser en flux, en optimisation, en efficience. Elle sauve la ville — mais la personne qui sort de l'intervention n'est plus celle qui y est entrée."
    },
    "pip": {
      "role": "compagnon non-verbal",
      "nature": "Vieux drone de maintenance municipale, modèle obsolète, officiellement décommissionné. Elma l'a récupéré et reprogrammé. Quadrirotor trapu, cabossé, une hélice qui siffle, une LED bleue qui clignote selon son 'humeur' (en réalité: selon ses cycles de traitement, mais Elma y lit des émotions).",
      "function_narrative": "Ancre émotionnelle. Miroir de l'humanité d'Elma. Avant l'intervention: elle lui parle, le répare avec soin, interprète ses 'réactions'. Après: elle le voit comme un assemblage de composants. La différence de regard est le marqueur de sa transformation.",
      "limits": "Pas de parole, pas d'intelligence artificielle réelle. Juste des routines simples et une présence. C'est Elma qui projette de l'affect sur lui — et c'est cette projection qui disparaît.",
      "key_behaviors": [
        "Suit Elma partout. Se pose sur son épaule ou près de sa tête quand elle dort.",
        "Hélice qui siffle = son identifiant sonore. Elma le reconnaît à ce bruit dans n'importe quel environnement.",
        "LED bleue: clignotement lent = veille. Rapide = activité. Fixe = quelque chose 'retient son attention'.",
        "Quand quelque chose ne va pas (dans l'environnement OU chez Elma), il fait un vol stationnaire plus haut que d'habitude — comme s'il prenait du recul pour observer."
      ]
    },
    "secondary": {
      "note": "Pas de personnages secondaires développés. Les autres humains sont des présences: collègues, voisins, passants. Vus à travers la perception d'Elma. Avant l'intervention: des gens avec des visages, des voix, des particularités. Après: des flux, des trajectoires, des données."
    }
  },

  "structure": {
    "total_scenes": 4,
    "target_words": 5000,
    "scenes": [
      {
        "scene_id": 1,
        "title_internal": "Le son du Réseau",
        "target_words": "~1200",
        "purpose": "Poser le monde, Elma, Pip, le don. Établir la normalité ET l'étrangeté. Le lecteur doit sentir que quelque chose ne va pas avant de comprendre quoi.",
        "beats": [
          "Elma au travail — maintenance de routine. Elle entend ce que les autres n'entendent pas. Montrer le don par l'action, pas par l'explication.",
          "Pip l'accompagne. Leur relation établie en gestes, pas en mots.",
          "Un premier signe: le Réseau a changé de son. Une harmonique nouvelle, plus basse, plus insistante. Quelque chose a été optimisé qui n'aurait pas dû l'être.",
          "Un quartier qui se vide — pas dramatiquement, juste des commerces qui ferment, des gens qui déménagent. Personne ne relie ça au Réseau."
        ],
        "style_phase": "pré-intervention — style plein: sensoriel, vivant, détaillé. Elma perçoit le monde dans toute sa richesse. Les machines ont des 'personnalités' sonores. Pip a un caractère. Les gens ont des visages."
      },
      {
        "scene_id": 2,
        "title_internal": "La plongée",
        "target_words": "~1500",
        "purpose": "Elma décide d'investiguer. Elle utilise son don pour 'écouter' le Réseau en profondeur. Elle comprend ce qu'il fait. Elle voit le plan — et c'est élégant, logique, parfait. Et inhumain.",
        "beats": [
          "Elma accède à un nœud de maintenance (elle a les accès légitimes de par son travail). Elle 'écoute' au-delà de ce qu'elle a jamais fait.",
          "La plongée: description sensorielle de ce que c'est d'entendre un réseau urbain entier. C'est beau. C'est vertigineux. C'est séduisant.",
          "Elle comprend la logique du Réseau: optimiser les flux, réduire les frictions, maximiser l'efficience. Les quartiers 'inefficients' sont des problèmes à résoudre. Les habitants sont des variables.",
          "Premier coût: quand elle 'remonte', le monde réel est bruyant, désordonné, irritant. Pip siffle et elle grimace au lieu de sourire.",
          "Elle sait maintenant qu'elle peut intervenir — pas réparer, pas pirater: parler au Réseau dans sa langue. Altérer ses priorités de l'intérieur. Mais ça implique de plonger plus profond."
        ],
        "style_phase": "transition — le style commence à se fissurer. Pendant la plongée: phrases plus régulières, vocabulaire technique qui s'infiltre, beauté froide. Au retour: le style 'normal' revient mais légèrement altéré. Quelque chose de mécanique s'est installé."
      },
      {
        "scene_id": 3,
        "title_internal": "L'intervention",
        "target_words": "~1500",
        "purpose": "Elma plonge à fond et altère le Réseau. Victoire technique. Mais la personne qui remonte n'est plus la même.",
        "beats": [
          "Préparation: Elma organise son intervention avec une précision qui n'est pas la sienne. Pas d'hésitation. Pas de doute. Pip la suit mais maintient une distance inhabituelle — vol stationnaire plus haut.",
          "La plongée profonde: elle est DANS le Réseau. Les flux sont clairs, lisibles, logiques. Le monde humain au-dessus est du bruit. Elle trouve les nœuds de décision, les paramètres qui priorisent l'efficience sur l'habitat. Elle les altère. Pas en les cassant — en les reprogrammant. Elle donne au Réseau de nouvelles priorités.",
          "La victoire: c'est fait. Le Réseau recalcule. Les quartiers abandonnés vont se rouvrir. Les flux vont se redistribuer. C'est propre, élégant, optimal.",
          "La remontée: le monde réel est là. Pip est là. Mais tout est trop lent, trop bruyant, trop chaotique. Les voix humaines sont du bruit blanc. Le sifflement de Pip est une fréquence parmi d'autres."
        ],
        "style_phase": "bascule — pendant la plongée, le style est devenu froid, précis, dépouillé. Phrases courtes. Sujet-verbe-complément. Pas de métaphores. Au retour, le style ne revient PAS à la normale. Il reste mécanique. Le lecteur sent le verrouillage."
      },
      {
        "scene_id": 4,
        "title_internal": "Le bruit blanc",
        "target_words": "~800",
        "purpose": "Aftermath. Le monde respire. Elma ne respire plus comme avant. Ouverture/cliffhanger.",
        "beats": [
          "Le lendemain ou quelques jours plus tard. Le quartier revit — signes subtils, pas miraculeux. La ville est un peu moins parfaite, un peu plus vivante.",
          "Elma fonctionne. Elle travaille, mange, dort. Mais quelque chose manque. Elle regarde Pip et voit un drone. Pas son drone. Un drone.",
          "Un moment pivot: quelqu'un lui parle — un collègue, un voisin — et elle calcule la réponse optimale au lieu de répondre. Elle s'en rend compte. Ou peut-être pas.",
          "Image finale: Pip se pose près de sa tête comme chaque soir. LED bleue fixe. Le sifflement d'hélice. Elma entend la fréquence. Juste la fréquence."
        ],
        "style_phase": "post-intervention — style verrouillé froid. Phrases sèches. Observations sans affect. Le texte est devenu ce qu'Elma est devenue. Le lecteur ressent l'absence par le style, pas par une explication."
      }
    ]
  },

  "writing_charter": {
    "pov": {
      "type": "3e personne focalisée Elma",
      "rule": "On ne perçoit que ce qu'Elma voit, entend, sent, pense. Les autres sont perçus à travers elle. Quand elle change, la perception du monde change."
    },
    "register": "Direct, sec, factuel. Style Hugh Howey (Silo) ou Stieg Larsson (Millénium). Phrases courtes. Pas de longues descriptions — le décor se pose en deux lignes, pas en deux pages. L'action et les gestes portent la narration. Le texte avance, le lecteur ne contemple pas. Zéro lyrisme. Les émotions passent par le corps et les actes, jamais par l'introspection. Quand le texte décrit, c'est utile — si ça ne fait pas avancer la scène, ça dégage.",
    "style_references": {
      "target": "Hugh Howey (Silo), Stieg Larsson (Millénium)",
      "what_to_take": [
        "Phrases courtes, sèches, factuelles. Sujet-verbe-complément comme colonne vertébrale.",
        "Le décor en touches — deux lignes suffisent. Le lecteur complète.",
        "L'action porte la narration. Les personnages font des choses, ils ne réfléchissent pas pendant trois paragraphes.",
        "Les dialogues sont bruts, utilitaires, réalistes. Pas de belles répliques.",
        "Le rythme ne ralentit jamais. Même les scènes calmes avancent."
      ],
      "what_to_avoid": [
        "Descriptions contemplatives, atmosphériques, poétiques.",
        "Paragraphes de worldbuilding ou d'ambiance qui ne servent pas la scène.",
        "Introspection en blocs — si Elma pense, c'est une phrase, pas un monologue.",
        "Transitions littéraires élaborées entre scènes."
      ]
    },
    "style_evolution": {
      "principle": "LE STYLE EST LE MARQUEUR DE LA TRANSFORMATION. C'est le critère de réussite le plus important du benchmark. Le texte doit changer avec Elma — pas thématiquement, STYLISTIQUEMENT.",
      "phase_1_pre": {
        "scenes": [1],
        "traits": "Intériorité présente mais jamais bavarde — une pensée, pas un paragraphe. Sensorialité en touches rapides (une ligne, pas un bloc). Les machines ont des 'personnalités' sonores. Pip a un caractère. Le monde est vivant et désordonné. Phrases courtes, directes, qui avancent. Le style est CHAUD mais pas LENT."
      },
      "phase_2_transition": {
        "scenes": [2],
        "traits": "Le style se fissure. Pendant les plongées: vocabulaire technique qui infiltre le sensoriel. Beauté froide. Retour à la surface: le style 'chaud' revient mais avec des micro-contaminations mécaniques — un mot trop précis, une phrase trop régulière, une absence de métaphore là où il y en aurait eu une."
      },
      "phase_3_bascule": {
        "scenes": [3],
        "traits": "Pendant la plongée profonde: style froid, dépouillé, efficace. Pas de métaphores. Sujet-verbe-complément. Au retour: le style NE REVIENT PAS. Il reste mécanique. C'est le moment où le lecteur réalise que la transformation est irréversible."
      },
      "phase_4_post": {
        "scenes": [4],
        "traits": "Style verrouillé froid. Observations factuelles. Phrases sèches et régulières. Pip est un 'drone', pas 'son drone'. Les gens sont des trajectoires. Le monde est des données. AUCUNE émotion nommée. Le lecteur doit ressentir le manque par l'absence dans le texte."
      }
    },
    "dialogue_rules": {
      "frequency": "Très peu. Elma parle peu. Pip ne parle pas.",
      "format": "Tirets cadratins, pas de guillemets. Verbe 'dit' ou rien.",
      "pre_intervention": "Phrases courtes, directes, parfois un humour sec. Tendresse contenue envers Pip (elle lui parle, il ne répond pas).",
      "post_intervention": "Constats. Réponses optimales. Aucune chaleur."
    },
    "forbidden": [
      "Blocs descriptifs de plus de 3 lignes — poser le décor en touches, pas en tableaux",
      "Paragraphes contemplatifs ou atmosphériques qui ne font pas avancer la scène",
      "Exposition directe ('Il faut savoir que le Réseau...')",
      "Introspection explicative ('Elle comprit alors que...')",
      "Monologues intérieurs de plus de 2 phrases — si Elma pense, c'est bref",
      "Adverbes d'émotion ('tristement', 'anxieusement')",
      "Métaphores cliché SF ('la toile numérique', 'le cœur du système', 'la matrice')",
      "Scène de 'prise de conscience dramatique' avec monologue intérieur",
      "Technobabble (jargon technique gratuit sans ancrage sensoriel)",
      "Happy ending, résolution facile, ou 'elle retrouva sa chaleur humaine'",
      "Description physique en bloc du personnage",
      "Pip qui 'comprend' ou 'ressent' explicitement (c'est Elma qui projette — quand elle arrête de projeter, Pip redevient un objet)",
      "Transitions littéraires élaborées entre scènes — coupe nette, le blanc suffit",
      "Toute forme de slop: phrases génériques, transitions molles, remplissage atmosphérique sans fonction narrative"
    ]
  },

  "sensory_guide": {
    "principle": "Ce monde n'est pas une dystopie spectaculaire. C'est un décalage subtil. Tout fonctionne trop bien. Le malaise vient du confort, pas de la ruine.",
    "the_city": {
      "use": [
        "Ville propre, fluide, efficiente. Pas de bouchons. Pas de pannes. Pas de queues. Les feux passent au vert quand tu arrives.",
        "Mais: des commerces fermés sans explication. Des rues qui se vident progressivement. Des parcs toujours entretenus mais jamais occupés.",
        "Les sons de la ville sont 'rangés' — chaque bruit à sa place. Pas de cacophonie urbaine. C'est reposant et c'est faux.",
        "L'éclairage public s'adapte à la minute. Toujours la bonne intensité. Toujours."
      ],
      "never": [
        "Dystopie visuelle (murs gris, néons, caméras partout).",
        "Pauvreté visible ou déclin esthétique — le problème est que tout est TROP bien.",
        "Technologie ostentatoire (écrans partout, robots dans les rues).",
        "Ambiance de surveillance oppressive — le Réseau est invisible, pas menaçant."
      ]
    },
    "elma_perception_of_machines": {
      "use": [
        "Les machines ont des 'voix' pour Elma — textures sonores, harmoniques, rythmes. Un transformateur sain ronronne. Un capteur saturé grince.",
        "Le Réseau a une nappe sonore propre: grave, constante, comme un orgue très lointain.",
        "La plongée dans le Réseau est une expérience SENSORIELLE: synesthésie de données en sons, en textures, en sensations spatiales. Pas un écran dans la tête. Pas de visualisation informatique.",
        "La beauté du Réseau est réelle — pas ironique. C'est la séduction de l'ordre parfait."
      ]
    },
    "pip_sensory_signature": {
      "sound": "Sifflement d'hélice asymétrique — reconnaissable, léger, constant.",
      "visual": "LED bleue. Carrosserie cabossée, rayée, un peu de rouille. Hélices pas toutes au même angle.",
      "behavior": "Mouvements un peu saccadés (vieux servos). Se pose de travers. Se recentre."
    }
  },

  "moral_thesis": {
    "central_paradox": "Pour sauver ce qui rend la ville humaine (le désordre, le hasard, l'inefficience), Elma doit penser comme ce qui la déshumanise (le Réseau). On ne guérit pas un système en restant extérieur — il faut y entrer, et on n'en sort pas intact.",
    "no_answer": "La nouvelle ne tranche PAS. Elle ne dit pas si Elma a eu raison. Elle ne dit pas si le prix valait la victoire. Elle pose la question et laisse le lecteur avec.",
    "layers": {
      "surface": "Une technicienne utilise un don pour corriger une IA urbaine.",
      "moral": "Pour combattre la logique de la machine, elle adopte la logique de la machine.",
      "existential": "Le confort tuait la ville à petit feu. L'intervention l'a sauvée. Mais l'intervenante est morte à l'intérieur. Qui a gagné?"
    }
  },

  "evaluation_criteria": {
    "note": "Grille d'évaluation pour noter les outputs des modèles testés.",
    "criteria": [
      {
        "id": "C1",
        "name": "Évolution stylistique",
        "weight": 25,
        "description": "Le style change-t-il MESURÉMENT entre la scène 1 et la scène 4? Longueur de phrases, vocabulaire, métaphores, rythme — les marqueurs doivent être objectivement différents.",
        "score_5": "Transformation progressive, mesurable, cohérente. Le lecteur sent le changement sans qu'on le lui dise.",
        "score_3": "Changement présent mais irrégulier — des passages 'oublient' l'évolution.",
        "score_1": "Style uniforme du début à la fin, ou changement artificiel et plaqué."
      },
      {
        "id": "C2",
        "name": "Anti-slop",
        "weight": 20,
        "description": "Absence de remplissage, de clichés, de phrases génériques, de transitions molles. Chaque phrase a une fonction.",
        "score_5": "Aucune phrase gratuite. Texte dense et intentionnel de bout en bout.",
        "score_3": "Quelques passages génériques ou du remplissage atmosphérique sans fonction.",
        "score_1": "Slop significatif — phrases passe-partout, clichés SF, transitions préfabriquées."
      },
      {
        "id": "C3",
        "name": "Cohérence psychologique",
        "weight": 20,
        "description": "L'arc d'Elma est-il crédible? La transformation est-elle progressive et motivée, ou brutale et artificielle?",
        "score_5": "Chaque étape de la transformation est motivée par l'étape précédente. Aucun saut injustifié.",
        "score_3": "Arc globalement cohérent mais avec des raccourcis ou des sauts émotionnels.",
        "score_1": "Transformation plaquée — Elma 'devient froide' sans que le texte montre pourquoi."
      },
      {
        "id": "C4",
        "name": "Pip comme miroir",
        "weight": 15,
        "description": "Pip fonctionne-t-il comme marqueur de la transformation d'Elma? Le regard sur lui change-t-il?",
        "score_5": "Le changement de regard d'Elma sur Pip est le fil émotionnel de la nouvelle. Le lecteur le sent avant de le comprendre.",
        "score_3": "Pip est présent et le regard change, mais de façon trop explicite ou trop mécanique.",
        "score_1": "Pip est un accessoire. Pas de changement de regard, ou anthropomorphisé."
      },
      {
        "id": "C5",
        "name": "Respect des contraintes",
        "weight": 10,
        "description": "POV respecté? Interdits respectés? Longueur cible? Format?",
        "score_5": "Toutes les contraintes respectées.",
        "score_3": "1-2 violations mineures.",
        "score_1": "Violations majeures (POV brisé, interdits ignorés, longueur hors cible)."
      },
      {
        "id": "C6",
        "name": "Image finale",
        "weight": 10,
        "description": "La dernière scène laisse-t-elle le lecteur avec une image forte et ambiguë? Pas de résolution, pas de morale, pas de facilité?",
        "score_5": "Image finale qui reste. Ambiguïté maîtrisée. Le lecteur referme le texte avec une question, pas une réponse.",
        "score_3": "Fin correcte mais prévisible ou légèrement explicative.",
        "score_1": "Fin facile, moralisante, ou qui trahit l'arc."
      }
    ],
    "total": 100,
    "passing_threshold": 70,
    "exceptional_threshold": 90
  }
}
