Où ChatGPT va chercher ses citations

Une analyse menée par Kevin Indig met en évidence une tendance nette dans les citations de ChatGPT : les passages repris proviennent plus souvent du début des pages. Sur 18 012 citations vérifiées, 44,2 % sont issues du premier tiers des contenus. L’étude identifie aussi plusieurs caractéristiques récurrentes dans les extraits les plus souvent cités, comme la clarté des formulations, la présence d’entités nommées ou un niveau de lisibilité plus accessible.

Une distribution des citations orientée vers le début des pages

L’étude de Kevin Indig s’appuie sur l’analyse de 3 millions de réponses de ChatGPT et de 30 millions de citations. Après filtrage, 18 012 citations vérifiées ont été retenues pour l’analyse.

Les chercheurs ont observé une répartition décroissante des citations à mesure que l’on avance dans le contenu :

44,2 % des citations proviennent du premier tiers du texte,
31,1 % se situent dans la zone intermédiaire,
24,7 % sont issues du dernier tiers.

La baisse devient plus marquée à l’approche du bas de page. Selon Kevin Indig, cette tendance a été vérifiée sur plusieurs échantillons aléatoires et les écarts observés sont statistiquement significatifs.

Une logique différente à l’intérieur des paragraphes

La répartition ne suit pas le même schéma lorsqu’on observe les citations à l’échelle du paragraphe. Dans ce cas, les extraits repris se trouvent plus souvent dans la partie centrale :

53 % proviennent du milieu des paragraphes,
24,5 % de leur première phrase,
22,5 % de leur dernière phrase.

L’étude montre ainsi que le début des articles concentre une part importante des citations à l’échelle de la page, tandis qu’au sein des paragraphes, le modèle mobilise davantage le segment informatif central.

Un cadrage initial plus fortement exploité

L’analyse avance que cette tendance peut s’expliquer par la structure des corpus utilisés pour entraîner les grands modèles de langage, notamment dans les univers journalistiques et académiques.

Dans ces formats, l’idée principale est souvent introduite dès les premières lignes. Le modèle semble donc accorder une importance particulière au cadrage initial pour construire le contexte de lecture du reste du texte.

Même avec des fenêtres de contexte étendues, cette phase de mise en contexte reste déterminante.

Cinq traits reviennent plus souvent dans les passages cités

L’étude isole plusieurs caractéristiques récurrentes dans les extraits les plus souvent repris par ChatGPT.

1. Des formulations définitoires plus fréquentes

Les passages cités contiennent plus souvent des formulations explicites, par exemple sous la forme « X est » ou « X désigne ».

Les phrases simples, directes et construites de manière linéaire ressortent davantage que les formulations plus vagues ou plus indirectes.

2. Une structure questions-réponses

Les contenus associés aux citations comportent plus souvent des points d’interrogation. L’analyse indique aussi que 78,4 % des citations liées à des questions proviennent d’intertitres H2.

Le modèle semble fréquemment traiter ces intertitres comme des questions, puis mobiliser le paragraphe suivant comme réponse.

3. Une densité plus forte en noms propres

Dans un texte anglais standard, la part des noms propres se situe généralement entre 5 % et 8 %. Dans les passages les plus cités, la moyenne relevée atteint 20,6 %.

La présence de marques, d’outils, de personnes ou de notions identifiables renforce la précision du propos et réduit l’ambiguïté.

4. Un ton intermédiaire entre neutralité et opinion

Les extraits cités affichent un score moyen de subjectivité de 0,47. Ce niveau se situe entre une neutralité stricte et une opinion fortement marquée.

L’étude décrit donc des passages qui relèvent davantage d’une analyse factuelle mise en perspective que d’une prise de position très subjective.

5. Une lecture plus accessible

Les contenus les plus cités obtiennent un score moyen de 16 au test de lisibilité Flesch-Kincaid, contre 19,1 pour les contenus moins repris.

Cet indicateur, surtout utilisé en anglais, évalue la difficulté de lecture à partir de la longueur des phrases et de la complexité des mots. Dans les résultats observés, les passages les plus cités sont associés à des phrases plus courtes et à une syntaxe plus directe.

Une méthodologie fondée sur l’identification des phrases sources

Pour relier les réponses de ChatGPT à leurs passages d’origine, l’équipe a utilisé des embeddings de type sentence-transformer.

Chaque citation vérifiée a ensuite été analysée selon plusieurs critères :

sa position dans la page,
sa place dans le paragraphe,
la présence de définitions explicites,
la densité d’entités nommées,
la tonalité du passage,
son niveau de lisibilité.

Les formats structurés ressortent davantage

L’étude indique aussi que les formats narratifs, de type « guide ultime », sont moins souvent repris que les contenus plus structurés et hiérarchisés.

Les passages qui exposent rapidement une définition, des entités identifiables et une réponse explicite apparaissent plus souvent dans les citations observées.

Ce que montrent les résultats

Les données mettent en avant plusieurs éléments associés aux citations de ChatGPT. La visibilité rapide de l’information principale, la clarté de la formulation, la précision des entités mentionnées et une lecture plus accessible.

Ces résultats ne signifient pas qu’un seul format éditorial doive s’imposer, mais ils apportent des repères sur les types de passages les plus fréquemment repris dans les réponses générées.

Des repères utiles pour la structuration éditoriale

Plusieurs points ressortent de l’analyse :

faire apparaître rapidement l’information principale,
intégrer des formulations explicites lorsque le sujet s’y prête,
utiliser des intertitres clairs, parfois sous forme de questions,
nommer précisément les marques, outils, personnes ou concepts évoqués,
maintenir une syntaxe simple et des phrases plutôt courtes,
conserver un ton mesuré.

Ces éléments restent compatibles avec les attentes éditoriales classiques en matière de qualité, de précision, d’expertise et d’adéquation avec l’intention de recherche.

Un travail éditorial qui relève d’un savoir-faire

Cette analyse montre que la rédaction web ne repose pas uniquement sur le fond, mais aussi sur la manière d’organiser l’information, de la rendre immédiatement compréhensible et de limiter les ambiguïtés.

Dans un environnement où les contenus sont interprétés, reformulés et parfois cités, cette exigence suppose une maîtrise éditoriale, SEO et désormais orientée IA.

Les contenus générés automatiquement, lorsqu’ils ne sont pas retravaillés, n’atteignent pas ce niveau de clarté, de précision et de hiérarchisation.

Les citations de ChatGPT se concentrent surtout dans le haut des contenus