Comment on a construit cette base de savoir — Comprendre les risques systémiques

Chaque fait, chaque chiffre, chaque référence de ce cours vient de quelque part. Ce chapitre explique d’où, comment, et pourquoi ça compte. C’est aussi l’histoire d’un outil — Sentinelle — construit pour qu’une personne ordinaire puisse interroger la recherche scientifique mondiale sans être chercheur.

Le problème de départ

Quand on s’intéresse aux risques systémiques, on tombe vite sur un mur. D’un côté, les articles grand public simplifient trop — “la planète va mal” sans chiffres ni sources. De l’autre, les publications scientifiques sont techniques, en anglais, derrière des paywalls, et écrites pour d’autres chercheurs.

Le résultat : la plupart des gens restent coincés entre la vulgarisation superficielle et l’inaccessibilité académique. Sentinelle a été construit pour combler cet écart.

Étape 1 : Collecter les publications scientifiques

OpenAlex — la bibliothèque ouverte de la science

La première brique est OpenAlex, une base de données ouverte et gratuite qui recense plus de 250 millions de publications scientifiques mondiales. C’est le successeur du projet Microsoft Academic Graph, maintenu par une organisation à but non lucratif.

Concrètement, un script Python interroge l’API OpenAlex avec des requêtes ciblées :

Requête	Publications trouvées
”planetary boundaries”	3 501
”cascading risks”	1 125
”polycrisis”	552
”civilizational collapse”	440
”existential risk”	389
”global catastrophic risk”	175
”systemic risk climate”	164
”systemic risk pandemic”	57
”tipping points cascade”	23
Total (après déduplication)	6 426

Pour chaque publication, on récupère : le titre, le résumé (abstract), les auteurs, leurs institutions, l’année, le nombre de citations, les mots-clés, et les références bibliographiques (quels articles citent quels autres articles).

Tout ça représente environ 22 Mo de données structurées. Le temps de collecte : 3 minutes. L’API OpenAlex est gratuite, ouverte, et sous licence CC0 (domaine public).

Qu’est-ce qu’un “abstract” exactement ?

Si vous n’avez jamais lu un article scientifique, voici comment ça fonctionne. Chaque publication suit un format standard. Avant le contenu complet (qui fait généralement 20 à 40 pages), il y a un abstract — un paragraphe de 150 à 300 mots, écrit par les auteurs eux-mêmes, qui résume :

Pourquoi ils ont fait cette recherche (le problème posé)
Comment ils l’ont faite (la méthode utilisée)
Ce qu’ils ont trouvé (les résultats clés)
Ce que ça signifie (la conclusion)

L’abstract est un contrat : les chercheurs condensent en quelques lignes l’essentiel d’un travail qui leur a pris des mois ou des années. Il a été relu et validé par 2 à 3 experts anonymes du domaine (le processus de “peer review”) avant publication dans une revue scientifique. C’est la partie la plus dense et la plus fiable d’un article.

Et surtout : l’abstract est toujours public et gratuit, même quand l’article complet est derrière un abonnement payant (20-40 euros par article).

Pourquoi on utilise les abstracts et non les articles complets

Trois raisons concrètes :

Le coût : ~60% des articles scientifiques sont derrière un paywall. Avec 6 426 publications, acheter les articles complets coûterait plus de 100 000 euros. Les abstracts sont gratuits.
Le volume : un article complet contient 5 000 à 15 000 mots. Pour 3 930 articles, ça ferait 30 à 60 millions de mots à traiter par l’IA. Le coût d’extraction passerait de 3 dollars à 150-300 dollars, et le temps de traitement de 3 heures à plusieurs jours.
Le bruit : un article complet contient beaucoup de contenu très technique (méthodologie statistique, revue de littérature détaillée, tableaux de données brutes) qui n’apporte rien pour cartographier les grands risques et leurs connexions.

Pour notre usage — identifier qui travaille sur quoi, quels mécanismes sont décrits, quelles connexions existent entre les risques — l’abstract contient exactement l’information dont on a besoin. C’est le meilleur rapport signal/bruit disponible.

Ce qu’on gagne et ce qu’on perd

Ce qu’on gagne avec les abstracts :

La vision d’ensemble : 3 930 résumés donnent une carte du champ de recherche mondial
Les connexions entre domaines : qui cite qui, quels concepts se croisent
Les consensus scientifiques : quand 50 articles mentionnent “tipping points”, l’entité est riche et multi-perspective

Ce qu’on perd :

Les détails fins : un abstract dit “nous avons identifié 9 points de bascule” mais ne les liste pas forcément tous — pour ça, il faut ouvrir l’article complet
Les nuances et débats : les limitations d’une étude, les controverses méthodologiques sont généralement dans le corps de l’article
Les données brutes : les tableaux de mesures, les graphiques, les séries temporelles sont dans l’article complet

C’est pourquoi Sentinelle combine deux couches : les abstracts pour la cartographie (la carte), et les datasets quantitatifs (PHC, INFORM) pour les mesures concrètes (les chiffres). Les abstracts disent “le CO₂ dépasse la limite planétaire”, les données PHC disent “421 ppm contre un seuil de 350 ppm”.

Filtrage

Sur les 6 426 publications, 3 930 ont un résumé exploitable (plus de 50 caractères). Les 2 496 restantes (principalement des chapitres de livres ou des actes de conférence sans résumé) sont conservées pour leurs métadonnées (titre, auteurs, citations) mais ne sont pas analysées en profondeur par l’IA.

Étape 2 : Ajouter des données quantitatives

Les abstracts donnent la cartographie théorique. Pour ancrer le cours dans des chiffres concrets et vérifiables, deux datasets complémentaires ont été intégrés :

Planetary Health Check (PIK)

Le Planetary Health Check 2025, publié par le Potsdam Institute for Climate Impact Research (PIK), fournit les valeurs actuelles et les seuils des 9 limites planétaires. Par exemple :

CO₂ : 421 ppm actuellement, seuil à 350 ppm
Taux d’extinction : ~100 E/MSY, seuil à 10 E/MSY
Azote : 190 Tg/an, seuil à 62 Tg/an

Ces données alimentent directement le chapitre 2 (Les limites de la planète).

INFORM Risk Index (JRC)

Le INFORM Risk Index, développé par le Joint Research Centre de la Commission européenne, évalue le risque humanitaire dans 191 pays sur 3 dimensions : exposition aux aléas, vulnérabilité, et capacité de réponse.

Le script a téléchargé le fichier Excel officiel, extrait les scores par pays, et agrégé par région. C’est la source du chapitre 5 (La carte des fragilités).

Étape 3 : Construire le knowledge graph

C’est la partie la plus intéressante. Un knowledge graph (graphe de connaissances) est une façon de représenter l’information sous forme de réseau — des entités (concepts, chercheurs, institutions, risques) reliées par des relations (étudie, cause, amplifie, est affilié à).

Comment ça marche

Chaque résumé est envoyé à un modèle d’IA (GPT-4.1-nano d’OpenAI) qui extrait les entités et les relations mentionnées dans le texte.

Par exemple, à partir du résumé “Johan Rockström et ses collègues du PIK ont démontré que le franchissement des limites planétaires crée des risques non-linéaires”, l’IA extrait :
- Entités : Johan Rockström, PIK, limites planétaires, risques non-linéaires
- Relations : Johan Rockström — est affilié à → PIK, limites planétaires — créent → risques non-linéaires
Les entités sont fusionnées : si 50 articles mentionnent “climate change”, c’est une seule entité avec 50 sources différentes, ce qui donne une description riche et multi-perspective.
Les embeddings (représentations mathématiques du sens) sont calculés pour chaque entité et chaque relation, ce qui permet de faire des recherches par proximité sémantique (“quels concepts sont proches de tipping points ?”).
Le tout est stocké dans PostgreSQL, une base de données robuste, avec des extensions spécialisées :
- pgvector pour la recherche par similarité sémantique
- Apache AGE pour les requêtes sur le graphe de relations

Le graphe en chiffres

Métrique	Valeur
Publications analysées	3 930
Entités extraites	8 177
Relations extraites	5 913
Temps d’ingestion	~3 heures
Coût API (extraction + embeddings)	~3 $

8 177 entités, c’est par exemple : des chercheurs (Johan Rockström, Luke Kemp, Thomas Homer-Dixon), des institutions (PIK, CSER Cambridge, Cascade Institute), des concepts (polycrisis, tipping points, résilience), des risques (AMOC collapse, pandemic risk), des métriques (CO₂ concentration, BII), et des événements (Covid-19, crise de 2008).

5 913 relations, c’est la façon dont tout ça est connecté : qui étudie quoi, qu’est-ce qui cause quoi, qu’est-ce qui amplifie quoi.

Étape 4 : Interroger le graphe

Une fois le graphe construit, on peut poser des questions en langage naturel. Le système — appelé LightRAG — combine deux approches :

Recherche locale : trouver les entités proches de la question et leurs relations directes
Recherche globale : identifier les communautés (clusters) d’entités et leurs thèmes communs

Par exemple, la question “Quels mécanismes de cascade relient le franchissement des limites planétaires aux risques de défaillance des systèmes alimentaires ?” produit :

Une identification des entités pertinentes (limites planétaires, systèmes alimentaires, cascading risks)
Une exploration des relations entre ces entités dans le graphe
Une synthèse basée sur les publications sources, avec des références

La réponse cite les publications d’où viennent les informations — on peut vérifier.

Comment les cours utilisent Sentinelle

Chaque chapitre de ce cours a été écrit en interrogeant Sentinelle. Voici concrètement comment :

Chapitre 2 — Les limites de la planète

Question posée à Sentinelle : “Quels sont les 9 limites planétaires, leur statut actuel, et quels seuils ont été franchis ?”

Réponse de Sentinelle : une synthèse structurée avec les valeurs PHC (CO₂ à 421 ppm, BII à 72%, N à 190 Tg/an…) et les publications sources (Rockström 2009, Richardson 2023, Steffen 2015).

Le chapitre reprend ces données, les met en forme avec des tableaux, et ajoute le contexte local (glaciers pyrénéens, desman des Pyrénées).

Chapitre 3 — Quand les crises se connectent

Question posée : “Quels chercheurs travaillent sur le concept de polycrisis et quelles sont leurs conclusions ?”

Réponse de Sentinelle : identification de Homer-Dixon, Kemp, Beard, Marcoci, et al., avec leur publication “Systemic contributions to global catastrophic risk” et les mécanismes décrits (rétroactions, amplification, risques latents).

Chapitre 5 — La carte des fragilités

Données directes : les scores INFORM par région, extraits du dataset et agrégés par le pipeline. Afrique subsaharienne 5.24/10, Asie du Sud 4.88, Europe 2.72.

Chapitre 11 — Iran 2026

Question posée : “What are the systemic risks associated with Iran, nuclear proliferation, and the Strait of Hormuz for global energy and financial systems?”

Réponse de Sentinelle : liens entre le détroit d’Ormuz comme point de défaillance unique, la prolifération nucléaire comme facteur d’instabilité, et les cascades sur les marchés énergétiques et financiers — avec des références à “Systemic contributions to global catastrophic risk” et “Rethinking Port Strategies in the Age of Polycrisis”.

Les données d’actualité (frappes, prix du pétrole, déclarations) viennent de recherches web complémentaires (Reuters, Al Jazeera, CRS, AIEA).

La question de la fiabilité

Ce que Sentinelle fait bien

Les sources sont traçables : chaque affirmation du graphe pointe vers la publication d’origine (titre, auteurs, année)
Les données quantitatives sont vérifiables : les chiffres PHC et INFORM viennent de rapports officiels téléchargeables
Le volume réduit les biais individuels : avec 3 930 publications, une vision d’ensemble émerge — les consensus et les débats deviennent visibles

Ce que Sentinelle ne fait pas

Générer des faits : l’IA synthétise ce qui est dans les publications, elle n’invente rien. Si une information n’est dans aucune publication du corpus, Sentinelle ne la produira pas.
Juger la qualité d’une publication : un article avec 10 000 citations et un article avec 2 citations ont le même poids dans le graphe (pour l’instant — le nombre de citations est stocké et pourrait être utilisé comme filtre).
Remplacer l’esprit critique : Sentinelle est un outil d’exploration, pas un oracle.

Les limites

Biais linguistique : le corpus est massivement anglophone. La recherche francophone, hispanophone ou arabophone sur les risques systémiques est sous-représentée.
Biais géographique : les institutions les plus représentées sont anglo-saxonnes (Cambridge, Oxford, MIT). Les perspectives du Sud Global sont moins présentes dans les publications les plus citées.
Biais temporel : les publications récentes dominent. Les travaux fondateurs des années 1970-1990 (Meadows, Bateson) sont moins représentés car OpenAlex couvre mieux les publications récentes.
Extraction imparfaite : l’IA fait des erreurs d’extraction — elle peut confondre une date avec une entité, ou manquer une relation subtile. Le graphe contient du bruit.

Pourquoi c’est important

Sentinelle n’est pas un produit commercial ni un projet académique. C’est un outil personnel de pensée augmentée — construit pour qu’une personne ordinaire, depuis un village des Pyrénées, puisse interroger la recherche scientifique mondiale sur les questions qui comptent.

Le fait que cet outil soit construit avec des logiciels libres (LightRAG, PostgreSQL, OpenAlex), des APIs accessibles, et un coût total de quelques euros, montre que l’accès à la connaissance scientifique se démocratise. L’infrastructure est là. Il reste à poser les bonnes questions.

Ce cours est une première tentative : transformer un graphe de connaissances en récit pédagogique. Les 10 chapitres précédents sont la preuve que ça fonctionne — chaque affirmation est sourcée, chaque chiffre est vérifiable, et le tout a été construit en une journée par une seule personne avec l’aide de l’IA.

La connaissance scientifique existe. L’enjeu n’est plus d’y accéder — c’est de la rendre utile.

À retenir

Sentinelle est un knowledge graph de 8 177 entités et 5 913 relations, construit à partir de 6 426 publications scientifiques
Les données viennent de sources ouvertes : OpenAlex (publications), PHC (limites planétaires), INFORM (risque humanitaire)
Un modèle d’IA extrait les entités et relations de chaque résumé, puis le graphe permet des requêtes en langage naturel
Chaque chapitre de ce cours a été écrit en interrogeant Sentinelle, puis enrichi avec du contexte local et des recherches complémentaires
L’outil a des limites (biais linguistique, géographique, temporel) qu’il faut garder en tête
Le coût total : environ 3 dollars d’API + des logiciels libres

Pour aller plus loin

OpenAlex (openalex.org) — Explorez vous-même la base de données scientifique. L’API est gratuite et la documentation est excellente.
LightRAG (github.com/HKUDS/LightRAG) — Le framework open source qui fait tourner le knowledge graph. Publié à EMNLP 2025.
Planetary Health Check (planetaryhealthcheck.org) — Le rapport annuel du PIK sur les 9 limites planétaires, avec des visualisations interactives.
INFORM Risk Index (drmkc.jrc.ec.europa.eu/inform-index) — Téléchargez le dataset complet et explorez les scores par pays.
Donella Meadows, Thinking in Systems (2008) — Pour comprendre la pensée systémique qui sous-tend toute cette démarche.

Sentinelle est un projet open source de Lisière Subtil. Le code, les données, et la méthodologie sont documentées et reproductibles.