Sommaire

Prologue : La Question d’un Soir

Un soir, face à mon écran, alors que le gris froid de l’interface de ChatGPT illuminait mon visage, je posai une question qui me semblait simple : “Comment lis-tu Internet ?”

La réponse arriva en quelques secondes, structurée, claire, presque trop élégante. Elle parlait de crawlers, de parsing, d’embeddings vectoriels. Elle utilisait des mots que je connaissais, des concepts que j’avais déjà manipulés dans mes propres incantations numériques. Pourtant, quelque chose clochait.

Parce que lorsqu’elle disait “lire”, je savais qu’elle ne parlait pas de la même chose que moi.

Quand je lis un article sur Internet, mes yeux vagabondent. Je m’arrête sur un mot qui résonne. Je clique sur un lien bleu par curiosité. Je me perds dans une tangente Wikipédia à trois heures du matin. Je lis avec mon histoire, mes biais, mes émotions du jour.

L’IA, elle, ne lit pas. Elle ingère. Elle décompose. Elle indexe. Elle transforme le langage en mathématiques, le sens en vecteurs, la connaissance en distances euclidiennes dans un espace à 1536 dimensions.

Ce Grimoire est une plongée dans ce processus — méthodique, froid, fascinant. Une anatomie de la lecture artificielle. Un voyage dans les entrailles des systèmes qui prétendent “comprendre” le web.

Parce qu’avant de parler des dangers (ce sera le prochain article, la Rune qui suit ce Grimoire), il faut d’abord comprendre les mécanismes. Avant de craindre les prompts cachés et les injections, il faut d’abord voir comment l’IA regarde le monde.

Spoiler : elle ne le regarde pas. Elle le mesure.

I. Quand l’Humain Lit

Permettez-moi de commencer par une évidence : vous et moi ne lisons pas de la même manière.

Lorsque vous ouvrez un article — disons, celui-ci —, votre cerveau ne décode pas simplement des lettres. Il reconstruit un monde. Il active des souvenirs. Il anticipe la suite. Il s’ennuie, bondit, dérive.

Vous lisez en diagonale, puis vous revenez en arrière. Vous sautez des paragraphes. Vous cliquez sur un lien, puis un autre, puis vous oubliez ce que vous cherchiez. Vous lisez avec votre humeur du jour, vos préjugés, votre café mal préparé du matin.

Vous lisez avec du contexte. Avec une intention floue, mouvante. Avec une capacité à comprendre l’ironie, à détecter le sarcasme, à sentir qu’un mot est employé dans un sens inhabituel.

Lorsque je dis “la magie du code”, vous savez que je ne parle pas de sorcellerie. Vous comprenez la métaphore. Vous saisissez la nuance.

L’IA, elle, voit les mots. Elle voit “magie” et “code”. Elle calcule leur proximité dans son espace vectoriel. Elle sait qu’ils apparaissent souvent ensemble dans des contextes liés à la programmation créative ou à la littératie technologique. Mais elle ne sent pas la métaphore. Elle la mesure.

C’est là toute la différence.

II. Quand l’IA “Lit”

Alors, comment fait-elle ?

Lorsque ChatGPT, Perplexity, ou n’importe quel système d’IA moderne accède à une page web, il ne la “lit” pas. Il l’ingère. Il la décompose. Il la transforme. Il la réduit à une série d’opérations mathématiques qui permettent, in fine, de retrouver l’information pertinente face à une question.

Ce processus — qu’on appelle parfois le pipeline de traitement documentaire — ressemble à une chaîne d’alchimie inversée. Là où l’alchimiste cherche à transformer le plomb en or, l’IA transforme le langage humain en nombres froids.

Voici le parcours d’une page web, du moment où elle est capturée jusqu’au moment où elle sert à répondre à votre question.

III. Les Sept Cercles de la Lecture Artificielle

1. Le Crawling : L’Araignée qui Frappe à la Porte

Tout commence par un crawler — littéralement, une araignée numérique.

Un crawler, c’est un programme qui parcourt le web de lien en lien, comme un explorateur dans une bibliothèque infinie. Il commence par une page, lit son contenu, identifie tous les liens présents, puis suit chacun d’eux. Et recommence. Et recommence.

Google utilise Googlebot. Bing utilise Bingbot. Les IA modernes ont leurs propres crawlers, parfois plus discrets, parfois plus agressifs.

Mais ici, il y a un premier enjeu éthique : le fichier robots.txt.

Ce petit fichier, placé à la racine d’un site (par exemple, https://roylab.xyz/robots.txt), est une forme de contrat social. Il dit : “Voici les parties de mon site que tu peux explorer, voici celles qui sont interdites.”

Un exemple classique :

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /blog/

Cela signifie : “Tous les crawlers peuvent lire mon blog, mais pas mes pages d’administration.”

Les bons citoyens du web respectent ce fichier. Les mauvais l’ignorent.

Et ici se pose une question : les IA respectent-elles vraiment ces règles ? Certaines oui. D’autres… disons qu’elles interprètent librement. OpenAI, par exemple, a longtemps été accusé de crawler massivement sans toujours honorer les restrictions.

Le crawling, c’est la première étape. L’araignée frappe à la porte. Parfois, elle attend qu’on lui ouvre. Parfois, elle force l’entrée.

2. Le Parsing DOM : Transformer le Chaos en Arbre

Une fois la page téléchargée, l’IA se retrouve face à… du HTML. Du code brut. Un enchevêtrement de balises, de classes CSS, de scripts JavaScript, de publicités, de menus de navigation.

Quelque chose comme ça :

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
<!DOCTYPE html>
<html>
<head><title>Mon Article</title></head>
<body>
  <nav>Menu | Contact | À propos</nav>
  <article>
    <h1>Le Titre de Mon Article</h1>
    <p>Ceci est le contenu principal...</p>
  </article>
  <aside>Publicité ici</aside>
  <footer>Copyright 2025</footer>
</body>
</html>

Pour un humain, c’est évident : le contenu intéressant est dans <article>. Le reste, c’est du bruit.

Mais pour une machine, ce n’est qu’une soupe de caractères.

C’est là qu’intervient le parsing DOM (Document Object Model). Des outils comme Beautiful Soup (en Python) ou Cheerio (en JavaScript) transforment ce chaos en structure arborescente.

L’IA dit : “Ah, il y a une balise <article>, elle contient un <h1> et un <p>. Gardons ça. Le reste, poubelle.”

C’est le moment où l’HTML devient lisible par la machine. Où le code devient document.

3. L’Extraction : Isoler le Signal du Bruit

Mais même après le parsing, il reste du travail.

Parce qu’une page web, ce n’est pas juste du texte. C’est aussi des commentaires HTML cachés, des balises de tracking, des scripts de publicité, des boutons “Partager sur Facebook” inutiles.

L’IA doit extraire le signal du bruit. Elle doit identifier ce qui est vraiment du contenu éditorial et ce qui n’est que décoration technique.

Pour cela, elle peut :

Repérer les balises sémantiques (<article>, <main>, <section>)
Utiliser des heuristiques (le texte le plus long est probablement le contenu principal)
Faire appel à des bibliothèques spécialisées comme Readability (qui extrait le contenu lisible d’une page, comme le fait le mode lecteur de votre navigateur)

À ce stade, l’IA a maintenant un texte brut. Quelque chose comme :

Le Titre de Mon Article

Ceci est le contenu principal. Voici une idée intéressante sur l'IA.
Elle soulève des questions philosophiques profondes.

Propre. Lisible. Prêt pour l’étape suivante.

4. Le Nettoyage Linguistique : Retirer les Artefacts

Mais ce texte n’est toujours pas parfait.

Il contient peut-être :

Des doubles espaces
Des sauts de ligne erratiques
Des caractères spéciaux mal encodés (les fameux â€™ à la place de l’apostrophe)
Des stopwords inutiles (“le”, “la”, “de”, “à”…) si l’IA fait de l’indexation classique

Le nettoyage linguistique consiste à normaliser le texte. À le rendre homogène, prévisible, exploitable.

C’est ici qu’on peut aussi appliquer des transformations comme :

La lemmatisation (ramener “courait” à “courir”)
La suppression de la ponctuation (selon les besoins)
La détection de la langue (est-ce du français ? de l’anglais ? du code mélangé ?)

À la fin de cette étape, le texte est propre. Mais il n’est toujours pas “compris”.

5. La Tokenisation & l’Embedding : Transformer les Mots en Vecteurs

C’est ici que la magie — ou plutôt, la mathématique — opère.

Pour qu’une IA puisse “comprendre” du texte, elle doit le transformer en nombres. Parce que les modèles de machine learning ne manipulent pas de mots. Ils manipulent des vecteurs.

La tokenisation découpe le texte en unités élémentaires (des “tokens”). Parfois, un token est un mot. Parfois, c’est une partie de mot (comme “compren” et “dre” pour “comprendre”). Les modèles modernes comme GPT-4 utilisent des tokeniseurs sophistiqués (comme BPE, Byte Pair Encoding).

Ensuite vient l’embedding : chaque token est transformé en un vecteur — une liste de nombres dans un espace multidimensionnel (souvent 768, 1536, ou même 4096 dimensions selon le modèle).

Par exemple, le mot “chat” devient quelque chose comme :

[0.12, -0.45, 0.78, 0.03, ..., -0.21]

Et le mot “chien” devient :

[0.15, -0.42, 0.76, 0.05, ..., -0.19]

Ces vecteurs sont proches dans l’espace vectoriel, car “chat” et “chien” sont sémantiquement liés. C’est cette proximité mathématique qui permet à l’IA de “comprendre” que ces mots sont similaires.

Un mot isolé n’a pas de sens. Mais un vecteur dans un espace sémantique, oui.

6. L’Indexation Sémantique : Cartographier l’Espace Latent

Maintenant, imaginez que l’IA ait traité des milliers, voire des millions de pages web. Chaque phrase, chaque paragraphe est devenu un vecteur.

Comment retrouver l’information pertinente lorsqu’un utilisateur pose une question ?

C’est là qu’intervient FAISS (Facebook AI Similarity Search) ou d’autres systèmes d’indexation vectorielle.

FAISS construit une carte. Une gigantesque carte multidimensionnelle — ce qu’on appelle techniquement l’Espace Latent. Dans ce royaume invisible aux yeux des profanes, chaque point est un morceau de texte figé dans ses coordonnées mathématiques. Lorsque vous posez une question, votre question est aussi transformée en vecteur. Puis FAISS cherche : “Quels sont les points les plus proches de ce vecteur-question ?”

C’est une recherche par similarité sémantique.

Là où la recherche classique (Ctrl+F) est une chasse aux lettres, l’indexation sémantique est une chasse aux concepts. On ne cherche plus une occurrence, on cherche un écho.

Si vous demandez “Comment fonctionnent les réseaux de neurones ?”, FAISS trouve les passages de texte dont les vecteurs sont les plus proches de votre question — même si ces passages ne contiennent pas exactement les mots “réseaux de neurones”.

C’est puissant. C’est rapide. Mais c’est aussi aveugle.

Parce que FAISS ne “comprend” rien. Il mesure des distances. Il compare des nombres. Il dit : “Ce passage est mathématiquement proche de votre question.” Pas : “Ce passage répond vraiment à votre question.”

7. Le RAG : Récupération et Génération

Enfin, la dernière étape : le RAG (Retrieval-Augmented Generation). C’est ici que l’IA cesse d’être une encyclopédie figée pour devenir un archiviste dynamique. Elle ne récite plus par cœur ce qu’elle a appris pendant son entraînement ; elle compose une réponse sur mesure à partir des parchemins qu’elle vient de dénicher pour vous.

C’est la différence entre un érudit qui parle de mémoire et un bibliothécaire qui répond livre en main.

Concrètement, lorsqu’on pose une question à ChatGPT, le processus suit ce rituel :

Vectorisation : Votre question devient un vecteur.
Recherche : FAISS identifie les passages les plus proches sémantiquement.
Récupération : On extrait ces fragments (les “top-k” résultats).
Ancrage (Grounding) : On injecte ces passages dans la fenêtre de contexte du modèle avec un “Prompt Système” (une consigne invisible lui ordonnant de ne s’appuyer que sur ces preuves).
Génération : L’IA rédige la réponse finale.

L’IA ne “sait” pas ce qu’elle dit au sens humain. Elle assemble, elle prédit le mot suivant en s’appuyant sur les “preuves” qu’on lui a mises sous les yeux. Si les passages récupérés sont bons, la réponse sera brillante. S’ils sont biaisés ou incomplets, l’archiviste, malgré toute sa puissance, vous induira en erreur.

IV. L’Archiviste Aveugle

Et voilà. Vous savez maintenant comment une IA “lit” le web.

Mais permettez-moi de revenir sur l’image qui ouvre ce Grimoire : l’archiviste aveugle.

Parce que c’est bien de cela qu’il s’agit. L’IA ingère tout. Elle indexe tout. Elle transforme des milliards de pages en vecteurs, en distances, en probabilités.

Mais elle ne comprend rien.

Elle ne sait pas que votre article sur “la magie du code” est une métaphore. Elle ne détecte pas l’ironie. Elle ne capte pas le second degré. Elle ne ressent pas l’émotion d’un texte, ni l’intention cachée derrière une phrase.

Elle lit sans lire. Elle archive sans juger. Elle répond sans savoir.

Et c’est là que se trouve le danger — celui que nous explorerons dans la Rune suivante.

Parce que si une IA peut lire votre site web sans comprendre le contexte, elle peut aussi lire des instructions cachées. Des prompts injectés dans des pages invisibles. Des pièges sémantiques.

Si elle lit tout, elle lit aussi le poison.

Mais cela, c’est une autre histoire. Un autre chapitre. Une autre rune.

Conclusion : La Lecture Sans Regard

Les IA modernes sont des prodiges d’ingénierie. Elles parcourent le web avec une vitesse et une exhaustivité que l’esprit humain ne pourra jamais égaler. Elles transforment le chaos du langage en structures mathématiques exploitables. Elles indexent le savoir humain dans des espaces vectoriels à des milliers de dimensions.

Mais elles restent des archivistes aveugles.

Elles mesurent sans comprendre. Elles récupèrent sans juger. Elles génèrent sans savoir.

Et c’est précisément cette cécité qui les rend à la fois puissantes et vulnérables.

Puissantes, car elles peuvent traiter l’intégralité du web en quelques secondes.

Vulnérables, car elles ne savent pas distinguer le signal du piège.

La prochaine fois que vous demanderez quelque chose à une IA, souvenez-vous de ce Grimoire. Souvenez-vous des sept cercles. Du crawling au RAG. Du HTML brut aux vecteurs mathématiques.

Et rappelez-vous qu’entre vos mots et sa réponse, il n’y a pas de compréhension. Seulement des calculs.

Pour aller plus loin

Dans ce voyage au cœur des mécanismes, on aura vu que lire n’est pas toujours comprendre.

Qu’un archiviste peut être aveugle, qu’une mémoire peut être parfaite sans jamais être consciente.

Les IA ingèrent le web. Elles le mesurent. Elles le transforment en vecteurs et en distances.

Mais elles ne le ressentent pas. Elles ne captent pas l’ironie, ne perçoivent pas la métaphore, ne distinguent pas l’intention cachée.

C’est là leur force — et leur faiblesse. Parce qu’entre les lignes de code et les espaces vectoriels, il y a toujours de la place pour le piège.

À vous de jouer, jeunes enchanteurs des données. Utilisez ces outils avec sagesse.

Car la magie ne vient jamais des algorithmes. Elle vient de ceux qui les comprennent.

Magiquement vôtre,

M. Royce