HLM : un modèle de langage hyperbolique

Voici Sam, un puissant agent de veille RSS imitant "l’homme qui pense". Il s’agit d’un moteur de veille intelligent capable de repérer, dans le bruit de l’information, les tendances et les transitions sémantiques de manière dynamique. Le moteur est structuré ainsi :

D'abord, les articles du flux RSS sont tokenisés ( transformés en vecteurs) puis projetés dans l’espace courbe via un encodeur hyperbolique. Ensuite, une mémoire épisodique conserve les articles récents pendant que la mémoire sémantique travaille à attribuer une force aux thèmes tout en observant leur décroissance progressive. Cette mémoire sémantique est persistante, qui permet de raffiner les thèmes de manière dynamique. Puis il y a le raisonneur qui, dans son poste d’observation, agit pour détecter les transitions significatives d’un thème à l’autre. Enfin, il y a le narrateur qui, comme son nom l’indique, prépare et présente le résultat de cette orchestration.

Sam est basé sur une architecture HLM (Hyperbolic Language Model) ( Figure 1) .

Au départ, je voulais construire une architecture capable de rivaliser avec les modèles de type Transformer. Laquelle architecture évoluerait dans un espace hyperbolique ( courbe ) par opposition à l’espace euclidien. Pourquoi un espace hyperbolique ? Eh bien parce que les phrases telles qu’elles sont produites par les humains ne sont pas « plates ». Elles comportent une signature linguistique propre à chaque individu. Or tous les modèles de langage actuels sont construits dans l’espace euclidien ou espace « plat » ( feuille de papier). C’est d’ailleurs pour cela que tous les textes produits par l’IA n’ont rien d’humain. Ils sont dénués d’âme à proprement parler. Il n’y a pas d’imperfections, de variations. Ils sont sans caractère et monotone comme une autoroute. Parce qu’il leur manque cet impérissable présent dans ce vers de Hugo : « C’est ici le combat du jour et de la nuit »

Ainsi, les grands modèles de langage ( LLM) actuelles souffrent, dans les textes qu’ils produisent, d’un manque cruel de personnalité. Ils sont construits sur une architecture innovante, qui n’a pas tenu compte hélas de la manière quelconque d’écrire des humains. Le langage naturel est profondément contextuel et subjectif. Il n’y a pas de langage s’il n’y a pas un être vivant qui se meut chaque fois différemment dans une dynamique du discours. Les textes produits par les IA actuelles n’ont pas cette capacité d’exister purement et simplement dans le discours. Ils n’ont pas de boussole linguistique au sens d’Emile Benveniste. D’où leur pathologie connue : l’hallucination, qui est un échec de leur architecture dans l’espace euclidien. Pour reprendre l’analogie de l’autoroute, les LLMs actuels sont rapides, efficaces, coûteux et fluides ( dans les modèles génératifs) mais ils perdent vite le nord à cause de la platitude de l’effet autoroute. Le contexte accroît le coût computationnel mais ne résout absolument pas le problème de platitude à l’origine des hallucinations. C’est une dégénérescence due à l’absence de relief, y compris dans la représentation sémantique. L’intelligence tourne en rond. Elle délire.

Pour tenter de pallier ce problème des LLMs qui produisent des textes sans âme, des articles sont régulièrement publiés, qui proposent de travailler sur l’hyperbolique. Jusqu’à cette date il n’y a pas d’avancée majeure dans le domaine. Même si l’espace hyperbolique offre l’avantage de mieux représenter les structures hiérarchiques ou les relations de dépendance, travailler dans cet espace nécessite beaucoup d’imagination et un travail acharné de lectures variées avec pour récompense la manipulation de concepts abstraits

Il n’a pas été facile de me plonger dans les mathématiques de niveau terminal, pour moi qui suis littéraire de formation. Comme il n’a pas été aisé de lire et comprendre les espaces non-euclidiens et la géométrie différentielle. Mais l’intelligence artificielle, c’est le travail sur le langage, un domaine que je connais bien.

Pour arriver à Sam, j’ai d’abord ainsi défini le problème, par une suite de questions : comment réduire l’impact environnemental issu de l’entraînement des grands modèles de langage ? Comment réduire l’hallucination ? Comment mieux représenter la structure fondamentalement hiérarchique du langage naturel ? Je me suis donc proposé d’explorer l’espace courbe, car le langage, quoi qu’on dise, n’est pas juste une question de proximité lexicale ou sémantique. Mon intuition est que si l’on parvient dès le départ à représenter le sens dans un espace courbe au moyen d’un vecteur dense, alors un modèle de langage n’aurait pas besoin d’une quantité de données massives pour apprendre vite et produire du sens de manière performante. C’est la conclusion d’un premier test de validation obtenu à partir d’un entraînement en 10 epochs sur un corpus de textes en français. Le modèle entraîné est basé sur mon architecture, qui fonctionne de la manière suivante :

Un encodeur géométrique parallèle projette le prompt ( ou contexte) initial dans un unique point de référence riche et complexe. Ensuite le décodeur radial hyperbolique génère la séquence de mots en naviguant dans cet espace courbe à partir de cet unique point de référence. Résultat : le modèle a appris des représentations profondément adaptée aux variations et dépendances syntaxiques et sémantiques du langage. Le modèle entraîné a réussi à produire des phrases cohérentes et pertinentes tout à la fois. Ce modèle a démontré une capacité de généralisation étonnante pour des pompts inédits et une convergence stable, qui prouve l’efficacité de son apprentissage. Ces résultats, tout comme ceux obtenus avec Sam n’auraient pas été possible sans un encodeur et un décodeur d’un nouveau type.


 ┌──────────────────────────┐
 │ Encodeur Géométrique     │
 │ Parallèle                │
 │ (projette le prompt      │
 │ en un point unique)      │
 └───────────┬──────────────┘
             │
             ▼
     ● Point de référence
       dans l’espace courbe
             │
             ▼
 ┌──────────────────────────┐
 │ Décodeur Radial          │
 │ Hyperbolique             │
 │ (navigue dans l’espace   │
 │ non euclidien pour       │
 │ générer la séquence)     │
 └──────────────────────────┘

( Figure 1. Architecture HLM )

Bibliographie :

Académie des sciences. (1974). Comptes rendus hebdomadaires des séances de l’Académie des sciences (Tome 279). Institut Henri Poincaré.

Institut de statistique de l’Université de Paris. (1953). Remarques sur le problème de codage binaire (Vol. II, Fascicules 1-2). Institut Henri Poincaré.

Institut de statistique de l’Université de Paris. (1954a). Contribution aux applications statistiques de la théorie de l’information (Vol. III, Fascicules 1-2). Institut Henri Poincaré.

Institut de statistique de l’Université de Paris. (1954b). Sur la discrimination des ensembles statistiques (Vol. III, Fascicule 4). Institut Henri Poincaré.

Chasles. (1852). Traité de géométrie supérieure. Bachelier, imprimeur-libraire.

Klein, F. (1871). Sur la géométrie non euclidienne (Trad. L. Laugel). Extrait des Nachrichten von der Königl. Gesellschaft der Wissenschaften zu Göttingen, n° 17, 30 août.

Laplace, P.-S. (1886). Œuvres complètes (Tome 7). Paris.

Papelier, G. (1950). Précis de géométrie analytique (12ᵉ éd.). Librairie Vuibert.

Pomey, J.-B. (1934). Notions de calcul tensoriel. Gauthier-Villars.

Pomey, J.-B. (1936). Calcul des probabilités. Gauthier-Villars.

Verriest, G. (1956). Les nombres et les espaces (2ᵉ éd.). Armand Colin.

Warrin, F. (1937). Espace et géométries. Librairie scientifique Hermann.

Whitehead, A. N. (1898). The Geodesic Geometry of Surfaces in Non-Euclidean Space. Proceedings of the London Mathematical Society.