Actuellement, tous les modèles de langage considèrent l’unité du langage comme le résultat d’une répartition distributive. L’attention dans les Transformers, par exemple,  crée des interactions complexes de sorte que chaque token comporte une représentation vectorielle spécifique, laquelle participe du sens complet et global.

Partant du constat que l’unité du langage se situe du côté de la proposition ( une proposition est une manière quelconque de parler — Denis Diderot), je postule qu’une  idée est l’expression collective de l’ensemble des mots. Une séquence est considérée comme un objet unique. Ce n’est donc pas une combinaison de vecteurs. Dans cette optique, les tokens deviennent des indices dans cette matrice, en ce sens qu’ils n’ont pas d’existence vectorielle indépendante.

La difference tient dans cette opposition  : 

répartition distributive versus répartition collective. 

Dans la première opération, chaque token porte une part du sens complet. Dans la seconde opération, en revanche, le sens complet résulte du tout indissociable, ou plus précisément,  de l’ensemble non décomposable. Pour faire simple, un sens collectif représente une totalité d’éléments tandis qu’un sens distributif regarde chaque élément pris séparément.  Le problème du sens distributif est qu’il échoue devant les exceptions, sauf si l’on recourt à une quantité énorme d’exemples comme parangons d’apprentissage. 

Par conséquent, je crois que le sens collectif, en fait de langage, est moins coûteux à obtenir en ressources computationnelles que le sens distributif, qui gère mal les exceptions. L’utilisation de données massives résout en partie  un problème majeur, qui s’est posé avec l’arrivée d’Internet : comment trouver l’information la plus pertinente dans l’immensité des données du Web ?

Ce problème n’est que partiellement résolu car, malgré les avancées technologiques récentes des IA génératives, la question persiste de savoir comment trouver précisément ce que l’on cherche dans cet océan de savoirs ? L’homme a déplacé le problème : désormais, il faut apprendre à « prompter » ! Et comme les modèles ont été entraînés sur tout, il est extrêmement difficile de séparer le bon grain de l’ivraie. 

Les grands modèles de langage actuels peuvent halluciner et faire prendre des vessies pour des lanternes dans un sophisme parfait.  Se pose alors cette question : comment reconnaître ce discours inventé ou halluciné ? D’autant que, dans son histoire l’homme n’ a pas semé que du bon grain.  Arracher l’ivraie sans déraciner le bon grain nécessite alors  de réinventer  toute l’architecture dans le traitement du langage naturel et mettre l’homme au coeur de la compréhension sémantique. 

L’homme ne doit pas être esclave du prompting. Il doit gagner du temps en ayant, par exemple, les passages les plus importants d’un livre en tomaison.  L’homme n’a pas besoin d’un contenu sémantique généré de manière mécanique par la machine. Lequel contenu sémantique, qui pullule déjà sur Internet, va devenir la donnée de demain sur laquelle les grands modèles de langage seront entraînés. 

En conclusion, je crois que pour ne pas mettre l’homme sous le joug de la machine, le travail computationnel doit être essentiellement extractif au moyen d’une sémantique collective, qui n’a pas besoin d’un entraînement sur des données massives comme je le propose dans ce papier.