Il s’agit ici d’une humble et modeste tentative de soutenir, voire de réhabiliter un projet qui fut globalement mal compris, du moins en Occident.

Pourtant, le jeu en question, ainsi que tout le travail qui l’accompagne, me semble constituer un outil de synthèse inestimable sur le vaste sujet de l’IA appliquée aux jeux vidéo. Je le considère également comme un point de départ idéal pour répondre à cette question en suspens qui anime l’esprit de tous les développeurs de jeux vidéo, et d’autant plus celui des raconteurs d’histoires qui peuplent leurs studios : Qu’est-ce qu’on va bien pouvoir faire de l’intelligence artificielle générative, maintenant qu’elle est là ?

Il existe un livre

Mon dernier été au Japon a non seulement été l’occasion de me rendre à un concert magnifique et d’agrandir (encore) ma collection absurde de livres et guides stratégiques se rapportant à Resident Evil. Il a aussi été l’opportunité d’acquérir un ouvrage imprenable, un recueil, une collection de travaux et d’exposés explorant les acquis et les possibles quant à la mise en application de l’intelligence artificielle pour la fabrication de jeux vidéo. Ce bréviaire intégralement en japonais, est titré le plus simplement du monde, « Square Enix no AI » (L’IA de Square Enix) et réunit la crème des cadres du légendaire studio japonais affairés à l’IA, emmenés par M. Youichiro Miyake, le Manager General du département IA du studio.

C’est d’autant plus naturellement que je me suis dirigé en priorité vers le travail de M. Yusuke Mori, moins parce que son article s’inscrit dans la lignée de mes recherches autour de l’IA pour la narration, que pour l’avoir personnellement rencontré à la GDC à San Francisco quelques mois auparavant. Je me rappelle d’ailleurs assez précisément de ses questions alors qu’il venait de tester une brève conversation en IA dans notre jeu Cloudborn, alors présenté sur le stand de Inworld:

« Comment envisagez-vous pouvoir extraire des informations, des indices, qui peuvent contribuer à la progression du jeu, au travers d’une conversation avec vos AI NPCs ? » -me demandait-t-il alors.

Je me rappelle lui avoir répondu que c’était déjà quelque chose en place, au travers de cette feature qu’on appelait « Goals and Actions ». Ce n’était pas mentir que de lui répondre cela, mais je devinais bien à l’époque que M. Yusuke espérait quelque chose de plus organique, de plus naturel, qu’un simple trigger basé sur des mots plus ou moins similaires. Ce qu’était au final cette feature, et qui n’était pas vraiment révolutionnaire comparé à tout ce que M. Yusuke avait lui-même élaboré chez Square Enix, nous allons le voir. Il manquait clairement quelque chose, je vis à sa réaction insatisfaite qu’il le saisit tout de suite.

A cet instant, seul le badge de M. Yusuke m’informait sur son identité et sa fonction, et humble, il ne s’épancha pas sur son travail et ses recherches effectués sur Portopia. C’est donc bien des mois plus tard, une fois en possession du livre, que j’y reconnus M. Yusuke et que je recollais les morceaux. Je me mis donc à l’ouvrage pour traduire son article, (grandement aidé par ChatGPT-4, puis 4o) et ré-installa Portopia sur mon ordinateur de travail, pour une étude approfondie du sujet. Un sujet, que je vais modestement tenter de synthétiser ici, agrémenté de mes impressions et commentaires.

Rien n’est prêt, ne perdons pas de temps.

Pour expliquer au mieux cette notion paradoxale qui se dégage en filigrane de l’article de M. Yusuke, il faut garder à l’esprit un fait d’importance majeure. Le jeu Portopia, où l’on converse avec des personnages au gré d’une enquête criminelle via d’entrées textuelles totalement libres, s’opère à 100% en local. Pour en être certain, j’ai même lancé le jeu avec mon ordinateur en mode avion, et cela n’a rien changé à l’expérience de jeu. Pour situer le contexte plus en avant, Portopia a été développé dans une période précédant l’arrivée de ChatGPT-3 et de son API en accès libre. Le jeu tourne sur des technologies variables, telles que des modèles alloués aux NLU (Natural Language Understanding) et de la reconnaissance automatique de texte, encore appelée STT (Speech To Text).

C’est que pour M. Yusuke, et il l’assène plusieurs fois au gré de sujets divers, il est impensable de considérer à long terme l’intégration d’IA dans un jeu vidéo si l’inférence ne peut s’opérer de manière locale. Il exprime avec autorité et sûrement à raison, qu’on ne peut imaginer offrir un expérience de jeu si celle-ci est susceptible d’être interrompue non seulement à cause d’une mauvaise connexion au réseau, mais si en plus de ça, un serveur de LLMs accuse des ralentissements.

Il prédit donc qu’un avenir proche offrira la possibilité de tout gérer en local, mais exprime quelques doutes quant à la proximité de cette possibilité, évoquant notamment les énormes ressources qu’exigeraient de telles opérations, pour un parc technique installé encore bien insuffisant.

Je ne trouverais rien à répondre à cette assertion. Me reviennent à ce propos les longues discussions eues avec Inworld lors des premières semaines de collaboration, où la tarification des tokens fluctuaient d’une semaine à une autre, avec toujours, cette question laissée en suspens: Qui doit payer pour les tokens générés ? Le développeur ? L’éditeur ? Le joueur, via un schéma de monétisation plus ou moins cynique ? Faut-il lier cela à une cryptomonnaie, elle-même intégrée à l’économie du jeu ? Comme si le joueur n’avait pas assez été l’objet de telles pratiques douteuses ces derniers temps, l’IA semblait, au cours de ces conversations, se distinguer comme une couche supplémentaire de spéculations monétaires.

A ce propos, je ne perdrai pas de temps et donnerai mon humble avis, de manière simple: je suis convaincu qu’il s’agit d’un problème temporaire. Mon sentiment à ce propos est exactement le même que lorsque Internet est arrivé dans notre appartement familial, à Lyon, en septembre 1998. J’avais alors 14 ans. Je me souviendrai toujours que notre premier forfait Internet, souscrit après en avoir vu la pub à la télé, était de 20 heures par mois pour 99 Francs, soit environ 16 Dollars ou Euros. Je me souviens aussi que c’est via ce forfait que j’ai pu télécharger, dans une légalité toute relative, sur un site obscur, mon premier mp3: « My favourite game » des Cardiagns. Ce téléchargement avait pris environ une heure et demie.

Toute cette histoire pour vous dire qu’à l’époque, une minute d’Internet était précieuse, valorisée autant que de l’eau chaude et claire l’est aujourd’hui. Je gage donc que les tokens pour l’IA suivront la même trajectoire. Ils devraient d’ailleurs, à mon sens, être intégrés à un forfait d’accès à Internet, ou un forfait mobile. Espérons que ce message passe aux groupes de fournisseurs d’accès à Internet, qui ne semblent plus être capables de grand chose ces derniers temps, sinon d’intégrer Netflix ou Disney+ dans leurs formules, ou des applications pour regarder la… télé. (Coucou Free)

En ce qui concerne l’inférence locale, notons que des efforts particuliers sont effectués à l’heure où ces lignes sont publiées. C’est un point de recherche central chez Inworld, ils me l’ont confié. Et c’est en ce sens que leur partenariat avec Nvidia est conduit. Tous ces efforts, conduits par des profils émérites, aboutiront forcément à un résultat. A moins que, malgré l’hégémonie de Nvidia et de ses startups californiennes satellites, un village d’irréductibles gaulois ne soit déjà parvenu à accomplir une telle prouesse.

Je peux donc témoigner personnellement avoir testé un jeu tournant sur Unreal proposant de converser librement avec un personnage IA, le tout en local sur un PC gamer de gamme moyenne. Cela s’est passé dans les locaux parisiens de X&Immersion, au mois de janvier 2025. Que ce soit dit pour l’histoire.

L’inférence locale semble être donc à portée de main, puisque oui, les Français de X&Immersion y sont parvenus. Mais en attendant une adoption massive de cette tech, j’en reviens à M. Yusuke qui évoque également dans son article une notion avec laquelle je souscris totalement.

En tant que Game Designers, Narrative Designers, Ingénieurs ou Producers, nous ne devrions surtout pas attendre que cette tech soit massivement rendue possible par les prochaines puces Nvidia, ou des hypothétiques Playstation 6, iPhone 19 ou Nintendo Switch 3. C’est aujourd’hui qu’il faut penser, et mettre sur papier des concepts et des schémas pour pouvoir les déployer une fois que ces technologies seront démocratisées.

Alchimie du verbe

Bien, rentrons désormais dans ce que l’article de M. Yusuke a de plus virtuose. A savoir, ses explications accessibles à un simple designer comme moi de comment la magie des mots s’opère quand on les fait transiter via un NLP (Natural Language Processing, l’ancêtre du LLM). Je souhaite avant tout exprimer que l’idée même de pulvériser des mots et leurs acceptions en données chiffrées pour ensuite les agglomérer de nouveau en nouveaux mots semble tenir de la pure alchimie. C’est en tout cas comme ça que le perçois.

Alors, j’entends le discours scientifique qui tend à justifier ces phénomènes comme de simples acrobaties mathématiques. A ceux-là je leur réponds que je tiens à continuer de voir un peu de poésie dans ce procédé, qui vise à transformer des mots en chiffres puis des chiffres en mots, comme on transformerait de l’oxygène en or.

Ils me le concèderont volontiers, je le pense.

D’ailleurs, pour M. Yusuke, tout part d’un rêve de jeunesse, lui aussi empreint d’une certaine poésie. Il confesse, toujours dans le même article, que, enfant, il rêve de construire un robot comme lui inspire Doraemon, le chat robot venu du futur. Et la particularité de son robot idéal, c’était qu’il serait capable de construire, fabriquer, générer des histoires. C’est cette motivation innocente qui le conduit alors sur un chemin difficile et discipliné, pour être bombardé plus tard Docteur en Ingénierie de l’Information et de la Communication.

M. Yasuke décrit alors son intérêt précoce, dès 2013, pour word2vec, une technologie qui convertit des mots en vecteurs. Et ces souvenirs de remonter en moi, de mon cours de lycée (collège ?) sur les vecteurs. Un vague souvenir subsiste, avec le regret de n’avoir pas écouté davantage ces cours en particulier. Me reviennent aussi les mots de ma prof de français de 4ème, qui disait toujours: « Le français, c’est des maths, et les maths, c’est du français.” La même prof qui venait d’annuler son mariage, pour épouser la même année le prof de maths du même collège. Mais je digresse.

Une nouvelle fois, peut-on s’arrêter une minute pour se mettre d’accord sur le fait que de convertir des mots et leur signification en données numériques, opérables par ordinateur, tient de la découverte scientifique majeure ? Je rejoins en tout cas M. Yusuke quand il rappelle que oui, word2vec, qui convertit chaque mot avec un chiffre d’identification, un index et une trajectoire, permettant d’opérer des calculs de mots, en obtenir par addition, soustraction… est absolument fascinant.

Il y a alors tout à coup d’autres choses dans ce qu’il décrit qui éveillent en moi une certaine émotion poétique, une nouvelle fois. Comme lorsqu’il déclare que sur Portopia, il a pu utiliser des « vecteurs sémantiques à l’échelle d’une phrase”. Pour plus tard, préciser: « Lorsque le nombre de mots est n, alors le vecteur possède n dimensions.”

Et alors qu’il s’évertue à décrire les affinités de mots, en faisant remarquer la proximité entre « chat » et « chaton » et… « kotatsu » (peut paraître absurde, mais il faut lire M. Yusuke pour mieux comprendre), je ne peux m’empêcher de faire revenir à mon esprit un autre souvenir de mon enfance: l’émission de télé « Pyramides ».

Un peu de contexte est de mise, surtout pour les plus jeunes d’entre vous. Il fut un temps où la télévision publique proposait des jeux intelligents. Des jeux où des candidats devaient faire travailler leur intellect, dans une logique d’amicale compétition. « Pyramides » était de celle-là, mais je dois avouer qu’à l’âge de 10 ans, je n’y comprenais absolument rien. Toutefois je juge aujourd’hui que si on m’en avait expliqué le concept, j’aurais compris, dès mon plus jeune âge, que le but de ce jeu était de trouver un mot caché en en proposant d’autres par association. L’association pouvant soit être par proximité, ou en miroir, c’était selon la stratégie du candidat ou du meneur de jeu.

Cela peut paraître curieux, mais c’est de cette manière que je visualise le NLP de M. Yusuke travailler la génération des mots qui seront proposés au joueur. En expliquant que le prochain mot généré sera choisi selon une probabilité allant de 0 à 1, et qu’un mot avec un score de 0,7 sera choisi au détriment d’un autre mot avec un score de 0,5, M. je ne peux m’empêcher d’opérer cette analogie avec ce jeu télé, qui à l’aune d’un nouveau visionnage, m’a paru être un jeu d’une indéniable qualité.

Jouer à Portopia

Maintenant, qu’en est-t-il de Portopia, en lui-même ?

D’abord un peu de contexte sur les conditions de jeu. J’ai joué à Portopia via Steam où il est disponible gratuitement, en anglais. (également disponible en japonais). Sur mon PC de travail, un ASUS ROG STRIX 17 Gaming Laptop, avec 16GB de RAM DDR4. Le lancement du jeu occupait par défaut un peu plus de 2GB de mémoire, probablement allouées à la gestion du modèle DiabloGPT, puisque comme vous pourrez le voir sur ces captures d’écran, les exigences graphiques du jeu sont quasiment inexistantes.

Le jeu tournait donc en mode avion, avec le Wifi désactivé. Il n’y avait donc aucun moyen pour que le soft eut pu faire des appels API vers un modèle extérieur. La promesse initiale de M. Yusuke est donc tenue.

Précisons aussi que ce titre est le remake d’un jeu sorti sur NES et autres systèmes, par Enix en 1983, sous le titre de The Portopia Serial Murder Case. Diantre, ce jeu est encore plus vieux que moi.

Au lancement du jeu, un binôme vient nous faire état d’un meurtre survenu il y a peu, avant de nous donner une liste d’actions qu’il se déclare capable d’exécuter:

Aller à la pêche aux informations
Vérifier les alibis
Investiguer la scène
Chercher des suspects

Ce qui est appréciable dès le départ, c’est qu’on peut demander à l’assistant d’investiguer la scène, et ce non pas en cliquant des boutons à choix multiples, mais en lui demandant directement en tapant le texte dans la boîte de dialogue prévue à cet effet. Ce qui vient à débloquer de nouveaux suspects à interroger et l’accès à la scène du crime.

Ce qui est moins appréciable toutefois, c’est que c’est la seule action à opérer sur cette scène d’ouverture et il faut alors comprendre que les autres ne seront exécutables que plus tard, dans d’autres circonstances. D’entrée, un souci d’UX intervient, dont les effets seront malheureusement ressentis tout au long du test.

Choisir l’assistant comme seul vecteur d’informations quant aux actions à opérer est totalement logique pour un jeu narratif, et c’est d’autant plus vrai pour un titre qui veut mettre l’IA au coeur de son gameplay, sensé procurer une liberté nouvelle au joueur. A ce propos, il est tout à fait appréciable de pouvoir se rendre au port en tapant simplement “let’s go to the port”, mais cette liberté devient un casse tête lorsqu’il s’agit de trouver le bon texte (en l’occurence, “go back”) pour couper court la conversation avec un suspect, par exemple.

Un mode est activable, via la touche “pause”, le “NLU Visualizer”. (Natural Language Understanding) Ce mode affiche en tant réel le score de probabilité de chacun des inputs du joueur et d’en afficher la proximité en pourcentage avec un input que le système est susceptible de recevoir afin d’exécuter une action. Ce mode bien pratique pour nous mettre sur la voie trahit toutefois à mon sens, les limites du système. J’aurais probablement préféré une nouvelle fois que l’UX, où même la manière dont les dialogues sont écrits, puissent nous mettre sur la voie de manière plus naturelle.

Ce qui m’a fait réaliser que l’aspect UI et UX seront déterminants dans l’adoption de l’IA à des fins narratives pour les jeux de demain, sans quoi, j’en ai bien peur, la révolution risque de ne jamais avoir lieu.

Par ailleurs, le NLU nous affiche des probabilités de phrases attendues par le système qui ne correspondent ni à l’endroit ni au moment que l’on joue, et affiche des choses susceptibles d’être découvertes que bien plus tard, ce qui tend à casser quelque peu l’immersion. Un système de filtres eût été de bon aloi.

Ce sont finalement des automatismes à prendre, et le plaisir à jouer finit par arriver alors que la progression se fait ressentir. Je compris également comment interroger des suspects à propos d’autres suspects, toujours en m’aidant du NLU pour me guider dans les prompts. Toutefois, le système connaît des limites. Il m’était par exemple impossible de faire montrer des objets au suspects pour les faire réagir.

Heureusement, des signes visuels dans les décors nous mettent parfois sur la piste, mais là, le NLP a parfois du mal à faire la jonction. Par exemple, il n’a pas voulu de “look on the floor”, mais attendait “look on the ground”. Pareil pour “Investigate Pendant” dont il n’a pas voulu, attendant “Investigate the pendant”.

Au risque de me répéter, l’aide d’un UX Designer, comprenant les enjeux de ce que voulait mettre en place M. Yusuke, aurait pu donner au titre tout le potentiel qu’il voulait initialement déployer. Lui qui voulait remettre au goût du jour ce type de jeu désormais oublié appelé le “command input sytle”, (il évoque à ce propos le jeu Eliza), ma conclusion est qu’il a évidemment opéré un pas en avant, et pas des moindres. Néanmoins, l’effet produit par l’IA reste très variable. Des fois, il fait ressentir le plaisir d’une conversation naturelle, mais il brise malheureusement le charme quand il nous rebute pour une simple erreur de frappe ou une tournure grammaticale différente de ce qu’il attend.

Ne nous y trompons pas. Portopia est un pas de géant, même si cela ne se voit pas forcément. Même s’il traîne une drôle de réputation. Parce qu’il a réussi à de nombreux endroits de son gameplay, comme je l’ai décrit plus haut, à intégrer l’IA de manière intelligente et au service de l’immersion. C’est en soit une réussite majeure, à un stade où toute l’industrie essaye bon gré mal gré d’intégrer des LLMs au delà du simple “chatbot”. Ce qui représente, je parle en connaissance de cause, un défi colossal.

Portopia est ce premier pas, ce premier pavé, sur lequel on devrait revenir afin de mieux penser l’après. Il nous enjoint à penser maintenant, à l’aide de modèles plus modestes, plutôt que de tout attendre de modèles toujours plus capables. Nous devons nous rendre capables de dompter ces technologies pas à pas, en gardant à l’esprit des esprits de logiques, et toujours en mettant en applications nos concepts de designs déjà assimilés. C’est en ça que Portopia, devrait, à mon sens, devrait être scruté davantage par tout ceux qui se sont donnés pour défi de mettre de l’IA dans leurs projets de jeux.

Fiction contre réalité

A l’aune de ce test, j’essaie d’imaginer quelles sont les phases de réflexion par lesquelles M. Yusuke a dû passer durant le développement de son titre, tout en recoupant avec mes notes prises à la lecture de son article. Et la première chose qui me vient à l’esprit, c’est que ses réflexions sont bien en avance comparées à ce qu’il a pu mettre en oeuvre dans Portopia.

Je ne peux que le rejoindre lorsqu’il évoque qu’il peut exister un conflit entre les données du monde réel sur lesquelles les modèles sont entraînés et le monde de fiction que le développeur élabore. C’est exactement ce constat que j’ai effectué lors de mes premiers tests sur Cloudborn.

A ce titre, il évoque le fait que la notion d’être un monstre dans une histoire de RPG pourrait mal être interprétée dans un contexte de monde réel. Ainsi, un modèle aussi robuste que GPT, parfois même qualifié de “politiquement correct” pourrait-il dépeindre correctement les dires d’un personnage de méchant à la morale toute relative ? Imagine-t-on vraiment un méchant de RPG débiter des propos totalement répréhensibles dans le monde réel?

Pour pallier ce problème, il préconise de suffisamment alimenter le monde de fiction en data abondantes afin que le système puisse savoir sur quoi se reposer, sans quoi il retombera fatalement sur ses connaissances du monde réel. Enfin, il met en garde sur l’hallucination des NLP, qui pourrait constituer des bugs éloquents, et qui rendraient impossible la crédibilité de ce que le système offre. A le lire, je mets mes propres réflexions en accord avec les siennes et dessine cette image mentale de LLM comme un monstre à dompter, à apprivoiser, en l’amadouant avec une énorme quantité de données narratives pour qu’il puisse, au minimum possible, se raccrocher à des données extérieures et n’exprime des choses non voulues.

C’est exactement le principe de Aarda AI, mon nouveau projet IA conduit au sein de Chromaway, que je développe à l’heure actuelle avec Kayna Oliveira. Aarda AI est avant tout un logiciel de worldbuilding, qui attend une seule chose de son utilisateur, avant toute chose: de renseigner un maximum d’informations sur le monde en construction, pour ensuite seulement, mettre ce monde à l’épreuve de l’IA pour des applications de chat en temps réel, des implications gameplay, etc. En réalité je ne vois pas comment l’intégration de ces outils pourrait s’opérer avec un workflow différent de celui-ci, d’où la poursuite de ce projet, qui fait déjà ses preuves. Vous imaginerez donc mon bonheur à lire ce principe énoncé par M. Yusuke lui-même, avec ce sentiment appréciable d’être conforté dans mes idées.

Portopia, de l’aveu même de son auteur, est déjà l’objet d’un combat d’arrière garde. M. Yusuke précise, à l’écriture de son entrée dans le livre, que ses lignes sont écrites alors même que le phénomène ChatGPT3 vient de saturer les flux d’informations du monde entier. Je ressens un sentiment de regret dans ce qu’il exprime alors, à lire entre les lignes. Mais nous ne sommes absolument pas dans le cas de figure actuel, un tantinet ridicule, où chaque journée que Dieu fait est l’occasion d’annoncer au monde le nouveau modèle de telle firme ou de tel pays qui met tous les autres à l’amende. Cette obsolescence dramatisée, toujours plus bruyante, n’annule en rien, et c’est cela qui est heureux, les réflexions et les efforts effectués par le précurseur dont il est aujourd’hui question.

En guise de conclusion, et au risque de me répéter, je paraphraserai une nouvelle fois M. Yusuke en encourageant chaque Designer qui lit ses lignes à penser et élaborer les systèmes qui sauront dompter cette nouvelle technologie, plutôt que de céder au bruit de la course à la puissance. Laissons cette compétition aux personnes concernées, car il revient aux Game Designers, Narrative Designers, et UI/UX Designers à penser les applications de demain. Et parce que Portopia n’a jamais eu la prétention d’être autre chose que ce qui est énoncé même dans son titre-même: une « Tech Preview », puisse cette expérience nous inspirer et marquer le point de départ de nouvelles expérimentations et de prises de risques.