La part d’ombre des intelligences artificielles qui se disent « open source »
Nombre d’éditeurs, de DeepSeek à Mistral, en passant par Meta, s’accordent sur l’importance de l’ouverture des intelligences artificielles. Mais le degré de transparence de leurs modèles laisse à désirer, illustrant la tension entre une approche réellement ouverte et le développement d’un produit commercial.
Les contours de la mission de cette fondation demeurent encore flous. On ignore par exemple si elle bâtira de « grands modèles de langage » (LLM), la brique fondamentale animant ChatGPT et les autres agents conversationnels, ainsi que des outils de traduction, de biologie ou encore de robotique. Reste que sa création fait écho au débat concernant l’ouverture des LLM, ranimé ces dernières semaines par l’apparition de DeepSeek, un modèle qui se distingue justement de son concurrent ChatGPT par sa frugalité et par son positionnement open source.
« [Deepseek] a construit par-dessus le travail d’autres personnes [en apportant] de nouvelles idées, s’est ainsi enthousiasmé en janvier Yann LeCun, le directeur scientifique de l’IA chez Meta, sur LinkedIn. Comme leur travail est publié et open source, tout le monde peut désormais en profiter. Les modèles [ouverts] surpassent les modèles propriétaires. » Une pierre dans le jardin de son concurrent OpenAI, le créateur de ChatGPT, un LLM très ouvert à ses débuts mais qui s’est refermé au fil du temps, et n’a plus aujourd’hui d’« open » que le nom. Quelques jours après l’émergence médiatique de DeepSeek, Sam Altman, le cofondateur d’OpenAI, a déclaré lui-même sur Reddit : « Sur ce point, nous avons été du mauvais côté de l’histoire, nous devons repenser notre stratégie open source. »
Les zones d’ombre laissées par DeepSeek
Pour autant, Deepseek est-il un chevalier blanc de l’ouverture ? En réalité, l’entreprise chinoise est loin de se conformer entièrement à la définition d’une IA open source formulée par l’organe de standardisation Open Source Alliance (OSA). Pour les LLM, les fondamentaux sont les mêmes que pour d’autres logiciels : on doit pouvoir les utiliser, les étudier, les modifier et les partager librement. Mais pour eux, le volet modification et étude est plus complexe que pour un logiciel classique, leur code informatique étant beaucoup plus opaque. Pour comprendre un LLM, il faut s’intéresser au chemin emprunté par ses créateurs autant qu’au résultat final, son code source.
L’OSA appelle donc les éditeurs d’IA à dévoiler leurs secrets de fabrication. Ce que DeepSeek ne fait que partiellement, en restant évasif sur l’une des étapes-clés de fabrication des LLM, particulièrement innovante dans son cas : le renforcement. Or cette étape, qui consiste à indiquer à l’IA les réponses souhaitables puis celles qui ne le sont pas, afin de la rendre plus sûre et performante, est cruciale. Hugging Face, une entreprise franco-américaine qui abrite une énorme librairie de LLM, a monté un projet visant à reproduire les recettes de renforcement de DeepSeek puis à les rendre open source, baptisé Open-R1. Les indices donnés par DeepSeek, même parcellaires, ont suffi à mettre les chercheurs sur la piste. « Le modèle chinois a déjà servi de base à près de 1 000 nouveaux LLM ouverts, observe auprès du Monde Thomas Wolf, cofondateur de Hugging Face. C’est la beauté de l’open source que d’accélérer de façon exponentielle l’innovation. »
Parmi les omissions de DeepSeek, on note également l’absence d’informations sur les données d’entraînement, ces milliards de phrases écrites par des humains, dont le LLM s’inspire pour échafauder ses connexions. De façon générale, leur provenance est très rarement dévoilée par les éditeurs de LLM. « Selon toute vraisemblance, beaucoup utilisent des contenus sous copyright pour entraîner leurs modèles, éclaire Sébastien Broca, maître de conférences en sciences de l’information à l’université Paris-VIII. La légalité de cette pratique étant loin d’être assurée, elles n’ont pas intérêt à divulguer trop d’indices. »
Globalement, le degré d’ouverture de DeepSeek est donc passable, si l’on se fie à l’évaluation de deux chercheurs de l’université Radboud de Nimègue (Pays-Bas), auteurs d’un classement des LLM aux critères encore plus exigeants que ceux de l’OSA. Pour obtenir tous les points possibles à leur évaluation, une IA doit être accompagnée d’un article de recherche revu par des pairs, ce qui est extrêmement rare.
L’open source, un label aux contours flous
Selon ces chercheurs, DeepSeek est loin d’être le seul modèle se revendiquant open source sans l’être entièrement. L’IA française Mistral, par exemple, obtient une évaluation passable car son code source, ses données d’entraînement et ses articles de recherche sont incomplets.
Le Llama 3.1 de Meta, lui, obtient une note encore moins bonne, aucune information sur son renforcement n’étant donnée par ses créateurs, qui rechignent à détailler toutes les composantes du modèle. En outre, sa licence n’autorise pas n’importe qui à l’utiliser librement : les entreprises ayant plus de 700 millions d’usagers en sont privées. « Llama a eu un effet incroyable sur la communauté open source, avec des milliers de modèles adaptés de cette famille », estime néanmoins Thomas Wolf. Mark Dingemanse, l’un des auteurs de l’index, juge au contraire auprès du Monde que « la prédominance de Llama souligne à quel point le choix de LLM open source est pauvre ».
On le voit, la définition de l’IA open source est disputée et mouvante. L’OSA travaille ainsi déjà à une nouvelle version de cette définition, laquelle figure aussi parmi les objectifs fixés à la fondation Current AI, selon Contexte.
Les entreprises commerciales ont intérêt à ce que ses contours soient permissifs afin de conserver leur label tout en protégeant leurs précieux secrets de fabrication. L’approche open source, quitte à laisser un LLM circuler presque librement, comme le font Meta et Mistral, permet en effet de conquérir des parts de marché, d’acquérir de l’influence et « d’améliorer leur image face aux autres big tech » ou encore de « bénéficier d’une importante force de travail gratuite », détaille Sébastien Broca. Mark Dingemanse juge pourtant que ces entreprises pourraient gagner à adopter une approche plus radicale car « de grandes réussites commerciales comme Wordpress, Apache et Python sont basées sur une lecture maximaliste de l’open source ».
Pour l’heure, les projets les plus fidèles à l’esprit open source ne sont pas commerciaux. C’est le cas du LLM Olmo, porté par la fondation du milliardaire Paul Allen, cofondateur de Microsoft décédé en 2018. Ou du projet OpenEuroLLM conduit par divers organismes de recherche, financé par l’Union européenne à hauteur de 20 millions d’euros. Ses porteurs, les universitaires tchèque Jan Hajic et finlandais Peter Sarlin, veulent rendre publics tous leurs secrets de fabrication.
Source : https://www.lemonde.fr/pixels/
A découvrir aussi
- إعفاءات وتغييرات واسعة في صفوف نواب التعل
- La leçon de Fukushima : Nucléaire : suicide, mode d'emploi
- Evolution du logiciel libre
Inscrivez-vous au site
Soyez prévenu par email des prochaines mises à jour
Rejoignez les 65 autres membres