Entraînement d’IA et droit d’auteur : l’affaire Thomson Reuters c. Ross Intelligence

Par Elodie Migliore, Doctorante contractuelle en droit de la PI, IA et données au CEIPI / PhD Candidate in IP, AI and data law.

Le 11 février 2025, le juge Bibas rendit une nouvelle décision dans l’affaire Thomson Reuters c. Ross Intelligence, traitant de l’utilisation de certaines données pour l’entraînement d’un système d’intelligence artificielle (Thomson Reuters Enterprise Centre GmbH et West Publishing Corp. c. Ross intelligence inc., District of Delaware, n° 1:20-cv-613-SB, 11 février 2025).

Faits

L’affaire en l’espèce implique Thomson Reuters, propriétaire de la plateforme Westlaw, et Ross Intelligence, le développeur d’un outil de recherche juridique utilisant un système d’IA. Pour développer cet outil, Ross tenta d’obtenir une licence pour utiliser le contenu Westlaw de Thomson Reuters afin d’entraîner son modèle. Thomson Reuters refusa. Ross décida donc de contacter un tiers, la société LegalEase pour acheter des « Bulk Memos », c’est-à-dire des compilations de questions juridiques posées par des avocats, avec des bonnes et mauvaises réponses. Pour créer ces questions, LegalEase avait fourni aux avocats un guide expliquant comment procéder, en utilisant les notes d’en-tête de Westlaw. Il était précisé que les avocats ne devaient pas simplement copier et coller les notes d’en-tête directement dans les questions.

Après avoir découvert cela, Thomson Reuters décida de poursuivre Ross pour violation de ses droits d’auteur. Thomson Reuters se fonde sur l’utilisation des notes d’en-tête et du système de numéros clés de Westlaw que Ross aurait utilisé pour entraîner son système d’IA.

En 2023, le juge Bibas avait rendu un premier jugement, refusant d’accorder un « summary judgment » aux parties, et concluant qu’un jury était nécessaire pour déterminer si la doctrine du fair use pouvait s’appliquer en l’espèce (Thomson Reuters Enterprise Centre GmbH et West Publishing Corp. c. Ross intelligence inc., District of Delaware, n° 1:20-cv-613-SB, 25 septembre 2023). Aux États-Unis, un summary judgment est un pouvoir discrétionnaire accordé aux juges pour statuer sur une demande ou une question sans passer par un procès impliquant un jury. Le tribunal accorde ce type de jugement si le requérant démontre qu’il n’y a pas de véritable litige sur un fait matériel et que le requérant a droit à un jugement sur la base d’une question de droit.

Toutefois, dans ce nouveau summary judgment rendu le 11 février 2025, le juge Bibas annule une grande partie de sa décision de 2023, concluant que de nombreuses questions pouvaient d’ores et déjà être résolues en faveur de Thomson Reuters, au lieu d’être soumises à un jury.

Solution

Pour l’analyse de cette décision, le nouveau jugement peut être décomposé en deux parties.

Tout d’abord, le juge procède à une analyse du contenu utilisé pour déterminer si ce dernier est bel et bien original et si Ross a effectivement copié ledit contenu. Le juge Bibas conclut que la sélection et l’arrangement des notes d’en-tête sont originales. Plus encore, les notes d’entêtes individuelles satisfont le standard d’originalité. Il est aussi décidé que le système de numéros clés est original.

Le juge conclut également que 2 243 des Bulk Memos analysés avaient été copiés à partir des notes d’entêtes de Thomson Reuters. Il constate une similitude substantielle avec ces notes d’entêtes.

Dans un second temps, le juge Bibas procède à une analyse de l’usage effectué du contenu protégé au regard de la doctrine du fair use et de ses quatre facteurs (Copyright Act de 1976, Section 107). Comme souligné par la décision, il n’est pas donné le même poids à tous ces facteurs, le facteur un et quatre étant considérés comme plus importants (Authors Guild c. Google, Inc., Second Circuit Court of Appeals, n° 13-4829-cv, 16 octobre 2015).

Sur le premier facteur.

Le premier facteur consiste à analyser le but et la nature de l’utilisation. Pour déterminer ce facteur, le juge doit principalement analyser la nature commerciale et transformative de l’utilisation.

Concernant l’usage commercial de l’œuvre, il n’est pas contesté que l’usage opéré est commercial.

Concernant la nature transformative de l’utilisation, il s’avère que cette notion est devenue centrale dans la doctrine du fair use. Elle est particulièrement intéressante dans le cas de l’entraînement des systèmes d’IA. Comme l’expliqua le juge Pierre Leval en 1990, « L’utilisation doit être productive et doit employer l’objet cité d’une manière différente ou dans un but différent de l’original […] Si l’utilisation secondaire ajoute de la valeur à l’original – si la matière citée est utilisée comme matière première, transformée pour créer de nouvelles informations, une nouvelle esthétique, de nouvelles idées et compréhensions – il s’agit du type même d’activité que la doctrine de l’usage loyal entend protéger pour l’enrichissement de la société » (traduction libre, v. P. Leval, Toward a Fair Use Standard, Harvard Law Review 1105 (1990)).

Depuis, la notion de « transformativité » a évolué, se développant pour englober non seulement les modifications apportées par l’homme aux œuvres protégées par le droit d’auteur, mais aussi des modifications apportées par des procédés techniques. L’affaire Warhol, sur laquelle la décision commentée s’appuie, est également une affaire clé ayant participé à redéfinir le critère de « transformativité » (Andy Warhol Foundation for the Visual Arts, Inc. c. Goldsmith, U.S Supreme Court, n°21–869, 18 mai 2023).

En l’espèce, le juge décide que l’utilisation faite du contenu pour entraîner un système d’IA n’est pas transformative. En effet, l’utilisation n’a pas « un but supplémentaire ou un caractère différent » de celle de Thomson Reuters. Ross utilisait les notes d’en-tête de Thomson Reuters comme données d’intelligence artificielle pour créer un outil de recherche juridique destiné à concurrencer Westlaw.

Pour se défendre, Ross argue que les notes d’en-tête ne font pas partie du produit final présenté aux consommateurs, et que la copie a eu lieu à une étape intermédiaire. Le juge considère que la copie opérée ici n’est pas une copie technique réalisée pour atteindre les idées sous-jacentes. La copie en l’espèce se place plus dans le sillon de l’affaire Warhol, où il a été jugé que la « copie n’est pas raisonnablement nécessaire pour atteindre le nouvel objectif de l’utilisateur » (traduction libre, v. Andy Warhol Foundation for the Visual Arts, Inc. c. Goldsmith, préc. cit.).

Cette décision est intéressante à plusieurs égards, notamment au regard de la notion de « transformativité ».

Tout d’abord, il est possible de relativiser l’impact de cette affaire puisqu’il n’était pas question d’IA générative en l’espèce, comme souligné par la décision. Ce qui semble particulièrement important dans la décision est que le système d’IA ait été entraîné sur les données de Westlaw afin de produire un outil qui remplirait une fonction presque identique aux fonctions de Westlaw. Cela pourrait être différent dans le cas de systèmes d’IA génératifs qui possèdent de nombreuses capacités, qui ne remplaceraient pas nécessairement un intrant en particulier.

Toutefois, il est également possible d’adopter une argumentation inverse et de considérer que, même si cette affaire n’implique pas une affaire d’IA générative, il est possible de retrouver des situations similaires dans le cas des IA génératives. En effet, imaginons l’utilisation de plusieurs dessins pour entraîner un système d’IA capable de générer un contenu analogue, on retrouverait ici une situation similaire avec une entrée utilisée pour produire un contenu concurrençant le titulaire des droits des données d’entrée. La doctrine du fair use nécessite donc une analyse au cas par cas.

Sur le quatrième facteur

Le quatrième facteur consiste à déterminer l’effet de l’utilisation sur le marché potentiel ou la valeur de l’œuvre. Il faut prendre en considération non seulement les marchés actuels, mais aussi les marchés dérivés potentiels.

La décision relève que le marché original est celui des plates-formes de recherche juridique. Elle souligne également un marché dérivé potentiel « évident », celui de la commercialisation de données pour entraîner les IA juridiques.

Le juge considère ici qu’il n’est pas important de savoir si Thomson Reuters utiliserait ses données pour entraîner des outils d’intelligence artificielle ou vendrait ses notes d’en-tête en tant que données d’entraînement. Ce qui importe est l’intention de Ross de concurrencer Westlaw, en développant un produit de substitution sur le marché. L’effet sur un marché potentiel de données d’entraînement pour l’entraînement de systèmes d’IA est suffisant. Il n’a également pas été suffisamment démontré que ces marchés n’existent pas et ne seraient pas affectés.

Sur le deuxième et troisième facteur

Le second facteur concerne la nature de l’œuvre protégée par le droit d’auteur et le troisième facteur s’attache à analyser la quantité et le caractère substantiel de la partie prélevée de l’œuvre. Sur ces deux facteurs, l’avantage est donné à Ross. Concernant le deuxième facteur, il est estimé que le contenu en question, bien qu’il soit original, est loin d’être le contenu le plus créatif qui soit. De plus, concernant la quantité du contenu utilisé et l’importance de cette partie par rapport à l’ensemble, étant donné que Ross n’a pas mis les notes d’en-tête à disposition du public, Ross prévaut sur le troisième facteur.

Toutefois, après une balance des facteurs, l’avantage est donné à Thomson Reuters, la doctrine du fair use ne pouvant être caractérisée en l’espèce.

Conclusion

Bien que la portée de ce jugement reste encore difficile à appréhender, elle fournit des premières pistes d’interprétation concernant certains des enjeux importants dans les affaires en cours impliquant des systèmes d’IA. Il reste à voir comment cela se manifestera dans les décisions à venir, notamment au regard du caractère transformatif d’une utilisation et de l’impact sur le marché existant et potentiel.

Entraînement d’IA et droit d’auteur : l’affaire Thomson Reuters c. Ross Intelligence
Par Elodie Migliore, Doctorante contractuelle en droit de la PI, IA et données au CEIPI / PhD Candidate in IP, AI and data law.