
Les jeux de données d'entraînement IA sont protégés par le droit d'auteur, sauf si le matériel source est explicitement sous licence ou dans le domaine public. Extraire par scraping des contenus protégés pour entraîner un modèle sans autorisation constitue une violation dans la plupart des juridictions de l'UE et suisses à partir de 2026, que la production reproduise ou non le texte original mot pour mot.
Oui — dans la plupart des cas. La protection du droit d'auteur s'attache aux œuvres originales dès leur création, sans aucune exigence d'enregistrement (Convention de Berne, Art. 5). Lorsque des développeurs extraient des sites web, des livres, des dépôts de code ou des images pour constituer des jeux de données d'entraînement, ils créent des copies d'œuvres protégées. La question de savoir si cette copie constitue une violation dépend de la juridiction, des conditions de licence et de l'applicabilité d'exceptions telles que l'« exploration de textes et de données » (TDM) en droit de l'UE.
Dans l'UE, l'article 4 de la directive sur le droit d'auteur dans le marché unique numérique (directive DSMN 2019/790/CE) autorise le TDM à des fins commerciales — mais uniquement si le titulaire des droits n'a pas exercé son droit d'opposition. Les éditeurs peuvent apposer une opposition lisible par machine sur leur contenu (par exemple, robots.txt ou balises méta). Dans ce cas, l'extraction de ce contenu pour l'entraînement IA n'est pas couverte par l'exception TDM.
L'IA Act européen (Règlement 2024/1689) impose des obligations de transparence et de documentation aux fournisseurs de modèles IA à usage général (GPAI). L'article 53 exige des fournisseurs qu'ils :
Pour les modèles GPAI à haute capacité (au-dessus du seuil de 10^25 FLOPs), des obligations supplémentaires de tests adversariaux et de signalement des incidents s'appliquent. L'absence de documentation de la provenance des données constitue un risque réglementaire direct en vertu de l'IA Act, pas seulement un risque en matière de droit d'auteur.
Oui — sous conditions. L'exception TDM de l'UE (DSMN Art. 4) autorise le scraping pour l'entraînement IA commercial sauf si le titulaire des droits s'y est opposé. En Suisse, la loi révisée sur le droit d'auteur (LDA) de 2020 contient une exception TDM de recherche similaire, mais son champ d'application pour l'entraînement IA commercial reste contesté en 2026.
Règles essentielles :
Significatif. En 2023-2024, plusieurs recours collectifs (Getty Images c. Stability AI ; Doe 1 c. GitHub Copilot) ont été portés devant les tribunaux, établissant que l'entraînement IA sur des données extraites sans consentement soulève des demandes d'indemnisation pour violation. L'IA Act ajoute une couche réglementaire : la non-conformité à la documentation de gouvernance des données est passible d'amendes pouvant atteindre 15 millions d'euros ou 3 % du chiffre d'affaires annuel mondial.
Au-delà de la responsabilité, le risque de réputation est réel. Les investisseurs et les clients entreprises effectuent de plus en plus de due diligence en matière de PI sur les jeux de données d'entraînement des entreprises IA avant de signer des accords commerciaux.
C'est là que l'horodatage cryptographique change la donne. Un développeur ou une équipe de données qui horodate son jeu de données au moment de la collecte — avant l'entraînement — crée une preuve vérifiable et recevable devant un tribunal de :
Un horodatage qualifié eIDAS délivré par un prestataire de services de confiance (TSP) figurant sur les listes de confiance de l'UE a la même valeur juridique qu'une date notariée. Il ne peut pas être antidaté. Cela importe lorsqu'un titulaire de droits affirme que vous avez extrait son contenu après son opposition — vous pouvez prouver que le jeu de données est antérieur à l'opposition.
Swiss Trust Layer délivre des horodatages qualifiés conformes à eIDAS sur les jeux de données, les manifestes et la documentation de licence en une seule étape de scellement. Le certificat résultant est vérifiable par tout le monde sans connexion.
Si votre organisation a créé les données d'entraînement en interne (annotateurs humains, génération synthétique, œuvres créatives originales), vous en êtes propriétaire — mais vous faites toujours face à des défis de provenance :
L'horodatage des versions de jeux de données — y compris la documentation des accords de licence pour chaque sous-ensemble — crée un dossier défendable pour la due diligence, les audits d'investisseurs et les inspections réglementaires.
| Juridiction | Exception TDM | Couverture IA Act | Risque principal |
|---|---|---|---|
| UE | Oui (avec droit d'opposition) | Obligations GPAI complètes | Conformité à l'opposition + documentation |
| Suisse | Limitée (recherche) | Alignement volontaire | TDM commercial pas clairement autorisé |
| Royaume-Uni | Oui (non-commercial uniquement) | Pas d'équivalent IA Act | Utilisation commerciale non couverte |
| États-Unis | Usage équitable (non résolu) | Executive Order uniquement | Risque lié aux litiges |
| Japon | Large exception TDM | Aucune | Faible risque réglementaire |
Les développeurs IA basés dans l'UE supportent le fardeau combiné le plus élevé en matière de droit d'auteur et de réglementation. Les développeurs suisses devraient suivre proactivement les normes de l'UE compte tenu des flux de données transfrontaliers.
Ce sont des questions juridiquement distinctes. La protection de la propriété intellectuelle des contenus générés par IA traite de la propriété des résultats d'un modèle IA. Le droit d'auteur sur les données d'entraînement traite de la légalité de l'utilisation des données en entrée pour l'entraînement. Les deux doivent être évalués pour un produit IA conforme.
Les exigences de gouvernance des données de l'IA Act européen s'appuient sur les deux : les développeurs doivent documenter les pratiques de sourcing des données (données d'entraînement) et mettre en œuvre des mesures de protection contre la génération de résultats contrefaisants.
Le coût de bien faire les choses dès le départ — documentation, horodatages, licences — est bien inférieur au coût de la défense dans un procès en violation du droit d'auteur ou d'un audit de conformité à l'IA Act européen.
En vertu du Règlement eIDAS (UE) 910/2014, un horodatage électronique qualifié (QTS) délivré par un TSP qualifié :
Pour la provenance des données d'entraînement IA, cela signifie qu'un QTS sur votre manifeste de jeu de données est la référence absolue de la conformité documentée. Il transforme une auto-affirmation (« nous avons assemblé ce jeu de données à la date X ») en un fait juridiquement défendable.
Protégez votre travail avec Swiss Trust Layer AG
Scellez votre propriété intellectuelle avec un e-Sceau prouvé en justice, soutenu par Swisscom Trust Services.
Réserver une Démo Gratuite