Is AI training data protected by copyright?

Yes. Copyright attaches automatically at creation under the Berne Convention (Art. 5) in all 181 member countries. Scraping copyrighted works to build a training dataset creates copies of protected material. Whether it constitutes infringement depends on jurisdiction and whether applicable exceptions — such as the EU CDSM Directive Art. 4 TDM exception — apply and have not been opted out of by the rights holder.

Can I use scraped web data to train an AI model?

Only if the source material is explicitly licensed for that purpose or the applicable TDM exception covers it. In the EU, rights holders may opt out of TDM exceptions via machine-readable signals such as robots.txt. In Switzerland, no general TDM exception exists — scraping for commercial AI training without a licence is legally risky. Always audit your dataset sources and document licensing status before training.

What does the EU AI Act require about training data documentation?

Under EU AI Act Article 53, providers of general-purpose AI models must maintain technical documentation of training data sources, keep a sufficiently detailed public summary, and comply with EU copyright law including TDM opt-outs. For high-capability models above the 10^25 FLOPs threshold, additional adversarial testing and incident-reporting obligations apply. Non-compliance exposes providers to fines up to 3% of global turnover.

How can a cryptographic timestamp prove training data provenance?

A qualified electronic timestamp under eIDAS or ZertES embeds a cryptographic hash of your dataset at a specific point in time, anchored to a trusted time source. This creates an immutable, court-admissible record proving the dataset existed in that exact form on that date. It is the primary technical mechanism for demonstrating legitimate, pre-existing sourcing when rights holders or regulators audit your data pipeline.

Which jurisdictions have the strictest AI training data copyright rules?

The EU has the most comprehensive framework — CDSM Directive TDM exceptions with opt-out rights, plus the EU AI Act documentation requirements. Switzerland has no TDM exception, making unlicensed scraping riskier than in the EU. The US applies fair use analysis, which is less predictable. Japan has the broadest TDM exception, permitting scraping for AI training even of commercial works without opt-out mechanisms.

Protection des données d'entraînement IA par le droit d'auteur : ce que les développeurs doivent savoir en 2026

Les jeux de données d'entraînement IA sont protégés par le droit d'auteur, sauf si le matériel source est explicitement sous licence ou dans le domaine public. Extraire par scraping des contenus protégés pour entraîner un modèle sans autorisation constitue une violation dans la plupart des juridictions de l'UE et suisses à partir de 2026, que la production reproduise ou non le texte original mot pour mot.

Les données d'entraînement IA sont-elles protégées par le droit d'auteur ?

Oui — dans la plupart des cas. La protection du droit d'auteur s'attache aux œuvres originales dès leur création, sans aucune exigence d'enregistrement (Convention de Berne, Art. 5). Lorsque des développeurs extraient des sites web, des livres, des dépôts de code ou des images pour constituer des jeux de données d'entraînement, ils créent des copies d'œuvres protégées. La question de savoir si cette copie constitue une violation dépend de la juridiction, des conditions de licence et de l'applicabilité d'exceptions telles que l'« exploration de textes et de données » (TDM) en droit de l'UE.

Dans l'UE, l'article 4 de la directive sur le droit d'auteur dans le marché unique numérique (directive DSMN 2019/790/CE) autorise le TDM à des fins commerciales — mais uniquement si le titulaire des droits n'a pas exercé son droit d'opposition. Les éditeurs peuvent apposer une opposition lisible par machine sur leur contenu (par exemple, robots.txt ou balises méta). Dans ce cas, l'extraction de ce contenu pour l'entraînement IA n'est pas couverte par l'exception TDM.

Que dit l'IA Act européen sur les données d'entraînement ?

L'IA Act européen (Règlement 2024/1689) impose des obligations de transparence et de documentation aux fournisseurs de modèles IA à usage général (GPAI). L'article 53 exige des fournisseurs qu'ils :

Établissent et tiennent à jour la documentation technique du processus d'entraînement, des sources de données et des politiques de gouvernance des données

Publient un résumé suffisamment détaillé des données d'entraînement utilisées — suffisant pour que les titulaires de droits concernés puissent faire valoir leurs droits

Respectent le droit d'auteur de l'UE, y compris le respect des oppositions TDM

Pour les modèles GPAI à haute capacité (au-dessus du seuil de 10^25 FLOPs), des obligations supplémentaires de tests adversariaux et de signalement des incidents s'appliquent. L'absence de documentation de la provenance des données constitue un risque réglementaire direct en vertu de l'IA Act, pas seulement un risque en matière de droit d'auteur.

Peut-on utiliser des données web extraites par scraping pour entraîner des modèles IA ?

Oui — sous conditions. L'exception TDM de l'UE (DSMN Art. 4) autorise le scraping pour l'entraînement IA commercial sauf si le titulaire des droits s'y est opposé. En Suisse, la loi révisée sur le droit d'auteur (LDA) de 2020 contient une exception TDM de recherche similaire, mais son champ d'application pour l'entraînement IA commercial reste contesté en 2026.

Règles essentielles :

Contenu avec consentement : Permis au titre de l'exception TDM de l'UE. Documentez votre conformité.
Contenu avec opposition (robots.txt noai, balises lisibles par machine) : Non couvert. Licence requise.
Contenu sous licence ouverte (CC-BY, CC0, MIT, Apache) : Permis selon les conditions de licence. Vérifiez les exigences d'attribution.
Œuvres du domaine public : Permis. Documentez les sources pour prouver la provenance.
Contenu payant ou à accès contrôlé : Le scraping viole probablement le droit d'auteur et les lois sur la fraude informatique.

Quel est le risque en cas d'erreur ?

Significatif. En 2023-2024, plusieurs recours collectifs (Getty Images c. Stability AI ; Doe 1 c. GitHub Copilot) ont été portés devant les tribunaux, établissant que l'entraînement IA sur des données extraites sans consentement soulève des demandes d'indemnisation pour violation. L'IA Act ajoute une couche réglementaire : la non-conformité à la documentation de gouvernance des données est passible d'amendes pouvant atteindre 15 millions d'euros ou 3 % du chiffre d'affaires annuel mondial.

Au-delà de la responsabilité, le risque de réputation est réel. Les investisseurs et les clients entreprises effectuent de plus en plus de due diligence en matière de PI sur les jeux de données d'entraînement des entreprises IA avant de signer des accords commerciaux.

Comment prouver que vos données d'entraînement ont été légalement obtenues ?

C'est là que l'horodatage cryptographique change la donne. Un développeur ou une équipe de données qui horodate son jeu de données au moment de la collecte — avant l'entraînement — crée une preuve vérifiable et recevable devant un tribunal de :

Ce qui figurait dans le jeu de données (hachage du manifeste du jeu de données)

Quand il a été assemblé (horodatage cryptographique en vertu du Règlement eIDAS Art. 41)

Quelles conditions de licence s'appliquaient à ce moment précis

Un horodatage qualifié eIDAS délivré par un prestataire de services de confiance (TSP) figurant sur les listes de confiance de l'UE a la même valeur juridique qu'une date notariée. Il ne peut pas être antidaté. Cela importe lorsqu'un titulaire de droits affirme que vous avez extrait son contenu après son opposition — vous pouvez prouver que le jeu de données est antérieur à l'opposition.

Swiss Trust Layer délivre des horodatages qualifiés conformes à eIDAS sur les jeux de données, les manifestes et la documentation de licence en une seule étape de scellement. Le certificat résultant est vérifiable par tout le monde sans connexion.

Qu'en est-il des données d'entraînement que vous avez créées ou commandées ?

Si votre organisation a créé les données d'entraînement en interne (annotateurs humains, génération synthétique, œuvres créatives originales), vous en êtes propriétaire — mais vous faites toujours face à des défis de provenance :

Les données synthétiques générées par un modèle entraîné sur des données de tiers peuvent hériter de problèmes de droit d'auteur du modèle en amont
Le travail d'annotation par des prestataires nécessite des accords de travail commandé appropriés transférant le droit d'auteur
Les jeux de données mixtes (public + sous licence + original) nécessitent une documentation claire de ce que contient chaque sous-ensemble

L'horodatage des versions de jeux de données — y compris la documentation des accords de licence pour chaque sous-ensemble — crée un dossier défendable pour la due diligence, les audits d'investisseurs et les inspections réglementaires.

Quelles juridictions ont les règles les plus strictes ?

|---|---|---|---|

Les développeurs IA basés dans l'UE supportent le fardeau combiné le plus élevé en matière de droit d'auteur et de réglementation. Les développeurs suisses devraient suivre proactivement les normes de l'UE compte tenu des flux de données transfrontaliers.

Contenu généré par IA vs. données d'entraînement IA : quelle est la différence ?

Ce sont des questions juridiquement distinctes. La protection de la propriété intellectuelle des contenus générés par IA traite de la propriété des résultats d'un modèle IA. Le droit d'auteur sur les données d'entraînement traite de la légalité de l'utilisation des données en entrée pour l'entraînement. Les deux doivent être évalués pour un produit IA conforme.

Les exigences de gouvernance des données de l'IA Act européen s'appuient sur les deux : les développeurs doivent documenter les pratiques de sourcing des données (données d'entraînement) et mettre en œuvre des mesures de protection contre la génération de résultats contrefaisants.

Liste de contrôle pratique pour les développeurs IA en 2026

Auditez votre jeu de données d'entraînement : identifiez toutes les sources et licences applicables

Vérifiez robots.txt et les oppositions lisibles par machine sur les sources extraites

Supprimez ou remplacez le contenu avec opposition avant le début de l'entraînement

Documentez les manifestes de jeux de données avec des horodatages cryptographiques — scellez votre jeu de données sur Swiss Trust Layer

Publiez des résumés des données d'entraînement comme requis par l'IA Act Art. 53(d)

Obtenez des alternatives sous licence pour les jeux de données à haute valeur (par exemple, accords de licence Getty, Associated Press)

Établissez un processus de surveillance : les propriétaires de contenu peuvent s'opposer rétroactivement, affectant les futures exécutions d'entraînement

Le coût de bien faire les choses dès le départ — documentation, horodatages, licences — est bien inférieur au coût de la défense dans un procès en violation du droit d'auteur ou d'un audit de conformité à l'IA Act européen.

Que fournit spécifiquement le cadre eIDAS ?

En vertu du Règlement eIDAS (UE) 910/2014, un horodatage électronique qualifié (QTS) délivré par un TSP qualifié :

Crée une présomption légale que les données existaient à l'heure indiquée (Art. 41(2))
Est recevable dans tous les tribunaux des États membres de l'UE sans authentification supplémentaire
Ne peut pas être antidaté — l'infrastructure TSP est auditée et certifiée

Pour la provenance des données d'entraînement IA, cela signifie qu'un QTS sur votre manifeste de jeu de données est la référence absolue de la conformité documentée. Il transforme une auto-affirmation (« nous avons assemblé ce jeu de données à la date X ») en un fait juridiquement défendable.