Is AI training data protected by copyright?

Yes. Copyright attaches automatically at creation under the Berne Convention (Art. 5) in all 181 member countries. Scraping copyrighted works to build a training dataset creates copies of protected material. Whether it constitutes infringement depends on jurisdiction and whether applicable exceptions — such as the EU CDSM Directive Art. 4 TDM exception — apply and have not been opted out of by the rights holder.

Can I use scraped web data to train an AI model?

Only if the source material is explicitly licensed for that purpose or the applicable TDM exception covers it. In the EU, rights holders may opt out of TDM exceptions via machine-readable signals such as robots.txt. In Switzerland, no general TDM exception exists — scraping for commercial AI training without a licence is legally risky. Always audit your dataset sources and document licensing status before training.

What does the EU AI Act require about training data documentation?

Under EU AI Act Article 53, providers of general-purpose AI models must maintain technical documentation of training data sources, keep a sufficiently detailed public summary, and comply with EU copyright law including TDM opt-outs. For high-capability models above the 10^25 FLOPs threshold, additional adversarial testing and incident-reporting obligations apply. Non-compliance exposes providers to fines up to 3% of global turnover.

How can a cryptographic timestamp prove training data provenance?

A qualified electronic timestamp under eIDAS or ZertES embeds a cryptographic hash of your dataset at a specific point in time, anchored to a trusted time source. This creates an immutable, court-admissible record proving the dataset existed in that exact form on that date. It is the primary technical mechanism for demonstrating legitimate, pre-existing sourcing when rights holders or regulators audit your data pipeline.

Which jurisdictions have the strictest AI training data copyright rules?

The EU has the most comprehensive framework — CDSM Directive TDM exceptions with opt-out rights, plus the EU AI Act documentation requirements. Switzerland has no TDM exception, making unlicensed scraping riskier than in the EU. The US applies fair use analysis, which is less predictable. Japan has the broadest TDM exception, permitting scraping for AI training even of commercial works without opt-out mechanisms.

KI-Trainingsdaten und Urheberrecht: Was Entwickler 2026 wissen müssen

KI-Trainingsdatensätze sind urheberrechtlich geschützt, sofern das Quellmaterial nicht ausdrücklich lizenziert oder gemeinfrei ist. Das Scrapen urheberrechtlich geschützter Inhalte zum Training eines Modells ohne Genehmigung stellt in den meisten EU- und Schweizer Rechtsordnungen ab 2026 eine Verletzung dar, unabhängig davon, ob die Ausgabe das Original wortgetreu wiedergibt.

Sind KI-Trainingsdaten urheberrechtlich geschützt?

Ja — in den meisten Fällen. Der Urheberrechtsschutz entsteht bei Originalwerken im Moment der Schöpfung ohne jede Registrierungspflicht (Berne Convention, Art. 5). Wenn Entwickler Websites, Bücher, Code-Repositories oder Bilder scrapen, um Trainingsdatensätze aufzubauen, erstellen sie Kopien geschützter Werke. Ob diese Vervielfältigung eine Verletzung darstellt, hängt von der Rechtsordnung, den Lizenzbedingungen und der Anwendbarkeit von Ausnahmen wie dem „Text und Data Mining" (TDM) nach EU-Recht ab.

In der EU erlaubt Artikel 4 der Richtlinie über das Urheberrecht im digitalen Binnenmarkt (CDSM-Richtlinie 2019/790/EG) TDM für kommerzielle Zwecke — aber nur, wenn der Rechteinhaber nicht widersprochen hat. Verleger können einen maschinenlesbaren Widerspruch auf ihren Inhalten platzieren (z. B. robots.txt oder Meta-Tags). Wenn sie dies tun, fällt das Scrapen dieser Inhalte für KI-Training nicht unter die TDM-Ausnahme.

Was sagt das EU-KI-Gesetz zu Trainingsdaten?

Das EU-KI-Gesetz (Verordnung 2024/1689) legt Transparenz- und Dokumentationspflichten für Anbieter von KI-Modellen für allgemeine Zwecke (GPAI) fest. Artikel 53 verlangt von Anbietern:

Technische Dokumentation des Trainingsprozesses, der Datenquellen und der Daten-Governance-Richtlinien zu erstellen und aktuell zu halten

Eine ausreichend detaillierte Zusammenfassung der verwendeten Trainingsdaten zu veröffentlichen — genug, damit betroffene Rechteinhaber ihre Rechte geltend machen können

Das EU-Urheberrecht einzuhalten, einschließlich der Beachtung von TDM-Widersprüchen

Für hochleistungsfähige GPAI-Modelle (über dem Schwellenwert von 10^25 FLOPs) gelten zusätzliche Anforderungen an adversarielle Tests und Meldepflichten bei Vorfällen. Die fehlende Dokumentation der Datenprovenienz ist ein direktes Regulierungsrisiko nach dem KI-Gesetz, nicht nur ein Urheberrechtsrisiko.

Können Sie gescrapte Webdaten zum Training von KI-Modellen verwenden?

Sie können — unter Bedingungen. Die EU-TDM-Ausnahme (CDSM Art. 4) erlaubt das Scrapen für kommerzielles KI-Training es sei denn, der Rechteinhaber hat widersprochen. In der Schweiz enthält das revidierte Urheberrechtsgesetz (URG) von 2020 eine ähnliche Forschungs-TDM-Ausnahme, deren Umfang für kommerzielles KI-Training im Jahr 2026 jedoch noch umstritten ist.

Wesentliche Regeln:

Eingewilligte Inhalte: Nach EU-TDM-Ausnahme zulässig. Dokumentieren Sie Ihre Compliance.
Abgelehnte Inhalte (robots.txt noai, maschinenlesbare Tags): Nicht abgedeckt. Lizenzierung erforderlich.
Offen lizenzierte Inhalte (CC-BY, CC0, MIT, Apache): Nach Lizenzbedingungen zulässig. Prüfen Sie Anforderungen zur Namensnennung.
Gemeinfreie Werke: Zulässig. Dokumentieren Sie die Herkunft zum Nachweis der Provenienz.
Kostenpflichtige oder zugangskontrollierte Inhalte: Scrapen verstößt wahrscheinlich gegen Urheberrecht und Computerbetrugsgesetze.

Was ist das Risiko, wenn man das falsch macht?

Erheblich. In den Jahren 2023–2024 wurden mehrere Sammelklagen (Getty Images v. Stability AI; Doe 1 v. GitHub Copilot) bis in die Prozessphase geführt und stellten fest, dass KI-Training mit gescrapten Daten ohne Zustimmung klagbare Verletzungsansprüche begründet. Das EU-KI-Gesetz fügt eine regulatorische Ebene hinzu: Bei Nichteinhaltung der Daten-Governance-Dokumentation drohen Bußgelder von bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes.

Neben der Haftung ist das Reputationsrisiko real. Investoren und Unternehmenskunden führen zunehmend IP-Due-Diligence zu den Trainingsdatensätzen von KI-Unternehmen durch, bevor sie kommerzielle Vereinbarungen unterzeichnen.

Wie können Sie nachweisen, dass Ihre Trainingsdaten rechtmäßig beschafft wurden?

Hier verändert kryptografisches Timestamping die Situation grundlegend. Ein Entwickler oder ein Datenteam, das seinen Datensatz zum Zeitpunkt der Erfassung — vor dem Training — mit einem Zeitstempel versieht, schafft verifizierbaren, gerichtsverwertbaren Nachweis von:

Was im Datensatz enthalten war (Hash des Datensatz-Manifests)

Wann er zusammengestellt wurde (kryptografischer Zeitstempel gemäß eIDAS-Verordnung Art. 41)

Welche Lizenzbedingungen zu diesem Zeitpunkt galten

Ein eIDAS-qualifizierter Zeitstempel, der von einem in den EU-Vertrauenslisten aufgeführten Trust Service Provider (TSP) ausgestellt wurde, hat dasselbe rechtliche Gewicht wie ein notariell beglaubigtes Datum. Er kann nicht rückdatiert werden. Das ist wichtig, wenn ein Rechteinhaber behauptet, Sie hätten seine Inhalte nach dessen Widerspruch gescrapt — Sie können beweisen, dass der Datensatz vor dem Widerspruch erstellt wurde.

Swiss Trust Layer stellt eIDAS-konforme qualifizierte Zeitstempel für Datensätze, Manifeste und Lizenzdokumentationen in einem einzigen Versiegelungsschritt aus. Das resultierende Zertifikat ist von jedem ohne Anmeldung überprüfbar.

Was ist mit Trainingsdaten, die Sie selbst erstellt oder in Auftrag gegeben haben?

Wenn Ihre Organisation die Trainingsdaten intern erstellt hat (menschliche Annotatoren, synthetische Generierung, originale kreative Werke), sind Sie der Eigentümer — aber Sie stehen dennoch vor Provenienzherausforderungen:

Synthetische Daten, die von einem Modell generiert wurden, das auf Drittanbieter-Daten trainiert wurde, können Urheberrechtsprobleme vom vorgelagerten Modell erben
Annotationsarbeiten von Auftragnehmern erfordern ordnungsgemäße Work-for-hire-Vereinbarungen zur Übertragung des Urheberrechts
Gemischte Datensätze (öffentlich + lizenziert + original) erfordern eine klare Dokumentation, was jede Teilmenge enthält

Das Timestamping von Datensatzversionen — einschließlich der Dokumentation von Lizenzvereinbarungen für jede Teilmenge — schafft eine verteidigungsfähige Aufzeichnung für Due-Diligence-Prüfungen, Investorenaudits und regulatorische Inspektionen.

Welche Rechtsordnungen haben die strengsten Regeln?

|---|---|---|---|

In der EU ansässige KI-Entwickler tragen die höchste kombinierte Urheberrechts- und Regulierungslast. Schweizer Entwickler sollten angesichts grenzüberschreitender Datenflüsse proaktiv EU-Standards folgen.

KI-generierte Inhalte vs. KI-Trainingsdaten: Was ist der Unterschied?

Dies sind rechtlich unterschiedliche Fragen. Urheberrechtsschutz für KI-generierte Inhalte befasst sich damit, wem die Ausgabe eines KI-Modells gehört. Das Urheberrecht an Trainingsdaten befasst sich damit, ob die Eingabe für das Training rechtmäßig verwendet wird. Beides muss für ein regelkonformes KI-Produkt bewertet werden.

Die Anforderungen an die Daten-Governance nach dem EU-KI-Gesetz bauen auf beidem auf: Entwickler müssen Datenerfassungspraktiken (Trainingsdaten) dokumentieren und Schutzmaßnahmen gegen die Generierung verletzender Ausgaben implementieren.

Praktische Checkliste für KI-Entwickler 2026

Prüfen Sie Ihren Trainingsdatensatz: Identifizieren Sie alle Quellen und geltenden Lizenzen

Prüfen Sie robots.txt und maschinenlesbare Widersprüche bei gescrapten Quellen

Entfernen oder ersetzen Sie abgelehnte Inhalte, bevor das Training beginnt

Dokumentieren Sie Datensatz-Manifeste mit kryptografischen Zeitstempeln — versiegeln Sie Ihren Datensatz auf Swiss Trust Layer

Veröffentlichen Sie Zusammenfassungen der Trainingsdaten gemäß EU-KI-Gesetz Art. 53(d)

Beschaffen Sie lizenzierte Alternativen für hochwertige Datensätze (z. B. Getty, Associated Press Lizenzvereinbarungen)

Etablieren Sie einen Überwachungsprozess: Inhaltsinhaber können nachträglich widersprechen, was zukünftige Trainingsläufe beeinflusst

Die Kosten, dies von Anfang an richtig zu machen — Dokumentation, Zeitstempel, Lizenzierung — sind weit geringer als die Kosten für die Verteidigung in einem Urheberrechtsverletzungsfall oder einer EU-KI-Gesetz-Compliance-Prüfung.

Was bietet das eIDAS-Framework konkret?

Gemäß eIDAS-Verordnung (EU) 910/2014 schafft ein von einem qualifizierten TSP ausgestellter qualifizierter elektronischer Zeitstempel (QTS):

Eine gesetzliche Vermutung, dass die Daten zum angegebenen Zeitpunkt existierten (Art. 41(2))
Ist in allen EU-Mitgliedstaaten ohne weitere Authentifizierung zulässig
Kann nicht rückdatiert werden — TSP-Infrastruktur wird geprüft und zertifiziert

Für die Provenienz von KI-Trainingsdaten bedeutet dies, dass ein QTS auf Ihrem Datensatz-Manifest der Goldstandard der dokumentierten Compliance ist. Er verwandelt eine Selbstaussage („Wir haben diesen Datensatz am Datum X zusammengestellt") in eine rechtlich verteidigungsfähige Tatsache.