KI-Trainingsdaten und Urheberrecht: Was Entwickler 2026 wissen müssen
AI Technology

KI-Trainingsdaten und Urheberrecht: Was Entwickler 2026 wissen müssen

Swiss Trust Layer Editorial Team· Legal Content
·June 12, 2026· 8 Min. Lesen

KI-Trainingsdatensätze sind urheberrechtlich geschützt, sofern das Quellmaterial nicht ausdrücklich lizenziert oder gemeinfrei ist. Das Scrapen urheberrechtlich geschützter Inhalte zum Training eines Modells ohne Genehmigung stellt in den meisten EU- und Schweizer Rechtsordnungen ab 2026 eine Verletzung dar, unabhängig davon, ob die Ausgabe das Original wortgetreu wiedergibt.

Sind KI-Trainingsdaten urheberrechtlich geschützt?

Ja — in den meisten Fällen. Der Urheberrechtsschutz entsteht bei Originalwerken im Moment der Schöpfung ohne jede Registrierungspflicht (Berne Convention, Art. 5). Wenn Entwickler Websites, Bücher, Code-Repositories oder Bilder scrapen, um Trainingsdatensätze aufzubauen, erstellen sie Kopien geschützter Werke. Ob diese Vervielfältigung eine Verletzung darstellt, hängt von der Rechtsordnung, den Lizenzbedingungen und der Anwendbarkeit von Ausnahmen wie dem „Text und Data Mining" (TDM) nach EU-Recht ab.

In der EU erlaubt Artikel 4 der Richtlinie über das Urheberrecht im digitalen Binnenmarkt (CDSM-Richtlinie 2019/790/EG) TDM für kommerzielle Zwecke — aber nur, wenn der Rechteinhaber nicht widersprochen hat. Verleger können einen maschinenlesbaren Widerspruch auf ihren Inhalten platzieren (z. B. robots.txt oder Meta-Tags). Wenn sie dies tun, fällt das Scrapen dieser Inhalte für KI-Training nicht unter die TDM-Ausnahme.

Was sagt das EU-KI-Gesetz zu Trainingsdaten?

Das EU-KI-Gesetz (Verordnung 2024/1689) legt Transparenz- und Dokumentationspflichten für Anbieter von KI-Modellen für allgemeine Zwecke (GPAI) fest. Artikel 53 verlangt von Anbietern:

  1. Technische Dokumentation des Trainingsprozesses, der Datenquellen und der Daten-Governance-Richtlinien zu erstellen und aktuell zu halten
  1. Eine ausreichend detaillierte Zusammenfassung der verwendeten Trainingsdaten zu veröffentlichen — genug, damit betroffene Rechteinhaber ihre Rechte geltend machen können
  1. Das EU-Urheberrecht einzuhalten, einschließlich der Beachtung von TDM-Widersprüchen

Für hochleistungsfähige GPAI-Modelle (über dem Schwellenwert von 10^25 FLOPs) gelten zusätzliche Anforderungen an adversarielle Tests und Meldepflichten bei Vorfällen. Die fehlende Dokumentation der Datenprovenienz ist ein direktes Regulierungsrisiko nach dem KI-Gesetz, nicht nur ein Urheberrechtsrisiko.

Können Sie gescrapte Webdaten zum Training von KI-Modellen verwenden?

Sie können — unter Bedingungen. Die EU-TDM-Ausnahme (CDSM Art. 4) erlaubt das Scrapen für kommerzielles KI-Training es sei denn, der Rechteinhaber hat widersprochen. In der Schweiz enthält das revidierte Urheberrechtsgesetz (URG) von 2020 eine ähnliche Forschungs-TDM-Ausnahme, deren Umfang für kommerzielles KI-Training im Jahr 2026 jedoch noch umstritten ist.

Wesentliche Regeln:

  • Eingewilligte Inhalte: Nach EU-TDM-Ausnahme zulässig. Dokumentieren Sie Ihre Compliance.
  • Abgelehnte Inhalte (robots.txt noai, maschinenlesbare Tags): Nicht abgedeckt. Lizenzierung erforderlich.
  • Offen lizenzierte Inhalte (CC-BY, CC0, MIT, Apache): Nach Lizenzbedingungen zulässig. Prüfen Sie Anforderungen zur Namensnennung.
  • Gemeinfreie Werke: Zulässig. Dokumentieren Sie die Herkunft zum Nachweis der Provenienz.
  • Kostenpflichtige oder zugangskontrollierte Inhalte: Scrapen verstößt wahrscheinlich gegen Urheberrecht und Computerbetrugsgesetze.

Was ist das Risiko, wenn man das falsch macht?

Erheblich. In den Jahren 2023–2024 wurden mehrere Sammelklagen (Getty Images v. Stability AI; Doe 1 v. GitHub Copilot) bis in die Prozessphase geführt und stellten fest, dass KI-Training mit gescrapten Daten ohne Zustimmung klagbare Verletzungsansprüche begründet. Das EU-KI-Gesetz fügt eine regulatorische Ebene hinzu: Bei Nichteinhaltung der Daten-Governance-Dokumentation drohen Bußgelder von bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes.

Neben der Haftung ist das Reputationsrisiko real. Investoren und Unternehmenskunden führen zunehmend IP-Due-Diligence zu den Trainingsdatensätzen von KI-Unternehmen durch, bevor sie kommerzielle Vereinbarungen unterzeichnen.

Wie können Sie nachweisen, dass Ihre Trainingsdaten rechtmäßig beschafft wurden?

Hier verändert kryptografisches Timestamping die Situation grundlegend. Ein Entwickler oder ein Datenteam, das seinen Datensatz zum Zeitpunkt der Erfassung — vor dem Training — mit einem Zeitstempel versieht, schafft verifizierbaren, gerichtsverwertbaren Nachweis von:

  1. Was im Datensatz enthalten war (Hash des Datensatz-Manifests)
  1. Wann er zusammengestellt wurde (kryptografischer Zeitstempel gemäß eIDAS-Verordnung Art. 41)
  1. Welche Lizenzbedingungen zu diesem Zeitpunkt galten

Ein eIDAS-qualifizierter Zeitstempel, der von einem in den EU-Vertrauenslisten aufgeführten Trust Service Provider (TSP) ausgestellt wurde, hat dasselbe rechtliche Gewicht wie ein notariell beglaubigtes Datum. Er kann nicht rückdatiert werden. Das ist wichtig, wenn ein Rechteinhaber behauptet, Sie hätten seine Inhalte nach dessen Widerspruch gescrapt — Sie können beweisen, dass der Datensatz vor dem Widerspruch erstellt wurde.

Swiss Trust Layer stellt eIDAS-konforme qualifizierte Zeitstempel für Datensätze, Manifeste und Lizenzdokumentationen in einem einzigen Versiegelungsschritt aus. Das resultierende Zertifikat ist von jedem ohne Anmeldung überprüfbar.

Was ist mit Trainingsdaten, die Sie selbst erstellt oder in Auftrag gegeben haben?

Wenn Ihre Organisation die Trainingsdaten intern erstellt hat (menschliche Annotatoren, synthetische Generierung, originale kreative Werke), sind Sie der Eigentümer — aber Sie stehen dennoch vor Provenienzherausforderungen:

  • Synthetische Daten, die von einem Modell generiert wurden, das auf Drittanbieter-Daten trainiert wurde, können Urheberrechtsprobleme vom vorgelagerten Modell erben
  • Annotationsarbeiten von Auftragnehmern erfordern ordnungsgemäße Work-for-hire-Vereinbarungen zur Übertragung des Urheberrechts
  • Gemischte Datensätze (öffentlich + lizenziert + original) erfordern eine klare Dokumentation, was jede Teilmenge enthält

Das Timestamping von Datensatzversionen — einschließlich der Dokumentation von Lizenzvereinbarungen für jede Teilmenge — schafft eine verteidigungsfähige Aufzeichnung für Due-Diligence-Prüfungen, Investorenaudits und regulatorische Inspektionen.

Welche Rechtsordnungen haben die strengsten Regeln?

| Rechtsordnung | TDM-Ausnahme | KI-Gesetz-Abdeckung | Hauptrisiko |

|---|---|---|---|

| EU | Ja (mit Widerspruchsrecht) | Vollständige GPAI-Pflichten | Einhaltung des Widerspruchs + Dokumentation |

| Schweiz | Begrenzt (Forschung) | Freiwillige Angleichung | Kommerzielles TDM nicht eindeutig erlaubt |

| UK | Ja (nur nicht-kommerziell) | Kein KI-Gesetz-Äquivalent | Kommerzielle Nutzung nicht abgedeckt |

| USA | Fair Use (ungeklärt) | Nur Executive Order | Prozessgetriebenes Risiko |

| Japan | Breite TDM-Ausnahme | Keine | Geringes regulatorisches Risiko |

In der EU ansässige KI-Entwickler tragen die höchste kombinierte Urheberrechts- und Regulierungslast. Schweizer Entwickler sollten angesichts grenzüberschreitender Datenflüsse proaktiv EU-Standards folgen.

KI-generierte Inhalte vs. KI-Trainingsdaten: Was ist der Unterschied?

Dies sind rechtlich unterschiedliche Fragen. Urheberrechtsschutz für KI-generierte Inhalte befasst sich damit, wem die Ausgabe eines KI-Modells gehört. Das Urheberrecht an Trainingsdaten befasst sich damit, ob die Eingabe für das Training rechtmäßig verwendet wird. Beides muss für ein regelkonformes KI-Produkt bewertet werden.

Die Anforderungen an die Daten-Governance nach dem EU-KI-Gesetz bauen auf beidem auf: Entwickler müssen Datenerfassungspraktiken (Trainingsdaten) dokumentieren und Schutzmaßnahmen gegen die Generierung verletzender Ausgaben implementieren.

Praktische Checkliste für KI-Entwickler 2026

  1. Prüfen Sie Ihren Trainingsdatensatz: Identifizieren Sie alle Quellen und geltenden Lizenzen
  1. Prüfen Sie robots.txt und maschinenlesbare Widersprüche bei gescrapten Quellen
  1. Entfernen oder ersetzen Sie abgelehnte Inhalte, bevor das Training beginnt
  1. Dokumentieren Sie Datensatz-Manifeste mit kryptografischen Zeitstempeln — versiegeln Sie Ihren Datensatz auf Swiss Trust Layer
  1. Veröffentlichen Sie Zusammenfassungen der Trainingsdaten gemäß EU-KI-Gesetz Art. 53(d)
  1. Beschaffen Sie lizenzierte Alternativen für hochwertige Datensätze (z. B. Getty, Associated Press Lizenzvereinbarungen)
  1. Etablieren Sie einen Überwachungsprozess: Inhaltsinhaber können nachträglich widersprechen, was zukünftige Trainingsläufe beeinflusst

Die Kosten, dies von Anfang an richtig zu machen — Dokumentation, Zeitstempel, Lizenzierung — sind weit geringer als die Kosten für die Verteidigung in einem Urheberrechtsverletzungsfall oder einer EU-KI-Gesetz-Compliance-Prüfung.

Was bietet das eIDAS-Framework konkret?

Gemäß eIDAS-Verordnung (EU) 910/2014 schafft ein von einem qualifizierten TSP ausgestellter qualifizierter elektronischer Zeitstempel (QTS):

  • Eine gesetzliche Vermutung, dass die Daten zum angegebenen Zeitpunkt existierten (Art. 41(2))
  • Ist in allen EU-Mitgliedstaaten ohne weitere Authentifizierung zulässig
  • Kann nicht rückdatiert werden — TSP-Infrastruktur wird geprüft und zertifiziert

Für die Provenienz von KI-Trainingsdaten bedeutet dies, dass ein QTS auf Ihrem Datensatz-Manifest der Goldstandard der dokumentierten Compliance ist. Er verwandelt eine Selbstaussage („Wir haben diesen Datensatz am Datum X zusammengestellt") in eine rechtlich verteidigungsfähige Tatsache.

Schützen Sie Ihre Arbeit mit Swiss Trust Layer AG

Versiegeln Sie Ihr geistiges Eigentum mit einem gerichtsfesten e-Siegel, unterstützt von Swisscom Trust Services.

Demo buchen