
KI-Trainingsdatensätze sind urheberrechtlich geschützt, sofern das Quellmaterial nicht ausdrücklich lizenziert oder gemeinfrei ist. Das Scrapen urheberrechtlich geschützter Inhalte zum Training eines Modells ohne Genehmigung stellt in den meisten EU- und Schweizer Rechtsordnungen ab 2026 eine Verletzung dar, unabhängig davon, ob die Ausgabe das Original wortgetreu wiedergibt.
Ja — in den meisten Fällen. Der Urheberrechtsschutz entsteht bei Originalwerken im Moment der Schöpfung ohne jede Registrierungspflicht (Berne Convention, Art. 5). Wenn Entwickler Websites, Bücher, Code-Repositories oder Bilder scrapen, um Trainingsdatensätze aufzubauen, erstellen sie Kopien geschützter Werke. Ob diese Vervielfältigung eine Verletzung darstellt, hängt von der Rechtsordnung, den Lizenzbedingungen und der Anwendbarkeit von Ausnahmen wie dem „Text und Data Mining" (TDM) nach EU-Recht ab.
In der EU erlaubt Artikel 4 der Richtlinie über das Urheberrecht im digitalen Binnenmarkt (CDSM-Richtlinie 2019/790/EG) TDM für kommerzielle Zwecke — aber nur, wenn der Rechteinhaber nicht widersprochen hat. Verleger können einen maschinenlesbaren Widerspruch auf ihren Inhalten platzieren (z. B. robots.txt oder Meta-Tags). Wenn sie dies tun, fällt das Scrapen dieser Inhalte für KI-Training nicht unter die TDM-Ausnahme.
Das EU-KI-Gesetz (Verordnung 2024/1689) legt Transparenz- und Dokumentationspflichten für Anbieter von KI-Modellen für allgemeine Zwecke (GPAI) fest. Artikel 53 verlangt von Anbietern:
Für hochleistungsfähige GPAI-Modelle (über dem Schwellenwert von 10^25 FLOPs) gelten zusätzliche Anforderungen an adversarielle Tests und Meldepflichten bei Vorfällen. Die fehlende Dokumentation der Datenprovenienz ist ein direktes Regulierungsrisiko nach dem KI-Gesetz, nicht nur ein Urheberrechtsrisiko.
Sie können — unter Bedingungen. Die EU-TDM-Ausnahme (CDSM Art. 4) erlaubt das Scrapen für kommerzielles KI-Training es sei denn, der Rechteinhaber hat widersprochen. In der Schweiz enthält das revidierte Urheberrechtsgesetz (URG) von 2020 eine ähnliche Forschungs-TDM-Ausnahme, deren Umfang für kommerzielles KI-Training im Jahr 2026 jedoch noch umstritten ist.
Wesentliche Regeln:
Erheblich. In den Jahren 2023–2024 wurden mehrere Sammelklagen (Getty Images v. Stability AI; Doe 1 v. GitHub Copilot) bis in die Prozessphase geführt und stellten fest, dass KI-Training mit gescrapten Daten ohne Zustimmung klagbare Verletzungsansprüche begründet. Das EU-KI-Gesetz fügt eine regulatorische Ebene hinzu: Bei Nichteinhaltung der Daten-Governance-Dokumentation drohen Bußgelder von bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes.
Neben der Haftung ist das Reputationsrisiko real. Investoren und Unternehmenskunden führen zunehmend IP-Due-Diligence zu den Trainingsdatensätzen von KI-Unternehmen durch, bevor sie kommerzielle Vereinbarungen unterzeichnen.
Hier verändert kryptografisches Timestamping die Situation grundlegend. Ein Entwickler oder ein Datenteam, das seinen Datensatz zum Zeitpunkt der Erfassung — vor dem Training — mit einem Zeitstempel versieht, schafft verifizierbaren, gerichtsverwertbaren Nachweis von:
Ein eIDAS-qualifizierter Zeitstempel, der von einem in den EU-Vertrauenslisten aufgeführten Trust Service Provider (TSP) ausgestellt wurde, hat dasselbe rechtliche Gewicht wie ein notariell beglaubigtes Datum. Er kann nicht rückdatiert werden. Das ist wichtig, wenn ein Rechteinhaber behauptet, Sie hätten seine Inhalte nach dessen Widerspruch gescrapt — Sie können beweisen, dass der Datensatz vor dem Widerspruch erstellt wurde.
Swiss Trust Layer stellt eIDAS-konforme qualifizierte Zeitstempel für Datensätze, Manifeste und Lizenzdokumentationen in einem einzigen Versiegelungsschritt aus. Das resultierende Zertifikat ist von jedem ohne Anmeldung überprüfbar.
Wenn Ihre Organisation die Trainingsdaten intern erstellt hat (menschliche Annotatoren, synthetische Generierung, originale kreative Werke), sind Sie der Eigentümer — aber Sie stehen dennoch vor Provenienzherausforderungen:
Das Timestamping von Datensatzversionen — einschließlich der Dokumentation von Lizenzvereinbarungen für jede Teilmenge — schafft eine verteidigungsfähige Aufzeichnung für Due-Diligence-Prüfungen, Investorenaudits und regulatorische Inspektionen.
| Rechtsordnung | TDM-Ausnahme | KI-Gesetz-Abdeckung | Hauptrisiko |
|---|---|---|---|
| EU | Ja (mit Widerspruchsrecht) | Vollständige GPAI-Pflichten | Einhaltung des Widerspruchs + Dokumentation |
| Schweiz | Begrenzt (Forschung) | Freiwillige Angleichung | Kommerzielles TDM nicht eindeutig erlaubt |
| UK | Ja (nur nicht-kommerziell) | Kein KI-Gesetz-Äquivalent | Kommerzielle Nutzung nicht abgedeckt |
| USA | Fair Use (ungeklärt) | Nur Executive Order | Prozessgetriebenes Risiko |
| Japan | Breite TDM-Ausnahme | Keine | Geringes regulatorisches Risiko |
In der EU ansässige KI-Entwickler tragen die höchste kombinierte Urheberrechts- und Regulierungslast. Schweizer Entwickler sollten angesichts grenzüberschreitender Datenflüsse proaktiv EU-Standards folgen.
Dies sind rechtlich unterschiedliche Fragen. Urheberrechtsschutz für KI-generierte Inhalte befasst sich damit, wem die Ausgabe eines KI-Modells gehört. Das Urheberrecht an Trainingsdaten befasst sich damit, ob die Eingabe für das Training rechtmäßig verwendet wird. Beides muss für ein regelkonformes KI-Produkt bewertet werden.
Die Anforderungen an die Daten-Governance nach dem EU-KI-Gesetz bauen auf beidem auf: Entwickler müssen Datenerfassungspraktiken (Trainingsdaten) dokumentieren und Schutzmaßnahmen gegen die Generierung verletzender Ausgaben implementieren.
Die Kosten, dies von Anfang an richtig zu machen — Dokumentation, Zeitstempel, Lizenzierung — sind weit geringer als die Kosten für die Verteidigung in einem Urheberrechtsverletzungsfall oder einer EU-KI-Gesetz-Compliance-Prüfung.
Gemäß eIDAS-Verordnung (EU) 910/2014 schafft ein von einem qualifizierten TSP ausgestellter qualifizierter elektronischer Zeitstempel (QTS):
Für die Provenienz von KI-Trainingsdaten bedeutet dies, dass ein QTS auf Ihrem Datensatz-Manifest der Goldstandard der dokumentierten Compliance ist. Er verwandelt eine Selbstaussage („Wir haben diesen Datensatz am Datum X zusammengestellt") in eine rechtlich verteidigungsfähige Tatsache.
Schützen Sie Ihre Arbeit mit Swiss Trust Layer AG
Versiegeln Sie Ihr geistiges Eigentum mit einem gerichtsfesten e-Siegel, unterstützt von Swisscom Trust Services.
Demo buchen