Die Einbindung von KI-Regeln in die robots.txt (Vergleich Presse und Vatikan)

  • Von Michael Crass
  • 16. Januar 2026

Im Internet legen Website-Betreiber mit der Datei robots.txt fest, welche Inhalte von Suchmaschinen oder automatisierten Systemen genutzt werden dürfen – und welche nicht. In jüngerer Zeit gewinnt diese technische Steuerung besondere Bedeutung, weil auch KI-Systeme Inhalte aus dem Web nutzen, etwa für Training oder generative Antworten. Während große Medienhäuser vor allem juristische Hinweise formulieren, nutzen einige Organisationen wie der Vatikan oder der Zentralrat der Muslime die robots.txt zunehmend, um maschinenlesbare Regeln für unterschiedliche Nutzungsarten zu definieren.

Ähnliche Regeln für Crawler

Sowohl der Vatikan (https://www.vaticannews.va/robots.txt) als auch der Zentralrat der Muslime (https://zentralrat.de/robots.txt) blockieren bestimmte Bots, wie beispielsweise ClaudeBot, und regeln gleichzeitig, wie Inhalte genutzt werden dürfen. Dabei unterscheiden sie zwischen:

  • Suchmaschinenindexierung: Inhalte dürfen für klassische Suchergebnisse genutzt werden.
  • KI-Training: Das Trainieren von KI-Modellen mit den Inhalten ist ausdrücklich verboten.

Diese Unterscheidung wird über sogenannte Content Signals umgesetzt, ein technisches System, das Zugriffsrechte maschinenlesbar macht. Ziel ist es, nicht nur festzulegen, wer auf Inhalte zugreifen darf, sondern auch zu welchem Zweck. Damit wird eine Ebene adressiert, die für KI-Anwendungen zunehmend relevant wird.

Beispiele: Vatikan und Zentralrat der Muslime

Die robots.txt-Dateien beider Organisationen enthalten standardisierte Signale, die unter anderem Cloudflare definiert hat. Ein Auszug zeigt:

# As a condition of accessing this website, you agree to abide by the following
# content signals:

# (a)  If a content-signal = yes, you may collect content for the corresponding
#      use.
# (b)  If a content-signal = no, you may not collect content for the
#      corresponding use.
# (c)  If the website operator does not include a content signal for a
#      corresponding use, the website operator neither grants nor restricts
#      permission via content signal with respect to the corresponding use.

# The content signals and their meanings are:

# search:   building a search index and providing search results (e.g., returning
#           hyperlinks and short excerpts from your website's contents). Search does not
#           include providing AI-generated search summaries.
# ai-input: inputting content into one or more AI models (e.g., retrieval
#           augmented generation, grounding, or other real-time taking of content for
#           generative AI search answers).
# ai-train: training or fine-tuning AI models.

# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS RESERVATIONS OF
# RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790 ON COPYRIGHT
# AND RELATED RIGHTS IN THE DIGITAL SINGLE MARKET.

# BEGIN Cloudflare Managed content

User-Agent: *
Content-signal: search=yes,ai-train=no
Allow: /

Damit wird der öffentliche Zugang für Suchmaschinen ermöglicht, während maschinelles Training von KI-Modellen ausgeschlossen wird. Rechtlich stützen sich beide Organisationen auf Artikel 4 der EU-Urheberrechtsrichtlinie 2019/790, der das Recht auf bestimmte Nutzungen von Werken im digitalen Binnenmarkt regelt. Die Regeln sind nicht nur juristisch formuliert, sondern auch technisch codiert, sodass sie von Bots direkt interpretiert werden können.

Ansatz großer Pressehäuser

Große Verlage wie der SPIEGEL (https://www.spiegel.de/robots.txt) oder die Süddeutsche Zeitung (https://www.sueddeutsche.de/robots.txt) verfolgen einen anderen Weg:

  • Sie listen zahlreiche bekannte Bots explizit als gesperrt auf.
  • Sie nutzen Freitext-Kommentare und juristische Hinweise, unter anderem auf § 44b UrhG.
  • Lizenzierungswege für automatisierten Zugriff sind nur über individuelle Genehmigungen möglich.
# Legal notice: spiegel.de expressly reserves the right to use its content for commercial text and data mining (§ 44b Urheberrechtsgesetz).
# The use of robots or other automated means to access spiegel.de or collect or mine data without the express permission of spiegel.de is strictly prohibited.
# spiegel.de may, in its discretion, permit certain automated access to certain spiegel.de pages,
# If you would like to apply for permission to crawl spiegel.de, collect or use data, please email syndication@spiegel.de

(https://www.spiegel.de/robots.txt)

# Legal notice: SZ.de expressly reserves the right to use its content for commercial text and data mining (§ 44 b UrhG).
# The use of robots or other automated means to access SZ.de or collect or mine data without
# the express permission of SZ.de is strictly prohibited.
# SZ.de may, in its discretion, permit certain automated access to certain SZ.de pages,
# If you would like to apply for permission to crawl SZ.de, collect or use data, please email syndication@sz.de

(https://www.sueddeutsche.de/robots.txt)

Rechtlich ist diese Vorgehensweise korrekt und für Menschen nachvollziehbar. Für Maschinen sind die Regeln jedoch schwer interpretierbar. Freitext-Kommentare und juristische Formulierungen sind nicht standardisiert und können daher von Bots nicht zuverlässig ausgewertet werden.

Chancen und Grenzen maschinenlesbarer Regeln

Content Signals bieten einen Ansatz, Rechte klar und maschinenlesbar zu definieren. Gleichzeitig handelt es sich um einen noch nicht etablierten Standard, dessen Wirksamkeit stark davon abhängt, dass Crawler die Signale tatsächlich umsetzen. Ohne breite Akzeptanz durch Betreiber von KI-Systemen bleibt ihre praktische Wirkung begrenzt.

Für generative KI-Systeme wird dies besonders relevant: Werden lediglich einzelne Bots blockiert, ohne klar zu definieren, ob Inhalte für KI-Training genutzt werden dürfen, entsteht eine technische und rechtliche Grauzone. Die explizite Unterscheidung zwischen klassischer Suche, KI-Input und KI-Training – wie sie beispielsweise der Vatikan vornimmt – adressiert auch Systeme, die heute noch nicht existieren.

Die von Vatikan und Zentralrat der Muslime genutzten Content Signals basieren auf der Richtlinie von Cloudflare (https://blog.cloudflare.com/de-de/content-signals-policy/). Sie sind bisher weder juristisch noch technisch flächendeckend anerkannt. Pressehäuser ignorieren also keinen Standard, weil ein verbindlicher Standard bislang eben noch fehlt. Gleichzeitig gilt die Cloudflare-Richtlinie als vielversprechender Ansatz, der sich in der Praxis wahrscheinlich durchsetzen wird, da sie sowohl technische Umsetzbarkeit als auch die Zweckbindung von Inhalten adressiert. Sie könnte künftig als Referenzmodell für maschinenlesbare Regeln dienen, auch wenn rechtliche Absicherung und die Akzeptanz durch Crawler noch geprüft werden müssen.

Perspektivischer Unterschied

Der zentrale Unterschied zwischen den Ansätzen liegt weniger in technischer Kompetenz als in der Herangehensweise:

  • Presseverlage sichern Rechte juristisch ab und reagieren auf unerwünschte Nutzung.
  • Vatikan und Zentralrat gestalten Rechte technisch und zweckbezogen, sodass Maschinen die Regeln direkt auswerten können.

Beide Strategien haben ihre Berechtigung. Sie zeigen jedoch, dass eine klare, maschinenlesbare Steuerung von Inhalten künftig an Bedeutung gewinnen wird – insbesondere im Kontext von KI-Training und generativen Anwendungen.

(Der Text wurde mit Hilfe von KI geschrieben.)

Ähnliche Artikel