Si queremos que la web siga siendo abierta y próspera, necesitamos más herramientas con las que los creadores de contenido puedan expresar cómo desean que se utilicen sus datos mientras permiten un acceso abierto. Hoy en día, el equilibrio es demasiado limitado. O bien los operadores de los sitios web mantienen su contenido abierto a la web y se arriesgan a que otros usuarios lo utilicen para fines no deseados, o bien trasladan su contenido detrás de inicios de sesión y limitan su público.
Para abordar las preocupaciones actuales de nuestros clientes sobre cómo los rastreadores y scrapers de datos utilizan su contenido, lanzamos la política de señales de contenido. Esta política es una nueva incorporación a robots.txt que te permite expresar tus preferencias acerca de cómo se puede utilizar tu contenido una vez que se ha accedido a él.
Qué hace y qué no hace actualmente robots.txt
Robots.txt es un archivo de texto plano alojado en tu dominio que implementa el protocolo de exclusión de robots. Permite especificar qué rastreadores y bots pueden acceder a qué partes de tu sitio. Muchos rastreadores y algunos bots obedecen a los archivos robots.txt, pero no todos.
Por ejemplo, si quisieras permitir que todos los rastreadores accedieran a todas las partes de tu sitio, podrías alojar un archivo robots.txt que contenga lo siguiente:
User-agent: *
Allow: /
Un agente de usuario, al igual que tu navegador o un bot, se identifica en el recurso al que va a acceder. En este caso, el asterisco informa a los visitantes de que cualquier agente de usuario, en cualquier dispositivo o navegador, puede acceder al contenido. La barra inclinada (/) en el campo Allow
indica al visitante que también puede acceder a cualquier parte del sitio.
El archivo robots.txt
también puede incluir comentarios si añades caracteres a continuación del símbolo #. Los bots y las máquinas ignorarán estos comentarios, pero es una forma de dejar notas más legibles para alguien que revise el archivo. Aquí tienes un ejemplo:
# .__________________________.
# | .___________________. |==|
# | | ................. | | |
# | | ::[ Dear robot ]: | | |
# | | ::::[ be nice ]:: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | ,|
# | !___________________! |(c|
# !_______________________!__!
# / \
# / [][][][][][][][][][][][][] \
# / [][][][][][][][][][][][][][] \
#( [][][][][____________][][][][] )
# \ ------------------------------ /
# \______________________________/
Los propietarios de los sitios web pueden hacer que robots.txt
sea más específico. Puede enumerar ciertos agentes de usuario (por ejemplo, para permitir solo determinados agentes de usuario de bots o de navegadores) e indicar qué partes de un sitio se pueden o no rastrear. El siguiente ejemplo indica a los bots que omitan el rastreo de la ruta de los archivos.
User-agent: *
Disallow: /archives/
Este otro ejemplo aún es más específico, ya que indica al bot de Google que omita el rastreo de la ruta de los archivos.
User-agent: Googlebot
Disallow: /archives/
Puedes especificar qué rastreadores se permiten y a qué partes de tu sitio pueden acceder. Sin embargo, no les informa sobre lo que pueden hacer con tu contenido una vez que han accedido a él. Como muchos se han dado cuenta, es necesario que haya una forma estándar, legible por una máquina, de indicar las normas de tráfico sobre cómo se pueden utilizar tus datos incluso después de que se haya accedido a ellos.
Eso es lo que la política de señales de contenido te permite expresar: tus preferencias sobre lo que un rastreador puede y no puede hacer con tu contenido.
¿Por qué lanzamos ahora la política de señales de contenido?
Hay empresas que se apropian a diario de grandes cantidades de datos de Internet. Esta apropiación de contenido por parte de los scrapers de datos tiene un coste real para los operadores de los sitios web, especialmente cuando estos no reciben ninguna compensación a cambio. Es el clásico problema de parasitismo. Esta situación no hará sino empeorar: esperamos que a finales de 2029 el tráfico de bots supere al tráfico humano en Internet, y prevemos que en 2031 la actividad de bots por sí sola superará la suma de todo el tráfico actual de Internet.
La norma de facto por defecto de Internet ha permitido esta situación. Esta establecía que tus datos serían ingeridos, pero luego tú, el creador de ese contenido, recibirías algo a cambio: ya fuera tráfico de reenvío que podrías monetizar o, como mínimo, algún tipo de atribución que te citara como el autor. Piensa en el enlace de retroceso en los primeros tiempos de los blogs. Era una forma de otorgar reconocimiento al creador original de la obra. No había ninguna transacción monetaria, pero esa atribución fomentaba el descubrimiento futuro y tenía un valor intrínseco. Esta norma se ha incorporado en muchas licencias permisivas, como MIT y Creative Commons, cada una de las cuales exige la atribución al creador original.
Esa situación ha cambiado. Ahora el contenido extraído a veces se utiliza para competir económicamente contra el creador original. Muchos se han encontrado ante una disyuntiva imposible: ¿Bloqueas el acceso a tu contenido y a tus datos, o aceptas la realidad de la reducción del tráfico de reenvío y una atribución mínima? Si solo podemos recurrir a la primera alternativa, esto perjudica a la transmisión abierta de ideas en la web y pone a los nuevos participantes en el ecosistema de la IA injustamente en desventaja para sus iniciativas de entrenamiento de nuevos modelos.
La política de señales de contenido de Cloudflare
La política de señales de contenido se integra en los archivos robots.txt de los operadores de los sitios web. Se trata de un texto legible por humanos a continuación del símbolo # para indicar que se trata de un comentario. Esta política define tres señales de contenido (búsqueda, entrada de IA y entrenamiento de IA) y su relevancia para los rastreadores.
Un operador de un sitio web tiene la opción de expresar sus preferencias a través de señales de contenido legibles por una máquina.
# As a condition of accessing this website, you agree to abide by the following content signals:
# (a) If a content-signal = yes, you may collect content for the corresponding use.
# (b) If a content-signal = no, you may not collect content for the corresponding use.
# (c) If the website operator does not include a content signal for a corresponding use, the website operator neither grants nor restricts permission via content signal with respect to the corresponding use.
# The content signals and their meanings are:
# search: building a search index and providing search results (e.g., returning hyperlinks and short excerpts from your website's contents). Search does not include providing AI-generated search summaries.
# ai-input: inputting content into one or more AI models (e.g., retrieval augmented generation, grounding, or other real-time taking of content for generative AI search answers).
# ai-train: training or fine-tuning AI models.
# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS RESERVATIONS OF RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790 ON COPYRIGHT AND RELATED RIGHTS IN THE DIGITAL SINGLE MARKET.
Este texto consta de tres partes:
El primer párrafo explica a las empresas cómo interpretar cualquier señal de contenido. "Yes" indica avanzar, "no" indica detenerse, y la ausencia de una señal no indica nada. Esa última opción neutra es importante: permite a los operadores de los sitios web expresar una preferencia respecto a una señal de contenido sin necesidad de que lo hagan para otras.
El segundo párrafo define el vocabulario de las señales de contenido. Hemos simplificado las señales para que cualquiera que acceda al contenido pueda cumplirlas fácilmente.
El último párrafo recuerda a quienes automatizan el acceso a los datos que estas señales de contenido podrían tener derechos legales en varias jurisdicciones.
A continuación, el operador de un sitio web puede anunciar sus preferencias específicas en texto legible por una máquina utilizando la sintaxis delimitada por comas, "yes" o "no". Si un operador de un sitio web desea permitir la búsqueda, prohibir el entrenamiento y no expresar ninguna preferencia respecto a la entrada de IA, podría incluir lo siguiente en su archivo robots.txt:
User-Agent: *
Content-Signal: search=yes, ai-train=no
Allow: /
Si un operador de un sitio web deja en blanco la señal de contenido para la entrada de IA, como en el ejemplo anterior, no significa que no tenga ninguna preferencia respecto a ese uso; simplemente significa que no ha utilizado esta parte de su archivo robots.txt para expresarla.
Añadir señales de contenido a tu sitio web
Si ya sabes cómo configurar tu archivo robots.txt, implementar las señales de contenido es tan sencillo como añadir la política de señales de contenido mencionada anteriormente y a continuación definir tus preferencias mediante una señal de contenido.
Queremos que la adopción de las señales de contenido sea sencilla. Los clientes de Cloudflare ya han activado nuestra función de robots.txt gestionado para más de 3,8 millones de dominios. Con ello, han optado por indicar a las empresas que no desean que el contenido de esos dominios se utilice para el entrenamiento de IA. Para estos clientes, actualizaremos el archivo robots.txt que ya entregamos en su nombre para que incluya la política de señales de contenido y las siguientes señales:
Content-Signal: search=yes, ai-train=no
No proporcionaremos una señal "ai-input" a nuestros clientes de robots.txt gestionado. No conocemos su preferencia respecto a esa señal, y no queremos hacer suposiciones.
A partir de hoy, también proporcionaremos la política de señales de contenido comentada y legible por humanos para cualquier zona de clientes del plan gratuito que no tenga un archivo robots.txt existente. En la práctica, eso significa que una solicitud a robots.txt en ese dominio devolvería los comentarios que definen qué son las señales de contenido. Los rastreadores ignoran estos comentarios. Es importante destacar que no incluirá ninguna directiva Allow o Disallow, ni proporcionará ninguna señal de contenido real. Los usuarios son quienes eligen y expresan sus preferencias reales, si así lo desean y cuando estén listos para ello. Los clientes que ya tienen un archivo robots.txt no verán ningún cambio.
Las zonas en un plan gratuito pueden desactivar la política de señales de contenido en la sección Configuración de seguridad del panel de control de Cloudflare, así como en la sección Información general.
Para crear tus propias señales de contenido, simplemente copia y pega el texto que te ayudamos a generar en ContentSignals.org en tu archivo robots.txt
, o implementa esta función inmediatamente mediante el botón Implementar en Cloudflare. También puedes activar nuestra función de robots.txt gestionado si deseas expresar tu preferencia de no permitir el entrenamiento.
Es importante recordar que las señales de contenido expresan preferencias; no son contramedidas técnicas contra la apropiación de contenidos. Algunas empresas podrían simplemente ignorarlas. Si eres un editor de sitios web que desea controlar lo que otros hacen con tu contenido, creemos que es mejor combinar tus señales de contenido con las reglas WAF y con la gestión de bots.
Aunque estas funciones de Cloudflare están diseñadas para facilitar su uso, queremos promover su adopción por parte de cualquier usuario, en cualquier lugar. Para fomentar esta práctica, lanzamos esta política bajo una licencia CC0, que permite a cualquier usuario implementarla y utilizarla libremente.
Nuestros clientes tienen el control total sobre qué rastreadores quieren permitir y cuáles desean bloquear. Algunos quieren escribir para la superinteligencia, mientras que otros desean un mayor control: estamos convencidos que deberían ser ellos quienes decidan.
Las señales de contenido permiten a cualquier usuario expresar cómo desea que se utilice su contenido una vez que se ha accedido a él. La capacidad de expresar preferencias era necesaria desde hace tiempo.
Sabemos que queda mucho por hacer. La señalización de las normas de tráfico solo funciona si los demás las reconocen. Por eso continuaremos trabajando en organismos de normalización para desarrollar y estandarizar soluciones que satisfagan las necesidades de nuestros clientes y acepte la comunidad de Internet en general.
Esperamos que te unas a nosotros en estas iniciativas: la web abierta merece ser defendida.