El Sistema FARO: ¿Aliado en la lucha contra el odio o amenaza a la libertad de expresión?

El Ministerio de Inclusión, Seguridad Social y Migraciones, a través del Observatorio Español del Racismo y la Xenofobia (OBERAXE) y en colaboración con LALIGA, puso en marcha en marzo de 2025 el Sistema FARO (Filtrado y Análisis de Odio en las Redes Sociales). Se trata de una metodología innovadora de vigilancia en tiempo real de mensajes racistas, xenófobos, islamófobos, antisemitas o antigitano en plataformas como Facebook, Instagram, TikTok, YouTube y X. El sistema combina dos herramientas tecnológicas: Monitor FARO (desarrollado por Séntisis Intelligence) y ALERTODIO (de la Universidad Politécnica de Valencia). Juntas permiten no sólo detectar publicaciones de odio, sino también analizarlas automáticamente y enviar reportes a las plataformas correspondientes, siguiendo además su respuesta (por ejemplo, si eliminan el contenido denunciado).

El FARO aplica algoritmos de inteligencia artificial y más de 100.000 reglas semánticas especializadas en castellano para clasificar los mensajes según atributos como el grupo objetivo, la gravedad del discurso o la intención (por ejemplo, amenaza, incitación o sarcasmo). El proceso operativo se desarrolla en varias fases: primero el monitor se conecta a las APIs de las redes para filtrar contenidos potencialmente relevantes; luego esos mensajes pasan por un primer análisis automático y posteriormente una doble revisión manual realizada por el equipo del OBERAXE. Esta revisión mixta (IA y expertos) permite mejorar la precisión y adaptar el sistema a nuevos contextos de odio emergentes.

Cuando un mensaje cumple con los criterios definidos, se reporta a la plataforma donde ha aparecido. El FARO distingue varios tipos de reporte: contenidos retirados en 24 h, en 48 h, en una semana, o aquellos que requieren una vía prioritaria de notificación (a través de Trusted Flaggers). En casos especialmente graves, se eleva el asunto a la Fiscalía de Delitos de Odio y Discriminación. En resumen, el FARO actúa como un vigilante tecnológico: identifica y clasifica posibles discursos de odio y transmite esa información a las redes sociales (y, si procede, a la justicia), sin aplicar él mismo sanciones.

Según la documentación oficial, el FARO distingue entre “discurso de odio” (contenido potencialmente ilegal que podría infringir el Código Penal o normas de las plataformas) y “discurso odioso” (mensajes discriminatorios que, aunque reprochables, no alcanzan la gravedad de un delito). En la práctica, el concepto de “discurso de odio” se define como todo mensaje dirigido explícitamente a un grupo protegido (por raza, religión, nacionalidad, etc.) con motivación de odio y que puede incurrir en un delito penal o en una infracción administrativa. Por otro lado, los contenidos de “discurso odioso” comprenden expresiones xenófobas o estigmatizantes que suelen quedar amparadas por la libertad de expresión porque carecen de gravedad suficiente.

De hecho, la metodología deja claro que sólo se notifican a las plataformas aquellos mensajes que efectivamente cumplen condiciones de ser reportados: es decir, contenidos de odio constitutivos de delito, infracción administrativa o que infrinjan las normas de la red social. Los mensajes intolerantes o insultantes que no lleguen a ese nivel grave –por muy ofensivos que sean– quedarían fuera del reporte sistemático. Una vez enviado el reporte, las plataformas deciden si lo retiran. Según el sistema FARO, las empresas dan prioridad a las alertas de los “informadores fiables” (trusted flaggers), que son entidades especializadas reconocidas en Europa, y sus avisos deben ser tratados de forma preferente.

En enero de 2025 la Unión Europea renovó su Código de Conducta + contra la incitación ilegal al odio en Internet. Ese acuerdo refuerza los compromisos voluntarios de plataformas como Meta, X, YouTube o TikTok para acelerar la retirada de contenidos ilegales de odio y para mejorar la transparencia en moderación. En ese sentido, el enfoque oficial distingue claramente el odio ilegal (incitación a la violencia, amenazas, etc.) de simples manifestaciones de odio que no constituyen delitos. En España, el Código Penal (art. 510) sanciona por ejemplo la “promoción pública del odio, hostilidad, discriminación o violencia” contra un grupo protegido. Sin embargo, protege la libre expresión de ideas e incluso insultos, salvo que inciten directamente a la violencia o vulneren derechos fundamentales.

Resultados y cifras

https://www.inclusion.gob.es/web/oberaxe/actividad

En su primer año de funcionamiento, el Sistema FARO reportó miles de contenidos. Según el OBERAXE, entre enero y diciembre de 2024 se notificaron a las plataformas 2.870 mensajes considerados de posible odio racial, xenófobo, antisemita o islamófobo. De esos, las redes sociales retiraron únicamente 1.010 (un 35% del total reportado). No obstante, la tasa de eliminación por plataforma fue baja y aún menor que el año anterior. Por ejemplo, TikTok retiró el 69% de los mensajes notificados (la mejor cifra), mientras que Twitter/X sólo el 15%. En cuanto a la vía de reporte, se confirma que los “trusted flaggers” son mucho más eficaces: tras su notificación se eliminaron el 26% de los contenidos, frente al 9% de los reportes hechos por usuarios normales.

Según la propia descripción del OBERAXE, solo se notifican a las plataformas los casos que “efectivamente cumplen las condiciones para ser reportados”, es decir:

  • cuando podrían ser constitutivos de delito,

  • cuando infringen normas comunitarias de la red social,

  • o cuando encajan en infracciones administrativas.

Además de la eliminación directa de contenidos, las plataformas sociales emplean técnicas como la reducción de alcance, la desindexación o el «shadowbanning» para limitar la visibilidad de ciertos mensajes. Aunque estos contenidos no son retirados formalmente, su invisibilidad efectiva actúa como una forma sutil de censura encubierta, silenciando voces críticas sin necesidad de intervención explícita.

El problema es que al público no se le muestran ejemplos claros de qué se reporta y qué no. Eso hace difícil comprobar si, en la práctica, se está notificando también discurso no delictivo pero políticamente incómodo.

En las redes sociales, incluso los discursos legales pueden ser eliminados si violan las normas comunitarias de la plataforma, como prohibiciones contra discurso de odio o desinformación. Aunque la expresión sea legal según la ley, las empresas privadas pueden restringirla, ejerciendo un control de facto sobre lo que los usuarios pueden publicar.

El problema surge cuando un organismo público interviene o supervisa estos procesos, presionando a las plataformas para que retiren contenido legal. En ese caso, aunque la censura se ejecute mediante un privado, el Estado asume indirectamente un papel de censor, lo que genera dudas sobre la legitimidad de la medida y la posible vulneración de la libertad de expresión.

Sin embargo, salvo algunos ejemplos en el informe de 2024 publicado por OBERAXE, los comunicados oficiales no detallan ejemplos concretos de publicaciones retiradas. Sólo ofrecen datos agregados de volumen y porcentajes. No se conocen públicamente los mensajes exactos que fueron eliminados ni sus contenidos específicos, lo que impide saber de qué tipo exacto de expresiones se trataba.

Un ejemplo de la falta de transparencia es el Boletín extraordinario de monitorización del discurso de odio tras los sucesos de Torrepacheco, en el que se mencionan supuestos bulos sin aportar datos concretos y se simplifica el discurso mediante alusiones a la organización de patrullas violentas o a la presunta relevancia de ciertos grupos ultras, omitiendo, por ejemplo, la violencia de grupos contrarios. Sin embargo, el debate es mucho más complejo y, en gran medida, responde al descontento ciudadano ante la inseguridad. Se destacan hechos aislados, como la existencia de un pequeño grupo en Telegram que podría haber manifestado conductas delictivas, atribuyéndoles una importancia que en realidad nunca tuvieron. En parte, algunos medios insistieron en la idea de una ultraderecha organizada, cuando la mayoría de las personas que acudieron a las manifestaciones en Torrepacheco eran residentes del municipio o de localidades cercanas. Aunque los incidentes fueron difundidos tanto por medios como por ciudadanos no vinculados a la izquierda y críticos con el gobierno, además de algún youtuber conservador, la situación dista mucho de reflejar la existencia de una organización extremista consolidada.

Es importante señalar que algunas de las medidas sobre discursos de odio en redes sociales pueden tener un trasfondo político. Un ejemplo claro es la crítica a la inmigración en Estados Unidos, que es legal y está protegida por la Primera Enmienda de la Constitución, la cual garantiza la libertad de expresión. La administración Trump ha reforzado este principio con políticas que, en teoría, respaldan dicha libertad. Por ejemplo, la Orden Ejecutiva 14149, firmada en enero de 2025, prohíbe la censura federal en redes sociales, estableciendo que el gobierno no debe interferir con la expresión legítima de los ciudadanos en línea. Esto muestra cómo la regulación del discurso en redes sociales no es neutral, sino que puede estar influida por intereses o enfoques políticos que determinan qué expresiones se priorizan o se protegen.

La doctora en Derecho e investigadora en IA y Derechos Humanos, Elena Ramallo, subraya que la crítica ciudadana y el “hartazgo democrático” no deben confundirse con delitos de odio: la mera expresión de indignación —por ejemplo, contra determinadas políticas migratorias o ante fenómenos que la ciudadanía percibe como una amenaza— no alcanza por sí sola el umbral penal previsto en el artículo 510 del Código Penal, que exige intención discriminatoria, finalidad de exclusión o una incitación efectiva al odio o a la violencia. Ramallo advierte que etiquetar como “delito de odio” cualquier voz crítica supone, además, una forma de criminalización de la disidencia que empobrece el pluralismo y fortalece una cultura de cancelación.

Esa advertencia tiene consecuencias prácticas: cuando se amplía el concepto social de «discurso de odio» más allá del umbral jurídico, se corre el riesgo de producir un efecto inhibidor sobre el debate público. Ciudadanos, periodistas y activistas pueden autocensurarse por temor a ser señalados o sancionados, con el resultado de empobrecer la deliberación democrática y de restar legitimidad a la verdadera función protectora de las normas contra el odio (que es salvaguardar a colectivos vulnerables frente a la incitación a la violencia). Este punto conecta directamente con la crítica de Ramallo sobre la instrumentalización política del concepto penal.

Cuestiones y preguntas clave

En paralelo a estos resultados oficiales han surgido dudas y críticas sobre el alcance y la transparencia del Sistema FARO. Una cuestión central es la distinción entre delito de odio y discurso de odio. A pesar de que la metodología distingue formalmente ambos conceptos, muchos observadores se preguntan cómo se trazan exactamente esos límites. ¿Quién determina que un mensaje concretamente “podría ser ilegal”? En España, la Fiscalía advierte que sólo las expresiones más graves constituyen delito: “no todo lo que nos parezca reprochable o generador de odio será constitutivo de delito”. Esto implica que meras ideas ofensivas o insultos –por muy hirientes que resulten– quedarían fuera del ámbito penal. Si el FARO llegara a sancionar o incluso reportar masivamente esos casos menos graves, podrían chocar con la libertad de opinión y expresión garantizada constitucionalmente.

Otra inquietud es quién decide en última instancia qué es ilegal. El Sistema FARO identifica potencialmente contenido delictivo, pero la calificación jurídica final corresponde a los tribunales y a la Fiscalía. Como indica el propio OBERAXE, sólo en casos “graves” se recurre a la Fiscalía de Delitos de Odio; el resto de notificaciones quedan en manos de las propias plataformas. En la práctica, el FARO envía reportes a Facebook, X, etc., y son esos operadores los que deciden si retiran el contenido según sus normas y la ley aplicable. De hecho, la normativa europea (Ley de Servicios Digitales) deja claro que los alertadores fiables sólo notifican contenidos que consideran ilegales, y la obligación de eliminar recae exclusivamente en la plataforma.

Una cuestión relacionada es qué ocurre con los mensajes de odio que no constituyen delito. La propia metodología del Sistema FARO establece con claridad que los contenidos —discurso intolerante sin incitación explícita— que no cumplen “efectivamente las condiciones para ser reportados” (penales o administrativas) quedan fuera del reporte sistemático: se monitorizan y se contabilizan a efectos estadísticos, pero el observatorio no solicita su retirada a las plataformas. Al mismo tiempo, FARO sí notifica a las redes los contenidos que sí cumplen sus umbrales —cuando pueden ser constitutivos de delito, cuando encajan en infracciones administrativas o cuando vulneran las políticas internas de la propia red social—. Aquí surge una tensión práctica importante: las plataformas aplican sus propias normas comunitarias y pueden eliminar o sancionar contenidos que no son delitos según la legislación nacional, simplemente porque infringen sus reglas internas o reciben denuncias de usuarios. Esa capacidad de moderación privada choca con la lógica del observatorio —que registra pero no pide retirar lo “no reportable”— y plantea una contradicción operativa y jurídica: el mismo mensaje puede ser considerado «no reportable» por un mecanismo público y, sin embargo, eliminado por la plataforma. Las implicaciones son significativas: riesgo de afección a libertades públicas (posible conflicto con garantías constitucionales), arbitrariedad en la moderación (decisión privada sobre qué expresiones desaparecen del debate público) y un efecto de autocensura entre ciudadanos y colectivos vigilados. En suma, el sistema nacional de monitorización y la gestión privada de contenidos por parte de las plataformas operan con criterios distintos —y a veces contradictorios— sobre qué debe permanecer en la esfera pública y qué debe ser retirado.

Otro punto frecuente de debate es el papel de los “alertadores fiables” (trusted flaggers). ¿Quiénes serán estas entidades especializadas con capacidad de reporte prioritario? La ley europea establece que el estatus de trusted flagger lo dan las autoridades nacionales a organizaciones con “experiencia y competencia” en detección de contenido ilícito e “independencia” de las plataformas. En teoría son ONG u organismos expertos designados por el coordinador de servicios digitales de cada país. No obstante, el sistema FARO no ha publicado la lista de alertadores específicos ni cómo se verifica su autonomía. La única certeza es que los informes de estos agentes influyen mucho más en la moderación: como muestran las cifras, los contenidos reportados vía trusted flaggers son eliminados en proporción mucho mayor. La confianza y neutralidad de esos grupos (por ejemplo, juristas o asociaciones de derechos) es clave para evitar influencias indebidas.

Finalmente, cabe preguntarse hasta qué punto el Estado español debe controlar lo que es legal en internet. España tipifica diversos delitos de odio (art. 510 del CP) protegiendo la igualdad como valor constitucional, pero no castiga el “odio” como pensamiento. El FARO opera dentro de este marco: su objetivo declarado es sólo combatir contenidos penalmente prohibidos. Cualquier ampliación de la vigilancia a opiniones lícitas (aunque sean polémicas) podría ser cuestionable desde la perspectiva de derechos humanos. Por ahora, el observatorio solo informa de casos que se consideran potencialmente delito o infracción; no ha señalado públicamente la supresión de discursos puramente ofensivos o simplemente “incorrectos”.

En conclusión, el Sistema FARO representa un esfuerzo técnico por combatir el discurso de odio violento en redes sociales, aprovechando inteligencia artificial y cooperación entre administraciones y plataformas. Sin embargo, su operativa y alcance suscitan dudas legítimas sobre transparencia, límites y garantías: ¿dónde queda la línea roja entre lo que es censurable y lo que es opinión? El reto futuro será mantener un equilibrio claro entre proteger colectivos vulnerables y salvaguardar la libertad de expresión tal como la reconoce la Constitución. Mientras tanto, los informes públicos ofrecen datos generales (número de mensajes detectados y eliminados) pero dejan muchas preguntas abiertas sobre el contenido específico retirado y los criterios exactos aplicados. Los expertos recomiendan vigilancia continua de este sistema, debate público informado y la debida supervisión para garantizar que no se extienda a ámbitos indebidos de control del discurso legal.

Fuentes:

Discurso de odio – Observatorio Español del Racismo y la Xenofobia – Ministerio de Inclusión, Seguridad Social y Migraciones

Monitorizacion-discurso-del-odio_2024_def acc

Elena Ramallo Miñán | Las críticas ciudadanas no son delito de odio, son hartazgo democrático

Delito de odio vs. Discurso de odio – Hateblockers

Indicadores de confianza en virtud de la Ley de Servicios Digitales | Configurar el futuro digital de Europa

Boletín Suceso Torre-Pacheco_24-07-25