Detectar Noticias Falsas en Tiempo Real – Redes Sociales

Detectar Noticias Falsas en Tiempo Real – Redes Sociales pixelwork

Detectar Noticias Falsas en Tiempo Real – Redes Sociales

 

 

Krishna Bharat, Científico en computación. Ex-Googler, fundador de Google News. Inversor y asesor de startups de tecnología. Adicto a las noticias, parte del consejo de Columbia & Stanford Journalism (JSK) nos comparte su opinión sobre la detección de Noticias Falsas en Tiempo Real.

En noviembre pasado, un amigo me contó acerca de su extensa familia de filipinos-americanos en el área de Fresno. En cuestión de días, pasaron de sentirse en conflicto con la candidatura de Trump a votar por él. Ellos son católicos, y una vez que escucharon que el Papa había respaldado a Trump sus mentes estaban dispuestas. Por supuesto, este apoyo papal no sucedió realmente. Este es un ejemplo de una falsa ola de noticias que se volvió viral y engañó a millones.

Aquí está la misma historia en un post de Facebook, compartido por el grupo North Carolina For Donald Trump. Ellos tienen 65,000 seguidores, y se puede ver cómo las acciones de decenas de grupos influyentes podrían difundir esto a millones.

 

En el mismo tema, un sitio llamado winningdemocrats.com publicó una broma de que Irlanda está aceptando oficialmente ” refugiados”, que también tuvo mucha polémica. Este es un problema bipartidista. El periodismo es un trabajo duro. Las noticias falsas para la influencia y el beneficio son demasiado fáciles.

Esto me hizo preguntarme qué podrían haber hecho Facebook y otras plataformas para detectar estas olas de desinformación en tiempo real. ¿Podrían haber tomado medidas en contra? Si se detecta a tiempo, ¿podrían haber ralentizado la propagación o haberla marcado como noticias poco fiables?

 

Las plataformas deben actuar

Como muchos han señalado, distribuir noticias falsas es mejor a nivel de las principales plataformas – Facebook, Twitter, Google, Microsoft, Yahoo y Apple. Estas controlan las arterias a través de las cuales fluye la mayor parte de la información y la influencia del mundo. Están mejor posicionados para desinformar. Sus equipos de ingeniería tienen técnicas para detectarlo y las herramientas necesarias para responder.

Tanto las redes sociales como los motores de búsqueda cuentan con “palancas” de ingeniería (piensa en: flexibilidad de clasificación) y opciones de productos para reducir la exposición, marcar las noticias como falsas o detener completamente las olas de desinformación. Tomarán estas decisiones individualmente en función de la gravedad del problema y de cómo su organización equilibra la exactitud de la información y la libertad del autor.

La Búsqueda de Google se centra en el acceso a la información. Facebook se ve a sí mismo como un facilitador de libre expresión. Ambos pueden resolver las cosas de manera diferente.

“Nuestro enfoque se centrará menos en la prohibición de la desinformación, y más en perspectivas adicionales y la información, incluyendo que los inspectores disputen la precisión de un artículo.” Mark Zuckerberg

En este artículo prefiero no entrar en la política, y me gustaría centrarse en la detección en lugar de abogar por una respuesta específica. No importa cuál sea tu respuesta, si puedes detectar noticias falsas en tiempo real puedes hacer algo al respecto.

La detección en tiempo real, en este contexto, no significan segundos. Puede ser innecesario tomar alguna medida si no se propaga la noticia. En la práctica, la respuesta rápida podría significar minutos u horas, el tiempo suficiente para que un algoritmo detecte una ola de noticias que parecen sospechosas y que están cobrando impulso, potencialmente de múltiples fuentes.

También, tiempo suficiente para recolectar evidencia y para ser considerado por los seres humanos quienes pueden elegir detener la ola antes de que ella se convierta en un tsunami.

Sé una cosa o dos acerca de los algoritmos de procesamiento de noticias. Es mi creencia que la detección es manejable.

También sé que probablemente no es una buena idea ejecutar contra medidas a corto plazo basadas únicamente en lo que dice el algoritmo. Es importante poner a los seres humanos en el bucle, tanto para la rendición de cuentas corporativas como para servir como un chequeo de cordura.

En particular, un árbitro humano sería capaz de hacer verificaciones proactivas de hechos. En el ejemplo anterior, el representante de Facebook o Twitter podría haber llamado a la oficina de prensa de la Sede y haber establecido que la historia es falsa. Si no hay una persona obvia a la cual  llamar, se podría consultar con las principales fuentes de noticias y sitios de verificación de hechos para obtener una lectura sobre la situación.

Habrá casos ambiguos y situaciones donde la verificación es elusiva. Los árbitros humanos pueden decidir esperar y vigilar la ola por un tiempo antes de que intervengan. Con el tiempo, un sistema de aprendizaje automático podría aprender de los resultados, comenzar a utilizar más pruebas y entrenarse para ser más inteligente.

¿Qué es una ola? Una ola en mi lenguaje es un conjunto de artículos que hacen la misma afirmación (posiblemente errónea), además de los mensajes en las redes sociales asociadas. Una ola es significativa si está creciendo en el compromiso. Dado que el costo de la intervención humana es alto, sólo tiene sentido señalar las ondas significativas que tienen rasgos que sugieren desinformación.

El objetivo del algoritmo de detección es marcar las ondas sospechosas antes de que atraviesen un umbral de exposición, de modo que los humanos puedan hacer algo al respecto.

Para hacer esto en concreto: Digamos que una plataforma de medios sociales ha decidido que quiere abordar completamente las noticias falsas en el momento en que obtenga 10,000 veces compartidas. Para lograr esto, tal vez deseen que la ola se señale en 1,000 acciones, de modo que los evaluadores humanos tengan tiempo para estudiarla y responder a ella. Para la búsqueda, podrías contar consultas y clics en lugar de acciones y los umbrales podrían ser mayores, pero la lógica general es la misma.

 

Detección Algorítmica

Para detectar comportamiento anómalo tenemos que mirar por debajo de la superficie y ver lo que no está sucediendo.

Lo que hace que la detección de noticias falsas sea manejable es que las plataformas pueden observar artículos y publicaciones, no solo aisladas, sino en el contexto de todo lo que se está diciendo sobre ese tema en tiempo real. Este contexto ampliado y oportuno hace toda la diferencia.

Tomemos la historia de “El Papa apoya a Trump”.

Si eres un usuario promedio de Facebook y el artículo te fue compartido por medio de un amigo, no tiene ninguna razón para no creerlo. Tenemos un sesgo de verdad que nos hace querer creer que las cosas se escriben en el formato de un periódico, especialmente si es respaldado por alguien que conoces.

Por lo tanto, los sitios de noticias falsos recién acuñados están intentando parecer legítimos. Algunos por “Adolescentes Macedonios”, con fines de lucro, o por profesionales políticos o actores extranjeros que buscan influir en las elecciones. A medida que se etiquetan y ponen en las listas negras nuevos sitios se crean por necesidad.

Un escéptico preguntaría: ¿Qué tan probable es que endingthefed.com, una fuente relativamente oscura, sea uno de los primeros en reportar una historia sobre el Papa apoyando a Trump, mientras fuentes establecidas como el New York Times, el Washington Post, la BBC, Fox News , CNN, etc. e incluso el Servicio de Noticias del Vaticano, no tienen nada que decir al respecto? Eso parecería poco natural. Sería aún más sospechoso si este conjunto de sitios de noticias hablaran de todos los sitios recién registrados o con historial de noticias falsas. Esta es la lógica que vamos a emplear, pero con cierta automatización.

Para hacer esto a escala, un algoritmo vería todos los artículos recientes (de fuentes conocidas y oscuras) que han estado recibiendo algo de juego en las últimas 6 a 12 horas en una red social o motor de búsqueda particular. Para limitar el alcance, podríamos requerir una coincidencia con algunos términos de activación (por ejemplo, nombres de políticos, temas polémicos) o categorías de noticias (por ejemplo, política, crimen, inmigración). Esto reduciría el conjunto a alrededor de 10,000 artículos. Estos artículos pueden ser analizados y agrupados en baldes de historias, basados ​​en rasgos comunes – palabras clave significativas, fechas, comillas, frases, etc. Nada de esto es técnicamente complejo. Los científicos informáticos han estado haciendo esto durante décadas y lo llaman “agrupación de documentos”.

Esta técnica se ha utilizado con éxito en Google News y Bing News, para agrupar artículos por historia y comparar la actividad editorial entre historias. Si dos fuentes diferentes mencionan “papa” y “Trump” y alguna variante del término “apoyo” dentro de una ventana de tiempo corto entonces sus artículos terminarán en el mismo cubo de noticias falsas. Esto esencialmente nos ayuda a captar la cobertura completa de una historia, a través de varias fuentes de noticias. Añade el contexto social, es decir, los posts que refieren a estos artículos, y tendrás la ola completa. Más importante aún, esto nos permite averiguar de manera exhaustiva qué fuentes y autores están propagando estas noticias y cuáles no.

Para evaluar si la onda necesita ser señalada como sospechosa, el algoritmo necesitará mirar los rasgos tanto del clúster de historias como de la nube de medios sociales que lo rodea.

Específicamente:

  1. ¿Está la ola en un tema cargado políticamente? ¿Concuerda con un conjunto de palabras que parecen atraer al diálogo partidista?
  2. ¿El compromiso crece rápidamente? ¿Cuántas vistas o acciones por hora?
  3. ¿Contiene fuentes recientes o nuevas? ¿Fuentes con dominios que han sido transferidos?
  4. ¿Existen fuentes con un historial de periodismo creíble?
  5. ¿Hay fuentes cuestionables en la ola?

(A) Fuentes marcadas como noticias falsas por sitios de comprobación de hechos (por ejemplo, Snopes, Politifact)

(B) Fuentes frecuentemente co-citadas en fuentes sociales con fuentes de noticias falsas conocidas.

(C) Fuentes que tienen una semejanza con los proveedores conocidos de noticias falsas en su afiliación, estructura del sitio web, registro de DNS, etc.

  1. ¿Está siendo compartida por los usuarios o aparece en foros que históricamente han enviado noticias falsas? ¿Hay trolls conocidos o teóricos de conspiraciónes propagandolo?
  2. ¿Hay fuentes creíbles en la noticia? A medida que pasa el tiempo esto se convierte en una señal poderosa. Una historia creciente que no se capta por fuentes creíbles es sospechosa.
  3. ¿Algunos de los artículos han sido marcados como falsos por usuarios (creíbles)?

Cada uno de los puntos anteriores se puede evaluar por computadoras. No perfectamente bien, pero suficientemente bien para servir de señal. Una lógica cuidadosamente construida combinará estas señales para producir una puntuación final para calificar la sospecha de la onda.

Cuando una ola tiene los rasgos de una noticia falsa el algoritmo puede marcarlo para darle atención humana, y potencialmente poner los frenos temporales en él. Esto va a ganar tiempo y asegurara que no cruce una marca alta (10,000 interacciones o vistas) mientras que la evaluación está en curso.

Con cada ola que es evaluada por los jueces humanos – y puede haber varias docenas al día – el sistema recibirá retroalimentación. Esto a su vez permite que los parámetros de la red algorítmica / neural sean ajustados y ayude a extender el historial para fuentes, autores y foros. Incluso las ondas que no pudieron ser detenidas a tiempo, pero eventualmente desinformaron, podrían contribuir a mejorar el modelo. Con el tiempo esto debería hacer que la detección sea más precisa, reduciendo la incidencia de falsas alarmas en el paso de señalización.

 

Libre expresión y abuso

El comercio de expresión libre es una pendiente resbaladiza e inevitablemente una mala idea.

Es importante que la vigilancia de noticias falsas por las plataformas suceda de una manera que sea a la vez defendible y transparente. Defendible, en el sentido de que expliquen sus políticas y cómo las ejecutan y operan de una manera que el público se sienta cómodo. Yo esperaría que apuntaran las noticias falsas de manera estricta para abarcar sólo las afirmaciones fácticas que son demostrablemente erróneas. Deben evitar vigilar opiniones o reclamaciones que no pueden ser controladas. A las plataformas les gusta evitar la controversia y una definición estrecha y nítida los mantendrá fuera del juego.

En términos de transparencia, esperaría que todas las noticias que se han identificado como falsas y ralentizadas o bloqueadas sean reveladas públicamente. Ellos pueden optar por retrasar esto, pero deben revelar en un plazo razonable (digamos, 15 días) todas las noticias que fueron impactadas. Esto, por encima de todo, evitará el abuso por parte de la plataforma. Google, Facebook y otros tienen informes de transparencia que revelan solicitudes de censura y vigilancia por parte de los gobiernos y leyes. Es apropiado que ellos también sean transparentes acerca de las acciones que limitan.

Habiendo estado al otro lado de este problema, puedo pensar en las razones por las que los detalles del algoritmo de detección pueden necesitar ser mantenidos en secreto. Una plataforma, en una carrera armamentista con falsos productores de noticias, puede encontrar que su estrategia deja de funcionar si se hace pública demasiado.

Un compromiso sería documentar los detalles de la implementación y ponerla a disposición para el escrutinio interno por (un panel de) empleados. También, para una auditoría abogados externos autorizados. Cuando se trata de fomentar la buena conducta empresarial los empleados son la primera línea de defensa. Son técnicamente capaces y provienen de todo el espectro político. Pueden confirmar que no hay sesgo político en la implementación.

El mayor desafío para detener las noticias falsas, no es técnico. Es voluntad operativa.

La escala y el éxito de nuestras plataformas principales hicieron este asalto a gran escala a la verdad posible en primer lugar. También están mejor posicionados para arreglarlo. Pueden configurar sensores, mover las palancas y aplastar noticias falsas negándoles tráfico e ingresos.

Mi preocupación es si el liderazgo en estas empresas reconoce el imperativo moral y tiene la voluntad de tomar esto a escala, invertir la ingeniería que se necesita y actuar con la seriedad que merece. No porque están siendo falsos y beneficia a sus negocios, creo genuinamente que no es un factor, sino porque pueden pensar que es demasiado difícil y no quieren ser considerados responsables de errores. No hay un imperativo comercial para hacer esto y puede haber acusaciones de parcialidad o censura, así que ¿por qué molestarse?

Si están dispuestos a ir más allá de eso y asumir el problema – y datos recientes sugieren que lo hacen (por ejemplo, Facebook pagando verificadores de hechos, cambios de clasificación en Google) – Creo que sus usuarios y la prensa lo apreciarán y los apoyaran. Con transparencia y una respuesta correcta pueden hacer un inmenso bien a la sociedad y asegurar que las democracias funcionen correctamente. La alternativa es aterradora.