¿Cómo saber si la voz que oyes es real? Con el auge de los deepfakes, esta pregunta se ha vuelto muy relevante. Una nueva investigación muestra que ya más de una cuarta parte de las voces deepfake son indistinguibles de las reales.
Los deepfakes son voces producidas por inteligencia artificial. Por tanto, no son voces reales, pero así es como suenan. Por ejemplo, se puede hacer que personajes famosos, como el Presidente de algún país, digan cosas que en realidad no querría decir en absoluto. Imagínese las consecuencias que puede tener.
Últimamente, los señuelos para discursos son aún más creíbles, así que hay motivos suficientes para preocuparse. Porque acabamos de mencionar el ejemplo de un político, pero también hay historias de banqueros que han sido incriminados de esta manera para autorizar transacciones de dinero fraudulentas.
¿Reales o no?
Para averiguar hasta qué punto son creíbles actualmente estas deepfakes, la investigadora Kimberly Mai y sus colegas del University College de Londres decidieron pedir a más de 500 personas que distinguieran las voces reales de las falsas. Los participantes recibieron varios clips de audio con voces humanas reales y falsas. Algunos hablaban en inglés y otros en mandarín. A algunos también se les dieron ejemplos de voces falsas para que aprendieran a reconocerlas.
Al final, los participantes consiguieron distinguir las imitaciones un 73 % de las veces. Pero, por desgracia, el entrenamiento no sirvió de nada: los resultados apenas mejoraron. Los angloparlantes obtuvieron más o menos la misma puntuación que los que recibieron los fragmentos en mandarín. Sin embargo, los participantes prestaron atención a cosas diferentes. Los angloparlantes prestaban más atención a la respiración, mientras que los mandarines se fijaban más en la cadencia, el tiempo entre palabras y la fluidez de las frases.
Confiar demasiado en la intuición
La investigadora Kimberly Mai explica: “Las personas utilizaron las mismas pistas para etiquetar las falsificaciones profundas como correctas o incorrectas. Los participantes se basaron en gran medida en su intuición a la hora de elegir. Por ejemplo, a menudo mencionaban la naturalidad de una voz y se preguntaban si un clip sonaba robótico”.
También hubo algunos factores que se mencionaron con menos frecuencia. “Por ejemplo, también prestaron atención a las pausas irregulares, la entonación, la pronunciación y el tempo del inglés y el mandarín”.
Sin embargo, al investigador le sorprendieron los resultados. “En primer lugar, llama la atención que los participantes se basaran en su intuición y no en características objetivas para tomar una decisión. En segundo lugar, me pareció notable que los hablantes de inglés y mandarín obtuvieran resultados casi iguales, a pesar de que los dos idiomas son increíblemente diferentes”.
Conclusión sombría
Que más de una cuarta parte de las voces deepfake fueran irreconocibles ya es preocupante, pero en realidad el porcentaje es probablemente mucho mayor, porque los participantes sabían de antemano que algunos fragmentos eran falsos. Además, los investigadores no disponían de la tecnología de voz más avanzada.
Entonces, ¿un ordenador reconoce mejor una voz de ordenador? Todavía no. A nivel individual, aunque un detector automatizado de deepfakes funcionó ligeramente mejor, colectivamente los participantes fueron casi tan buenos como el ordenador. Así que la conclusión del estudio es bastante sombría: lo más probable es que el reconocimiento de falsificaciones profundas de la voz sea cada vez más difícil. El entrenamiento sirve de poco y los ordenadores tampoco son especialmente buenos.
La hora de la política
Aun así, Kimberly Mai menciona algunas estrategias que podrían ayudarnos. “Nuestros experimentos muestran que los participantes rendían mejor si podían escuchar algún audio de referencia. También demostramos que, aunque las personas no son fiables individualmente, las respuestas agregadas sí conducían a un mejor rendimiento.” Con esto, la investigadora quiere decir que se agregaron todas las opciones de los participantes y de ahí se siguió una decisión mayoritaria. “Por lo tanto, es una buena idea pedir a otros su opinión y verificar la fuente con una referencia si escuchas un clip de audio del que dudas, porque el contenido es inusual, por ejemplo”. Consideremos una solicitud para la transacción de una gran suma de dinero.
En resumen, aboga por un enfoque mixto. “Ahora puede ser útil agregar respuestas y pedir la opinión de otros. Además, hay que mejorar los detectores automáticos, ya que aún no son lo bastante buenos. Por último, los gobiernos y las organizaciones también tienen que trabajar en buenas normas y políticas en este ámbito”. Y aun así, será bastante difícil distinguir lo real de lo falso.
Sin comentarios