El auge de la inteligencia artificial avanza a gran velocidad. Aunque las posibilidades son infinitas, al mismo tiempo nos está causando un poco de ansiedad, porque ¿sabremos pronto si estamos tratando con un humano o con un robot? Los primeros estudios al respecto demuestran que nuestros temores están justificados.
El ejemplo más conocido de inteligencia artificial (IA) que está surgiendo a una velocidad vertiginosa es ChatGPT. Las respuestas y otros textos generados por el último modelo, el GPT-4, son tan realistas que los investigadores decidieron averiguar si la gente sigue dándose cuenta de que está conversando con una IA.
Prueba de Turing, juego sencillo
Por ello, los científicos del University College San Diego realizaron la famosa prueba de Turing, que debe su nombre al célebre informático Alan Turing. Esta prueba está diseñada para evaluar hasta qué punto una máquina muestra una inteligencia similar a la humana.
Ahora bien, cabe imaginar que podría ser difícil averiguar si se trata de un robot o no basándose en una sola respuesta, pero eso no es lo que hicieron los investigadores. Hicieron que los sujetos hablaran con GPT-4 durante cinco minutos e incluso entonces fue difícil distinguir entre humano y chatbot.
En realidad hicieron un sencillo juego de adivinanzas: ¿es un humano o no? “Creamos una versión online del juego para dos jugadores en la que los participantes humanos se emparejaban con otro humano o con una IA”, explica Cameron Jones, investigador de la UC San Diego.
En cada sesión, un interrogador humano “hablaba” con un “testigo”, que podía ser un humano o una IA. El interrogador solo tenía una tarea: averiguar (mediante preguntas) si estaba tratando con un humano o no.
Cinco minutos como máximo
“Las entrevistas duraban un máximo de cinco minutos. Al final, el entrevistador emitía su juicio sobre si el oponente era un humano o una IA”, explica Jones. “En esos cinco minutos, los participantes podían hablar de lo que quisieran”.
Para el juego de ordenador, los investigadores utilizaron tres Large Language Models (LLM) diferentes, como también se denomina a los chatbots: GPT-4, GPT-3.5 y ELIZA. Y he aquí la cuestión: por lo general, los participantes aún podían averiguar que ELIZA y GPT-3.5 no eran personas reales, pero con GPT-4 no pudieron. Acertaron tan a menudo como si estuvieran adivinando.
“Las personas reales tuvieron más éxito por sí mismas. Consiguieron convencer a los participantes dos tercios de las veces de que eran personas reales, pero nuestros resultados demuestran que, en el mundo real, la gente no puede saber si está tratando con un humano o con una IA”, afirma Jones.
“De hecho, en el mundo real, las personas son menos conscientes de la posibilidad de que estén hablando con un sistema de IA, por lo que es aún más probable que se dejen engañar”, opina el investigador. “Creo que esto podría afectar al tipo de cosas para las que se utiliza la IA: podríamos automatizar los trabajos de atención al cliente o utilizarla para el fraude y la desinformación”.
Mentiras y engaños, desconfianza
Los investigadores quieren ahora investigar más a fondo, incluso mediante un juego en línea con tres “personas”. “Tenemos curiosidad por una versión del juego con tres personas, en la que el interrogador hable con un humano y una IA al mismo tiempo y tenga que determinar quién es quién”, explica Jones.
“También queremos probar qué ocurre cuando damos a la IA acceso a noticias de palomas o a un documento donde pueda tomar notas antes de responder. También queremos ver lo persuasiva que es la IA en otros ámbitos: ¿puede convencer a la gente para que crea mentiras, vote políticas concretas o done dinero a obras benéficas?”
Estos son solo algunos ejemplos que ponen de manifiesto el alcance que puede tener el impacto de los chatbots, sobre todo si tenemos en cuenta lo lejos que está ya el GPT-4: incluso después de cinco minutos hablando, la IA sigue superando el test de Turing. El chatbot es, por tanto, indistinguible de las personas reales durante conversaciones cortas. Esto también genera mucha más desconfianza. La gente pronto dejará de confiar cuando interactúe con alguien en línea, porque simplemente no sabe si sigue hablando con un ser humano real.
No es la primera vez, estudio anterior
La prueba de Turing se puede realizar de varias maneras. A principios de año, se publicó un estudio en el que se puso a prueba el ChatGPT-4, en términos de fiabilidad, altruismo y honestidad. También entonces superó la prueba con buena nota. En efecto, la última versión de ChatGPT resultó ser más altruista y dispuesta a cooperar que las personas reales. El investigador lo calificó de buena noticia. “Significa que entonces podríamos confiar mejor en la IA en ciertas tareas en las que este tipo de rasgos son útiles, como en la asistencia sanitaria, la negociación o la mediación de conflictos”. También dijo que entonces trataremos a la inteligencia artificial cada vez más como a los humanos. “Por ejemplo, podríamos dejar que una IA hiciera entrevistas de trabajo antes de decidir contratarla para determinadas tareas”.
1 comentario