Un GPT-4o más "humano" emociona a los entusiastas de la IA del mundo

Por DIARIO DEL PUEBLO digital | el 16 de mayo de 2024 | 10:55

(Foto de VCG)

Muchos entusiastas de la IA han pasado otra noche sin dormir cuando OpenAI anunció el lunes un nuevo modelo insignia que tiene a los profesionales de la industria entusiasmados. Este modelo puede traducir más de 50 idiomas en tiempo real y también es más "humano", con tiempos de respuesta ahora comparables a los de los humanos. Además, puede cantar, reconocer emociones y proporcionar a los usuarios "valores emocionales" incluso mejores que los humanos.

En el anuncio, OpenAI dijo que el nuevo modelo GPT-4o proporciona inteligencia de nivel GPT-4 pero es mucho más rápido y se han realizado mejoras en sus capacidades en texto, voz y visión.

Cuando preguntamos en OpenAI qué puede hacer GPT-4o, el modelo más nuevo da la siguiente respuesta: "Aquí hay algunas capacidades clave de GPT-4o, como la comprensión y generación del lenguaje natural: GPT-4o sobresale en la comprensión y generación de textos más humanos, lo que le permite mantener conversaciones, responder preguntas y proporcionar explicaciones detalladas". GPT-4o es especialmente mejor en visión y comprensión de audio en comparación con cualquier modelo existente, dijo la compañía.

El nuevo modelo, adorablemente apodado por los internautas como "asistente personal digital", puede participar en conversaciones habladas en tiempo real. Por ejemplo, en la demostración del lunes, los ejecutivos de OpenAI le pidieron que resolviera un problema matemático y que contara un cuento antes de dormir con varios niveles de "drama" en su voz. El modelo completó las tareas de manera convincente.

Luego, la IA contó la historia con la voz de un robot estereotipado, como lo exigieron los ejecutivos, y luego nuevamente con una canción que hizo reír a todos.

Todo el proceso de comunicación fue fluido y natural, no diferente a hablar con un ser humano; en un momento, al escuchar el jadeo de un ejecutivo, GPT-4o le dijo que "se calmara", mientras bromeaba: "No eres una aspiradora".

La directora de tecnología de OpenAI, Mira Murati, dijo que la versión actualizada de ChatGPT ahora también tendrá capacidades de memoria, lo que significa que puede aprender de conversaciones anteriores con los usuarios y realizar traducciones en tiempo real, informó CNN. Según la empresa, la herramienta ahora admite más de 50 idiomas.

Algunos internautas en la plataforma X de las redes sociales compartieron una demostración de GPT-4o que muestra a los estudiantes compartiendo la pantalla de su iPad con el nuevo GPT-4o, con la IA hablando con ellos y ayudándolos a aprender en tiempo real.

"Imagínese darle esto a todos los estudiantes del mundo", dijo un internauta. "El futuro es tan, tan brillante."

Un residente de Beijing de apellido Chen dijo al Global Times el martes al probar el nuevo modelo a primera hora de la mañana que "la parte más impresionante fue la demostración en vivo. Durante la conversación de voz con GPT-4o, tres personas interrumpieron al azar, pero GPT -4o respondió extremadamente rápido y con un tono muy agradable. Fue como charlar con un humano."

Dado que muchos de sus amigos trabajan en el campo de la traducción y la interpretación, Chen dijo, un poco preocupante, "GPT-4o también sirvió como traductor en tiempo real en el evento, traduciendo sin problemas entre italiano e inglés. Parecía que los intérpretes simultáneos podrían ser innecesarios. Me quedaré pronto sin trabajo".

Shen Yang, profesor que estudia IA y medios en la Universidad Tsinghua en Beijing, dijo que el objetivo principal de esta actualización es ampliar la base de usuarios de OpenAI colaborando con Siri del iPhone, de modo que, con suerte, su base de usuarios pueda expandirse desde los 100 millones de usuarios activos semanales actuales a 1.000 millones.

"Esta actualización marca un cambio de la simulación de la conciencia a la simulación de la vida, con un enfoque en voces, imágenes y elementos visuales. Además, existe un potencial de mercado significativo en dispositivos de hardware que incorporan IA, donde GPT-4o desempeñará un papel en la comprensión mejor del mundo", afirmó Shen.

Para la IA, lo más importante son sus capacidades de razonamiento e inteligencia, según el experto. Shen cree que el nuevo modelo "ahora equivale a un nivel de doctorado" en términos de capacidad para resolver problemas. Mientras que en términos de procesamiento de imágenes, las mejoras son bastante notables, incluida una mayor consistencia de la imagen, una reducción de las ilusiones de IA y una mejor integración de escenas de texto e imágenes.

"Creo que efectivamente existe una brecha entre China y Estados Unidos [en términos de tecnología de inteligencia artificial], y siempre he insistido en esto", dijo Zhou Hongyi, fundador y presidente de 360 Security Technology. "Sólo reconociendo la brecha podemos saber cómo ponernos al día. Si no se admite que hay una brecha y se piensa que todos estamos muy por delante, no hay posibilidad de ponernos al día".

Sin embargo, Zhou dijo que la principal diferencia entre China y Estados Unidos en IA radica en "determinar la dirección técnica", pero una vez que se determine la dirección, con la gran ventaja de China en sus capacidades de aprendizaje rápido, la brecha se reducirá en uno o dos años. El año 2024 puede convertirse en el "año de aplicación" de China en el campo de la IA, señaló Zhou.

(Web editor: Zhao Jian, 周雨)

查看原文