Una IA nunca podrá pensar, o al menos, no lo podrá hacer de la misma forma que lo hace un humano. Sin embargo, si hiciéramos con una IA lo que hacemos con un humano nada más nacer, aprendiendo poco a poco el idioma y reconociendo el lenguaje, ¿qué ocurría? Dicho y hecho. Una IA ha estado aprendiendo el lenguaje viendo el mundo a través de los ojos de un bebé.

Este ha sido el resultado de un estudio publicado en Science Advances.

De forma resumida, los investigadores de la Universidad de Nueva York han explicado que su innovador estudio ha dado como resultado un modelo de aprendizaje automático que imita la forma en que los niños aprenden el lenguaje, ofreciendo nuevos conocimientos sobre la adquisición temprana del lenguaje. Según Wai Keen Vong, coautor del estudio e investigador en IA de la universidad de NY:

Los resultados sugieren que la IA puede ayudarnos a comprender cómo aprenden los humanos. Esto no estaba claro anteriormente, porque otros modelos de aprendizaje de idiomas, como ChatGPT, aprenden con miles de millones de puntos de datos, lo que no es comparable a las experiencias del mundo real de un bebé. No nos dan Internet cuando nacemos.

El trabajo, un enfoque fascinante para comprender la adquisición temprana del lenguaje en los niños, utilizó grabaciones de vídeo y audio desde la perspectiva de un niño pequeño llamado Sam. La idea era recopilar experiencias desde la perspectiva del bebé. Sam, que vive cerca de Adelaide en Australia, usó la cámara durante aproximadamente una hora dos veces por semana (aproximadamente el 1% de sus horas de vigilia), desde los seis meses hasta aproximadamente los dos años.

Luego, el modelo entrenado aprendió con éxito a asociar palabras con objetos visuales, una hazaña que arroja luz sobre el intrigante proceso de cómo los niños comienzan a comprender y utilizar el lenguaje. Según Vong:

He estado investigando sobre la adquisición de conceptos y lenguajes desde el comienzo de mi carrera investigadora, ya que creo que hay muchas preguntas interesantes detrás de cómo los humanos y las máquinas pueden aprender y utilizar conceptos y lenguajes. Trabajar con el conjunto de datos que se utilizó en este artículo (el conjunto de datos SAYCam-S) brindó una oportunidad única para estudiar este tipo de preguntas y ver si los modelos podían aprender algo a partir de cortes naturalistas a partir de la información de un solo niño.

Imagen: PXHere

Como cuentan en el trabajo, ese conjunto de datos SAYCam-S se recopiló gracias a esa cámara montada en la cabeza que llevaba el niño, capturando grabaciones de video y audio desde los 6 a los 25 meses de edad (el modelo estuvo expuesto a 250.000 palabras). Finalmente, el conjunto de datos incluía 600.000 fotogramas de vídeo combinados con 37.500 expresiones transcritas, derivadas de 61 horas de vídeo. Un enfoque que pretendía reflejar el entorno natural de aprendizaje de un niño, en contraste con los entornos más controlados de los estudios de laboratorio tradicionales.

Los investigadores desarrollaron un modelo de aprendizaje automático, denominado modelo Child’s View for Contrastive Learning (CVCL), que se alimentaba con frames de video que representaban lo que el niño veía y expresiones lingüísticas, que representaban lo que el niño oía. Un modelo que fue diseñado para aprender representaciones multimodales (una combinación de elementos visuales y lingüísticos) y asociarlas entre sí. 

La capacitación de CVCL fue autosupervisada”, explican, lo que significa que no dependió del etiquetado externo de datos. En cambio, el modelo aprendió asociando fotogramas de vídeo y expresiones que coexisten temporalmente como pares coincidentes, y tratando los pares no coincidentes como no coincidentes. Según los autores:

Al utilizar modelos de IA para estudiar el problema real del aprendizaje de idiomas que enfrentan los niños, podemos abordar los debates clásicos sobre qué ingredientes necesitan los niños para aprender palabras, ya sea que necesiten sesgos específicos del idioma, conocimiento innato o simplemente aprendizaje asociativo para comenzar.

¿Los resultados? Al parecer, el modelo logró una precisión de clasificación del 61,6% en un conjunto de datos de frames anotados con 22 conceptos visuales, lo que demuestra su capacidad para unir palabras con objetos visuales de manera efectiva:

En las pruebas de comparación, CVCL funcionó cerca de una red neuronal contrastante de imagen-texto más entrenada, CLIP, que fue entrenada con muchos más datos. El modelo demostró un conocimiento modesto de conceptos visuales adicionales cuando se probó con estímulos nuevos, con una precisión del 34,7%. Esto es significativo ya que sugiere la capacidad del modelo para generalizar más allá de su entrenamiento.

Como finalizan en su trabajo, el experimento reveló que se puede aprender mucho en los primeros días del bebé simplemente formando asociaciones entre diferentes fuentes sensoriales.

Con todo, recuerdan que el aprendizaje de idiomas en el mundo real es mucho más rico y variado que el experimentado por la IA, “debido a que la IA se limita a entrenar con imágenes fijas y texto escrito, no podría experimentar interacciones inherentes a la vida de un bebé real. La IA tuvo dificultades para aprender la palabra “mano”, por ejemplo, que normalmente se aprende temprano en la vida de un bebé”.

Aun así, el potencial para seguir el camino planteado, “a fin de que esté más alineado con las complejidades del aprendizaje humano es enorme y ofrece interesantes vías para avanzar en las ciencias cognitivas”, zanjan.

Deja un comentario

historias destacadas

Descubre más desde LUDD

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo