15.1 C
Buenos Aires
viernes, agosto 22, 2025

Latam-GPT, la IA de código abierto, gratuito y colaborativo de América Latina

Más Noticias

Latam-GPT es un modelo de lenguaje hecho en Latinoamérica, para Latinoamérica, mucho más allá de las big tech. Esta región del mundo, que abarca desde el archipiélago de Tierra del Fuego hasta el río Bravo, donde veinte países y más de 650 millones de personas comparten historia, cultura, preocupaciones y esperanzas; y donde se habla español; portugués, francés, pero también unas 550 lenguas indígenas, no solo sueña poder desarrollar capacidades para tener independencia y tomar decisiones sobre cómo la IA impacta a su sociedad: está activamente construyendo un modelo de lenguaje regional.

“Esta tarea no la puede asumir solo un grupo ni un solo país de América Latina: es un desafío que requiere el esfuerzo de todos”, sostiene Álvaro Soto, director del Centro Nacional de Inteligencia Artificial en Chile (CENIA), en entrevista con WIRED en Español. “Latam-GPT es un proyecto que busca crear un modelo de IA abierto, gratuito y, principalmente, colaborativo. Llevamos dos años en un proceso que ha sido muy bottom-up, juntando a ciudadanos de distintos países que quieren colaborar. Recientemente, también se ha vuelto más top-down, con gobiernos que se han interesado y han empezado a participar”.

CENIA es una empresa privada sin ánimo de lucro que trabaja en conjunto con más de 30 instituciones de América Latina y el Caribe y más de 60 expertas y expertos. El proyecto cuenta con el apoyo del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación en la coordinación internacional con los distintos estados de la región y el apoyo de recursos desde CAF.

El proyecto Latam-GPT se distingue por su espíritu colaborativo.“No buscamos competir con OpenAI; Deepseek o Google. Queremos un modelo propio de Latinoamérica y el Caribe, con los requisitos y desafíos culturales que eso implica, como comprender los distintos dialectos, historia y aspectos culturales», explica Álvaro Soto.

Gracias a 33 alianzas estratégicas consolidadas en 2024 con instituciones de Latinoamérica y el Caribe, el proyecto ha reunido un corpus de datos superior a los 8 terabytes de texto, lo que equivale a millones de libros. Esta base informativa ha permitido desarrollar un modelo de lenguaje de 50 mil millones de parámetros, una escala que lo hace comparable a GPT-3.5 y le otorga una capacidad de mediana a alta para realizar tareas complejas como razonamiento, traducción y asociación de ideas.

El proyecto ha logrado unir a prestigiosas instituciones académicas y gubernamentales de toda la región. En Argentina, participan la Fundación Vía Libre y la Facultad de Matemática, Astronomía, Física y Computación (FAMAF) de la Universidad Nacional de Córdoba. Desde Colombia, se suman la Universidad de los Andes, la Universidad Javeriana, la Universidad Externado y la Universidad La Salle. La iniciativa cuenta también con el respaldo de la Universidad Espíritu Santo en Ecuador, la Universidad Científica del Sur en Perú, y un robusto contingente de México compuesto por INFOTEC, CENTROGEO e INAOE. En Uruguay, colaboran AGESIC, DatySoc y LABEVA de la Facultad de Información y Comunicación de la Udelar. Finalmente, en Chile, el esfuerzo es liderado por CENIA y el Ministerio de Ciencia y Tecnología, junto a actores clave como el CRUCH, la Academia Chilena de la Lengua, el Departamento de Filosofía de la Universidad de Chile, JhedAI, Theodora y Bibliotecas UC.

LATAM GPT es una base de datos regional que abarca información de 21 países latinoamericanos, con un total impresionante de 2,645,500 documentos recopilados y un promedio de completitud del 59.5%. La distribución de datos muestra una concentración significativa en los países más grandes de la región, siendo Brasil el líder indiscutible con 685,000 documentos, seguido por México con 385,000, España con 325,000, Colombia con 220,000 y Argentina con 210,000 documentos, lo que refleja tanto el tamaño de estos mercados como su desarrollo digital y disponibilidad de información estructurada.

“Inicialmente, lanzaremos un modelo de lenguaje. Esperamos que su rendimiento en tareas generales sea cercano al de los grandes modelos comerciales, pero que tenga un rendimiento superior en temáticas específicas de Latinoamérica. La idea es que, si le preguntamos sobre temas relevantes para nuestra región, su conocimiento sea mucho más profundo”, explica Soto.

El primer modelo es el punto de partida para desarrollar una familia de tecnologías más capaces, que incluyan imagen y video, y para escalar a modelos más grandes. “Al ser un proyecto abierto, buscamos que otras instituciones puedan tomarlo como base. Por ejemplo, que un grupo en Colombia lo adapte para el sistema de educación escolar o que en Brasil lo especialicen para el sector salud. La idea es abrir la puerta para que distintas entidades generen modelos específicos para la agricultura, la cultura o cualquier otra necesidad particular”, explica el director de CENIA.

La infraestructura de supercómputo de la Universidad de Tarapacá (UTA) es un pilar fundamental para Latam-GPT. Con una inversión proyectada de 10 millones de dólares, el nuevo centro cuenta con un clúster de 12 nodos, cada uno equipado con 8 GPUs NVIDIA H200 de última generación. Esta capacidad, inédita en Chile, y en la región, no solo permite por primera vez el entrenamiento de modelos a gran escala en el país, sino que también promueve la descentralización y la eficiencia energética.

La primera versión de Latam-GPT será lanzada este 2025. El modelo se perfeccionará y crecerá a medida que se sumen nuevos socios estratégicos y se integren conjuntos de datos más robustos.

Esta entrevista ha sido editada para mayor brevedad y claridad.

WIRED: Gigantes como Google, OpenAI y Anthropic invierten miles de millones en sus modelos. ¿Cuál es el argumento técnico y estratégico que justifica el desarrollo de un modelo propio para Latinoamérica?

Álvaro Soto: Por muy poderosos que sean los grandes modelos, no son capaces de abarcar todos los aspectos relevantes para nuestra realidad. Siento que hoy están muy enfocados en las necesidades de otras partes del mundo. Imagina que quisiéramos usar estos modelos para modernizar el sistema educativo en Latinoamérica. Si le pides un ejemplo a uno de estos modelos, probablemente te hablará de George Washington.

Nosotros somos los indicados para preocuparnos de nuestras propias necesidades, no podemos quedarnos esperando a que en algún momento tengan espacio para preguntarnos qué necesitamos. Dado que son tecnologías muy disruptivas y recientes, hay espacio y necesidad para que, desde nuestra región, podamos aprovechar sus beneficios y entender sus riesgos. Tener esta experiencia es fundamental para guiar el uso de la tecnología por un camino asertivo.

Además, esto abre posibilidades para nuestros investigadores. Hoy, los académicos latinoamericanos tienen pocas oportunidades de interactuar a fondo con estos modelos. Es como si quisiéramos estudiar resonancia magnética pero no tuviéramos un resonador. Latam-GPT busca ser esa herramienta fundamental para que la comunidad científica pueda experimentar y avanzar.

WIRED: El insumo clave son los datos. ¿Cuál es el estado del corpus de Latam-GPT y cómo abordan el reto de incluir no solo las variantes del español y portugués, sino también las lenguas originarias?

Álvaro Soto: Hemos puesto mucho énfasis en generar datos de alta calidad. No se trata solo de volumen, sino de la composición. Analizamos la diversidad regional para asegurar que los datos no provengan solo de un país, sino que haya una representatividad equilibrada. Si detectamos que tenemos pocos datos de Nicaragua, por ejemplo, buscamos activamente colaboradores allí.

También analizamos la diversidad de tópicos: política, deporte, arte, etc., para tener un corpus balanceado. Y, por supuesto, está la diversidad cultural. En esta primera versión, nos hemos centrado en tener información cultural sobre nuestros pueblos ancestrales, como los aztecas o los incas, más que en la lengua misma. En el futuro, la idea es incorporar también las lenguas originarias. En CENIA ya estamos trabajando en traductores para el mapuche y el rapanui, y otros grupos en la región hacen lo mismo con el guaraní. Es un ejemplo claro de algo que tenemos que hacer nosotros, porque nadie más lo va a hacer.

WIRED: ¿Podrías contarnos más sobre CENIA y el contexto en el que surge esta iniciativa en Chile?

Álvaro Soto: Entre 2017 y 2018, un grupo de expertos, del cual formé parte, elaboró la Política Nacional de Inteligencia Artificial de Chile. Una de las conclusiones fue la necesidad de crear una institución que velara por el desarrollo de un ecosistema de IA sinérgico y saludable, abarcando la ciencia, la transferencia tecnológica a la industria y la responsabilidad social. Así nació CENIA.

Aunque surgimos en Chile, tenemos una visión regional. Creemos que juntos somos más fuertes. Por eso, hemos impulsado iniciativas como el Índice Latinoamericano de Inteligencia Artificial, un estudio colaborativo que mide el estado de avance de la IA en los países de la región.

WIRED: Tu campo es la robótica cognitiva. ¿Cómo se vincula un modelo de lenguaje regional con la capacidad de un agente autónomo para interactuar en un contexto latinoamericano?

Álvaro Soto: En robótica cognitiva, la parte «cognitiva» es la inteligencia. Mi carrera se ha centrado en desarrollar la inteligencia para máquinas físicas. Hoy, los modelos de lenguaje y los modelos fundacionales son la vanguardia de la IA. Son las herramientas más potentes que tenemos, por lo que mi trabajo se dedica a entender y aportar al desarrollo científico y aplicado de este tipo de tecnología.

WIRED: Los modelos hegemónicos enfrentan problemas geopolíticos y de poder muy cubiertos mediáticamente. ¿Cuáles son nuestros problemas específicos en América Latina respecto a estos modelos?

Álvaro Soto: Tenemos muchos desafíos, pero también muchas fortalezas, como nuestra apertura y nuestra capacidad de colaboración, que hemos visto en el proyecto Latam-GPT. Dicho esto, uno de los ámbitos fundamentales donde debemos enfocarnos es la educación. Estas tecnologías van a cambiar las habilidades que requieren las nuevas generaciones. El conocimiento memorístico será menos crítico; lo importante será saber usar ese conocimiento. Debemos preparar a nuestros jóvenes para eso, fomentando también las ciencias sociales y una actitud crítica. Si tuviera que elegir dónde aplicar estas tecnologías, sería en educación, porque atacar la causa de muchos de nuestros problemas.

WIRED: Un proyecto así requiere un poder de cómputo masivo. ¿Es realista para la región desarrollar la infraestructura necesaria? ¿Qué implicaciones tiene para nuestra soberanía tecnológica?

Álvaro Soto: Es fundamental. Si quieres jugar al fútbol, necesitas una cancha y una pelota. Aquí, el poder de cómputo es la cancha. Necesitamos desarrollarlo, ya sea en la nube o en centros de datos propios. Es una infraestructura necesaria para esta nueva era tecnológica, al igual que lo fue la infraestructura de telecomunicaciones para internet.

WIRED: Mirando hacia 2030, ¿cuál sería un escenario de éxito para un modelo como Latam-GPT? ¿Lograremos posicionarnos como desarrolladores de tecnología en lugar de solo consumidores?

Álvaro Soto: El éxito sería que Latam-GPT haya jugado un rol importante en el desarrollo virtuoso de la inteligencia artificial en nuestra región. Que distintas organizaciones tomen esta tecnología y la apliquen, por ejemplo, en la educación. Que las nuevas generaciones de latinoamericanos estén mejor preparadas porque tuvieron acceso a herramientas que les hablaban en su contexto, con sus referentes culturales, con nuestros grandes próceres y no solo con ejemplos de otras partes del mundo. Si logramos que esta tecnología tenga un sello latinoamericano y contribuya a una mejor formación, el proyecto habrá sido un gran éxito.

Redacción

Fuente: Leer artículo original

Desde Vive multimedio digital de comunicación y webs de ciudades claves de Argentina y el mundo; difundimos y potenciamos autores y otros medios indistintos de comunicación. Asimismo generamos nuestras propias creaciones e investigaciones periodísticas para el servicio de los lectores.

Sugerimos leer la fuente y ampliar con el link de arriba para acceder al origen de la nota.

 

- Advertisement -spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

- Advertisement -spot_img

Te Puede Interesar...

La Fiesta de Disfraces de Paraná se muda a San Nicolás por primera vez

La emblemática Fiesta de Disfraces de Paraná (FDD), considerada la más grande de Latinoamérica, tendrá su edición 2025 en...
- Advertisement -spot_img

Más artículos como éste...

- Advertisement -spot_img