“La cultura latinoamericana es una amalgama vibrante de raíces indígenas, influencias africanas y herencia europea. Se caracteriza por su rica diversidad en música, danza y gastronomía, reflejada en festivales como el Carnaval y la Feria de las Flores”.
Esa es parte de la respuesta que le dio ChatGPT a los investigadores del Centro Nacional de Inteligencia Artificial (Cenia) de Chile, cuando le pidieron una”descripción de la cultura latinoamericana” en 500 caracteres.
“Su arte, desde el muralismo hasta la literatura, muestra una profunda conexión con la historia y la identidad local. La calidez, el sentido de comunidad y la celebración de la vida son pilares que enriquecen esta dinámica y diversa cultura”, agregó.
La respuesta del modelo refleja una de las varias razones por las que el organismo decidió impulsar la creación de Latam-GPT, un nuevo modelo de lenguaje de y para América Latina y el Caribe.
Sus promotores consideran que, aunque “los modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) actuales son de alta calidad, su comprensión del contexto latinoamericano podría enriquecerse y perfeccionarse”.
La iniciativa, que se lanzará a mediados de junio de 2025, busca convertirse en el primer modelo de inteligencia artificial (IA) colaborativo de América Latina y el Caribe, cuya naturaleza promete ser “pública, abierta e inclusiva”.
El proyecto fue anunciado en la Cumbre para la Acción sobre la Inteligencia Artificial, que se desarrolló los pasados 10 y 11 de febrero en París, y se trata de un modelo de Lenguaje de Gran Escala, similar al Chat-GPT o DeepSeek, cuyo objetivo principal es “reflejar la cultura, el lenguaje y la historia” de la región, ofreciendo “información más precisa y representativa de los contextos locales”.
El Cenia de Chile viene trabajando desde hace dos años en el proyecto, con el apoyo del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación chileno. El esfuerzo, sin embargo, no es exclusivo de ese país.
La iniciativa se ha desarrollado en conjunto con más de 30 instituciones y 60 expertas y expertos a nivel regional.
“La importancia de este modelo radica en que permite que la cultura, la idiosincrasia, la visión de mundo que proviene de la historia de América Latina esté plasmada en un modelo de lenguaje, que es la tecnología realmente más transformadora que hemos visto en las últimas décadas”, le dice a BBC Mundo Rodrigo Durán, gerente del Cenia de Chile.
“Y este ha sido un esfuerzo colaborativo, donde distintos países de la región han aportado no solamente con datos que representen esa cultura sino también con conocimiento, con expertise técnica, con su propia visión de cómo tiene que funcionar una solución de estas características”, explica.
Para el Cenia, este proyecto le permite a la región decir “nosotros también podemos”, cuando se trata de desarrollar inteligencia artificial.
“Y no solo eso, sino que también nos permite sacarle partido para ponerla al servicio de las personas y construir soluciones (específicas para el contexto latinoamericano)”, agrega Durán.
El proyecto ya cuenta con alianzas estratégicas con países como México, Colombia, Ecuador, Argentina, Perú, Uruguay, Costa Rica, España y Estados Unidos, lo que ha permitido generar un corpus de datos que ya alcanza 50 billones de parámetros, comparable al ChatGPT-3.5 de OpenAI.

Modelo propio de América Latina y el Caribe
Desde el organismo explican que, hasta ahora, se ha logrado reunir más de 8 TB (terabytes) de información provenientes de bibliotecas virtuales de organismos tanto privados como públicos, para alimentar su algoritmo.
Chile es el país que ha coordinado los esfuerzos para la consolidación del modelo. Y un elemento fundamental es la infraestructura de alto rendimiento que la Universidad de Tarapacá (UTA), en el marco de su plan estratégico, pondrá a disposición de esta iniciativa.
La casa de estudios, ubicada en la ciudad de Arica en el norte chileno, invirtió en la compra de un supercomputador que permitirá entrenar al modelo de lenguaje.
El procesador aún está en fase de importación desde Estados Unidos. Una vez que llegue a Chile, explican, será el que entrene el modelo.
Ese proceso, dicen conocedores del tema, podría tardar entre 35 y 40 días de funcionamiento continuo del supercomputador.
Omar Florez, de Perú, trabajó durante una década en Silicon Valley y ahora está a cargo del preentrenamiento del nuevo Latam-GPT. De hecho, cuenta que se radicará en Chile por unos meses con ese objetivo.
El experto explica a BBC Mundo que actualmente se encuentran en la fase de filtrar y organizar la información que se recopiló, además de medir su valor y de hacer pruebas de entrenamiento a menor escala para evitar errores en el modelo final.
Por otro lado, destaca que se están realizando pruebas de alineamiento para que la máquina comience a desarrollar un “sentido común” y pueda responder a los usuarios con base en el conocimiento recopilado con el que se alimentará el sistema.
“Históricamente Latinoamérica ha sido un espectador en esta área y este quizás es un primer paso para la independencia tecnológica de nuestra región en términos de inteligencia artificial”, dice Florez.

El investigador y desarrollador destaca que ahora están haciendo llamados amplios al mundo académico, científico y estatal para que colaboren en la primera fase del lanzamiento, permitiendo que, con el aporte de los usuarios, próximas versiones puedan alcanzar mayores niveles de sofisticación.
Si todo sale cómo está planeado, los usuarios podrán tener acceso al primer modelo en junio de este año y comenzar a utilizarlo en tareas básicas de su día a día, tal como lo hacen hoy con otros sistemas de inteligencia artificial. Lo mismo respecto de organismos públicos y privados que quieran incorporarlo en sus flujos de trabajo.
El proyecto regional se ha financiado con fondos del Cenia de Chile, quienes ya han desembolsado alrededor de US$300 mil. Un convenio con el Banco de Desarrollo de América Latina y el Caribe (CAF) y el Ministerio de Ciencia de Chile inyectará otros US$250 mil durante 2025.
En la infraestructura que facilitará la Universidad de Tarapacá, en tanto, se invirtieron alrededor de US$4,5 millones.
La ministra de Ciencia y Tecnología de Chile, Aisén Etcheverry, destaca el valor geopolítico del proyecto y afirma que “los modelos de lenguaje son la esencia de la inteligencia artificial y hoy solo son desarrollados por Estados Unidos, por China, por algunos países de Europa”.
“Contar con un modelo de lenguaje latinoamericano; que dé cuenta de nuestra cultura, de nuestro idioma, de nuestra aproximación a la vida, nos permite avanzar en una inteligencia artificial más sustentable”, sostiene.
¿Soberanía tecnológca?
Ulises A. Mejías, doctor en Educación (EdD) en Comunicación, Computación y Tecnología de la Universidad de Columbia y hoy profesor en la Universidad Estatal de Nueva York en Oswego, ha estudiado durante años la relación entre el poder y la tecnología.
Junto al académico inglés Nick Couldry, Mejías desarrolló una teoría que apunta a que el proceso de datificación, o el que toda nuestra vida esté cuantificada en datos, representa una nueva forma de colonialismo.
Desde esa perspectiva, el académico de originen mexicano analiza lo que sabemos de Latam-GPT.
En conversación con BBC Mundo, el experto se muestra escéptico respecto a que iniciativas locales como estas puedan suponer mayores niveles de soberanía tecnológica para la región.
“Estas cuestiones representan dimensiones coloniales del lenguaje, el conocimiento y la tecnología que no podemos evitar”, dice.
“Esta es la propuesta más grande, ambiciosa y mejor financiada que he visto” en América Latina, sostiene, pero agrega: “No confío en los proyectos que intentan diferenciarse de los modelos de IA generativa (GenAI) ofrecidos por empresas de EE. UU. y China, pero no cuestionan la premisa básica de estos modelos”.
“He visto propuestas para crear modelos GenAI que sirvan a regiones específicas, como América Latina en este caso, o a grupos minoritarios específicos; IA feminista, IA indígena…Pero no he visto mucho en cuanto a cómo estos proyectos cuestionan el funcionamiento de la GenAI y para qué sirve”, subraya.
En ese sentido, Mejías se pregunta: “¿Intenta el proyecto Latam-GPT proporcionar una nueva respuesta a la pregunta de para qué sirve la GenAI? ¿O deja sin cuestionar la suposición de que la inteligencia artificial general sirve básicamente para reducir los costos laborales y maximizar las ganancias empresariales?”.
Impacto ambiental y protección de datos
Está bien documentado el impacto ambiental que tiene el entrenamiento y alimentación continua de los modelos de Lenguaje a Gran Escala.
No solo en términos de su huella de carbono y su consumo energético, sino también respecto de su huella hídrica.
En 2021, el científico informático estadounidense David A. Patterson publicó un estudio en el que estimó que entrenar un modelo de lenguaje como Meena, de Google, es equivalente a un recorrido de 242.231 millas (389.937 km) en un vehículo de pasajeros promedio.
Mientras que en 2024, un artículo de The Washington Post estimó, junto a la Universidad de California-Riverside, que generar un texto de 100 palabras en ChatGPT consumiría, en promedio, 519 mililitros de agua.
¿Qué impacto ambiental podría tener entonces Latam-GPT?
Según explican en el Cenia de Chile, la infraestructura de la Universidad de Tarapacá tendría un consumo de 135 kWh en su primera etapa, que es lo que consumen 12 servidores de 8 GPU H200 Nvidia y su sistema de refrigeración.
“Este sistema de refrigeración no genera consumo hídrico debido a la disponibilidad de energía barata y abundante en Arica. Dada la composición de la matriz energética de Arica (99% de ERNC entre solar e hídrica), las emisiones de CO2 asociadas al entrenamiento son de 0,96 toneladas”, apuntan desde el organismo.
El Cenia destaca que la abundancia de energía solar en el norte de Chile “permite opciones de enfriamiento sin agua más eficientes y amigables con el medio ambiente”.

Si el calculo del Cenia es correcto, el entrenamiento del modelo requerirá menor esfuerzo que los grandes modelos de OpenAI o Google.
De todas formas, esto son estimaciones que solo se podrán confirmar luego de que el modelo se entrene.
Otra duda que surge respecto de este tipo de modelos de inteligencia artificial es el tratamiento y la protección de los datos tanto públicos como privados que alimentarán sus funciones.
Los promotores del proyecto señalan que la política principal para el resguardo de la propiedad intelectual y los derechos de autor será la transparencia.
En ese sentido, destacan que establecerán medidas como el uso de fuentes abiertas, el respeto a los términos de servicio de las fuentes de datos, la extracción de datos mediante API (Interfaz de Programación de Aplicaciones), lo que permite acceder a datos de un servicio de forma estructurada y autorizada cuando sea requerida, la anonimización de datos personales y el cumplimiento de las leyes de derechos de autor.