[CIUDAD DE MÉXICO, SciDev.Net] Pese a los avances en inteligencia artificial (IA), los grandes modelos de lenguaje (LLM por sus siglas en inglés), como Mistral y ChatGPT, operan bajo una estructura lingüística y cultural desfavorable a América Latina, que impacta en la búsqueda y generación de conocimiento en los idiomas de la región.
Una investigación liderada por especialistas de instituciones chilenas revela que estos sistemas ofrecen respuestas con distintos niveles de precisión en función del tipo de idioma y conocimiento consultado.
El grupo creó LatamQA, base de datos de más de 26 mil preguntas sobre la cultura de 20 países latinoamericanos —hechos históricos, comida, música, expresiones locales, memoria e identidad— para detectar si los LLM presentaban sesgos al tratar contextos culturales de la región.
El equipo hizo esas preguntas en español latinoamericano, español ibérico, portugués brasileño, e inglés, y encontró que los LLM funcionan mejor en español ibérico que en español latinoamericano. Además, la fiabilidad de las respuestas en todos los idiomas disminuye cuando son preguntas sobre rasgos culturales menos visibles.
Así, mientras los modelos son mucho más precisos para rasgos culturales de Puerto Rico, Panamá, Venezuela, Brasil y Ecuador, sucede lo contrario para El Salvador, Paraguay, Nicaragua, Guatemala y Perú.
Según el artículo, el conocimiento “válido” se concentra en Europa Occidental y América del Norte, porque los datos de entrenamiento de estos modelos provienen mayoritariamente de países del llamado “Norte Global”, lo que propicia sesgos positivos hacia rasgos asociados con la cultura occidental.
“Este fenómeno genera desigualdad y sobrerrepresentación de esas culturas comparada con la de otras regiones menos representadas”, dijo a SciDev.Net Valentín Barriere, uno de los autores del artículo y profesor en el Departamento de Ciencias de la Computación de la Universidad de Chile.
“Al traducir [las investigaciones científicas] del inglés, la IA reproduce al español formas y estructuras propias del inglés. Esto puede generar una inseguridad lingüística, porque uno piensa: ‘entonces mi variedad tiene menos valor o tiene menos prestigio”
Pablo von Stecher, doctor en Lingüística e investigador del Consejo Nacional de Investigaciones Científicas y Tecnológicas de Argentina
Como estos modelos se usan en la vida diaria, sus sesgos impactan también en la ciencia, porque “plantea el riesgo de ignorar dinámicas sociales y significados locales esenciales para la investigación regional”, afirmó.
Pablo von Stecher, doctor en Lingüística e investigador independiente del Consejo Nacional de Investigaciones Científicas y Tecnológicas de Argentina, quien no participó en el estudio, consideró que uno de esos impactos puede verse en la traducción automática de investigaciones científicas.
“Al traducirlas del inglés, la IA reproduce al español formas y estructuras propias del inglés. Esto puede generar una inseguridad lingüística, porque uno piensa: ‘entonces mi variedad tiene menos valor o tiene menos prestigio’”, comentó a SciDev.Net.
Von Stecher calificó al fenómeno como una hegemonía lingüística que jerarquiza ciertas lenguas o variedades sobre otras.
Él ha analizado las respuestas automáticas de Gmail concluyendo que tienen sesgos lingüísticos porque calcan del inglés frases como “suena bien” (sounds good) o “se ve bien” (looks good), que resultan ajenas a muchas variedades del español latinoamericano.
Rachel Turba, investigadora postdoctoral de la Pontificia Universidad Católica de Rio Grande do Sul, en Brasil, coincidió en que estos sesgos son una forma de colonialismo que afecta a quienes no dominan el inglés.
“Los sesgos en los LLM importan porque no todos los investigadores hablan o escriben inglés con fluidez. Es un desafío de acceso: hay que pagar cursos, tutorías y servicios de traducción que las editoriales no ofrecen, y por eso pueden depender más de la inteligencia artificial”, precisó a SciDev.Net.
Turba es coautora de un estudio publicado este año que analiza las desigualdades que enfrentan las personas científicas del sur, en comparación con las del norte, debido a barreras lingüísticas y de financiamiento.
Otro impacto recae en la redacción científica. Según Von Stecher, los modelos operan como un instrumento lingüístico que dice cómo se debe escribir, pero “están formulados por intereses que no tienen que ver ni con la ciencia ni con la lengua, sino con el negocio, con lo que sea lo más sencillo, más reproducible, y más fácil de acceder y traducir”.
Por menos sesgos
Los especialistas coincidieron en que sí es posible reducir estos impactos al “localizar” la construcción de datos y no delegar la alimentación de los LLM a actores ajenos a la región, que pueden pasar por alto la riqueza y complejidad sociocultural latinoamericana.
Según Barriere, se pueden crear otras bases de datos de referencia, similares a LatamQA, pero con recolección de datos en contextos cotidianos como periódicos, televisión o materiales audiovisuales, para reducir sesgos sobre rasgos culturales muy locales.
Un ejemplo es LatamGPT, modelo de lenguaje entrenado con datos de América Latina. Coordinado por el Centro Nacional de Inteligencia Artificial de Chile (CENIA), el proyecto articula al mundo académico, el sector público y organizaciones especializadas de 15 países: 13 de América Latina y el Caribe, más dos externas a la región.
El 10 de febrero fue liberada su última versión. “Se libera como una base de códigos, datos y archivos entrenados para que desarrolladores puedan adaptarla a usos específicos”, dijo a SciDev.Net. Rodrigo Durán, gerente de CENIA.
Cuenta con un corpus de más de 300 mil millones de unidades mínimas de información (token) organizadas en diez áreas temáticas —desde ciencias duras hasta artes, medicina, política y pueblos originarios—, “que constituye en sí mismo un recurso científico de enorme valor para la investigación regional”, aseguró Durán.
“Será genial ver cada vez más IA y LLM desarrollados en nuestra región”, concluyó Turba. También insistió en que las empresas que ya las desarrollan tengan equipos diversos: “si no tienes otras miradas, quedas cegado por tus propios privilegios y no ves un problema cuando lo hay”.
Este artículo fue producido por la edición de América Latina y el Caribe de SciDev.Net


