Maya, zapoteco, náhuatl y más de 100 idiomas se suman a Google Translate en su mayor expansión en la historia

0
44

Las nuevas integraciones al traductor pueden beneficiar a 614 millones de personas alrededor del mundo, que representan el 8% de la población mundial 

 

En 2004, Sergey Brin, cofundador de Google, usó un programa de traducción que la compañía contrató para traducir un correo del coreano al inglés. De acuerdo al traductor, el directivo recibió el mensaje “The sliced raw fish shoes it wishes. Google green onion thing!” (“El pescado crudo en rodajas calza lo que desee. ¡Busca en Google la cebolla verde!”). Ese correo sin sentido fue la semilla de Google Translate, que hoy puede traducir en tiempo real 244 idiomas, de los cuales 111 se acaban de sumar y entre los que se encuentran lenguas indígenas de México como el maya, náhuatl y zapoteco. 

Con PaLM 2, el modelo de lenguaje extenso que sustenta la Inteligencia Artificial de Google, la compañía incorporó la traducción automática Zero-Shot, que le permite aprender automáticamente a traducir a otro idioma sin la necesidad de ver un ejemplo. Gracias a eso, se ha podido sumar más de un centenar de idiomas al traductor. De acuerdo con Google, la tecnología es impresionante, mas no perfecta, y por eso siempre hay que tomar en cuenta que puede tener errores. 

Traducción de lenguas indígenas 

En 2022, con la introducción de Zero-Shot, Google sumó lenguas indígenas de América Latina como el guaraní (siete millones de hablantes en Paraguay, Bolivia, Argentina y Brasil) y el aimara (dos millones en Chile, Perú y Bolivia). La nueva expansión suma lenguas indígenas de México, como el náhuatl, con un millón de hablantes en el centro de México; el zapoteco, con cerca de 500.000 en Oaxaca y Veracruz en el sur del país; el maya yucateco, hablado por casi 800.000 personas en el sur de México y parte de Belice; y el q’eqchi’, la lengua de cerca de 1,3 millones de personas en el sur de México, Belice y Guatemala. 

México es uno de los países con mayor diversidad lingüística en el mundo. En el territorio se hablan 68 lenguas indígenas, y las que se suman a Google Translate son algunas de las que cuentan con más hablantes. De acuerdo con la Secretaría de Cultura, otras de las lenguas más habladas en México son el tsotsil, tseltal, otomí, mixteco, totonaco, chol y mazateco. Del otro lado de la moneda, las lenguas en riesgo extremo de desaparecer debido al bajo número de hablantes son el ku’ahl y kiliwa de Baja California, el awakateko de Campeche, el mocho´ de Chiapas, el ayapaneco de Tabasco o el kaqchikel de Quintana Roo. 

Google ya incorpora lenguas en peligro, como el manés, lengua celta de la Isla de Man que estuvo a punto de desaparecer en 1974 con la muerte del último hablante nativo, pero que gracias a un movimiento de revitalización, hoy cuenta con miles de hablantes y ahora es parte de la red de Google Translate. 

La complejidad de la traducción 

La empresa también ha enfocado el trabajo en regiones que habían sido pasadas por alto. “Alrededor de una cuarta parte de las nuevas lenguas provienen de África, lo que representa nuestra mayor expansión de lenguas africanas hasta la fecha: fon, kikongo, luo, ga, swati (o suazi), venda y wólof”, dijo en un comunicado. Desde 2022, Google Translate tiene la iniciativa de sumar al traductor los mil idiomas más hablados en el mundo.

A pesar de que los modelos son entrenados a partir de la inteligencia artificial más poderosa de Google, la fidelidad en el lenguaje aún está lejos. La subjetividad, aunada a las costumbres de épocas y regiones, no facilita el trabajo para la empresa. Un ejemplo está en la incorporación del cantonés al traductor. Esta lengua es hablada por cerca de 70 millones de personas y era uno de los lenguajes más solicitados para incluir. La empresa dice que se trata de un idioma que fue difícil de incorporar porque a menudo en la escritura se superpone con el mandarín, lo que dificulta la búsqueda de datos y el entrenamiento de modelos. 

De acuerdo a Google, “los idiomas tienen una inmensa variación: variedades regionales, dialectos, diferentes estándares ortográficos. De hecho, muchos idiomas no tienen una forma estándar, por lo que es imposible elegir una variedad ‘correcta’. Nuestro enfoque ha sido priorizar las variedades más utilizadas de cada idioma. Por ejemplo, el romaní es una lengua que tiene muchos dialectos en toda Europa. Nuestros modelos producen texto más cercano al vlax romani sureño, una variedad comúnmente utilizada en línea. Pero también mezcla elementos de otros, como el vlax del norte y el romaní de los Balcanes”. Algo similar sucede con las lenguas indígenas de México, que tienen variantes de acuerdo a la región, por lo que no se puede esperar que sea fiel a un solo lugar. Google Translate ya cuenta con algunos de los 111 idiomas en su sitio web y en la aplicación, el resto se incorporará en los próximos días.

 

*EL PAÍS