Las computadoras están mejorando en la traducción, pero aún no son tan capaces como los humanos, que pueden capturar matices en el idioma y traducir texto para diferentes efectos, dependiendo de la audiencia.

Para desarrollar algoritmos de traducción más sofisticados, capaces de traducir por estilo, los investigadores de Dartmouth College recurrieron a la Biblia.

Debido a que la Biblia ha sido traducida tantas veces, el texto y sus muchos derivados ofrecen algoritmos de aprendizaje automático, un vasto conjunto de datos de los cuales aprender.

Los investigadores utilizaron las muchas traducciones de los 31,000 versos de la Biblia para producir más de 1.5 millones de combinaciones de traducción únicas. El conjunto de datos permitió a los algoritmos aprender cómo el mismo texto se puede traducir de miles de maneras, cada una ofreciendo un estilo único.

La Biblia en idioma inglés viene en muchos estilos escritos diferentes, por lo que es el texto fuente perfecto para trabajar en la traducción de estilos, dijo Keith Carlson, un estudiante de doctorado en Dartmouth, en un comunicado de prensa.

Debido a que la Biblia y sus muchas traducciones están indexadas de manera experta, los algoritmos para alinear texto (para asegurar que cada fragmento de traducción represente el mismo verso) eran innecesarios.

Los investigadores caracterizaron las diferencias de estilo al entrenar los algoritmos para reconocer voces pasivas o activas, así como también vocabulario. Estos factores ayudaron a los algoritmos a reconocer diferentes traducciones como más o menos simples o formales.

Para ayudar al algoritmo a reconocer el espectro completo de estilos lingüísticos, los investigadores utilizaron 34 traducciones bíblicas estilísticamente distintas, con la Biblia King James representando el extremo más complejo del espectro y la Biblia en inglés básico representando el extremo menos complejo del espectro.

Después de aumentar y entrenar dos algoritmos de aprendizaje automático, utilizando los datos de la Biblia, los investigadores tradujeron pasajes de Moby Dick. Los algoritmos tradujeron con éxito los pasajes de la novela de Herman Melville para diferentes audiencias, incluidas versiones para lectores jóvenes y hablantes de inglés no nativos.
Los investigadores detallaron sus nuevos algoritmos esta semana en la revista Royal Society Open Science.

La simplificación de texto es solo un tipo específico de transferencia de estilo. En términos más generales, nuestros sistemas apuntan a producir texto con el mismo significado que el original, pero lo hacen con diferentes palabras, dijo Carlson.