El Nuevo testamento de la Biblia fue una de las fuentes de entrenamiento de un modelo de inteligencia artificial de Meta, empresa matriz de Facebook e Instagram, que permite identificar hasta 4 000 idiomas y también facilita la traducción de voz a texto y de texto a voz para 1 107 idiomas.
Equipar sistemas con la capacidad de comprender y producir voces puede permitir que muchas más personas accedan a la información, incluidas aquellas que dependen totalmente de la voz para hacerlo.
Sin embargo, crear modelos de aprendizaje automático de buena calidad para estas tareas requiere grandes cantidades de datos etiquetados: en este caso, miles de horas de audio, además de transcripciones. Estos datos son inexistentes para la mayoría de los idiomas
Por ejemplo, los modelos de reconocimiento de voz actuales solo abarcan aproximadamente 100 idiomas, una fracción de los más de 7 000 idiomas que se hablan en todo el mundo.
Recopilar datos de audio de miles de idiomas fue el primer desafío para Meta, ya que los mayores conjuntos de datos de voz actuales abarcan, como mucho, 100 idiomas. Para superarlo, los investigadores recurrieron a textos religiosos, como la Biblia, que se tradujeron a muchos idiomas distintos y cuyas traducciones se estudiaron en profundidad para investigar la traducción de textos lingüísticos.
Estas traducciones cuentan con grabaciones de audio, a disposición del público, de personas leyendo estos textos en diferentes idiomas. Como parte de este proyecto, creamos un conjunto de datos de lecturas del Nuevo Testamento en más de 1,100 idiomas, lo que proporcionó un promedio de 32 horas de datos por idioma.
Mediante las grabaciones no etiquetadas de otras lecturas religiosas cristianas, los investigadores pudieron incrementar el número de idiomas disponibles a más de 4,000.
En el proyecto Massively Multilingual Speech (MMS, por sus siglas en inglés), se integró wav2vec2.0 un trabajo precursor en aprendizaje autosupervisado, así como un nuevo conjunto de datos que proporciona datos etiquetados para más de 1,100 idiomas y datos sin etiquetar para casi 4,000 idiomas. Los resultados demuestran que el nuevo modelo de inteligencia artificial de Meta se desempeña bien en comparación con los modelos actuales y cubre 10 veces más idiomas.
Aunque estos datos provienen de un ámbito específico y los suelen leer hablantes masculinos, el análisis demuestra que los modelos funcionan con la misma eficacia tanto para voces masculinas como femeninas.
"Y, si bien el contenido de las grabaciones de audio es religioso, nuestro análisis muestra que esto no sesga el modelo para producir un lenguaje más religioso. Creemos que esto se debe a que utilizamos un enfoque de clasificación temporal conexionista (CTC), que está mucho más restringido en comparación con los modelos de lenguaje grandes (LLM, por sus siglas en inglés) o los modelos secuencia a secuencia de reconocimiento de voz", indicó la compañía en su blog oficial.
A medida que aumenta el número de idiomas, el rendimiento disminuye, pero muy poco: al pasar de 61 a 1 107 idiomas, el porcentaje de errores de caracteres aumenta solo en un 0,4%, pero la cobertura lingüística aumenta más de 17 veces.
F/Andina