El sistema de reconocimiento de voz se entrena en el archivo de radio para aprender los idiomas del Níger Congo


Únase a Transform 2021 del 12 al 16 de julio. Regístrese para el evento de IA del año.


Para muchos de los 700 millones de analfabetos de todo el mundo, la tecnología de reconocimiento de voz podría crear un puente hacia información valiosa. En muchos países, sin embargo, estas personas solo hablan idiomas para los que los conjuntos de datos necesarios para entrenar un modelo de reconocimiento de voz son escasos. Este déficit de datos existe por varias razones, incluido el hecho de que la creación de productos para idiomas hablados por poblaciones más pequeñas puede ser menos rentable.

Se están realizando esfuerzos sin fines de lucro para llenar el vacío, incluidas 1,000 palabras en 1,000 idiomas, la voz común de Mozilla y el proyecto Masakhane, que está tratando de traducir idiomas africanos utilizando la traducción automática neuronal. Esta semana, los investigadores del acelerador de tecnología GNCode y Stanford, con sede en Guinea, dieron a conocer una nueva iniciativa que aboga de manera única por el uso de archivos de radio en el desarrollo de sistemas de idiomas para idiomas de «bajos recursos», particularmente Maninka, Pular y Susu en la familia Níger Congo.

«Las personas que hablan los idiomas Níger-Congo tienen una de las tasas de alfabetización más bajas del mundo, y las tasas de analfabetismo son particularmente altas entre las mujeres», señalan los coautores. «Maninka, Pular y Susu son hablados por un total de 10 millones de personas, principalmente en siete países africanos, incluidos seis donde la mayoría de la población adulta es analfabeta».

La idea detrás de la nueva iniciativa es utilizar el aprendizaje no supervisado de representaciones lingüísticas para demostrar que las representaciones aprendidas de los programas de radio se pueden utilizar para el reconocimiento de voz. En ausencia de registros etiquetados, el aprendizaje no supervisado puede ayudar a expandir el conocimiento del dominio al encontrar correlaciones entre puntos de datos y luego entrenar en las etiquetas de datos recién aplicadas.

Nuevos registros

Los investigadores crearon dos conjuntos de datos, el Corpus de reconocimiento de voz de África occidental y el Corpus de radio de África occidental, que están destinados a aplicaciones dirigidas a idiomas de África occidental. El corpus de reconocimiento de voz de África Occidental contiene más de 10.000 horas de voz grabada en francés, maninka, susu y pular de aproximadamente 49 hablantes, incluidos nombres de pila guineanos y comandos de voz como «actualizar», «eliminar», «sí» y «no». » El Corpus de Radio de África Occidental consta de 17.000 fragmentos de audio extraídos de los archivos de seis estaciones de radio de Guinea. Los programas de West African Radio Corpus incluyen noticias y retransmisiones en idiomas como francés, guerze, koniaka, kissi, kono, maninka, mano, pular, susu y toma.

Para crear un sistema de reconocimiento de voz, los investigadores utilizaron wav2vec de Facebook, un marco de código abierto para el procesamiento de voz desatendido. Wav2vec utiliza un módulo codificador que graba audio sin procesar y genera representaciones de voz que se alimentan a un transformador, lo que garantiza que las representaciones capturen información sobre toda la secuencia de audio. La arquitectura de red Transformer desarrollada por investigadores de Google en 2017 estaba originalmente destinada a mejorar la traducción automática. Con este fin, se utilizan funciones de atención en lugar de una red neuronal repetitiva para predecir lo que sigue en una secuencia.

reconocimiento de voz

Arriba: las precisiones de WAwav2vec.

A pesar de que el conjunto de datos de radio contiene llamadas telefónicas, así como música de fondo y de primer plano, estática e interferencia, los investigadores lograron entrenar un modelo wav2vec con el Corpus de Radio de África Occidental, al que llaman WAwav2vec. En un experimento con idiomas en francés, maninka, pular y susu, los coautores dijeron que lograron una precisión de reconocimiento de voz multilingüe (88,01%) a la par con el modelo wav2vec base de Facebook (88,79%), a pesar de que la base El modelo fue entrenado en 960 horas de habla versus 142 horas de WAwav2vec.

Asistente virtual

Como prueba de concepto, los investigadores utilizaron WAwav2vec para crear un prototipo de asistente de voz. El asistente, que está disponible junto con los registros de datos en código abierto, puede reconocer nombres y números, así como comandos básicos para la gestión de contactos (por ejemplo, «Buscar», «Agregar», «Actualizar» y «Eliminar»). Como señalan los coautores, el acceso a teléfonos inteligentes se ha disparado en el sur global. Según Statista, se estima que hay 24,5 millones de propietarios de teléfonos inteligentes presentes solo en Sudáfrica, lo que hace que este tipo de asistentes sean útiles.

“Hasta donde sabemos, los modelos de reconocimiento de voz multilingües que hemos entrenado son los primeros en reconocer el lenguaje en Maninka, Pular y Susu. También mostramos cómo este modelo puede impulsar una interfaz de voz para la gestión de contactos ”, escribieron los coautores. “El trabajo futuro podría ampliar su vocabulario a áreas de aplicación como las microfinanzas, la agricultura o la educación. También esperamos poder expandir sus habilidades a más idiomas de la familia Níger-Congo y más allá, de modo que la alfabetización o la capacidad de hablar un idioma extranjero no sean requisitos previos para acceder a los beneficios de la tecnología. La abundancia de datos de radio debería facilitar la expansión del codificador a otros idiomas. «

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre la tecnología y las transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Aprende más
  • Funciones de red y más

conviértete en miembro

tecnologia1020

Sobre el autor

Añadir comentario

Tu dirección de correo electrónico no será publicada.