Resumen: Dataocean AI ha participado en la creación del conjunto de datos de código abierto llamado GigaSpeech 2: un corpus ASR a gran escala y multidominio para idiomas con pocos recursos

Resumen: Dataocean AI ha participado en la creación del conjunto de datos de código abierto llamado GigaSpeech 2: un corpus ASR a gran escala y multidominio para idiomas con pocos recursos

IRVINE, California–(BUSINESS WIRE)–Dataocean AI ha colaborado con la Universidad Jiao Tong de Shanghai, la Universidad China de Hong Kong, la Universidad Tsinghua, Pengcheng Lab, AISpeech, Birch AI y Seasalt AI para desarrollar con éxito GigaSpeech 2. Los conjuntos de prueba y desarrollo de GigaSpeech 2 están etiquetados por un equipo profesional de Dataocean AI.




Perspectiva general de GigaSpeech 2

GigaSpeech 2 es un corpus de reconocimiento del habla multilingüe, multidominio, a gran escala y en constante expansión, diseñado para fomentar la investigación y el desarrollo en el reconocimiento del habla en lenguas con pocos recursos. GigaSpeech 2 contiene 30 000 horas de audio transcrito automáticamente en tailandés, indonesio y vietnamita.

El comunicado en el idioma original es la versión oficial y autorizada del mismo. Esta traducción es solamente un medio de ayuda y deberá ser comparada con el texto en idioma original, que es la única versión del texto que tendrá validez legal.

Contacts

[email protected]