Mancomún

DeepSpeech 0.91, recoñecemento de voz de Mozilla

Mércores, 25 Novembro 2020

Nova actualización do motor de recoñecemento de voz DeepSpeech 0.91 desenvolto por Mozilla.

DeepSpeech é un motor de software libre de fala a texto, que utiliza un modelo adestrado por técnicas de aprendizaxe automática baseadas no traballo de investigación de Deep Speech de Baidu. O proxecto DeepSpeech utiliza TensorFlow de Google para facilitar a implementación. Distribúese baixo a licenza gratuíta MPL 2.0.

Novidades destacadas:
– Esta versión non é completamente compatible con versións anteriores, é unha versión de corrección de erros e mantén a compatibilidade cos modelos 0.9.0.
– Novos modelos acústicos experimentais de chinés mandarín adestrados nun corpus interno composto de 2000 h de discurso lido.
– Os arquivos de modelo coa extensión “.pbmm” están mapeados na memoria e por tanto son eficientes e rápidos de cargar. Os arquivos de modelo coa extensión “.tflite” son convertidos para usar TensorFlow Lite e son máis adecuados para contornas con recursos limitados.
– Os modelos acústicos foron adestrados en inglés americano cun aumento de ruído sintético e o modelo .pbmm alcanza unha taxa de erro de palabras do 7,06% no corpus de probas limpas de LibriSpeech.
– O modelo actualmente desempéñase mellor en ambientes de baixo ruído con gravacións claras e ten un rumbo cara aos acentos masculinos dos Estados Unidos.

Máis información na nota oficial de lanzamento

Xunta

Xunta de Galicia, Información mantida e publicada na internet pola Xunta de Galicia

Atención á cidadanía - Accesibilidade - Aviso legal - Mapa do portal