Modelos basados en redes neuronales para sistemas de reconocimiento del habla (CA,SL,EN,ES,DE,PT,IT,NL,FR)
Se trata de modelos de reconocimiento automático del habla para el catalán/valenciano (CA), esloveno (SL), inglés (EN), español (ES), alemán (DE), portugués (PT), italiano (IT), holandés (NL) y francés (FR). Por cada una de estas lenguas se incluye un modelo acústico y otro de lenguaje. Resuelven el problema de la transcripción/subtitulado automático, en diferido y en tiempo real, de ficheros/señales de vídeo y audio. Son modelos punteros, similares a los que emplean los mejores sistemas comerciales actuales de las grandes compañías tecnológicas. Se basan en grandes cantidades de datos de diferentes fuentes (ámbito educativo, televisivo, periodístico, legal…), lo que permite obtener resultados de alta precisión en ámbitos diversos. Nuestros sistemas basados en estos modelos han obtenido primeros puestos en competiciones internacionales (RTVE-IberSpeech TV Speech-to-Text Challenge 2018; International Conference on Machine Translation WMT18 y WMT19). El grupo MLLP-VRAIN de la UPV puede personalizar los modelos adaptándolos al dominio del cliente para aumentar la precisión de los resultados. Desde un punto de vista técnico, los modelos acústicos son híbridos que combinan modelos ocultos de Markov continuos y redes neuronales profundas; los modelos de lenguaje son de tipo estadístico, neuronal o combinaciones de ambos. Todos ellos han sido convenientemente entrenados. El software de reconocimiento automático del habla (registrado en UPV, ref. S-19912-2018) requiere un modelo acústico y otro de lenguaje, correspondientes a una misma lengua, para realizar transcripciones automáticas en dicha lengua.