TT-Streaming: API RPC para la transcripción y traducción de emisiones de audio en directo
Las tecnologías de inteligencia artificial relacionadas con el procesamiento del lenguaje como es el reconocimiento automático del habla (ASR) o traducción automática (MT), son claves para, principalmente, garantizar la accesibilidad universal de contenidos audiovisuales a gran escala. Su aplicación puede abarcar tanto contenidos bajo demanda (off-line) como contenidos retransmitidos en directo (on-line o streaming), de cualquier tipología (p.e. informativos, deportivos, educativos, entretenimiento).
La generación automática de subtítulos multilingües proporciona grandes beneficios más allá de la accesibilidad, por ejemplo: indexación de contenidos, búsqueda y recomendación semántica, generación automática de resúmenes, etc. Estas tecnologías son, además, requisito indispensable para el funcionamiento de chatbots, asistentes personales (p.e. altavoces inteligentes) y sistemas de control por voz (omnipresentes en vehículos). El despliegue de este tipo de tecnologías en repositorios educativos, televisiones, y plataformas de gestión de contenidos (Content management systems, CMS), para contenidos audiovisuales consumidos bajo demanda (off-line), ya está cubierto por el software del grupo ‘S-17943-2016 TLP: The transLectures-UPV Platform. Multilingual subtitling and text translation for MOOCs and media repositories’). De hecho, este software se encuentra actualmente en explotación, ofreciendo servicios de subtitulación automática multilingüe a multitud de organizaciones e instituciones nacionales e internacionales, incluyendo el repositorio institucional UPV[Media] (poliMedia). No obstante, dicho software no está concebido para el procesamiento de contenidos audiovisuales retransmitidos en directo, y tampoco para su uso en contextos que requieran una respuesta inmediata del sistema, como ocurre con los asistentes personales, chatbots, o sistemas de control por voz.
El software ‘TT-Streaming: RPC API for transcription and translation of live audio streams’; viene a responder al creciente interés y necesidad de proveer estos servicios de transcripción y traducción en tiempo real o de rápida respuesta. Dicho software se ofrece como SaaS (Software as a Service), e implementa una API (Application Programming Interface) basada en el protocolo estándar RPC (Remote Procedure Call), que permite la transcripción y traducción en tiempo real de flujos continuos de audio, utilizando internamente los sistemas de transcripción (ASR) y traducción (MT) del grupo MLLP-VRAIN.
Estos sistemas están a la vanguardia de la técnica y superan, en calidad, y con creces, a los sistemas ASR de Google Speech-To-Text Cloud en tareas representativas del mundo real, como contenidos televisivos (RTVE, À Punt), contenidos educativos (poliMèdia, VideoLectures.NET), y divulgativos (TED), en diferentes lenguas: Valenciano, Castellano, Inglés y Esloveno. Este software permitirá a la UPV, por tanto, ofrecer servicios de transcripción y traducción punteros en tiempo real de bajo coste, una capacidad que solo ofrecen hoy día, en origen, un reducido grupo de grandes empresas tecnológicas (Google, Microsoft).