TT-Streaming: API RPC para la transcripción y traducción de emisiones de audio en directo

LenguajeUPV

Las tecnologías de inteligencia artificial relacionadas con el procesamiento del lenguaje como es el reconocimiento automático del habla (ASR) o traducción automática (MT), son claves para, principalmente, garantizar la accesibilidad universal de contenidos audiovisuales a gran escala. Su aplicación puede abarcar tanto contenidos bajo demanda (off-line) como contenidos retransmitidos en directo (on-line o streaming), de cualquier tipología (p.e. informativos, deportivos, educativos, entretenimiento).

La generación automática de subtítulos multilingües proporciona grandes beneficios más allá de la accesibilidad, por ejemplo: indexación de contenidos, búsqueda y recomendación semántica, generación automática de resúmenes, etc. Estas tecnologías son, además, requisito indispensable para el funcionamiento de chatbots, asistentes personales (p.e. altavoces inteligentes) y sistemas de control por voz (omnipresentes en vehículos). El despliegue de este tipo de tecnologías en repositorios educativos, televisiones, y plataformas de gestión de contenidos (Content management systems, CMS), para contenidos audiovisuales consumidos bajo demanda (off-line), ya está cubierto por el software del grupo ‘S-17943-2016 TLP: The transLectures-UPV Platform. Multilingual subtitling and text translation for MOOCs and media repositories’). De hecho, este software se encuentra actualmente en explotación, ofreciendo servicios de subtitulación automática multilingüe a multitud de organizaciones e instituciones nacionales e internacionales, incluyendo el repositorio institucional UPV[Media] (poliMedia). No obstante, dicho software no está concebido para el procesamiento de contenidos audiovisuales retransmitidos en directo, y tampoco para su uso en contextos que requieran una respuesta inmediata del sistema, como ocurre con los asistentes personales, chatbots, o sistemas de control por voz.

El software ‘TT-Streaming: RPC API for transcription and translation of live audio streams’; viene a responder al creciente interés y necesidad de proveer estos servicios de transcripción y traducción en tiempo real o de rápida respuesta. Dicho software se ofrece como SaaS (Software as a Service), e implementa una API (Application Programming Interface) basada en el protocolo estándar RPC (Remote Procedure Call), que permite la transcripción y traducción en tiempo real de flujos continuos de audio, utilizando internamente los sistemas de transcripción (ASR) y traducción (MT) del grupo MLLP-VRAIN.

Estos sistemas están a la vanguardia de la técnica y superan, en calidad, y con creces, a los sistemas ASR de Google Speech-To-Text Cloud en tareas representativas del mundo real, como contenidos televisivos (RTVE, À Punt), contenidos educativos (poliMèdia, VideoLectures.NET), y divulgativos (TED), en diferentes lenguas: Valenciano, Castellano, Inglés y Esloveno. Este software permitirá a la UPV, por tanto, ofrecer servicios de transcripción y traducción punteros en tiempo real de bajo coste, una capacidad que solo ofrecen hoy día, en origen, un reducido grupo de grandes empresas tecnológicas (Google, Microsoft).

Tema: Educación y traducción

Enlace: https://aplicat.upv.es/exploraupv/ficha-tecnologia/patente_software/32762?busqueda=tt+streaming

Autores: Pérez González de Martos Alejandro Manuel, Garcés Díaz-Munío Gonzalo Vicente, Giménez Pastor Adrián, Jorge Cano Javier, Sanchis Navarro José Alberto, Baquero Arnal Pau, Silvestre Cerdà Joan Albert, Juan Císcar Alfonso, Iranzo Sánchez Javier, Civera Saiz Jorge

Universidad: UPV

Grupo: VRAIN

Patente: