Car-tech

Los sistemas de reconocimiento de voz deben ser más inteligentes, dice el profesor

Versión Completa. Educación para la convivencia y resolución de conflictos. Nélida Zaitegi, pedagoga

Versión Completa. Educación para la convivencia y resolución de conflictos. Nélida Zaitegi, pedagoga
Anonim

detestando hablar por teléfono con sistemas de reconocimiento de voz automatizados puede dar consuelo en el hecho de que los científicos están trabajando para hacer esos sistemas más realistas y menos molestos de usar.

"De la experiencia del consumidor, las personas encuentran estos sistemas muy frustrantes", dijo James Allen, quien es el presidente de ciencias de la computación en la Universidad de Rochester, habló antes de la conferencia SpeechTEK 2010, celebrada en Nueva York esta semana.

La mayoría de los sistemas de reconocimiento de voz computarizados pueden comprender lo que dice un humano hasta el 98 por ciento del tiempo, y, sin embargo, las personas aún se irritan al usar sistemas de escritorio de ayuda telefónica automatizados. La clave para hacer que estos sistemas sean menos frustrantes sería dándoles una comprensión más profunda del lenguaje y haciéndolos más interactivos, dijo Allen.

[Leer más: Su nueva PC necesita estos 15 programas gratuitos, excelentes]

En este momento, los departamentos de servicio al cliente de la mayoría de las organizaciones grandes ofrecen sistemas de ayuda automatizados basados ​​en teléfonos. Un usuario llama al número de ayuda y una voz artificial le hace a la persona que llama una serie de preguntas. La mayoría de estos sistemas se basan en marcos que son básicamente grandes árboles de decisión. Con tales sistemas, "uno no descubre lo que quiere la persona, está siguiendo un guión", dijo.

Los sistemas en realidad son una combinación de varias tecnologías diferentes. Uno es el reconocimiento de voz o la capacidad de una computadora para comprender o traducir con éxito en texto lo que el orador dice.

La otra tecnología, el procesamiento de lenguaje natural (NLP), intenta convertir el mensaje del hablante en un comando que la computadora puede ejecutar, o que puede resumirse para un operador humano.

Se han logrado grandes avances tanto en reconocimiento de voz como en PNL en las últimas décadas, pero aparentemente han provocado la frustración de sus usuarios. "Solo llamo al banco cuando tengo un problema y peleo con estos sistemas. [Pregunto] qué puedo responder para comunicarme con una persona lo más rápido posible", dijo Allen.

El trabajo de investigación académica de Allen ha sido en la búsqueda de formas de "poder hablar con una máquina de la misma manera que podemos hablarle a una persona", dijo.

Las conversaciones entre dos personas pueden ser precisas en formas en que las computadoras tienen dificultades para encontrar coincidencias. Allen señaló algunos trabajos iniciales que realizó como estudiante graduado, en los cuales grabó conversaciones en el mostrador de información de la estación de trenes. En una interacción, un pasajero camina hacia la cabina y dice "8:50 a Windsor", y el asistente responde "Puerta 10, 20 minutos tarde". Mientras que el asistente sabía exactamente qué información buscaba el investigador, los sistemas computarizados encontrarían aturdida la primera afirmación del pasajero.

Como lo ve Allen, faltan dos elementos en los sistemas modernos: la capacidad de analizar lo que dice el orador y el capacidad de conversar con el hablante para aprender más sobre lo que el orador tiene la intención de decir.

"Muchos de los PNL disponibles tienden a ser superficiales. No tenemos tecnología que le dé sentido a las oraciones". él dijo. Las herramientas de procesamiento estadístico y el servicio de definición de palabras como WordNet pueden ayudar a definir una palabra pero también las relaciones de una palabra, de modo que un sistema sabrá que, por ejemplo, una "subsidiaria" es parte de una "empresa".

Más También se necesita una comunicación bidireccional entre los usuarios y las computadoras. Al hablar sobre sus necesidades, las personas pueden proporcionar información sin un orden particular. Debería depender de la computadora juntar esta información y no cargar al usuario con preguntas cuyas respuestas ya se hayan proporcionado.

"Este es el futuro, esto es realmente lo que quiere que hagan los sistemas, y podemos construir un diálogo sistemas que pueden soportar este rango de complejidad ", dijo.

Para ilustrar esta idea, Allen y un equipo de investigadores diseñaron un programa llamado Cardiac que podía imitar las preguntas que una enfermera le haría a un paciente con una enfermedad cardíaca. El programa fue creado con fondos de los Institutos Nacionales de Salud de EE. UU. Con este sistema, una vez que un usuario proporciona información, el sistema no volvería a solicitarla, dijo Allen. El sistema razonaría sobre qué material ya se proporcionó y qué se necesitaba todavía.

Otro programa diseñado por Allen y su equipo, llamado Plough, puede aprender a llevar a cabo tareas comunes en una computadora. "Este es un sistema que le permite esencialmente usar el diálogo para capacitar a su sistema sobre cómo hacer las cosas por usted", dijo.

Como ejemplo, Allen demostró que el programa está aprendiendo a encontrar restaurantes cercanos usando un navegador. El usuario abrirá un navegador, navegará a un sitio de localización de restaurantes, tecleará el tipo de restaurante buscado y la ubicación, y luego cortará y pegará los resultados en una página en blanco. El usuario describió cada paso a medida que se llevaba a cabo.

En el proceso, Plough registraba cada paso y respondía audiblemente cuando se entendía el paso. Más tarde, cuando el usuario quiera buscar otro restaurante, el programa realizará todos los mismos movimientos, produciendo automáticamente otra lista de restaurantes. La Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. Financió el desarrollo de este programa.

Más datos son la clave para sistemas de procesamiento de lenguaje más humanos, acordó el científico jefe de Microsoft para el discurso, Larry Heck, en otra conferencia en la conferencia. "Si no tienes los datos, no importa cuán sofisticados sean tus algoritmos", dijo.

Un lugar para encontrar más datos sería en las consultas de los motores de búsqueda, sugirió. Los servicios de motor de búsqueda obtienen un gran número de consultas, todas las cuales se vinculan a las respuestas. "Veo la búsqueda como un primo cercano a la tecnología de procesamiento del lenguaje", dijo Heck.

En la actualidad, las personas están capacitadas para estructurar sus consultas como un conjunto de palabras clave. En cambio, si los usuarios tuvieran que escribir oraciones completas que describan lo que necesitan, el conjunto de datos resultante podría ayudar mucho a los sistemas a comprender mejor lo que las personas buscan.

Heck predijo que a medida que más personas usan servicios de búsqueda activados por voz de Microsoft y Google, se acostumbrarán a estructurar sus consultas en oraciones completas, lo que con el tiempo podría ayudar a los sistemas NLP a anticipar mejor las necesidades de los usuarios.

Joab Jackson cubre software empresarial y tecnología de última generación para The IDG News Servicio. Sigue a Joab en Twitter en @Joab_Jackson. La dirección de correo electrónico de Joab es [email protected]