BÚSQUEDA DE RESPUESTAS

Un sistema de búsqueda de respuestas (en inglés Question Answering) es aquel capaz de proporcionar una respuesta precisa a una pregunta de un usuario. Podría pensarse en que esa tarea es muy similar a la que ya efectúan los buscadores actuales como Google o Yahoo!, pero hay una diferencia notable: estos buscadores proporcionan páginas web o documentos en los que puede aparecer la información que desea el usuario, pero si quiere obtener datos más concretos, el usuario debe recorrer las páginas obtenidas para recuperarlos. En cambio, un sistema de búsqueda de respuestas devuelve la respuesta precisa, es decir, no solo localiza el documento con la respuesta, sino que además accede al mismo para extraerla. También es importante destacar que el objetivo es obtener la respuesta a la pregunta, independientemente de si ésta se encuentra en una base de datos, en una página web o en otro tipo de repositorio.

En la mayoría de los sistemas de búsqueda de respuestas actuales (todos ellos experimentales) es posible reconocer una secuencia de operaciones comunes que permitirían definir una arquitectura genérica para estos sistemas basada en los siguientes componentes:

  • Análisis de la pregunta

Para poder responder a una pregunta es necesario disponer de ciertas características entre las que, en casi todos los casos, se encuentra el tipo de pregunta y el tipo esperado para la respuesta. El tipo de pregunta determina si se quiere localizar un hecho concreto (por ejemplo, ¿qué país ganó el mundial de fútbol de 2006?), en cuyo caso se habla de preguntas factuales, o si se quiere obtener una definición de un concepto (por ejemplo, ¿qué es la osteoporosis?), donde se habla de preguntas de definición. Dependiendo del sistema considerado, se incluyen otros factores como si es una pregunta de tipo lista, es decir, si se espera una lista de valores como respuesta (por ejemplo, ¿qué países forman la Unión Europea?). También se determina en esta fase el tipo esperado en la respuesta que, básicamente, viene a indicar si se está buscando un nombre de persona, una organización, una fecha concreta, etc.

  • Recuperación de información

Los sistemas de búsqueda de respuestas que trabajan sobre contenidos web necesitan de algún mecanismo que facilite una lista de páginas web que puedan contener la respuesta buscada. A estos sistemas se les denomina sistemas de recuperación de información y entre ellos se encuentran los buscadores de todos conocidos.

  • Selección de pasajes

Una vez se dispone de documentos con posibilidades de contener una respuesta, es necesario estudiarlos para seleccionar aquellas frases o conjuntos de frases (pasajes) que puedan contener una repuesta a la pregunta efectuada. Los pasajes seleccionados serán los que se empleen como entrada del siguiente componente.

  • Extracción de respuestas

Por último, queda recorrer las frases que contienen las respuestas para proceder a extraer la respuesta precisa que solicita el usuario. En esta fase se hace uso del tipo esperado en la respuesta, así como del tipo de pregunta, para seleccionar las palabras concretas que forman la respuesta o, en su caso, la frase o pasaje que la constituye.

Nuestras soluciones

Como puede adivinarse, para llevar a cabo con éxito este proceso de búsqueda es necesario disponer de tecnología para efectuar análisis lingüísticos profundos de los textos involucrados. En DAEDALUS estamos trabajando para integrar su tecnología lingüística en un sistema completo de búsqueda de respuestas.

Anteriormente DAEDALUS ya había desarrollado soluciones con versiones parciales de estos sistemas. La idea base es indexar textos de tamaño reducido (pasajes –por ejemplo, párrafos– en lugar de documentos completos), con lo que es posible ubicar mejor la respuesta a una consulta determinada. En concreto, hemos empleado estas soluciones para responder automáticamente a consultas a partir de listas de preguntas y respuestas (en inglés, Frequently Asked Questions, FAQ), de las que se disponía de versiones en varios idiomas, y también a partir de manuales de usuario. Es el tipo de problema que se da en los call centers (centros de información y servicio a los usuarios).

Cliente de referencia: Linguaserve