EXTRACCIÓN DE INFORMACIÓN

La extracción de información incluye aquellos algoritmos, métodos y procesos centrados en la identificación de información dentro de un texto. La posibilidad de localizar determinados elementos dentro del texto facilitará la representación de su contenido semántico. Los cuatro procesos que se describen a continuación proporcionan distintos datos de un texto que facilitan su interpretación:

  • Identificación de estructuras. Se trata de encontrar, dado un texto, informaciones muy concretas que suelen adoptar estructuras similares. Esto permite emplear patrones que combinan información de estructura con información lingüística. Por ejemplo, nuestro demostrador Prospector de Información explora páginas web para obtener automáticamente números de teléfono, direcciones postales, direcciones de correo electrónico, referencias a otras páginas web y, en general, cualquier dato de contacto presente en la página web.

  • Identificación de palabras clave. Aparte de reconocer estructuras, es interesante determinar de forma automática qué palabras de un texto resultan más adecuadas para caracterizarlo, es decir, qué palabras deben elegirse como posibles palabras clave. La correcta combinación de la frecuencia de aparición de una palabra en el texto junto con su frecuencia global, es decir, en la red, es un indicativo de la bondad de esa palabra para representar al texto completo. En el demostrador Generador de tags (SEO) de interés para empresas dedicadas a la mejora de la posición en buscadores, en inglés, Search Engine Optimization (SEO).

  • Reconocimiento de entidades con nombre. La posibilidad de reconocer automáticamente la aparición de un nombre propio en un texto es una de las aplicaciones más útiles de la extracción de información. La tecnología de Daedalus va un poco más allá, permitiendo distinguir cuándo se habla de una persona, una organización, un lugar, etc., e incluso resolviendo correferencia de entidades, por ejemplo, reconociendo que los nombres "Obama" y "Barack Obama" hacen referencia a la misma persona. En el demostrador Extracción de Entidades con Nombre se permite poner a prueba esta funcionalidad, incluida en el producto STILUS NER (Named Entity Recognition). Entre los clientes que ya están haciendo uso de esta tecnología se encuentra Acceso Group.

  • Elaboración de resúmenes. El procesamiento lingüístico del texto permite determinar qué partes del mismo resultan claves para interpretar su contenido. Daedalus dispone de la tecnología necesaria para realizar el análisis del contenido del texto, construyendo un resumen a partir de las frases más relevantes. El proceso incorpora un conjunto de parámetros de configuración que permiten construir resúmenes de calidad para distintos tipos de documentos (noticias de prensa, textos legislativos, documentos internos de empresas, etc.).

Recuerde que puede poner a prueba el resto de la tecnología de Daedalus a través de nuestro sitio web de demostración Showroom.

White paper sobre Tecnologías de la Lengua

Descárgalo >>

Showroom

Pruebe nuestros productos...

Showroom >>