EXTRACCIÓN DE RESÚMENES

DAEDALUS dispone de una versátil tecnología para la elaboración de resúmenes de textos en castellano. Esta tecnología es adaptable a cualquier formato electrónico y tipo de texto (noticias de prensa, textos legislativos, documentos internos de empresas o instituciones, etc.). Podemos alcanzar una elevada calidad en resúmenes elaborados automáticamente ajustando los parámetros del sistema de acuerdo con las necesidades de nuestros clientes.

Acceda al siguiente documento para ver una descripción técnica de nuestros sistemas de resumen automático:

  • Un sistema para resumen automático de textos en castellano
    Pedro Mateo, José C. González, Julio Villena y José L. Martínez
    Procesamiento de Lenguaje Natural, núm. 31, págs. 29-36
    Actas del XIX Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN 2003)
    Alcalá de Henares, septiembre 2003.

El sistema consta de cinco módulos, como se ve en la figura: análisis morfosintáctico, ponderación de frases, detección de anáforas, selección de frases y post-procesado del extracto.

El proceso de síntesis comienza con el análisis morfosintáctico del documento de entrada. Basándose en esta información y en la presencia de diversas características superficiales, el módulo de ponderación de frases asigna puntuaciones a las frases del texto según su importancia. Además, entrega a su salida una lista de las frases candidatas (un porcentaje dado de las frases más importantes).

El módulo de selección de frases escoge las oraciones candidatas que han obtenido mayores puntuaciones, teniendo en cuenta la longitud deseada del resumen y la salida del módulo de detección de anáforas, que analiza la presencia de referencias anafóricas. Permite realizar tanto
extracción de párrafos completos como de frases sueltas.

Una vez seleccionadas las frases del extracto, el módulo de post-procesado
comprueba la presencia de ciertas expresiones o marcadores discursivos al comienzo de las mismas (por ejemplo, "como se indica en el apartado anterior"), con el objetivo de editarlas si fuera necesario. A su salida, entrega el resumen del documento.