El sistema consta de cinco módulos, como se ve en la figura: análisis morfosintáctico, ponderación de frases, detección de anáforas, selección de frases y post-procesado del extracto.
El proceso de síntesis comienza con el análisis morfosintáctico del documento de entrada. Basándose en esta información y en la presencia de diversas características superficiales, el módulo de ponderación de frases asigna puntuaciones a las frases del texto según su importancia. Además, entrega a su salida una lista de las frases candidatas (un porcentaje dado de las frases más importantes).
El módulo de selección de frases escoge las oraciones candidatas que han obtenido mayores puntuaciones, teniendo en cuenta la longitud deseada del resumen y la salida del módulo de detección de anáforas, que analiza la presencia de referencias anafóricas. Permite realizar tanto
extracción de párrafos completos como de frases sueltas.
Una vez seleccionadas las frases del extracto, el módulo de post-procesado
comprueba la presencia de ciertas expresiones o marcadores discursivos al comienzo de las mismas (por ejemplo, "como se indica en el apartado anterior"), con el objetivo de editarlas si fuera necesario. A su salida, entrega el resumen del documento.