STILUS-CLUSTER
Agrupamiento automático de textos
STILUS Cluster es un sistema para el agrupamiento automático (clustering, en inglés) de textos.
El objetivo es, a partir de un conjunto de textos, encontrar grupos de documentos parecidos entre sí.
STILUS-Cluster es el componente de la familia STILUS de productos de tecnología lingüística que ofrece funcionalidad para el clustering automático de textos en lenguaje natural.
STILUS-Cluster implementa una optimización del algoritmo clásico de agrupamiento de las K-Medias, modificado con una definición de distancia entre elementos que permite tener en cuenta los términos principales y los términos auxiliares de un texto (por ejemplo,en el caso de agrupamiento de noticias, los del título de la noticia y los de la entradilla, respectivamente). Para determinar las distancias intracluster e intercluster óptimas, STILUS-Cluster incorpora un algoritmo de búsqueda basado en la densidad del cluster (distancia media de los elementos al medoide), que permite establecer el tamaño deseado del cluster (y por tanto, el grado de parecido entre los elementos que lo componen).
Como resultado del proceso de agrupamiento, STILUS-Cluster devuelve una lista de los grupos encontrados, con su tamaño, densidad y la lista de términos más representativos (ponderados), además de los diferentes textos que forman parte de dicho grupo.
