STILUS Lang
Detección automática de idioma
STILUS Lang es un producto de la familia STILUS cuya finalidad es determinar automáticamente el idioma en que está escrito un determinado fragmento de texto. El objetivo es poder realizar un procesamiento específico del texto según su idioma.
Actualmente STILUS Lang puede distinguir entre ocho idiomas: español, catalán, euskera, gallego, inglés, francés, alemán, italiano y holandés.
Para detectar el idioma se analizan las palabras del texto y se buscan equivalentes en cada una de las lenguas. Para ello, se dispone de listas de palabras así como una lista de frecuencias de n-gramas (secuencias de n-letras) para cada uno de los idiomas.
El proceso es bastante sencillo. Una por una, se extraen las palabras de un texto, se verifican en las bases léxicas disponibles y se hace un cálculo de la distribución de frecuencias de n-gramas. En el momento en que se produce una detección se puntúa el idioma en cuestión. Una vez comprobadas las palabras iniciales en el fragmento de texto, el idioma con la puntuación más alta es el idioma del texto, aunque es imprescindible una puntuación mínima para asignar al texto una lengua determinada.
