|
STILUS CORE
|
|
STILUS Core es una completa biblioteca software de herramientas para procesamiento lingüístico en castellano: filtrado, segmentación y etiquetado morfosintáctico de textos, análisis sintáctico superficial, desambiguación morfológica, extracción de resúmenes, etc.
DAEDALUS dispone de una base léxica para el castellano de gran calidad y cobertura. Esta base léxica es el diccionario principal de STILUS. Su formato está pensado para facilitar la incorporación de información por un equipo de lingüistas. A partir de él, se generan diccionarios "objeto", compilados y optimizados por herramientas específicas para su acceso y consulta desde cualquier aplicación.
La depurada caracterización morfológica de todas las entradas del diccionario hace que las herramientas desarrolladas sobre estos recursos no "sobrerreconozcan", es decir, que no den por buenas combinaciones incorrectas de raíces y morfemas.
Además de palabras individuales, la base léxica incorpora más de 27.000 expresiones multipalabra que constituyen una unidad desde el punto de vista sintáctico. Por ejemplo: "a costa de", "Juan Carlos I", "con respecto a", etc.
En total, la base léxica da cuenta de más de 130.000 lemas distintos de palabras en castellano, cuya flexión nominal o verbal (según el caso) más la posible derivación con sufijos nominales (ej: "pequeñ+ito") o pronombres enclíticos verbales (ej: "comprándo+se+lo"), dan lugar a más 6 millones de palabras en castellano. A partir de ellas, el tratamiento de la afijación con prefijos nominales (ej: "súper+pequeño") o verbales ("sobre+actuar"), permite reconocer un número inmenso de palabras, superior a los 15 millones.
A pesar de que la extensión del vocabulario de la base léxica asegura al usuario una cobertura muy amplia, la base léxica general puede carecer de ciertos grupos de voces, en ocasiones muy útiles o incluso imprescindibles para determinados usuarios:
- Tecnicismos o palabras exclusivas de un colectivo profesional determinado (economía, derecho, medicina, etc.)
- Vocabulario de uso localizado únicamente en alguna o algunas zonas de la comunidad hispanohablante. (Ej., español de Chile, español de Argentina, etc.)
Así, la base léxica general es ampliable con diccionarios temáticos a medida de la aplicación o del cliente. Actualmente STILUS dispone de diccionarios de economía, astronomía, música, tauromaquia, y diccionario de términos jurídicos, así como palabras comunes del español en diferentes zonas de la comunidad hispanohablante.
DAEDALUS ha integrado una tecnología de filtrado de documentos (en este caso, propiedad de terceros) que hace posible el reconocimiento de numerosos formatos electrónicos distintos (incluidos todos los de MS Office, HTML, PDF, texto, HTML, XML, RTF, etc.).
El filtrado permite extraer automáticamente propiedades incluidas en el formato del documento o interpretar su estructura. Por ejemplo, esto facilita la extracción de títulos, resúmenes, autores, etc. del documento cuando estas informaciones han sido codificadas en el mismo.
La segmentación es el proceso que permite identificar las unidades susceptibles de recibir análisis lingüístico. Esta tarea no se refiere solamente a las unidades "palabra", sino que puede abarcar desde la silabificación al reconocimiento de oraciones ortotipográficas, pasando por el reconocimiento de morfemas y unidades léxicas complejas.
Estas unidades susceptibles de recibir análisis se identifican por medio de expresiones regulares, más o menos complejas, que permiten asimismo el reconocimiento de otras unidades textuales, no estrictamente palabras, cuyo análisis se ha considerado opaco para el tipo de procesamiento lingüístico al que se pretende someter a los textos. Así, fechas, enumeraciones y direcciones electrónicas son algunas de las unidades de análisis que pueden identificarse por este procedimiento.
Otro tipo de unidades complejas, que se corresponden con más de un elemento textual, como las locuciones, las abreviaturas o algunos nombres propios, que se reconocen por medio de su inclusión entre los recursos de la base léxica.
El objetivo de un analizador morfosintáctico (morfológico+sintáctico) es, como su propio nombre indica, dada una palabra o grupo de palabras, obtener todos sus análisis morfosintácticos. Los análisis que se obtienen con los analizadores de DAEDALUS consisten en:
- la/s categoría/s morfosintáctica/s que puede adoptar la palabra o grupo de palabras, codificada/s mediante una etiqueta con una serie de rasgos, según el etiquetario de STILUS, de tipo morfológico (función de la palabra) o sintáctico (función en la frase)
- el/los lema/s que corresponden a cada categoría del análisis
- la información semántica de la palabra según ese análisis (devuelta por el módulo de semántica STILUS Sem)
- la llamada "forma canónica" de la entrada, es decir, la capitalización (mayúsculas/minúsculas) según la base léxica, independiente de la forma concreta en que aparezca en el texto.
En general, una palabra tendrá más de un análisis, debido a la ambigüedad intrínseca del lenguaje natural. Para el español, la media es de 1,9 análisis por palabra, según el etiquetario de STILUS.
DAEDALUS cuenta con analizadores morfológicos para diferentes idiomas, en concreto, español, catalán, euskera y gallego, así como inglés y francés.
El analizador está basado en un modelo de procesamiento morfológico concreto y específico, que surge a su vez a partir del modelo de representación de la información lingüística definido en el sistema ARIES. En ese modelo, las palabras están compuestas de uno o más formantes. En general, una palabra podría componerse de un formante ("farol"), de dos ("niñ-o"), o de más ("niñ-it-o"). La composición de las palabras depende de su codificación en los recursos. Aquí llamaremos raíz al primer formante (o único, en su caso), y terminación al segundo (si lo hubiera).
Cada formante lleva cierta información morfológica de rasgos (o simplemente información de rasgos), que será empleada para generar el/los análisis morfológico/s de la palabra completa (puede salir más de uno). Esta información consiste (en general) en un conjunto de rasgos morfosintácticos, como el género, el número, la persona, el tiempo verbal, el modo verbal, el tipo de pronombre, el lema de la palabra, etc.
Además, cada formante lleva cierta información morfológica de concatenación (o simplemente información de concatenación) que indica con qué otros formantes se puede concatenar, pues no todos se pueden unir con todos. Por ejemplo, el formante "o" con información de rasgos de "género masculino, número singular" es distinto al formante "o" con información de rasgos de "1ª persona singular, presente indicativo", y por eso deben tener (y tienen) diferente información de concatenación: el primero tendrá concatenación con raíces nominales y el segundo con raíces verbales que sean además de 1ª conjugación.
Si un formante compone una palabra completa por sí mismo, sin necesidad de concatenarse con otro, la información de concatenación sería nula. Y en este caso, la palabra heredaría directamente la información de rasgos de su único formante.
Si una palabra se compone de varios formantes, cada formante aportaría su información de rasgos al conjunto de la palabra y la información de la palabra completa se obtendría combinando adecuadamente la información de rasgos de cada uno de ellos, siempre que la concatenación fuera compatible.
El analizador morfológico necesita para su trabajo una lista de todos los formantes con su información de concatenación y su información de rasgos. El proceso de análisis morfológico consiste:
- Primero, en ver si la palabra constituye un formante completo en sí mismo, con información de concatenación nula. Si es así, se genera uno o varios análisis con la información de rasgos del formante.
- Luego, en recorrer la palabra en toda su longitud (desde el principio hasta el final, o al revés), dividiéndola en dos trozos, y comprobando, primero, si ambos son formantes válidos (es decir, si se encuentran en los recursos), y si lo son, si su información de concatenación es compatible. En este caso, se combinan las informaciones de rasgos de ambos y se generan tantos análisis morfológicos como sea preciso.
En vez de devolver todos los análisis posibles de una palabra, STILUS Core puede aplicar un proceso de desambiguación para filtrar los análisis inválidos en el contexto donde aparece dicha palabra, lo que, en general, deja un único análisis.
Por ejemplo, "casa" tiene 3 análisis: nombre femenino "casa", verbo "casar" en 3ª persona del presente de indicativo, y verbo "casar" en imperativo singular. Al tener en cuenta un contexto lingüístico, por ejemplo, "la casa roja", el análisis como verbo no tendría sentido, por lo que el análisis restante, como nombre, sería el único válido.
Actualmente STILUS Core es un desambiguador basado en reglas y se está estudiando la posibilidad de complementarlo con otras técnicas de tipo estadístico para aumentar su precisión.
Además del análisis morfosintáctico, STILUS Core dispone de funcionalidad para realizar un análisis sintáctico superficial del texto. El objetivo es detectar grupos de palabras que realizan la misma función en la oración. Así, se pueden detectar sintagmas nominales, verbales, preposicionales o adverbiales, así como su posible función dentro de cada frase.
De esta manera, se puede abordar el análisis semántico de la frase con agrupaciones de mayor nivel de abstracción que cada una de las palabras individuales.
Por ejemplo, en la frase "el hijo de Juan está mirando las manzanas que me trajiste", el análisis sintáctico superficial de STILUS agruparía "el hijo de Juan" como sintagma nominal (posible) sujeto, "está mirando" como sintagma verbal y "las manzanas que me trajiste" como sintagma nominal (posible) objeto directo. De esta forma, la estructura semántica de la frase sería "hijo" + "mirar" + "manzana", que refleja mejor su significado.
STILUS Core tiene integrado un módulo de extracción de resúmenes a partir de un texto analizado. Es posible alcanzar una elevada calidad de los resúmenes elaborados automáticamente ajustando parámetros del sistema de acuerdo con las necesidades de cada caso.
Si le interesa conocer más sobre el proceso de extracción, puede encontrar más información en la página sobre extracción de resúmenes.
• Tecnología lingüística
[White Paper, 2002, 762KB]
DAEDALUS dispone de avanzados recursos y productos en Tecnología Lingüística, Recuperación de Información y Extracción de Información. Este documento da una descripción general de la Tecnología Lingüística y la capacidad específica de DAEDALUS en relación con este área, aunque también se mencionarán productos y aplicaciones que incorporan la tecnología lingüística en otras áreas.