STILUS Sem

Biblioteca de expansión semántica

STILUS Sem es una biblioteca software más un conjunto de recursos lingüísticos para efectuar la expansión semántica de texto. Entre otras funcionalidades, el expansor semántico permite:

  • Obtener tanto información semántica de una palabra dada como su temática, tipo de entidad, remisión a otras entidades o información geográfica
  • Ampliar una cadena de texto añadiendo términos relacionados mediante sinonimia (palabras con igual significado), antonimia (palabras con significado contrario) o palabras relacionadas semánticamente

Análisis semántico

En sus recursos, STILUS Sem incluye información semántica de distinta naturaleza. De forma esquemática, se puede concretar que las entradas léxicas pueden acompañarse de los siguientes rasgos semánticos:

<tipo de entidad> <temática> <remisión> <info geográfica> <relación>

Estos rasgos pueden ser abiertos, si incluyen información textual libre, o pueden estar determinados por una serie de valores, muchas veces dependientes de una ordenación jerárquica. Estos valores derivan de la clasificación jerárquica para named entities de Sekine (Sekine's Extended Named Entity Hierarchy), la cual ha sido levemente modificada y reinterpretada para etiquetar en STILUS tanto named entities como nombres comunes.

Más en detalle, los distintos rasgos semánticos codifican la siguiente información estructurada:

  • <tipo de entidad>: refiere al tipo de realidad que representa un término. Comprende los siguientes subrasgos:
    1. <clase de entidad>: (instancia | clase | subclase)

      • Donald -> SemEntity=@inst@...
      • pájaro ->SemEntity=@class@...
      • pato -> SemEntity=@subc@...

    1. <ficción>: (ficción | no ficción | indefinido)

      • Mickey Mouse -> SemEntity=@inst@fiction@...
      • Copito de Nieve ->SemEntity=@inst@nofiction@...
      • Mahoma ->SemEntity=@inst@undef@...

  • <temática>: refiere a la disciplina o ámbito de uso al que pertenece un término. En el primer nivel de la jerarquía de clasificación están los siguientes conceptos:

    • BASIC_SCIENCES
    • SOCIAL_SCIENCES
    • HUMANITIES
    • NATURAL_SCIENCES
    • LIFE_SCIENCES
    • TECHNOLOGY
    • SOCIETY
    • ARTS
    • SPORT

    La jerarquía tiene un segundo nivel, por ejemplo, dentro de BASIC_SCIENCES, estarían: CHEMISTRY,PHYSICS,GEOMETRY y MATHEMATICS.
  • <remisión>: remisión a otras formas. Incluye tres rasgos:
    1. <remisión temática>: refiere a la forma canónica, esto es, a la ‘forma oficial’, ‘científica’ o ‘más completa’ del término:

      • ABC->SemRemission=@American_Broadcasting_Companies@@
      • abedul->SemRemission=@betula_verrucosa@@
      • Clarín->SemRemission=@Leopoldo_Alas@@

    1. <remisión variante preferida>: remite a una variante ortográfica preferida:

      • cardiaco->SemRemission=@@cardíaco@
      • acogimiento->SemRemission=@@acogida@

    1. <remisión variante no preferida>: remite a otra(s) variante(s) ortográfica(s) igualmente admitidas, pero menos preferida(s) o frecuente(s):

      • cardíaco->SemRemission=@@@cardiaco
      • acogida->SemRemission=@@@acogimiento
  • <información geográfica>: incluye información geográfica. Comprende los siguientes subrasgos:

    1. <distrito> “@” <ciudad> “@” <provincia> “@” <región> “@” <comunidad> “@” <país> “@” <continente>
    1. <internacional>: (+ | ONU)
    1. <lugar histórico>
  • <relación>: indica el tipo de relación que se da entre el término etiquetado y el concepto referido. En el primer nivel de la jerarquía están:

    • STRUCTURAL_RELATION
    • ORGANIZATIONAL_RELATION
    • HUMAN_RELATION
    • GPE_REF
    • GPE_MEMBER

    Existe un segundo nivel, por ejemplo, para HUMAN_RELATION están ORGANIZATION_AFFINITY y PERSON_AFFINITY.

Solo aparecerá información explícita de aquellos rasgos semánticos que hayan sido efectivamente etiquetados. Por otro lado, la ausencia de información en diferentes rasgos sí resulta pertinente, puesto que bien indican el nivel de profundidad alcanzado por el valor en una jerarquía, o bien separan posibles subvalores asociados a un rasgo semántico etiquetado. El hecho de que una entrada pueda incorporar uno u otro tipo de rasgos semánticos dependerá de la categoría gramatical de dicho lema. Esto es, por ejemplo, un adjetivo nunca podrá incluir información sobre tipo de entidad, pero sí sobre temática o variantes ortográficas.

Expansión con sinónimos, antónimos y palabras relacionadas

La base de conocimiento de sinónimos almacena los diferentes significados que puede tener una palabra y, para cada uno de ellos, los sinónimos asociados (a esa acepción). De esta manera, el expansor semántico podría asociar a una palabra dada todos sus sinónimos o bien únicamente aquellos que tuvieran un significado específico (y que, por ejemplo, podría haber seleccionado el usuario de la aplicación). La mencionada base de conocimiento de sinónimos, al igual que el resto de recursos lingüísticos recopilados y desarrollados en Daedalus, es objeto de un mantenimiento constante por parte del equipo lingüístico de la compañía.

Implementación

El expansor semántico se empaqueta como una interfaz de programación que ofrece diferentes funciones como el análisis semántico o la búsqueda de significados y sinónimos de una palabra dada. El componente está desarrollado en el lenguaje de programación C/C++ y se encuentra disponible tanto para plataformas Unix/Linux como Microsoft Windows. En este último caso, pueden considerarse distintas opciones, ya sea ActiveX u objeto COM, DLL o librería estática, o cualquier otra posibilidad.

White paper sobre Tecnologías de la Lengua

Descárgalo >>

Showroom

Pruebe nuestros productos...

Showroom >>