K-SITE INDEX

K-Site Index es el nombre que recibe el componente software desarrollado por DAEDALUS que ofrece funciones avanzadas para recuperación de información. Entre estas funciones puede distinguirse entre: funciones de indexación, encargadas de la creación de estructuras de índices sobre los documentos; funciones de recuperación o búsqueda, destinadas a la realización de búsquedas de información a través del contenido de los índices creados.

En ambas funciones se utiliza la avanzada tecnología de procesamiento lingüístico de textos desarrollada por DAEDALUS, que permite realizar un tratamiento elaborado de las palabras de los documentos atendiendo a su contenido y significado lingüístico en vez de simplemente considerar secuencias de caracteres, como la mayoría de productos de recuperación de información del mercado. De esta forma, las búsquedas son muy precisas, con lo que los usuarios obtienen las respuestas que están buscando efectuando menos consultas y, por tanto, en menos tiempo.

Esta tecnología lingüística se basa en la tecnología STILUS, potentes recursos de diccionarios, bases de conocimiento léxico, reglas de composición..., en constante actualización y mejora por parte del equipo de lingüistas de DAEDALUS.

Funcionalidad

En lo referente a indexación, el proceso de filtrado, segmentación, análisis morfosintáctico del contenido y extracción de claves, permite seleccionar las categorías morfológicas deseadas para su inclusión como palabras clave del documento (por ejemplo: nombres y verbos únicamente), mejorando sustancialmente los índices.

Las capacidades de filtrado avanzado incluido en esta versión del producto permiten tratar documentos con los siguientes formatos de entrada:

  • Todos los formatos de Microsoft Office (en todas sus versiones):
    • Word
    • Excel
    • Access
    • PowerPoint
  • Documentos PDF (no protegidos)
  • Documentos Postcript
  • Documentos HTML
  • Documentos RTF
  • Documentos de texto

Las funciones de recuperación incluidas en esta versión del producto permiten localizar documentos utilizando términos literales (de una o varias palabras) o lemas:

  • La búsqueda por términos individuales es la más sencilla y permite encontrar una palabra dentro de los documentos indexados, mientras que la búsqueda de frases, que se expresa introduciendo la expresión entre comillas ("expresión a buscar"), detecta la aparición de una frase o una serie de palabras.
  • La búsqueda de literales permite la inclusión de comodines (caracteres "*" y "?") y caracteres de conjunto ([a-z]) para localizar términos truncando la palabra por la izquierda, derecha o ambos lados, y conteniendo esos caracteres.
    Por ejemplo, "prob*" busca los documentos con palabras que     comienzan por "prob", o "p[aeiou]pa" representa las palabras "papa", "pepa", "pipa", "popa" y "pupa".
  • La búsqueda por lemas aprovecha la tecnología del analizador morfosintáctico empleado en el proceso de indexación de los documentos, que elabora un índice con los lemas de las palabras del documento.
    Esto permite buscar palabras atendiendo a su forma principal considerando, por ejemplo, la aparición de las palabras "andaré" o "andando" como una misma acción: "andar", lo que independiza las búsquedas de las formas particulares en que aparecen las palabras en el texto.

La forma de expresar una búsqueda por lemas es mediante el     uso de los paréntesis. Por ejemplo, "(juez)" devolvería todos los documentos donde aparece "juez", "jueza", "jueces", "juezas".

Los modos de búsqueda descritos anteriormente pueden combinarse con una sintaxis similar a la del buscador de Internet Google, mediante los siguientes operadores:

  • El operador + (AND) indica que la condición es de obligado cumplimiento (la palabra debe aparecer obligatoriamente en los documentos devueltos).
  • El operador – (NOT) indica que deben buscarse documentos donde no aparezca el término en cuestión. Sólo puede aparecer acompañado del operador AND.
  • Si no se expresa ninguno de los operadores anteriores, se buscan documentos en los que la condición se pueda cumplir o no (OR).

La forma de expresar las consultas será:

+condición_obligatoria … -condición_excluyente … condición opcional …

Los resultados de las búsquedas estarán ordenados por relevancia, es decir, según un factor calculado automáticamente que indica la importancia de un documento respecto a la consulta realizada. La relevancia se indicará con un número (tanto por ciento respecto al documento de mayor relevancia, 100%).

Implementación

Técnicamente, K-Site Index consiste en un conjunto de componentes software desarrollados en C/C++ y capaces de operar tanto en entornos Unix/Linux como Microsoft Windows. Estos componentes van acompañados de una serie de recursos lingüísticos, necesarios para proporcionar la funcionalidad descrita.

Como se ha mencionado anteriormente, los mecanismos de acceso y utilización de este componente pueden ofrecerse de distintas formas, desde un servidor de indexación capaz de atender peticiones de indización y búsqueda, hasta una interfaz de programación que permita acceso de bajo nivel a los servicios implementados. En el caso de plataformas Windows, el producto puede entregarse en cualquiera de las siguientes formas: ActiveX u objeto COM, DLL o librería estática, o cualquier otra posibilidad.

En cuanto al sistema de almacenamiento de datos, K-Site Index hace uso de la base de datos MySQL, disponible tanto en versiones para Unix/Linux como Windows.

Toda la tecnología involucrada en el desarrollo del producto es propiedad de DAEDALUS, lo que incrementa en gran medida las posibilidades de adaptación e integración según las necesidades específicas del usuario final.