BÚSQUEDA SEMÁNTICA

La Web Semántica nació con el objetivo de separar en las páginas web la información de visualización, es decir, la que marca cómo verá un usuario humano una página, y la información semántica o los datos en sí mismos. El lenguaje HTML (Hypertext Markup Language) es el empleado para definir el aspecto de la página web, pero no es un lenguaje adecuado para las máquinas, dificultando en gran medida su procesado automático. Por ello, la Web Semántica proporciona un conjunto de estándares (XML, RDF, OWL, SPARQL...) que facilitan la representación de información semántica de forma independiente a su visualización.

La Búsqueda Semántica va un poco más allá de la explotación del etiquetado definido por la Web Semántica para aumentar la precisión de los resultados de un proceso de búsqueda. Incluye también la explotación de todas las tecnologías que puedan arrojar información que facilite la interpretación del texto. Entre estas tecnologías se encuentran las de extracción de información, desde el reconocimiento de entidades hasta la detección de determinadas estructuras que permiten representar el texto a través de campos de datos. Como complemento, cabe explotar otras tecnologías como:

  • Expansión semántica. Amplía el conjunto de palabras empleado para representar un documento o una consulta incluyendo sinónimos u otras palabras o expresiones cuyo significado está relacionado. Además, permite obtener información semántica de una palabra, como su temática o su tipo en caso de que sea una entidad. De esta forma, si esta expansión se integra en un sistema de recuperación de información, cuando se realiza una búsqueda con la palabra 'perro' es posible encontrar documentos en los que aparezca 'can' pero no la palabra original. Daedalus dispone de tecnología propia en este ámbito, encapsulada en el producto STILUS Sem, que facilita la expansión semántica de palabras en castellano. Dixi Media o partners como FutureSpace están ya explotando esta tecnología.

  • Clasificación automática. La clasificación automática permite reunir documentos que comparten una serie de características en torno a una misma clase. Esta capacidad facilita, por ejemplo, el procesamiento de grandes cantidades de documentos distribuyéndolos en grupos según sus similitudes. Entre los tesauros para clasificación de uso más extendido se encuentran IPTC (International Press Telecomunications Council) y Eurovoc, algunos de los considerados en el producto STILUS Class para la clasificación automática de textos. Entre los clientes que están ya explotando esta tecnología se encuentran Dixi Media, Acceso Group o Prisacom.

El siguiente paso en la evolución de la web ha llevado a la conocida como Web 2.0, enfocada hacia el usuario de Internet, ofreciéndole la posibilidad de agruparse con otros usuarios mediante las Redes Sociales y poniendo a su disposición multitud de herramientas para la generación de contenidos, ya sea en forma de comentarios en foros o blogs, de expresión de opinión, etc. Este nuevo entorno ha dado lugar a distintas tecnologías entre las que es posible destacar:

  • Análisis de opinión. Ahora que los usuarios expresan su opinión sobre los productos y servicios que consumen gracias a la Web 2.0, resulta interesante disponer de herramientas capaces de analizar, de forma automática, el carácter positivo o negativo de las opiniones de los usuarios sobre una marca o producto determinados. La combinación de nuestras tecnologías de extracción de información y de análisis semántico constituyen un punto de partida sólido para iniciativas en el campo del análisis de opinión.

  • Ayuda a la moderación de foros y blogs. Muchas de las empresas que alojan foros, blogs y, en general, sitios web en los que se cuenta con la participación de usuarios tienen la necesidad de asegurar que los comentarios que publican no contienen palabras malsonantes ni expresiones inadecuadas. La tecnología de Daedalus, integrada en el producto STILUS Forum permite la automatización de este proceso de monitorización, acelerando el tiempo de publicación de las aportaciones de los visitantes del sitio web.

Si lo desea puede descargarse este white paper, elaborado en el marco del proyecto Buscamedia, (financiado por el programa CENIT-e del CDTI (Centro para el Desarrollo Tecnológico e Industrial) dependiente del Ministerio de Ciencia e Innovación) en el que se define la visión de Daedalus sobre la búsqueda semántica.


¿Desea ampliar información sobre productos de Daedalus relacionados con búsqueda semántica?

White paper sobre Tecnologías Avanzadas de Búsqueda

Descárgalo >>

Showroom

Pruebe nuestros productos...

Showroom >>