
WEB MINING ANALYTICS
WMA: Web Mining Analytics es un proyecto dedicado al desarrollo de herramientas que faciliten la extracción y el análisis de información estratégica disponible en Internet.
Es un proyecto europeo financiado por el programa Eurostars de EUREKA y realizado en colaboración con Digimind, empresa francesa especializada en el campo de la inteligencia competitiva, que actúa como coordinadora.
En cualquier ámbito de negocio, cada día es más importante entender y reaccionar al entorno del mismo. La cantidad de información disponible en Internet es cada vez mayor y se ha convertido en una fuente clave desde el punto de vista estratégico tanto en el área de negocio, como en la de marketing. Ante este gran volumen de información es vital encontrar una solución profesional para industrializar el proceso asociado a la investigación y el análisis de la misma.
OBJETIVO
El objetivo principal de este proyecto es desarrollar una solución técnica de minería web para profesionales en distintas áreas de negocio. Para ello se hará uso de las tecnologías desarrolladas por Digimind que permiten analizar en tiempo real grandes volúmenes de información y se combinarán con las tecnologías de análisis semántico de datos desarrolladas por Daedalus.
WMA será capaz de extraer automáticamente datos específicos de distintas fuentes (Internet, bases de datos, etc.) y de proporcionar información muy relevante sobre los mismos. Lo hará sin necesidad de generar un costoso desarrollo a medida (uno de los enfoques más utilizados hasta ahora para conseguir resultados de esta calidad) y añadiendo una innovadora flexibilidad para el usuario final.
Esta flexibilidad combinada con soporte multilingüe permitirá que la tecnología WMA sea fácilmente aplicable a distintos sectores de ámbito internacional.
Otros de los objetivos del proyecto son los siguientes:
- Proporcionar un sistema con una arquitectura flexible que permita a cada usuario definir los flujos de trabajo que le resulten más apropiados mediante una interfaz amigable
Desde el punto de vista del análisis de contenidos:
Optimizar la detección automática de entidades y su etiquetado semántico a través de la combinación de distintas técnicas, con el objetivo a generar un módulo de etiquetado semántico de alta precisión
Desarrollar un componente que permita identificar datos estructurados (precios, tarifas, etc.) en textos o en documentos no estructurados
- Desarrollar una tecnología que identifique relaciones entre entidades; el modelo semántico que se decida utilizar (que dependerá de los componentes de detección de entidades y de datos estructurados) será un punto crítico del proyecto
- Desde el punto de vista de la localización de información, es necesario trabajar en métodos de búsqueda en Internet de cara a obtener información lo más relevante posible según lo solicitado por un usuario. Esto implicará:
Optimización de procesos de indexación y búsqueda para operar gran cantidad de páginas explotando información semántica.
Desarrollar una tecnología que permita reconocer nuevas entidades y conceptos sobre los que poder definir fácilmente nuevas reglas semánticas y relaciones
- Asegurar una eficiente incorporación incremental de nueva información
PARTICIPANTES
La experiencia de Digimind en el campo de la inteligencia competitiva explotando información accesible en Internet y su plataforma para facilitar la automatización de los procesos involucrados, aseguran el éxito de este proyecto.
Por su parte, Daedalus aporta a este proyecto su experiencia en el campo de la extracción de información, así como los productos disponibles para tal fin.

