ARCHIVO DIGITAL DE IMÁGENES

RESUMEN

Este proyecto se basa en la aplicación de los conceptos de Web Semántica para mejorar la búsqueda de imágenes en un portal de venta de fotografías por Internet. El problema que se aborda es el de la creación por medios semiautomáticos de un tesauro y la normalización de los descriptores de las imágenes a partir de un etiquetado previo en forma de claves expandidas. El objetivo último es mejorar la accesibilidad vía Internet por parte de los clientes a una base de más de dos millones de fotografías.

SOLUCIÓN DE DAEDALUS

La situación, en el caso que nos ocupa, es la de un fondo fotográfico etiquetado con un breve título y unas palabras clave con un vocabulario no controlado, sin marcas diacríticas ni tipográficas. Para abordar el desarrollo de los objetivos del proyecto se partió de una muestra estratificada del fondo. El tamaño de la muestra seleccionada era de 194.618 imágenes etiquetadas mediante 1.008.593 términos en los títulos y 2.917.973 términos en las palabras clave. Con frecuencia estaban incluidas diversas variantes flexivas de una misma palabra con el objetivo de aumentar las posibilidades de localización y, por otro lado, había una cierta proporción de errores ortotipográficos.

La primera fase del proyecto consistió en el desarrollo de un tesauro, en XML,  de clasificación conceptual del archivo digital, semánticamente representativo de sus contenidos (cobertura del archivo). El objetivo era obtener un catálogo de nodos distribuidos en una estructura jerárquica en forma de árbol, en los que cada nodo representara un concepto (categorías) y pudiera tener asociado uno o varios términos descriptores relativos a dicho concepto y, en su caso, más nodos que representarían conceptos más específicos (subcategorías). Por ejemplo, cuando el concepto es un lugar, los descriptores serán localizaciones geográficas.

La siguiente fase del proyecto consistió en establecer una correspondencia entre cada una de las palabras clave de las descripciones de las imágenes y los descriptores definidos en el tesauro. Esta fase se denominó proceso de normalización. Dicho proceso, a su vez, se compone de dos etapas, la de transformación de los términos que no se recogen dentro del glosario definido en el tesauro en vocabulario contralado, para, en la segunda etapa, proceder a su clasificación.

En la solución, se ha realizado un uso integrado de las herramientas de DAEDALUS para la lematización y el análisis morfosintáctico de textos en castellano (biblioteca STILUS Core), para la corrección ortotipográfica (biblioteca K-Site Fuzzy) y para la expansión semántica (STILUS Sem). El uso de estas herramientas es lo que ha permitido un elevado grado de automatización en los procesos de normalización.

LOS BENEFICIOS

El sistema desarrollado permite efectuar búsquedas estructuradas de acuerdo con los criterios habituales para los clientes del mercado de las imágenes fotográficas. Asimismo, la potencia de las herramientas lingüísticas utilizadas permite remitir una búsqueda expresada en lenguaje natural o como palabras clave, mediante un proceso muy eficiente de análisis, corrección y expansión semántica, a los términos normalizados por los que, en última instancia, se indexan las colecciones.

El enfoque adoptado en este proyecto ha permitido abordar el problema de forma económica y eficiente, sin imponer cambios sustanciales en el entorno tecnológico del cliente. El retorno de la inversión se puede cuantificar en este caso mediante métricas relativas al tiempo medio para realizar una búsqueda, a la proporción de búsquedas sin respuesta y al grado de fidelización de los clientes, con un impacto inmediato sobre las cifras de negocio.

PARTICIPANTES

El archivo digital de imágenes es un proyecto desarrollado por DAEDALUS para Stock Photos, una agencia perteneciente al grupo Latin Stock. Latin Stock es una organización establecida en Argentina, Brasil, Chile, México, España, Colombia, Venezuela, Perú, Uruguay y Costa Rica, dedicada al suministro de imágenes y contenidos en general a la industria publicitaria, editorial y televisiva de América Latina y España.