La situación, en el caso que nos ocupa, es la de un fondo fotográfico etiquetado con un breve título y unas palabras clave con un vocabulario no controlado, sin marcas diacríticas ni tipográficas. Para abordar el desarrollo de los objetivos del proyecto se partió de una muestra estratificada del fondo. El tamaño de la muestra seleccionada era de 194.618 imágenes etiquetadas mediante 1.008.593 términos en los títulos y 2.917.973 términos en las palabras clave. Con frecuencia estaban incluidas diversas variantes flexivas de una misma palabra con el objetivo de aumentar las posibilidades de localización y, por otro lado, había una cierta proporción de errores ortotipográficos.
La primera fase del proyecto consistió en el desarrollo de un tesauro, en XML, de clasificación conceptual del archivo digital, semánticamente representativo de sus contenidos (cobertura del archivo). El objetivo era obtener un catálogo de nodos distribuidos en una estructura jerárquica en forma de árbol, en los que cada nodo representara un concepto (categorías) y pudiera tener asociado uno o varios términos descriptores relativos a dicho concepto y, en su caso, más nodos que representarían conceptos más específicos (subcategorías). Por ejemplo, cuando el concepto es un lugar, los descriptores serán localizaciones geográficas.
La siguiente fase del proyecto consistió en establecer una correspondencia entre cada una de las palabras clave de las descripciones de las imágenes y los descriptores definidos en el tesauro. Esta fase se denominó proceso de normalización. Dicho proceso, a su vez, se compone de dos etapas, la de transformación de los términos que no se recogen dentro del glosario definido en el tesauro en vocabulario contralado, para, en la segunda etapa, proceder a su clasificación.
En la solución, se ha realizado un uso integrado de las herramientas de DAEDALUS para la lematización y el análisis morfosintáctico de textos en castellano (biblioteca STILUS Core), para la corrección ortotipográfica (biblioteca K-Site Fuzzy) y para la expansión semántica (STILUS Sem). El uso de estas herramientas es lo que ha permitido un elevado grado de automatización en los procesos de normalización.