STILUS NER

Reconocimiento automático de entidades con nombre

La Extracción de Información (en inglés Information Extraction) es el campo del Procesamiento del Lenguaje Natural cuyo objetivo es extraer de forma automática conocimiento estructurado, habitualmente dependiente del contexto, a partir de información existente en texto no estructurado en lenguaje natural, con el fin de mejorar su explotación y reutilización. Normalmente, como primer paso del proceso de extracción está el reconocimiento de entidades con nombre (en inglés Named Entity Recognition, NER), también conocido como identificación de entidades o extracción de entidades, que consiste, como su propio nombre indica, en la detección y clasificación de los elementos del texto en categorías predefinidas, como nombres de personas, organizaciones, lugares, expresiones numéricas, de tiempo, etc., que aparecen mencionadas en un texto escrito en un determinado idioma. Esta actividad también se suele denominar: etiquetado semántico.

La dificultad de la detección estriba en que dichas entidades pueden aparecer en diferentes formas: por ejemplo, "Antonio Banderas" => "Banderas", "A. Banderas", "José Antonio Domínguez Banderas", etc.; "Banco Santander Central Hispano" => "Banco Santander", "Santander", "BSCH", etc.

Además, una vez detectadas, surge el problema de la ambigüedad para su clasificación, ya sea entre diferentes categorías o dentro de una misma categoría: por ejemplo, "Sevilla" puede ser la ciudad, el equipo de fútbol, etc.

La aproximación ampliamente adoptada está basada en conocimiento, es decir, utiliza diccionarios y conjuntos de reglas, normalmente desarrollados de forma manual, para realizar la detección y la clasificación. Básicamente, las reglas aplican patrones de expresiones regulares a las entidades del diccionario para generar las diferentes variantes posibles en que puede aparecer una entidad, como por ejemplo:

  • (N)ombre (A)pellido => Nombre / Apellido / N. Apellido / Nombre A. / N. A.
    Fernando Alonso => Fernando / Alonso / F. Alonso / Fernando A. / F. A.
  • (A)aaa (de|del|la|los|las)? (B)bbb (de|del|la|los|las)? (C)cc (de|del|la|los|las)? (D)ddd => ABCD
    Organización de Países Exportadores de Petróleo => OPEP

Además, nuestra tecnología permite el reconocimiento avanzado de entidades desconocidas que podrían ser entidades con nombre, que el sistema propone como sugerencias de posibles entidades: por ejemplo, "D. Aaaaa Bbbbb de Ccccc" puede ser un nombre de persona, "Banco Ddddd" una organización, "paseo de Eeeee" un lugar, etc.

La principal desventaja de este enfoque es el gran coste de desarrollo y mantenimiento de los recursos necesarios y el hecho de que estos recursos son altamente dependientes del dominio y del idioma. Por esto han surgido otras aproximaciones basadas en aprendizaje automático, que hacen uso de colecciones de texto etiquetado manualmente como entrenamiento para generar automáticamente estos recursos y construir modelos de detección y clasificación.

En nuestro sitio web de demostración, Showroom, se ofrece un ejemplo del proceso de reconocimiento de entidades con nombre.

White paper sobre Tecnologías de la Lengua

Descárgalo >>

Showroom

Pruebe nuestros productos...

Showroom >>