Comunidad de Madrid

Anonimización de laudos a través de OCR y NLP

Sector: Público · Cliente: Comunidad de Madrd

Región
España
Duración del proyecto
3 meses

Tecnologías empleadas

  1. Reconocimiento Óptico de Caracteres (OCR)
  2. Modelos de IA: LLM, etiquetador de entidades
  3. Modelos de Aprendizaje Automático (Machine Learning)

¿Qué resolvemos?

En este caso de éxito, enfrentamos el desafío de gestionar y analizar un extenso conjunto de laudos del Instituto Regional de Arbitraje de Consumo de la Comunidad Autónoma de Madrid. El proyecto tuvo como objetivo transformar 4.677 laudos correspondientes a los años 2015, 2016 y 2017 en datos estructurados y accesibles. La complejidad residía en la diversidad de formatos, incluyendo documentos escaneados, y la necesidad de clasificar y anonimizarlos para su análisis posterior. 

¿Cómo lo resolvemos?

Para enfrentar este desafío, implementamos una solución tecnológica avanzada basada en modelos de Reconocimiento Óptico de Caracteres (OCR) y técnicas de procesamiento de lenguaje natural (NLP). Utilizamos OCR para convertir documentos escaneados en texto digital, lo que facilitó la clasificación y etiquetado de los laudos según su contenido. Además, aplicamos modelos de lenguaje para identificar entidades sensibles que requerían anonimización, como nombres de personas o empresas involucradas. 

El proceso se dividió en varias etapas: 

  1. Extracción de Texto: Empleamos tecnología OCR para extraer texto de documentos escaneados, asegurando una conversión precisa incluso en documentos de baja calidad.
  2. Clasificación Automatizada: Implementamos modelos de aprendizaje automático para clasificar automáticamente los laudos según su contenido y tipo.
  3. Anonimización de Datos: Identificamos y anonimizamos entidades sensibles presentes en los documentos, garantizando el cumplimiento de regulaciones de protección de datos. 

¿Qué resultados obtenemos?

Mejora en Accesibilidad:
Los 4.677 laudos se transformaron en datos digitales estructurados y fáciles de consultar. 

Eficiencia Operativa:
La automatización de la clasificación y anonimización redujo considerablemente el tiempo y los recursos necesarios para analizar los laudos.

Cumplimiento Normativo:
Garantizamos la protección de datos sensibles a través de la anonimización, asegurando el cumplimiento de regulaciones de privacidad. 

Estamos aquí para ayudarte

Certificada por:

SelloAENORISO27001_NEG
member
IQNet