Motor d’anonimització basat en IA

Iniciativa innovadora

Ajuntament de Girona

Pere Planiol i Marc Garcia

Nivell de maduresa

Què mesurem?
1
2
3
4
5
Digital Obert Personalitzat i proactiu Avaluació i rendiment de comptes Intel·ligent
Anonimització automàtica, segura i traçable de dades personals en textos i documents PDF per agilitzar la publicació d’informació al portal de transparència.

Problema

L’Ajuntament de Girona publica extractes de decrets al portal de transparència. Aquests textos provenen de les bases de dades municipals i sovint contenen dades personals que cal anonimitzar abans de publicar-los. El procés manual d’anonimització era lent i amb risc d’errors humans, fet que podia comprometre la qualitat de la informació publicada i el compliment de la normativa de protecció de dades.

Solució

L’Ajuntament de Girona ha desenvolupat una solució basada en intel·ligència artificial que anonimitza els extractes dels decrets en la base de dades municipal, de manera que l’arxiu que es genera per fer les publicacions al portal de transparència ja no conté dades personals. La solució també permet anonimitzar documents en format PDF, facilitant l’edició i la revisió prèvia dels continguts abans de publicar-los.

Usuaris finals

Personal de l'administració pública

Tecnologia

  • Model d’IA per a detecció d’entitats (NER) basat en RoBERTA de Facebook.
  • Processament de PDF i etiquetatge automàtic.

Estat

Pilot en funcionament des de novembre de 2025.

twitter icon LinkedIn icon

Descripció

El Servei de Sistemes i Tecnologies de la Informació (SSTI) de l’Ajuntament de Girona ha desenvolupat ManaIA (Motor d’Anonimització basat en IA), una solució d’anonimització que combina tecnologia d’intel·ligència artificial amb eines pròpies de processament de documents. La solució s’executa íntegrament dins la infraestructura municipal, cosa que garanteix la seguretat i el control de les dades tractades.

ManaIA se sustenta en un motor d’anonimització que utilitza models d’IA de Reconeixement d’Entitats Nombrades (NER BIO), concretament el model RoBERTa, per identificar automàticament dades personals en textos, com noms, cognoms o adreces. Aquest motor d’IA es complementa amb l’ús d’expressions regulars per detectar elements estructurats com DNI, matrícules o codis segurs de verificació (CSV). Cada dada detectada es marca amb una etiqueta única que permet mantenir el context i la traçabilitat del document.

L’arquitectura de la solució s’organitza en tres capes:

  1. Nucli: motor que processa la informació amb IA, les expressions regulars i la lògica interna pròpia.
  2. Capa de servei: permet la comunicació entre el motor i les aplicacions d’usuari, així com la gestió de les excepcions (llistes blanques) i les categories (llistes negres).
  3. Capa d’interfície: ofereix dues modalitats d’ús, una interfície web per anonimitzar text i una aplicació d’escriptori per documents PDF.

Aquestes modalitats d’ús funcionen de la manera següent:

  • Anonimitzador de textos: interfície web perquè el personal municipal pugui anonimitzar textos.
    • Quan un usuari vol utilitzar una eina externa d’IA generativa d’ús públic (com ChatGPT) apareix un avís que recorda no utilitzar dades reals i facilitat un enllaç a la interfície web de l'anonimitzador.
    • L’usuari introdueix un text i selecciona les categories que es volen anonimitzar.
    • L’aplicació processa el contingut, crida a les API del mòdul d’IA per anonimitzar les dades i per cada dada personal detectada, retorna diverses classificacions amb probabilitats.
    • L’aplicació interpreta les probabilitats i decideix quina classificació cal aplicar.
    • Finalment, genera una versió anonimitzada del text perquè l’usuari la revisi.
    • Cada dada personal anonimitzada es marca amb una etiqueta formada per la categoria i un número únic. Això permet entendre el context del document i es garanteix la traçabilitat.
    • L'aplicació disposa d’un panell de control que mostra mètriques del procés, com el temps de processament o el model utilitzat. També es pot fer seguiment dels tokens d’entrada que tracten, de manera que es pot valorar l’estalvi generat en utilitzar el model in-house.
    • Disposa d’un gestor d’excepcions (una llistes blanques) per evitar anonimitzar determinades dades (com els càrrecs polítics o noms determinats). El gestor disposa d’un cercador (“avaluador”) per poder buscar la regla que anonimitza un determinat text.
    • També disposa d’un gestor de categories (llistes negres) que permet forçar que una determinada expressió es detecti com a criteri quan no segueix l’expressió regular definida al codi.
  • Anonimitzador de documents PDF: aplicació d’escriptori utilitzat pels treballadors municipals que necessiten censurar documents.
    • L’usuari selecciona el document PDF que vol tractar.
    • L’eina mostra una previsualització del document i l'usuari pot anonimitzar el text de forma manual o automàtica.
      • Manualment: l’usuari selecciona zones específiques (textos, imatges, codis QR, codis de barres…) i l’eina les elimina en la pàgina concreta o en totes les pàgines del document.
      • Automàticament: l’aplicació detecta totes les dades personals i les marca perquè l’usuari les revisi. En validar el resultat el sistema realitza l’eliminació irreversible del text i de les metadades, generant un PDF segur i preparat per publicar.
    • L’eina permet afegir documents escanejats: l’eina detecta que no hi ha text i demana passar un OCR per poder anonimitzar a continuació.
    • La interfície inclou elements d’usabilitat millorats:
      • La barra de desplaçament del document és continu, sense salts de pàgina.
      • En el lateral esquerre, es mostren totes les pàgines de document en miniatura.

Des del novembre del 2025, el servei de gestió documental i arxiu (SGDAP) està utilitzant l'aplicació en fase pilot per tal de poder anar ajustant les llistes blanques que no cal anonimitzar. El servei de comunicació responsable de la informació publicada al portal de transparència l’utilitza per a anonimitzar els documents PDFs publicats. Des del serveis d’informàtica s’utiliza per a extreure llistats anonimitzats directes de la base de dades.

Aspectes jurídics

  • L’aplicació dona compliment a la normativa de protecció de dades i la normativa de transparència.
  • La informació introduïda en l’anonimitzador de textos no es guarden enlloc.
  • La supressió de les dades és irreversible i els PDF generats són segurs i aptes per a la publicació.
  • La supervisió humana final assegura que no s’han anonimitzat dades que calgui mantenir ni han quedat pendents de suprimir dades sensibles.

Aspectes tecnològics

  • La solució utilitza el model RoBERTa de Facebook, amb suport per més de 20 idiomes, inclòs el català.
  • L'aplicació d'anonimització, incloent el model RoBERTa, s'excecuten en una màquina virtual instal·lada en la infraestructura de l’ajuntament.
  • El model NER RoBERTa és de 512 tokens, permet anonimitzar entre 500-600 caràcters. El desenvolupament que han creat permet anonimitzar milers de caracters amb aquestes limitacions.
  • L'anonimitzador de PDF és un executable instal·lat en cada ordinador desenvolupat amb Python i la llibreria PyMuPDF.

Aspectes organitzatius

  • El servei d’informàtica revisa el procés d’anonimització de textos, fa proves i ajustos de les llistes blanques, dels llindars de probabilitat retornats pel model i dona suport als departaments que utilitzen l’anonimitzador de PDF.
  • S’ha dut a terme formació interna als departaments que n’estan fent ús com a eina pilot.

Actors i col·laboradors

Els actors clau i col·laboradors, tant públics com privats, que han estat indispensables per aconseguir dur a terme el projecte són:

  • Servei d’informàtica, responsable del desenvolupament i manteniment de l’aplicació.
  • Departaments municipals que necessiten anonimitzar informació.

Beneficis i impactes

Per a l’Ajuntament

  • Millora de l’eficiència i l’eficàcia. Redueix errors humans en el procés d’anonimització i temps de preparació dels documents per publicar-los al portal de transparència.
  • Millora del compliment normatiu. L'eina identifica dades personals de manera consistent i aplica criteris homogenis en tots els documents
  • Traçabilitat del procés. Cada dada personal detectada queda etiquetada i rastrejada dins del document, fet que facilita la seva revisió i validació. Les dades anonimitzades no es guarden enlloc.

Per a la ciutadania

  • Garantia dels drets. Es protegeixen les dades personals incloses als documents fets públics.
  • Increment de la confiança. La ciutadania percep que les dades personals es gestionen adequadament.
  • Major seguretat. Es tracta d’un procés intern en què la informació original no surt de l’Ajuntament.

Costos

Les despeses associades a la implantació de la solució són:

  • No hi ha costos de programari, la solució s’ha desenvolupat amb eines de codi lliure.
  • Costos operatius assumits serveis amb recursos TIC existents (infraestructura, manteniment, suport) i sense costos recurrents addicionals.

Elements clau en la gestió del canvi

Els aspectes més importants a tenir en compte en el procés de gestió del canvi són:

  • Desplegament progressiu de l'anonimitzador de PDF per incorporar millores basades en l'ús real.
  • Suport actiu del servei d’informàtica per fer ajustar l’algorisme i ampliar funcionalitats a l’aplicació d’escriptori.
  • Encara no s'ha fet una campanya de comunicació interna per distribuir l'aplicació de forma generalitzada en l’organització, ja que està en fase de pilotatge.

Indicadors d'èxit

Els indicadors SMART que evidencien la consecució dels objectius previstos són:

  • Temps mitjà d’anonimització per document.
  • Reducció del temps de publicació dels documents anonimitzats.
  • Reducció del nombre d’errades detectades en validacions prèvies a la publicació.
  • Millora dels indicadors de compliment del portal de transparència.

Barreres i fracassos

Cal considerar els aspectes que poden posar en perill l'èxit de la solució i com superar-los:

  • Inicialment, els diferents processos d’anonimització (textos, documents PDF i tasques massives) competien pels recursos i provocaven colls d’ampolla. Per resoldre-ho, s’ha implementat un sistema de cues amb prioritats que assegura un funcionament estable i eficient.

Replicabilitat

La solució és replicable i l’Ajuntament de Girona ja l’està compartint amb altres ens en fase pilot. No requereix programari propietari i funciona en infraestructura local. Requereix certs coneixements tècnics per a poder desplegar l’eina i que els usuaris en puguin fer ús.

Actualització

Darrera actualització: juny de 2026

Et pot interessar…

Anonimització de documents i publicitat activa

Elimina de forma automàtica i des del disseny les dades personals incloses en documents que s'han de posar a l'abast de la ciutadania.

Iniciativa innovadora

Meses de contractació públiques telemàtiques

Augmenta la transparència i la confiança en les licitacions públiques.

Bona pràctica

Lletres suspeses en l'aire

Resums automatitzats amb IA dels anuncis del BOPB

Automatitza la redacció dels resums dels anuncis del BOPB amb IA, estalviant temps i garantint coherència i estil uniformes.

Iniciativa innovadora