Eina d’anonimització de textos basada en IA
Iniciativa innovadora

Ajuntament de Girona
Pere Planiol i Marc Garcia
Nivell de maduresa
Què mesurem?Problema
L’Ajuntament de Girona publica extractes de decrets al portal de transparència. Aquests textos provenen de les bases de dades municipals i sovint contenen dades personals que cal anonimitzar abans de publicar-los. El procés manual d’anonimització era lent i amb risc d’errors humans, fet que podia comprometre la qualitat de la informació publicada i el compliment de la normativa de protecció de dades.
Solució
L’Ajuntament de Girona ha desenvolupat una aplicació basada en intel·ligència artificial que anonimitza els extractes dels decrets en la base de dades municipal, de manera que l’arxiu que es genera per fer les publicacions al portal de transparència ja no conté dades personals. La solució també permet anonimitzar documents en format PDF, facilitant l’edició i la revisió prèvia dels continguts abans de publicar-los.
Usuaris finals
Personal de l'administració pública
Tecnologia
- Model d’IA per a detecció d’entitats (NER) basat en RoBERTA de Facebook.
- Processament de PDF i etiquetatge automàtic.
Estat
Pilot en funcionament des de novembre de 2025.
Descripció
El Servei de Sistemes i Tecnologies de la Informació de l’Ajuntament de Girona ha desenvolupat una aplicació d’anonimització que combina tecnologia d’intel·ligència artificial amb eines pròpies de processament de documents. La solució s’executa íntegrament dins la infraestructura municipal, cosa que garanteix la seguretat i el control de les dades tractades.
L’aplicació utilitza models d’IA NER BIO, concretament el model RoBERTa, per identificar automàticament dades personals en textos, com noms, cognoms o adreces, i expressions regulars per detectar elements estructurats com DNI, matrícules o codis CSV. Cada dada detectada es marca amb una etiqueta única que permet mantenir el context i la traçabilitat del document.
A partir d’aquest motor d’anonimització, s’han creat dues eines diferents:
- Anonimitzador de textos: motor encarregat de l’anonimització i que proporciona aquest servei a d’altres components.
- Disposa d’un frontal web utilitzat principalment pel servei d’informàtica, per fer proves i validacions del sistema.
- L’usuari introdueix un text i selecciona les categories que es volen anonimitzar.
- L’aplicació processa el contingut, crida a les API del mòdul d’IA per anonimitzar les dades i per cada dada personal detectada, retorna diverses classificacions amb probabilitats.
- L’aplicació interpreta les probabilitats i decideix quina classificació cal aplicar.
- Finalment, genera una versió anonimitzada del text perquè l’usuari la revisi.
- Cada dada personal anonimitzada es marca amb una etiqueta formada per la categoria i un número únic. Això permet entendre el context del document i es garanteix la traçabilitat.
- L'aplicació mostra mètriques del procés, com el temps de processament o el model utilitzat.
- Disposa d’una llista blanca per evitar anonimitzar determinades dades (com els càrrecs polítics o noms determinats).
- Anonimitzador de documents PDF: aplicació d’escriptori utilitzat pels treballadors municipals que necessiten censurar documents.
- L’usuari selecciona el document PDF que vol tractar.
- L’eina mostra una previsualització del document i l'usuari pot anonimitzar el text de forma manual o automàtica.
- Manualment: l’usuari selecciona zones específiques (textos, imatges, codis QR…) i l’eina les elimina en la pàgina concreta o en totes les pàgines del document.
- Automàticament: l’aplicació detecta totes les dades personals i les marca perquè l’usuari les revisi. En validar el resultat el sistema realitza l’eliminació irreversible del text i de les metadades, generant un PDF segur i preparat per publicar.
Des del novembre del 2025, el servei de gestió documental i arxiu (SGDAP) està utilitzant l'aplicació en fase pilot per tal de poder anar ajustant les llistes blanques que no cal anonimitzar. El servei de comunicació responsable de la informació publicada al portal de transparència l’utilitza per a anonimitzar els documents PDFs publicats. Des del serveis d’informàtica s’utiliza per a extreure llistats anonimitzats directes de la base de dades.
Aspectes jurídics
- L’aplicació dona compliment a la normativa de protecció de dades i la normativa de transparència.
- La informació introduïda en l’anonimitzador de textos no es guarden enlloc.
- La supressió de les dades és irreversible i els PDF generats són segurs i aptes per a la publicació.
- La supervisió humana final assegura que no s’han anonimitzat dades que calgui mantenir ni han quedat pendents de suprimir dades sensibles.
Aspectes tecnològics
- La solució utilitza el model RoBERTa de Facebook, amb suport per més de 20 idiomes, inclòs el català.
- L'aplicació d'anonimització, incloent el model RoBERTa, s'excecuten en una màquina virtual instal·lada en la infraestructura de l’ajuntament.
- L'anonimitzador de PDF és un executable instal·lat en cada ordinador desenvolupat amb Python i la llibreria PyMuPDF.
Aspectes organitzatius
- El servei d’informàtica revisa el procés d’anonimització de textos, fa proves i ajustos de les llistes blanques, dels llindars de probabilitat retornats pel model i dona suport als departaments que utilitzen l’anonimitzador de PDF.
- S’ha dut a terme formació interna als departaments que n’estan fent ús com a eina pilot.
Actors i col·laboradors
Els actors clau i col·laboradors, tant públics com privats, que han estat indispensables per aconseguir dur a terme el projecte són:
- Servei d’informàtica, responsable del desenvolupament i manteniment de l’aplicació.
- Departaments municipals que necessiten anonimitzar informació.
Beneficis i impactes
Per a l’Ajuntament
- Millora de l’eficiència i l’eficàcia. Redueix errors humans en el procés d’anonimització i temps de preparació dels documents per publicar-los al portal de transparència.
- Millora del compliment normatiu. L'eina identifica dades personals de manera consistent i aplica criteris homogenis en tots els documents
- Traçabilitat del procés. Cada dada personal detectada queda etiquetada i rastrejada dins del document, fet que facilita la seva revisió i validació. Les dades anonimitzades no es guarden enlloc.
Per a la ciutadania
- Garantia dels drets. Es protegeixen les dades personals incloses als documents fets públics.
- Increment de la confiança. La ciutadania percep que les dades personals es gestionen adequadament.
- Major seguretat. Es tracta d’un procés intern en què la informació original no surt de l’Ajuntament.
Costos
Les despeses associades a la implantació de la solució són:
- No hi ha costos de programari, la solució s’ha desenvolupat amb eines de codi lliure.
- Costos operatius assumits serveis amb recursos TIC existents (infraestructura, manteniment, suport) i sense costos recurrents addicionals.
Elements clau en la gestió del canvi
Els aspectes més importants a tenir en compte en el procés de gestió del canvi són:
- Desplegament progressiu de l'anonimitzador de PDF per incorporar millores basades en l'ús real.
- Suport actiu del servei d’informàtica per fer ajustar l’algorisme i ampliar funcionalitats a l’aplicació d’escriptori.
- Encara no s'ha fet una campanya de comunicació interna per distribuir l'aplicació de forma generalitzada en l’organització, ja que està en fase de pilotatge.
Indicadors d'èxit
Els indicadors SMART que evidencien la consecució dels objectius previstos són:
- Temps mitjà d’anonimització per document.
- Reducció del temps de publicació dels documents anonimitzats.
- Reducció del nombre d’errades detectades en validacions prèvies a la publicació.
- Millora dels indicadors de compliment del portal de transparència.
Barreres i fracassos
Cal considerar els aspectes que poden posar en perill l'èxit de la solució i com superar-los:
- Inicialment, els diferents processos d’anonimització (textos, documents PDF i tasques massives) competien pels recursos i provocaven colls d’ampolla. Per resoldre-ho, s’ha implementat un sistema de cues amb prioritats que assegura un funcionament estable i eficient.
Replicabilitat
La solució és replicable i l’Ajuntament de Girona ja l’està compartint amb altres ens en fase pilot. No requereix programari propietari i funciona en infraestructura local. Requereix certs coneixements tècnics per a poder desplegar l’eina i que els usuaris en puguin fer ús.
Actualització
Data de publicació: desembre 2025
Et pot interessar…
Integració automatitzada de sistemes amb RPA
Iniciativa innovadora
Portal de govern obert interactiu i personalitzat
Iniciativa innovadora
Meses de contractació públiques telemàtiques
Bona pràctica
