Projet Interreg

Nom du projet: Interreg (DecRIPT) Project – Détection des diverses Représentations de l’Information permettant d’identifier les données Personnelles contenues dans les Textes

L’identification, dans les textes, des données personnelles et autres données représentant une information pertinente pour les utilisateurs est une problématique non triviale et d’une grande utilité aujourd’hui, les directives du GDPR en sont une preuve.

La protection des données dans les documents textuels, comme par exemple celles relatives aux personnes, est aujourd’hui un enjeu majeur pour les entreprises. Assurer la sécurité des données est devenu incontournable pour la collecte et l’exploitation de données, y compris de textes susceptibles de contenir des données personnelles.

Les directives du « Règlement Général sur la protection des données » (GDPR) de l’Union européenne, stipulent qu’une entreprise qui traite (collecte, stocke et/ou utilise) des données personnelles de ressortissants européens, doit être en mesure de prouver, à n’importe quel moment, que les données à caractère personnel qu’elle détient (IBAN, numéros de téléphone, identifiants divers, etc.) sont collectées avec le consentement des personnes préalablement définies. Ce, dans le respect des principes et droits de personnes du GDPR, et en particulier qu’elles soient protégées contre toutes violations (vol, copie, effacement, modification) pendant la durée de leur conservation.

Le GDPR vient harmoniser la réglementation sur la protection des données à caractère personnel dans l’UE. Il concerne toutes les organisations qui collectent ou qui détiennent des données personnelles sur les citoyens européens, et impose de nouvelles obligations en matière de traitement des données, de sécurité des informations et de transparence entre les entreprises et les personnes concernées. Ce changement de la réglementation implique que les entreprises doivent adapter leurs pratiques en ce qui concerne la transmission de documents et de données à des prestataires, la collecte et le stockage des avis clients, l’agrégation et l’analyse des données privées. Les entreprises ne peuvent donc plus transmettre les documents qu’elles voudraient faire analyser, comme concernant l’avis de leurs clients sur les problèmes rencontrés, analytique ou statistique pour leur propre compte. Par exemple, les banques et les entreprises de cartes de crédit analysent les transactions et les dépenses pour empêcher les fraudes et les usurpations d’identité.

Afin de répondre à ces nouveaux besoins d’identification des données personnelles, un nouveau métier est en train de se créer « Data Protection Officer » dont les missions consistent à mettre en conformité les entreprises avec la législation, et notamment à supprimer ou masquer/offusquer les données des personnes repérées dans les documents. Le problème est que ces opérations, si elles sont faites manuellement, sont coûteuses et peuvent prendre énormément de temps. L’idée est de le faire réaliser automatiquement par un ordinateur. Pour gouverner et pour faire l’opération de suppression ou masquage/offuscation des données des personnes automatiquement, il faut en premier lieu indiquer à la machine comment ces données sont représentées dans les documents, la deuxième étape consiste à les faire trouver par la machine pour finalement soit les gouverner ou les supprimer ou les masquer/offusquer. Le problème le plus important reste celui de savoir repérer les données automatiquement. Ce problème de repérage n’est pas trivial, de plus, certaines données peuvent faire référence à une personne, un lieu sans même les nommer ou sans utiliser des expressions qui s’y réfèrent de façon explicite ou indices tangibles, concrets. Il n’est pas simple de différencier ne serait-ce qu’un nom qui pourrait être confondu avec un sigle ou acronyme (LiSe, Linguistique et Sécurité), d’identifier un synonyme, un homonyme, etc.

Méthodologie

Méta-modèle sémantique et son noyau informatique :

Afin de mener à bien notre projet, un modèle d’Intelligence Artificielle, méta-modèle basé sur la sémantique, sera élaboré pour l’identification des données personnelles ou ayant une certaine valeur en fonction des domaines et utilisateurs. Ce méta-modèle sémantique nous permettra de proposer une grammaire algorithmique qui avec son noyau informatique d’exécution des algorithmes va identifier automatiquement le sens des parties du discours et expressions textuelles composées avec traçage. Le méta-modèle qui sera créé servira à repérer divers types de données personnelles, représentées de façons variées, afin de pouvoir les gouverner ou/et les offusquer pour rendre possible la transmission des textes vers des partenaires ou prestataires de l’entreprise. L’ensemble constituera une base fiable pour les applications pilotes.

Une étude de marché sera menée lors du projet pour faire l’état des lieux de la demande dans notre région transfrontalière. Nos partenaires industriels attestent des besoins exprimés par leurs clients-entreprises en matière de repérage des données personnelles, ils ont déjà de nombreuses demandes.

Objectif

L’objectif du projet est de traiter automatiquement la sémantique des textes en langage naturel en vue d’identifier les données des personnes pour leur gouvernance, leur sécurité et leur utilisation dans le domaine de la prospective. Le problème principal est de trouver comment ces données sont représentées dans les textes en langage naturel afin de proposer un modèle sémantique et de fournir des outils pour les repérer et traiter (gouverner, supprimer, masquer/offusquer) automatiquement.

En savoir plus : http://tesniere.univ-fcomte.fr/projet-decript/