01 56 43 68 80

6, rue de Saint-Petersbourg, 75008 Paris

Data : le « Machine Learning » à l’épreuve du droit

MACHINE LEARNING haas avocats

Par Gérard HAAS et Florian PERRETIN

 

Avec l’explosion de la quantité de données, l’amélioration des algorithmes et l’augmentation de la capacité de calcul des ordinateurs, la data science connait un essor sans précédent avec le développement des outils d’apprentissage machine ou « Machine Learning ».

 

I/ Qu’est-ce que le Machine Learning ?

Le Machine Learning représente un ensemble de méthodes puissantes qui permettent de créer des modèles prédictifs à partir de données sans avoir été explicitement programmés. La création de ces modèles prédictifs se fait par apprentissage automatique de l’algorithme qui va alors pouvoir s’améliorer par lui-même à partir des données sans la supervision d’un être humain. Cette phase d’apprentissage se réalise grâce à un « training set » à partir duquel on donnera des exemples concrets à l’algorithme afin que celui-ci nous donne le résultat espéré. C’est lorsque les résultats du « training set » s’avèrent concluants que l’algorithme pourra alors être utilisé pour la réalisation de tâches (prédiction, recommandation, décision etc.).

La mise en place d’une solution de Machine Learning passe nécessairement par un toilettage a priori des données afin de garantir le fait que celles-ci soient consistantes et sans valeur manquantes ni aberrantes avant d’être utilisées dans les algorithmes.

C’est dans l’étape de création d’un modèle global et d’interprétation des résultats qu’interviennent les algorithmes de Machine Learning (Régression linéaire, K-nn, SVM, Réseaux de neurones, Random forests pour les plus utilisés). Il n’existe pas d’algorithme unique capable de résoudre toutes les problématiques, d’où la nécessité d’utiliser plusieurs algorithmes différents en fonction des applications souhaitées (on parle de « no free lunch »).

En effet, pour répondre à une problématique, comme par exemple « connaître la fréquence de passage dans une bibliothèque », il faut prendre en compte les arrivées et sorties des personnes en fonction de l’heure de la journée. La modélisation consiste à créer une courbe de tendance afin de prédire l’affluence qu’il y aura dans la bibliothèque, et l’interprétation des résultats vise à ajuster cette courbe en fonction de l’affluence réelle de la bibliothèque dans l’optique de se rapprocher le plus possible de la réalité. Pour ce faire d’autres données peuvent être recueillies, comme par exemple la température extérieure ou la présence d’une période d’examen pour les étudiants.

Comme il existe plusieurs méthodes d’apprentissage dans la vie de tous les jours (par exemple les méthodes syllabique, phonologique, globale, naturelle ou mixte pour l’apprentissage de la lecture), il existe également plusieurs méthodes d’apprentissage pour les algorithmes de Machine Learning (supervisé, non supervisé, régression, classification), chacun des algorithmes correspondant à une méthode d’apprentissage particulière. Le terme « Machine Learning » est donc générique.

On retrouve des algorithmes de Machine Learning dans diverses applications :

  • Le scoring qui consiste à affecter un score à une personne afin de visualiser son intérêt vis-à-vis d’un service
  • La prédiction de rentabilité
  • La segmentation client
  • Le clustering qui permet de mesurer le groupement de population
  • Le collaborative filtering afin de proposer des recommandations de produits selon les similarités entre utilisateurs ou entre produit

 

II/ Quel encadrement pour le Machine Learning ?

Il n’existe aucun encadrement juridique spécifique en la matière, et tout dépendra des finalités prévues pour les algorithmes de Machine Learning mis en place.

  • Machine Learning et données personnelles

Pour pouvoir fonctionner, les algorithmes de Machine Learning se basent sur des « training set » et nécessitent parfois des données à caractère personnel pour fonctionner.

Pour rappel, une donnée à caractère personnel est définie par son pouvoir identifiant direct ou indirect. Un nom, un prénom, un numéro de téléphone, un matricule ou une adresse IP sont à ce titre considérés comme des données personnelles. Attention car la collecte de certaines données dites « sensibles » est en principe interdite (données ethniques, raciales, philosophiques, religieuses, des données de santé, numéro de sécurité social…).

Dans le cas d’un traitement de données à caractère personnel opéré par un algorithme de Machine Learning, il faudra au préalable s’assurer que les dispositions spécifiques en la matière sont bien respectées :

    • Information des personnes ;
    • Obtention de leur consentement ;
    • Déclaration du traitement (qui disparaîtra avec le RGPD) ;
    • Respect des finalités définies pour le traitement ;
    • Garantie de l’exercice des droits des personnes concernées ;
    • Mise en place de mesures de sécurité techniques et organisationnelles appropriées ;
    • Encadrement du transfert de données hors UE.

Avec l’entrée en vigueur du RGPD, le législateur européen a introduit le principe d’ « accountability », qui consiste à démontrer que l’entreprise joue le rôle de « bon élève » dans la mise en conformité des traitements. Cela entraîne donc des obligations documentaires renforcées afin que l’entreprise puisse démontrer par elle-même qu’elle met en œuvre toutes les mesures nécessaires pour se conformer au droit en vigueur.

  • Machine Learning et Privacy by Design/by Default

Lorsqu’une collecte de données à caractère personnel est effectuée, l’entreprise qui met en œuvre cette collecte doit respecter les principes de Privacy by Design et Privacy by Default introduits par le RGPD.

Dans le cas des algorithmes de Machine Learning, cela signifie :

    • Des mesures de minimisation des données : seules les données nécessaires au traitement doivent être collectées ;
    • La pseudonymisation des données (le résultat de la pseudonymisation peut être indépendant de la valeur initiale via un numéro aléatoire généré par le responsable du traitement ou un nom choisi par la personne concernée, ou dérivé des valeurs originales d’un attribut ou d’un ensemble d’attributs, au moyen d’une fonction de hachage ou d’un système de chiffrement) ;
    • L’anonymisation, qui consiste à enlever tout caractère identifiant aux données.

La loi « Informatique et Liberté », dans son article 1er, dispose que l’informatique doit être au service de chaque citoyen et qu’elle ne doit porter atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques.

Ces mesures peuvent aller à contre-courant de la technologie de Machine Learning qui nécessite, pour pouvoir exprimer pleinement son potentiel, le traitement de quantités très importantes de données, y compris personnelles.

En pratique, il semble cependant que le principe de « Privacy by Design » glisse vers celui de « Humanity by Design », qui signifierait la mise en place de mesures éthiques dans l’utilisation des données.

  • Machine Learning et profilage

Nombre d’applications s’appuyant sur des technologies de Machine Learning proposent un « profilage » sur la personne. L’outil apprend, au fur et à mesure de l’utilisation, les habitudes de consommation de l’utilisateur, son mode de vie etc.

Le RGPD sur ce point consacre le droit pour la personne concernée par le profilage de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé produisant des effets juridiques la concernant ou l’affectant de manière significative de façon similaire.

Si les mesures de profilage sont nécessaires à la conclusion d’un contrat passé entre la personne concernée et le responsable de traitement, ou si elles sont fondées sur le consentement explicite de la personne concernée, alors la personne concernée aura le droit d’obtenir une intervention humaine de la part du responsable de traitement dans la prise de décision, et pourra exprimer son point de vue en contestant la décision.

Il s’agit là d’un des freints potentiels au développement du Machine Learning dans la mesure où l’homme devra être capable d’ « expliquer » le raisonnement de la machine, du moins de motiver l’interprétation issue de l’algorithme.

  • Machine Learning et protection par le droit d’auteur

On définit l’algorithme comme « l’étude de la résolution de problèmes par la mise en œuvre de suites d’opérations élémentaires selon un processus défini aboutissant à une solution ». C’est donc au sens du droit français une formule mathématique, formule qui fait partie de la catégorie des idées dites de « libre parcours », non-protégeable par le droit de la propriété intellectuelle. Cette protection est par ailleurs expressément exclue par le droit des brevet (L.611-10 Code de la propriété intellectuelle).

Néanmoins, des moyens de protection « indirects » existent pour protéger l’algorithme. En effet dans la plupart des cas, celui-ci est intégré dans les codes sources d’un logiciel qui sont protégeables par le droit d’auteur à condition de satisfaire au critère d’originalité de l’œuvre (en introduisant notamment des commentaires lors du développement). De la même manière, un algorithme peut être protégé par le droit des brevets s’il est implémenté dans une invention elle-même brevetable.

  • Machine Learning et droit de la robotique

Bien souvent les technologies de Machine Learning s’intègrent dans l’IA robotique, et amènent, de par l’autonomie de décision qu’elles génèrent, de véritables problématiques liées à la responsabilité de la machine.

Le robot est considéré en droit français comme une chose à laquelle on applique le régime particulier de la responsabilité du fait des choses prévu par l’article 1242 du Code civil.

Pour que cette responsabilité soit appliquée, la chose doit être impliquée dans le dommage et y jouer un rôle actif (comme le fait d’être en mouvement ou de toucher la victime). Celui qui a la garde de la chose (le « gardien ») est alors considéré comme responsable et devra réparer le dommage. Cependant, dans l’hypothèse où le dommage est causé par une faille de sécurité de la machine, c’est la responsabilité du fabricant qui sera engagée.

Pour anticiper ces régimes de responsabilité relatifs au Machine Learning qui peuvent s’avérer compliqués à mettre en pratique, il est toujours possible de prévoir contractuellement un aménagement de la responsabilité afin de déroger aux principes de droit commun.

Cependant sur ce point, des évolutions sont à prévoir. Le Parlement européen a récemment adopté une résolution contenant des recommandations relatives aux règles de droit civil applicables en matière de robotique.

 

Le cabinet HAAS AVOCATS, expert depuis plus de vingt ans dans le domaine des NTIC, reste à votre disposition pour vous accompagner dans vos projets de transitions digitales : création de l’environnement juridique d’une solution logiciel, accompagnement de projet, mise en conformité juridique des traitements de données, préparation de l’entrée en vigueur du Règlement Européen pour la Protection des données, nos prestations couvrent l’ensemble des domaines et secteurs concernés par le digital.

Contactez le Cabinet HAAS Avocats, ici.

 

ENVELOPPE NEWSLETTER copie

L'actu juridique numérique
du mardi matin.

Inscrivez-vous pour recevoir nos derniers articles, podcasts, vidéos et invitations aux webinars juridiques.

*Champs requis. Le cabinet HAAS Avocats traite votre adresse e-mail pour vous envoyer ses newsletters.

Vous pouvez accéder aux données vous concernant, les rectifier, demander leur effacement ou exercer votre droit à la limitation du traitement de vos données en nous contact à l’adresse mail suivante : dpo@haas-avocats.com