Les chercheurs développent de nouveaux protocoles pour valider l’intégrité des modèles d’apprentissage automatique


ai

Crédit photo: Pixabay / CC0 Public Domain

L’apprentissage automatique est largement utilisé dans diverses applications telles que la reconnaissance d’images, les véhicules autonomes et le filtrage des e-mails. Malgré son succès, les préoccupations concernant l’intégrité et la certitude des prévisions et l’exactitude d’un modèle augmentent.

résoudre ces problèmes, Dr. Yupeng Zhang, professeur au département d’informatique et d’ingénierie de la Texas A&M University, et son équipe ont développé des algorithmes cryptographiques, appelés sans connaissance, dans le domaine de l’apprentissage automatique.

«Avec ces protocoles, le propriétaire d’un modèle d’apprentissage automatique peut prouver à d’autres que le modèle peut atteindre une grande précision dans les archives publiques sans perdre d’informations sur le modèle d’apprentissage automatique lui-même», a déclaré Zhang.

Les résultats des chercheurs ont été publiés dans le cadre du rapport 2020 de l’Association for Computing Machinery sur la sécurité informatique et des communications.

L’apprentissage automatique est une forme d’intelligence artificielle qui se concentre sur des algorithmes qui permettent à un système informatique d’apprendre à partir de et d’améliorer sa précision au fil du temps. Ces algorithmes créent des modèles pour trouver des modèles dans de grandes quantités de données afin de prendre des décisions et des prédictions sans être programmés.

Au fil des ans, les modèles d’apprentissage automatique ont considérablement évolué, ce qui s’est traduit par des avancées significatives dans divers domaines de recherche tels que l’exploration de données et le traitement du langage naturel. Plusieurs entreprises et groupes de recherche affirment avoir développé des modèles d’apprentissage automatique qui peuvent être utilisés pour atteindre des niveaux de précision très élevés sur des échantillons de test publics de données. Cependant, reproduire les résultats pour vérifier ces allégations reste un défi pour les chercheurs. On ne sait pas s’ils peuvent ou non atteindre cette précision et ce n’est pas facile à justifier.

Le fondement théorique de la cybersécurité et de la cryptographie est la science de la protection des informations et des communications grâce à une série de codes afin que seuls l’expéditeur et le destinataire prévu puissent les voir et les comprendre. Il est le plus souvent utilisé pour développer des outils tels que des chiffrements, du cybertext, des signatures numériques et des fonctions de hachage.

Il existe des approches en dehors de la cryptographie qui pourraient être utilisées, dont l’une consiste à publier le modèle au public. Étant donné que les modèles d’apprentissage automatique sont devenus une propriété intellectuelle importante pour de nombreuses organisations, ils ne peuvent pas être partagés car ils contiennent des informations sensibles essentielles à l’entreprise.

«Cette approche est également problématique car une fois que le modèle sera disponible, il y aura un outil logiciel en ligne que tout le monde pourra utiliser pour vérifier», a déclaré Zhang. « Des recherches récentes montrent également que les informations contenues dans le modèle peuvent être utilisées pour le reconstruire et l’utiliser pour tout ce que vous voulez. »

En tant qu’application de la cryptographie, les journaux de preuves sans connaissances sont une méthode mathématique que le propriétaire d’un modèle d’apprentissage automatique peut utiliser pour en produire des preuves concises, avec une probabilité écrasante de prouver que quelque chose est vrai sans divulguer d’informations supplémentaires à ce sujet.

Bien que l’utilisation de schémas de preuves universels et sans connaissances se soit considérablement améliorée au cours de la dernière décennie, faire des prédictions efficaces pour l’apprentissage automatique et les tests de précision reste un défi en raison du temps nécessaire pour constituer des preuves.

«Lorsque nous avons appliqué ces techniques génériques à des modèles d’apprentissage automatique populaires, nous avons constaté qu’il faudrait des jours ou des mois à une entreprise pour produire des preuves pour prouver au public que son modèle peut faire ce qu’elle prétend», a déclaré Zhang.

Pour une approche plus efficace, Zhang et son équipe ont développé plusieurs nouvelles techniques et optimisations de preuves sans connaissances, spécialement conçues pour convertir les calculs d’un modèle d’arbre de décision, l’un des algorithmes d’apprentissage automatique les plus utilisés, en preuves sans connaissances.

En utilisant leur approche du calcul d’un arbre décisionnel, ils ont constaté qu’il faudrait moins de 300 secondes pour générer des preuves qui prouveraient que le modèle peut atteindre une précision élevée pour un ensemble de données.

Étant donné que leur approche nouvellement développée ne concerne que la génération de preuves pour les modèles d’arbres de décision, les chercheurs souhaitent étendre leur approche pour prendre en charge efficacement différents types de modèles d’apprentissage automatique.

Les contributeurs à ce projet incluent Zhiyong Fang, un étudiant au doctorat au Département d’informatique et d’ingénierie; et l’étudiant au doctorat Jiaheng Zhang et le Dr. Dawn Song de l’Université de Californie à Berkeley.


L’apprentissage automatique permet de simuler la dynamique des atomes en interaction


Plus d’information:
Jiaheng Zhang et coll. Zero Knowledge Proofs pour la prédiction et la précision de l’arbre de décision, Rapports de la conférence ACM SIGSAC 2020 sur la sécurité informatique et des communications (2020). DOI: 10.1145 / 3372297.3417278

Fourni par le Texas A&M University College of Engineering

Citation: Les chercheurs de protocoles pour l’intégrité des modèles d’apprentissage automatique (28 avril 2021), publiés le 28 avril 2021 sur https://techxplore.com/news/2021-04-protocols-validate-machine-learning. html

Ce document est soumis au droit d’auteur. Sauf pour le commerce équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.

Laisser un commentaire