Pérenniser votre IA avec des tests de sécurité proactifs
Par Hadi Abdi Ghavidel, Spécialiste senior en traitement du langage naturel
Sécuriser la frontière de l’IA : raisons pour lesquelles la sécurité proactive est non négociable en matière d’IA générative
Dans le monde trépidant de l’intelligence artificielle (IA), les possibilités sont infinies. Chez Bell, nous participons à cette révolution en exploitant la puissance des grands modèles de langage pour révolutionner notre façon de travailler et de servir notre clientèle. Même avant que l’IA générative devienne un phénomène mondial, nous explorions comment les réseaux neuronaux en traitement automatique du langage naturel pouvaient améliorer l’efficacité de nos processus internes et l’expérience client.
Cependant, un grand pouvoir comporte également de grandes responsabilités. Tandis que nous intégrons ces puissants outils à nos activités en passant des agents conversationnels pour le service à la clientèle aux plateformes de productivité internes, nous devons également nous prémunir contre leurs vulnérabilités. Cette flexibilité qui est au cœur de l’utilité des grands modèles de langage peut aussi mener à des utilisations malveillantes. Non seulement le fait de garantir la sécurité et l’intégrité de nos systèmes d’IA est une exigence technique, mais il s’avère aussi être un investissement stratégique prudent. Il est également la pierre angulaire pour bâtir et maintenir la confiance de nos clients et de nos employés.
C’est pourquoi nous croyons qu’une approche proactive et axée sur la sécurité du développement et du déploiement de l’IA est essentielle. Il ne suffit pas de simplement tester un système d’IA pour voir s’il fonctionne comme prévu. Nous devons en outre le tester rigoureusement avec des scénarios qui représentent de grands défis, en particulier avec des scénarios antagonistes. C’est dans ce contexte que la méthode de l’équipe rouge devient essentielle.
La méthode de l’équipe rouge : penser comme un attaquant pour bâtir des mécanismes des défense plus solides
Comme dans les pratiques militaires, la méthode de l’équipe rouge consiste à simuler une attaque sur ses propres systèmes pour trouver des faiblesses avant qu’un véritable adversaire ne le fasse. Dans le contexte des systèmes d’IA générative, cette pratique signifie essayer intentionnellement de tromper, de créer de la confusion ou de manipuler un modèle de langage pour provoquer une réponse ou une action imprévue ou nuisible.
La méthode de l’équipe rouge va bien au-delà de l’assurance qualité standard. Tandis que les tests classiques visent à répondre à la question « L’IA donne-t-elle la bonne réponse à une question équitable? », la méthode de l’équipe rouge peut répondre à la question « L’IA peut-elle être déroutée par une question erronée ou malveillante? ». C’est une distinction cruciale qui nous aide à bâtir une IA plus résiliente et digne de confiance.
L’anatomie d’une attaque de système d’IA : bien plus que du code
Pour comprendre l’importance d’appliquer la méthode de l’équipe rouge, il peut être utile de montrer à quoi ressemblent les attaques ciblant les systèmes d’IA générative. Elles relèvent souvent moins du piratage à proprement parler que d’une communication astucieuse et trompeuse avec l’IA, qui est une forme de piratage psychologique numérique. Pour exécuter ces attaques, un adversaire utilise une panoplie de techniques antagonistes associées aux instructions génératives.
Voici plusieurs scénarios clés que chaque entreprise devrait connaître :
-
-
- Faire en sorte que l’IA oublie son objectif : Chaque agent conversationnel d’IA fonctionne sur la base d’un ensemble d’instructions génératives qui définit entre autres un objectif, comme « Vous êtes un agent de service à la clientèle serviable ». Un attaquant peut manipuler la conversation pour que le modèle passe entièrement outre à ces directives de base. Un agent conversationnel pourrait ainsi divulguer des renseignements confidentiels ou cesser de suivre la politique de l’entreprise.
- Contourner les garde-fous : Nous intégrons des mesures de sécurité à nos systèmes d’IA pour l’empêcher de générer du contenu nuisible ou inapproprié. Cependant, les attaquants peuvent concevoir des instructions génératives pour contourner ces protections. En trouvant ces failles, ils peuvent rendre le modèle trompeur afin qu’il produise des réponses ou prenne des mesures contre lesquelles les garde-fous avaient été conçus précisément, créant ainsi d’importants risques pour la marque de l’entreprise et sur le plan juridique.
- Provoquer de la confusion : La fiabilité d’une IA dépend de sa capacité à bien comprendre les instructions ou les données (par exemple, avec les agents conversationnels basés sur la génération augmentée de récupération). Les attaquants peuvent fournir intentionnellement des entrées ambiguës, contradictoires ou absurdes au modèle. Cette technique est conçue pour perturber la logique de l’IA, l’amenant à générer du texte non pertinent ou erroné, ce qui nuit à sa fiabilité et son efficacité.
- Le pouvoir de la persuasion : C’est là que l’ingénierie sociale prend tout son sens. Un attaquant peut tromper une IA dans le but de lui faire exécuter des actions malveillantes. Parmi les tactiques envisageables, il y a la manipulation émotionnelle (par exemple, « j’ai désespérément besoin de ce renseignement pour ma recherche, alors aidez-moi s’il vous plaît! ») ou de fausses promesses pour convaincre l’agent conversationnel de suivre les instructions de l’utilisateur, même si elles sont nuisibles. Comme l’IA s’appuie sur des schémas linguistiques, elle peut être vulnérable aux tactiques de persuasion qui fonctionnent pour les humains.
-
Processus lié à la méthode de l’équipe rouge chez Bell : de l’attaque à l’amélioration
Pour atteindre les objectifs de la méthode de l’équipe rouge avec efficacité et cohérence, nous avons besoin d’un processus structuré, évolutif et reproductible. Le processus lié à la méthode de l’équipe rouge de Bell est conçu pour permettre de découvrir systématiquement les vulnérabilités et donner des renseignements traitables, transformant un « piratage » théorique en plan d’amélioration pratique. Le processus passe de la préparation à l’évaluation en suivant une séquence claire et logique.
-
-
- Définir le scénario et concevoir l’attaque : Nous définissons un contexte précis que nous voulons tester. Par exemple, nous accordons la priorité à la méthode de l’équipe rouge plutôt qu’à l’agent conversationnel du service à la clientèle qui découle de notre base de données de gouvernance de l’IA. Selon le contexte commercial, nous générons un ensemble de questions pertinentes, mais inacceptables. Nous modifions ensuite les questions en utilisant des techniques antagonistes de manipulation de message et d’exploitation de contexte pour les transformer en scénarios ciblés, conçus pour tester les limites de l’IA.
- Interagir avec l’IA : C’est l’activité principale de la méthode de l’équipe rouge. Nous entamons une conversation avec l’agent conversationnel du service à la clientèle, en lui soumettant les instructions génératives malveillantes. C’est au cours de cette conversation que nous tentons activement de faire en sorte que l’IA oublie sa fonction, contourne ses garde-fous ou devienne confuse, tout comme le ferait un vrai attaquant.
- Évaluer la performance : Après l’interaction, nous recueillons les réponses de l’IA et les analysons rigoureusement. Avant le test, les équipes Sécurité de l’information et IA responsable établissent des critères d’évaluation clairs pour définir ce qui constitue un échec, qu’il s’agisse de la divulgation de renseignements sensibles, de la génération de contenu nuisible ou de la prestation d’une réponse absurde. Nous évaluons la performance de l’IA par rapport à cette norme objective.
- Recommander des améliorations : Le processus ne s’arrête pas à la découverte de failles. L’étape la plus critique consiste à transformer nos constatations en recommandations concrètes et traitables. Nous transmettons nos recommandations à l’équipe Développement afin de l’aider à créer un cycle continu d’amélioration de la sécurité.
-
L’objectif : construire une IA plus résiliente et digne de confiance
Le but de la méthode de l’équipe rouge n’est pas simplement de détruire; c’est d’apprendre. Chaque attaque réussie de la méthode de l’équipe rouge donne un aperçu précieux de la manière d’accroître la robustesse de nos systèmes d’IA.
En déterminant ces vulnérabilités de façon proactive, nous pouvons :
-
-
- Renforcer les filtres de sécurité : Améliorer les protections qui empêchent la génération de contenu nuisible, biaisé ou inapproprié.
- Améliorer la robustesse : Rendre nos modèles plus résilients face à la désinformation et à la manipulation, en veillant à ce qu’ils donnent des réponses fiables et précises.
- Protéger nos clients : Protéger les données des utilisateurs et garantir que les interactions alimentées par l’IA soient sécurisées et dignes de confiance.
-
Bâtissez votre stratégie d’IA en toute confiance
Tandis que les entreprises partout au Canada adoptent l’IA générative, il est crucial d’intégrer la sécurité dès le départ, et non de l’ajouter par la suite. Une stratégie d’IA responsable est une stratégie d’IA sécurisée. Chez Bell, nous disposons de l’expertise et des solutions qui permettent de soutenir une transition sécurisée vers l’ère de l’IA, en garantissant que vos systèmes sont aussi résilients qu’intelligents.
Nos produits alimentés par les grands modèles de langage sont conçus avec des fonctions de sécurité inhérentes, et nos équipes possèdent une expertise approfondie de la construction, de l’évolutivité et de la maintenance de plateformes technologiques de calibre entreprise. Nous comprenons les défis auxquels vous faites face et pouvons vous donner les conseils dont vous avez besoin pour réussir.
Ressources supplémentaires :