Améliorer la détection des fraudes grâce à l'IA générative

Les applications possibles de l'IA générative ont été explorées par de nombreuses personnes ces dernières semaines, cependant, un sujet majeur qui n'a pas été entièrement exploré est la façon dont les données créées par l'IA générative pourraient être utilisées pour augmenter et améliorer les stratégies de détection de la fraude, et les implications de l'utilisation de données pour former des modèles de fraude et améliorer les taux de détection.

Il est bien connu dans les cercles de science des données que la qualité des données présentées à un modèle d'apprentissage automatique fait ou défait le résultat final, et cela est particulièrement vrai pour la détection des fraudes. De nombreux outils d'apprentissage automatique appliqués à la détection de la fraude reposent sur un signal de fraude fort - généralement inférieur à 0,5 % des données - ce qui rend tout modèle difficile à entraîner efficacement. Dans un exercice idéal de science des données, les données utilisées pour former n'importe quel modèle d'IA contiendraient un mélange 50/50 d'échantillons frauduleux/non frauduleux, mais cela est difficile à réaliser et peut donc être irréaliste pour beaucoup. Bien qu'il existe de nombreuses méthodes pour traiter ce déséquilibre (de classe), telles que le regroupement, le filtrage ou le suréchantillonnage, elles ne compensent pas entièrement un déséquilibre extrême des données entre les enregistrements authentiques et frauduleux.

L'IA générative, l'application de réseaux de neurones profonds transformateurs tels que ChatGPT d'OpenAI, est conçue pour produire des séquences de données en sortie et doit être formée à l'aide de données séquentielles, comme des phrases et des historiques de paiement par exemple. Ceci est différent de nombreuses autres méthodes, qui produisent des « classifications » uniques (fraude/non frauduleuse) basées sur les données d'entrée et de formation présentées, qui peuvent être présentées au modèle dans n'importe quel ordre ; la sortie d'une IA générative peut continuer indéfiniment, tandis que les méthodes de classification ont tendance à produire des sorties uniques.

L'IA générative est donc l'outil idéal pour générer synthétiquement des données basées sur des données réelles, et l'évolution de cette technologie aura des applications importantes dans le domaine de la détection de la fraude, où, comme souligné précédemment, la quantité d'échantillons de fraude viables est très faible et difficile pour un machine learning d'apprendre efficacement. Avec l'IA générative, un modèle peut utiliser des modèles existants et générer de nouveaux échantillons synthétiques qui ressemblent à de « vrais » échantillons de fraude, renforçant ainsi le signal de fraude pour les principaux outils d'apprentissage automatique de détection de fraude.

Un signal de fraude typique est une combinaison de données authentiques et frauduleuses. Les données authentiques viendront (généralement) en premier dans la séquence des événements et contiennent l'activité comportementale réelle d'un titulaire de carte, par exemple, avec des paiements frauduleux mélangés une fois que la carte/autre méthode de paiement est compromise. L'IA générative peut produire des séquences de paiement similaires, simulant une attaque de fraude sur une carte, qui peuvent ensuite être ajoutées aux données de formation pour aider les outils d'apprentissage automatique de détection de fraude et les aider à mieux fonctionner.

L'une des plus grandes critiques du ChatGPT d'OpenAI est que les modèles actuels peuvent produire des résultats inexacts ou " hallucinogènes " - une faille dont beaucoup dans l'espace des paiements et de la fraude sont à juste titre préoccupés, car ils ne veulent pas que leurs outils publics, tels que les chatbots du service client présentent informations fausses ou inventées. Cependant, nous pouvons tirer parti de ce «défaut» pour générer des données de fraude synthétiques, car une variation synthétique de la sortie synthétisée peut générer des modèles de fraude entièrement uniques, renforçant les performances de détection de la fraude du modèle de défense contre la fraude finale.

Comme beaucoup le savent, des exemples répétés du même signal de fraude n'améliorent pas efficacement la détection, car la plupart des méthodes d'apprentissage automatique nécessitent très peu d'instances de chacune pour apprendre. La variation des sorties générées par le modèle génératif ajoute de la robustesse au modèle de fraude finale, lui permettant non seulement de détecter les schémas de fraude présents dans les données, mais également de repérer des attaques similaires qui peuvent facilement être manquées à l'aide d'un processus traditionnel.

Cela peut être légèrement alarmant pour les titulaires de cartes et les gestionnaires de fraude - qui ont raison de se demander comment un modèle de fraude formé sur des données inventées peut aider à améliorer la détection de la fraude, et quels peuvent être les avantages de le faire. Ce qu'ils ne réalisent peut-être pas, c'est qu'avant qu'un modèle ne soit utilisé sur les paiements en direct, il passe par des exercices d'évaluation rigoureux pour garantir les performances attendues. Si le modèle ne répond pas aux normes extrêmement élevées attendues, il est jeté et des remplaçants sont formés jusqu'à ce qu'un modèle approprié soit trouvé. Il s'agit d'un processus standard qui est suivi avec tous les modèles d'apprentissage automatique produits, car même les modèles formés sur des données authentiques peuvent finir par fournir des résultats inférieurs à la norme au stade de l'évaluation.

L'IA générative est un outil fascinant avec de nombreuses applications dans toute une gamme d'industries, mais les itérations d'aujourd'hui, aussi intelligentes soient-elles, ont leurs problèmes. Heureusement, les traits qui sont considérés comme des problèmes très graves pour certaines industries sont des caractéristiques importantes pour d'autres, mais l'exigence d'une réglementation et d'une gouvernance strictes demeure. L'utilisation future de l'IA générative nécessite un examen complet de la manière dont les modèles formés sur des données partiellement générées sont utilisés, et les processus de gouvernance doivent être renforcés en conséquence pour garantir que le comportement et les performances requis des outils sont constamment respectés.

Oliver Tearle est responsable de la technologie de l'innovation chez The ai Corporation (ai), spécialiste de la prévention de la fraude aux paiements en ligne. ai est reconnu dans le monde entier pour le développement d'une technologie innovante de fraude et de paiement qui permet aux clients de créer un succès prévisible et de croître de manière rentable.

FinTech LIVE London - l'événement phare de la fintech, des services bancaires et financiers - est de retour avec des conférenciers de premier plan et un programme chargé d'action…

FinTech Magazine s'entretient avec Glory Eromosele de Techstars pour affiner votre présentation aux investisseurs et comment l'environnement de collecte de fonds évolue pour les startups…

La fondatrice et PDG de Starling Bank, Anne Boden, a démissionné de son poste de PDG pour éviter les problèmes de conflit d'intérêts…