16 mars 2006

Datamining et statistiques

Dans une colonne publiée par Wired, l'expert en sécurité informatique Bruce Schneier dresse un réquisitoire très convaincant contre l'usage du datamining dans le but d'identifier des complots terroristes en préparation. Le datamining (exploration de données en bon français) peut être défini comme "l'extraction d'un savoir à partir de grandes quantités de données analysées de manière automatisée".

Si le datamining peut être utile contre les formes de criminalité à fort volume (fraudes en tout genre), dont la fréquence est suffisamment élevée pour permettre d'en dresser un profil statistique robuste, il semble peu utile dans le contexte terroriste, où les attaques (et les projets d'attaque) sont relativement rares (même si elles restent trop nombreuses) et se ressemblent peu.

La comparaison de Schneier est assez convaincante: il existe aux USA 900 millions de cartes de crédit en circulation, dont 1% (10 millions) sont volées chaque année, ce qui fait reposer l'analyse des fraudes bancaires sur un nombre suffisant d'événements. Si l'on prend le terrorisme, et que l'on assume un taux élevé de précision du système de datamining (disons seulement 1% d'erreurs de type faux-positif, où on identifie comme terroriste potentiel une personne tout à fait innocente), et que le système puisse analyser pour chaque habitant des USA 10 événements par jour (coup de téléphone, email, achat avec une carte de crédit, etc...), celui-ci devrait traiter 1 milliard de milliards de données distinctes annuellement. Imaginons qu'une dizaine de terroristes soient effectivement en train de planifier une attaque sur le sol américain: le système devrait alors sonner l'alarme de manière erronnée 1 milliard de fois pour chaque attaque en préparation effectivement identifiée.

Aucun commentaire: