Le chiffrement du trafic web est devenu la norme sur Internet, mais cette évolution technologique sert aussi les cybercriminels. Aujourd'hui, 37% des maliciels utilisent HTTPS pour communiquer avec leurs serveurs de commande et contrôle, et chaque grande famille de rançongiciels depuis 2016 a adopté cette approche.
La détection de rançongiciels se concentre traditionnellement sur l'analyse des systèmes infectés, avec peu d'attention portée aux communications réseau. Identifier une infection au niveau du trafic permettrait pourtant d'intervenir avant que les dommages ne soient irréversibles. Le problème? Les données chiffrées cachent les indices habituels que les outils de sécurité recherchent.
Cette recherche propose une approche différente: extraire des informations significatives malgré le chiffrement. Trois dimensions du trafic réseau sont exploitées. Les caractéristiques de connexion révèlent les patterns de communication entre l'hôte infecté et le serveur malveillant. Les propriétés du chiffrement lui-même, comme le ratio entre SSL et TLS, trahissent souvent un comportement suspect. Les certificats utilisés lors de l'établissement des connexions contiennent une mine d'informations exploitables.
L'approche utilise le système de détection d'intrusion Bro pour générer trois types de fichiers journaux interconnectés par des identifiants uniques. L'algorithme construit ensuite des flux regroupant les paquets qui partagent les mêmes adresses IP, ports et protocole. Pour chaque flux, 28 caractéristiques sont calculées: durée moyenne des connexions, âge relatif des certificats, présence du nom du serveur dans les noms alternatifs, ratio entre certificats auto-signés et validés.
L'évaluation s'appuie sur 666 échantillons de rançongiciels provenant de 20 familles différentes, combinés à du trafic normal. Trois algorithmes d'apprentissage machine ont été comparés: régression logistique, machine à vecteurs de support et forêts aléatoires.
Les forêts aléatoires surpassent nettement les autres approches, atteignant un taux de détection de 99,9% avec un taux de faux positifs de 0%. L'analyse révèle que les rançongiciels utilisent souvent des certificats avec des propriétés inhabituelles: chemins de certification courts, noms de serveur qui ne correspondent pas aux entrées DNS alternatives, périodicité de communication distincte du trafic légitime.
Cette approche démontre qu'il est possible de détecter efficacement les rançongiciels même lorsqu'ils chiffrent leurs communications, en exploitant les métadonnées du trafic plutôt que le contenu des messages.