Les botnets modernes utilisent des algorithmes de génération de domaines pour échapper à la détection. Ces programmes créent des milliers de noms de domaine aléatoires quotidiennement, dont seule une poignée sera réellement enregistrée par les attaquants. Pendant des années, une caractéristique a permis de les identifier facilement: leur longueur inhabituelle. Mais cette époque est révolue.
Quand les domaines malveillants deviennent courts
Les premiers domaines générés algorithmiquement comme "nzzhyhemzswcyrwpzjztdmbyptktk.ru" ou "thatunanimoushiswarcorrespondence.com" étaient facilement repérables par leur longueur excessive. Les systèmes de détection exploitaient cette caractéristique avec succès. Mais les créateurs de maliciels ont adapté leurs stratégies. Des familles récentes comme Cryptolocker et Zeus génèrent désormais des domaines courts comme "jaorw.com", "bfuqnb.info" ou "vkdjisc.com", dont la longueur se confond avec celle de domaines légitimes comme "google.com" ou "bing.com".
Le paradoxe de l'entropie
Notre recherche révèle un constat troublant: les mesures d'entropie fonctionnent remarquablement bien pour détecter les longs domaines générés algorithmiquement, mais perdent leur efficacité pour les courts. L'entropie mesure la quantité d'information véhiculée par le nom de domaine en analysant les trigrammes de caractères. Un domaine légitime comme "stackoverflow" contient des séquences reconnaissables ("sta", "ack", "low"), tandis qu'un domaine aléatoire présente des combinaisons inhabituelles. Mais cette distinction s'estompe lorsque les domaines raccourcissent.
Un modèle adaptatif à deux visages
La solution réside dans un modèle divisé qui utilise des ensembles de caractéristiques différents selon la longueur du domaine. Pour les domaines de moins de dix caractères, le système s'appuie sur des caractéristiques lexicales de base (nombre de voyelles, consonnes, chiffres) et sur la probabilité conditionnelle des trigrammes par rapport à la longueur. Pour les domaines plus longs, l'entropie des trigrammes s'ajoute à ces caractéristiques.
La probabilité conditionnelle comme clé
La probabilité conditionnelle représente l'innovation centrale. Plutôt que de mesurer simplement la fréquence d'apparition des trigrammes dans un corpus de référence comme celui de Google, le système calcule cette probabilité en tenant compte de la longueur du domaine. Cette approche permet de distinguer efficacement les domaines courts légitimes des domaines courts malveillants, là où l'entropie seule échoue.
Des résultats qui transcendent la longueur
L'évaluation sur 200 000 domaines (moitié légitimes, moitié malveillants) démontre l'efficacité du modèle divisé. L'algorithme de forêts aléatoires atteint un taux de détection de 98,96 pourcent avec seulement 2,1 pourcent de faux positifs. Plus révélateur encore, les performances demeurent quasi identiques pour les domaines courts (99,24 pourcent de détection) et longs (98,69 pourcent), démontrant que le seuil de longueur permet une transition transparente entre les deux modes de détection.