El que necessites saber sobre el filtre de correu brossa Bayesià

by Heinz Tschabitscher

Descobriu com les estadístiques ajuden a mantenir netes la safata d'entrada

Els filtres bayesians de correu brossa calculen la probabilitat que un missatge sigui correu brossa en funció dels seus continguts. A diferència dels filtres basats en contingut simple, el filtre de correu brossa de Bayesian aprèn del correu brossa i del correu brossa, el que resulta en un enfocament anti-spam molt adequat i adequat, i que, sobretot, no ofereix prou falsos positius.

Com es reconeix el correu brossa?

Penseu en com detecta spam . Una vista ràpida sovint és suficient. Ja saps què és el correu brossa, i saps el que sembla un bon correu.

La probabilitat que un correu brossa sembli un bon correu és al voltant de ... zero.

La puntuació de filtres basats en contingut no s'adapta

No seria genial que també funcionessin filtres automàtics de correu brossa?

L'anotació de filtres d'spam basats en contingut intenta així. Busquen paraules i altres característiques pròpies del correu brossa. Cada element característic està assignat a una puntuació, i una puntuació de correu brossa per a tot el missatge es calcula a partir de les puntuacions individuals. Alguns filtres de puntuació també cerquen característiques de correu legítim, reduint la puntuació final d'un missatge.

L'enfocament dels filtres de puntuació funciona, però també té diversos inconvenients:

La llista de característiques es basa en el correu brossa (i el bon correu) disponible per als enginyers del filtre. Per obtenir una bona comprensió del correu brossa típic que algú pugui obtenir, el correu electrònic s'ha de recollir en centenars d'adreces de correu electrònic. Això debilita l'eficiència dels filtres, especialment perquè les característiques del bon correu seran diferents per a cada persona , però això no es té en compte.
Les característiques a buscar estan més o menys configurades . Si els spammers fan l'esforç per adaptar (i fan que el seu correu brossa sigui un bon correu als filtres), les característiques del filtratge s'han de retocar manualment, un esforç encara més gran.
La puntuació assignada a cada paraula probablement es basa en una bona estimació, però encara és arbitrària. I com la llista de característiques, no s'adapta al món canviant del correu brossa en general ni a les necessitats dels usuaris individuals.

Els filtres de correu brossa bayesians s'alteren, es milloren i milloren

Els filtres bayesians d'spam són també una mena de filtres basats en contingut. Tanmateix, el seu enfocament elimina els problemes dels filtres senzills de puntuació de correu brossa i ho fa de manera radical. Atès que la feblesa dels filtres de puntuació es troba en la llista de característiques construïda manualment i les seves puntuacions, aquesta llista s'elimina.

En lloc d'això, els filtres Bayesian spam generen la llista ells mateixos. L'ideal és que comenceu amb un grup (gran) de missatges de correu electrònic que hàgiu classificat com a correu brossa i un altre bon correu. Els filtres analitzen tant el correu legítim com el correu brossa per calcular la probabilitat que hi apareguin diverses característiques que apareixen en el correu brossa i en un bon correu.

Com es detecta un correu electrònic amb un filtre de correu brossa bayesià

Les característiques que un filtre Bayesian spam pot observar pot ser:

les paraules en el cos del missatge, és clar, i
els seus encapçalaments (remitents i camins de missatges , per exemple!), sinó també
altres aspectes com el codi HTML / CSS (com ara colors i altres formats), o fins i tot
parells de paraules, frases i
meta informació (on apareix una frase particular, per exemple).

Si una paraula, "cartesiana", per exemple, mai apareix a l'spam, però sovint en el correu electrònic legítim que rebeu, la probabilitat que el "cartesià" indica que el correu brossa és a prop de zero. El "tòner", d'altra banda, apareix exclusivament, i sovint, en el correu brossa. "Tòner" té una probabilitat molt alta de trobar-se al correu brossa, no gaire per sota d'1 (100%).

Quan arriba un missatge nou, l'analitza el filtre de correu brossa bayesiano i la probabilitat que el missatge complet sigui correu brossa es calcula amb les característiques individuals.

Suposem que un missatge conté tant "Cartesian" com "Toner". Només a partir d'aquestes paraules encara no està clar si tenim spam o correus legítims. Altres característiques (amb tota probabilitat i molt probablement) indiquen una probabilitat que permeti que el filtre classifiqui el missatge com a correu brossa o bé.

Els filtres de correu brossa bayesià es poden aprendre automàticament

Ara que tenim una classificació, el missatge es pot utilitzar per entrenar encara més el filtre. En aquest cas, es redueix la probabilitat de "cartesiana" que indica un bon correu (si el missatge que conté tant "Cartesian" com "tòner" es considera correu brossa), o la probabilitat que el "tòner" indiqui el correu brossa ha de ser reconsiderat.

Mitjançant aquesta tècnica d'adaptació automàtica, els filtres bayesians poden aprendre tant de la seva pròpia decisió com de l'usuari (si corregeix correctament un judici erroni pels filtres). L'adaptabilitat del filtratge Bayesià també s'assegura que són més eficaços per a l'usuari de correu electrònic individual. Tot i que el correu brossa de la majoria de les persones pot tenir característiques similars, el correu legítim és característicament diferent per a tothom.

Com poden els spammers obtenir filtres Bayesians passats?

Les característiques del correu legítim són igual d'importants per al procés de filtratge de correu brossa Bayesian com el correu brossa. Si els filtres estan formats específicament per a cada usuari, els spammers tindran un temps encara més difícil de treballar amb els filtres de correu brossa de tots (o fins i tot de la majoria dels usuaris), i els filtres es poden adaptar a gairebé tots els provadors d'spam.

Els spammers només els faran passar per filtres Bayesians ben formats, si fan que els seus missatges de correu brossa es vegin perfectament com el correu electrònic normal que tothom pot obtenir.

Els spammers no solen enviar correus electrònics tan habituals. Suposem que això és perquè aquests correus electrònics no funcionen com a correu brossa. Per tant, és probable que no ho facin quan els correus electrònics ordinaris i avorrits són l'única manera de fer que els filtres de correu brossa siguin anteriors.

Tanmateix, si els spammers canvien a la majoria de correus electrònics d'aspecte normal, veurem una gran quantitat de correu brossa a les nostres safates d'entrada, i el correu electrònic pot arribar a ser tan frustrant com en els dies pre-Bayesians (o pitjor encara). Tanmateix, també hauria arruïnat el mercat per a la majoria dels tipus de correu brossa i, per tant, no durarà gaire.

Indicadors forts Pot ser un filtre de correu brossa de Bayes, Aquiles & # 39; s; Taló

Es pot percebre una excepció perquè els spammers funcionin a través dels filtres bayesians fins i tot amb el seu contingut habitual. És en la naturalesa de les estadístiques bayesianes que una paraula o característica que sovint apareix en un bon correu pot ser tan significativa que permet que qualsevol missatge sembli correu brossa que es classifiqui com a pernil al filtre.

Si els spammers troben una manera de determinar les paraules de correu bons de seguretat que us oferim, utilitzeu els ingressos de retorns HTML per veure quins missatges heu obert, per exemple, poden incloure-ne un d'ells en un correu brossa i arribar-hi, fins i tot, filtre Bayesià format.

John Graham-Cumming ha intentat això, deixant que dos filtres bayesians funcionin l'un contra l'altre, el "dolent" que s'adapti als missatges que es trobin a través del filtre "bo". Ell diu que funciona, tot i que el procés és llarg i complex. No creiem que veurem que això passarà, almenys no a gran escala, i que no s'adapti a les característiques de correu electrònic dels usuaris. Els spammers poden (intentar) trobar algunes paraules clau per a organitzacions (alguna cosa així com "Almaden" per a algunes persones d'IBM tal vegada?).

Normalment, el correu brossa sempre serà (significativament) diferent al correu normal o tampoc no serà correu brossa.

La línia inferior: la força de filtratge bayesià pot ser la seva feblesa

Els filtres Bayesian spam són filtres basats en contingut que:

estan especialment capacitats per reconèixer el correu brossa i el bon correu de l'usuari de correu electrònic individual , fent-los altament efectius i difícils d'adaptar als spammers.
pot contínuament i sense gaire esforç o anàlisi manual adaptar - se als últims trucs dels spammers.
tingui en compte el bon correu de l'usuari individual i tingui una taxa molt baixa de falsos positius .
Malauradament, si això provoca la confiança cega en els filtres anti spam de Bayesia, fa que l' error ocasional sigui encara més greu . L'efecte contrari de falsos negatius (spam que es veu exactament com un correu normal) té el potencial de molestar i frustrar els usuaris.