Che cosa sono, quali sono e come funzionano i filtri antispam in informatica

I filtri antispam si basano su regole che si applicano al testo delle e-mail ricevute per stabilire se si tratta di spam. Andremo ad analizzare il funzionamento e i vari tipi di filtraggio ma prima di tutto è necessario distinguere due tipi di filtri:

Filtri sul client: in questo caso sono applicati sul client di posta e quindi gli header dei messaggi vengono scaricati tutti, poi verrà controllato il contenuto e quindi scaricato solo quello che non è spam. Questo comporta perdita di tempo e soprattutto non fa risparmiare al server il costo del messaggio.
Filtri sul server: in questo caso sono applicati sul server e ciò risulta più efficace in quanto è il server che si occupa della verifica, infatti all’utente vengono presentati solo i messaggi legittimi che hanno superato il controllo. Spesso però stabiliscono solo se si tratta di spam senza eliminare il messaggio.

In relazione a questo si possono quindi avere:

Mailbox prive di qualsiasi filtro: purtroppo riguardano la maggior parte dei provider.
Mailbox con possibilità di settare filtri sul mittente (campo “From”): Spesso sono abbinate alle whitelist, ovvero le liste contenenti gli indirizzi delle persone da cui si vuole ricevere posta bloccando tutto il resto del traffico in entrata che non provenga da quegli indirizzi.
Mailbox con possibilità di settare filtri su vari campi.
Mailbox con possibilità di settare filtri sul server di provenienza: in questo caso vengono adottate le blacklist che bloccano il traffico proveniente da server che risultano fonte di posta indesiderata.

Tipi di filtraggio

Col passare degli anni si sono sviluppate tre tecniche distinte di filtraggio:

Statico
Euristico
Statistico o probabilistico

Filtraggio statico

Nel primo caso, che rappresenta anche il primo sistema di filtraggio che è nato, gli amministratori di sistema specificano liste di parole oppure espressioni regolari che spesso sono presenti nei messaggi di spam in modo che il server scarti tutte le e-mail contenenti quelle parole. Questa tecnica però ha il suo rovescio della medaglia: infatti risulta particolarmente difficile l’aggiornamento e soprattutto la tendenza a procurare falsi positivi (ovvero e-mail regolari erroneamente scambiate per spam) purtroppo è abbastanza consistente.

Filtraggio euristico

Il filtraggio euristico si basa sull’assegnare un punteggio numerico a frasi o modelli che si presentano nel messaggio. Se è positivo indica che probabilmente il messaggio contiene spam, altrimenti se è negativo si tratta di un messaggio di posta legittimo. Viene impostata inoltre una soglia del punteggio in modo da poter stabilire se i messaggi vengono rifiutati o segnalati come spam se superano questo limite. In ogni caso è sempre l’amministratore che gestisce le liste di punteggi associate ai messaggi e i criteri con cui assegnare i punteggi.

Filtraggio statistico

Il filtraggio statistico è stato proposto per la prima volta nel 1998 nel AAAI-98 Workshop on Learning for Text Categorization, ed è stato reso popolare da Paul Graham nel 2002. Usa metodi probabilistici che si fondano sul Teorema di Bayes, in modo da poter predire se un messaggio è spam. Necessita un’iniziale fase di apprendimento in cui vengono sottoposte al filtro raccolte di –e- mail legittime e indesiderate ricevute dall’utente.

Da qualche tempo stanno crescendo anche vari sistemi di filtraggio che comprendono più tecniche di riconoscimento dello spam combinandole in modo da cercare di minimizzare il rischio di falsi positivi e per aumentare l’efficienza del filtraggio.

Funzionamento dei filtri antispam

Solitamente i filtri sono impostati in modo da riconoscere il campo del mittente o del destinatario oppure vengono implementati per individuare specifici vocaboli nell’oggetto o nel corpo del messaggio di posta, in modo da poter scegliere l’azione da compiere. Infatti il messaggio può essere eliminato o memorizzato in una cartella particolare dedicata allo scopo messa a disposizione dell’utente che deciderà come occuparsene.
Il procedimento consiste nell’attribuzione di un punteggio alle e-mail in base ad alcuni parametri che riguardano soprattutto le informazioni che contiene. Un punteggio positivo determina il rischio che l’email sia indesiderata, mentre quello negativo riscontra la legittimità dell’e-mail.

Per attribuire il punteggio vengono seguiti alcuni criteri:

Analisi dell’intestazione per determinare se l’e-mail proviene da un client di posta oppure da un sistema automatico.
Analisi del contenuto e verifica se vengono violate alcune regole fisse: ad esempio le e-mail scritte in HTML, con caratteri grossi e molto colorate fanno lievitare il punteggio oppure la presenza di termini particolari come “remove”, “price”, “enlargement”.
Analisi del contenuto con regole dinamiche e statistiche: è il caso dei filtri bayesiani, che hanno bisogno di una sorta di “allenamento” attraverso la classificazione delle e-mail giuste e quelle indesiderate prima di funzionare ad ottimi livelli.
Ricerca del pattern associato all’e-mail in database distribuiti in rete che si occupano di raccogliere informazioni su tutto lo spam che circola in rete.

Viene poi stabilita una soglia ed in base a questa se il punteggio risulta superiore si tratta di spam. In alcuni casi poi si possono creare due cartelle di posta, una contenente le e-mail legittime e l’altra lo spam. Questo avviene soprattutto nei filtri bayesiani al fine di migliorarne l’autoapprendimento e l’efficacia.