I filtri bayesiani anti-spam

Il teorema di bayesFiltrare i messaggi di spam è uno di quei problemi dove tutta la difficoltà sta nei dettagli. Poche linee di codice possono essere sufficienti per bloccare 95% della posta indesiderata (messaggi scritti a lettere maiuscole con punti esclamativi, testi relativi all’oggetto che si riferiscono ad opportunità di business, caselle destinatario che vi indirizzano come “Caro amico…�), ma il rimanente 5% è difficile da individuare, e i tentativi di bloccare i messaggi spamming ingannevoli possono portare a dei falsi positivi (cioè della posta normale può venire identificata come “spazzatura� ed eliminata).
Coloro che hanno proposto il filtro Bayesiano sostengono che sia in grado di filtrare il 99,5% della posta indesiderata senza falsi positivi. Come qualunque altra tecnica di filtraggio dello spamming, richiede il coinvolgimento dell’utente, perché quando si giunge al famoso ultimo 5%, quello che per qualcun altro è spamming per te può essere posta corretta.
La statistica Bayesiana è una tecnica per rivedere la tua opinione man mano che acquisti delle certezze, basata su una formula semplice scoperta da Thomas Bayes.
Mentre era in vita non ha pubblicato nulla, ha lasciato solo due lavori, relativi ad argomenti matematici, che sono stati pubblicati dopo la sua morte.

Il problema, così come è stato presentato nel saggio di Bayes, è l’esatto contrario di come lo aveva proposto Jacob Bernoulli 60 anni prima. Bayes si è domandato come calcolare la probabilità con cui un evento potrebbe manifestarsi sotto determinate circostanze di cui noi non conosciamo nulla. L’evento potrebbe accadere come non accadere; usando una rappresentazione grafica, un punto potrebbe essere perfetto o difettoso, cioè cadere o meno su una retta. Se, su un campione di cento elementi, si identificano dieci punti che giacciono fuori dalla retta, qual è la probabilità che, sul totale dei risultati possibili, – non su un campione di cento – il numero dei difettosi sia compreso tra il 9% e l’11%?
Bayes ha utilizzato un metodo bizzarro per spiegare il suo punto di vista: un tavolo da biliardo.
Una prima palla spinta è libera di rotolare sul tavolo e di fermarsi in qualsiasi punto. Una seconda palla, si fa scivolare sul tavolo più volte, allo stesso modo della prima. Si tiene conto di quante volte la seconda si ferma alla destra della prima, e questo rappresenta il numero di volte con cui un evento, a noi sconosciuto, si manifesta. Si conta anche il numero di volte con cui la seconda si ferma alla sinistra della prima, e questo indica l’insuccesso, ovvero il numero di volte con cui un evento non si manifesta. In una prova isolata la probabilità della posizione assunta dalla prima palla è dedotta dal numero di insuccessi della seconda.

L’originalità della statistica di Bayes consiste nell’utilizzo di una nuova informazione per riesaminare la probabilità basata su una vecchia informazione, oppure, utilizzando il linguaggio statistico, per comparare la probabilità a priori con quella a posteriori. Nell’esempio del biliardo la posizione della prima palla rappresentava la probabilità a priori, mentre le continue revisioni delle sue stime in base alla posizione assunta dalla seconda palla, rappresentavano la probabilità a posteriori.

Questa procedura di revisione del calcolo delle probabilità partendo da una vecchia informazione e tenendo conto di quella nuova, deriva da un modo di pensare filosofico che ha reso il contributo di Bayes estremamente moderno: non esiste una sola risposta in un mondo dinamico ed in condizioni d’incertezza.

Tornando allo spam, secondo la regola di Bayes la probabilità di A, dato B, è uguale alla probabilità di A moltiplicata per la probabilità di A, dato B, divisa per la probabilità di B. Nelle statistiche di Bayes, A è la tua ipotesi, ad esempio che un messaggio sia di posta non desiderata (spam), B è la nuova evidenza, e la formula mostra come rivedere la tua opinione sulla probabilità di A, data la nuova prova B. Il filtraggio bayesiano dei messaggi di spam apparentemente funziona molto bene, perché utilizza entrambi i tipi di test – la prova che un messaggio potrebbe essere “spazzaturaâ€? e la prova che potrebbe essere legittimo – e rivede le sue valutazioni di conseguenza, utilizzando l’input dell’utente, il tuo input.

Tratto da Webegg.it
e da Universitor.it


Lascia un messaggio

Il tuo commento:


Chiudi
Invia e-mail