Yliopiston etusivulle Suomeksi På svenska In English
Helsingin yliopisto Tietojenkäsittelytieteen laitos
 

Tietojenkäsittelytieteen laitos

Bogofilter-roskapostintunnistin

Erittäin varovaisten arvioiden mukaan Tietojenkäsittelytieteen laitoksen sähköpostijärjestelmässä onnistutaan IP-osoitteisiin perustuvan suodatuksen avulla torjumaan noin 800.000 - 1.000.000 ei-toivottua sähköpostiviestiä eli roskapostia viikoittain. Roskapostin määrä on näin ollen jo yli 80% kaikesta saapuvasta postiliikenteestä.

Tästä suodatuksesta pääsee viikoittain läpi arviolta noin 100.000 roskapostiviestiä. Tämä merkitsee useille käyttäjille kymmeniä, eräille käyttäjille jopa satoja roskapostiviestejä viikossa.

Näistä läpi päässeistä on aikaisemmin pyritty eroon käyttämällä sääntöpohjaista suodatinta, joka tunnistaa joukon roskapostissa tyypillisesti esiintyviä fraaseja tai tyypillisiä roskapostiviestien otsakekentissä olevia virheitä. Valitettavasti tämä menetelmä ei ole osoittautunut sen enempää riittävän tehokkaaksi kuin luotettavaksikaan.

Tietojenkäsittelytieteen laitoksella on keväästä 2003 lähtien ollut käytössä bogofilter -niminen sähköpostiviestien tilastolliseen tekstianalyysiin perustuva järjestelmä, joka laskee jokaiselle viestille indeksin, joka kuvaa sen todennäköisyyttä olla roskapostiviesti. Jokaiseen viestiin liitetään ylimääräinen otsake, joka voi olla esim. seuraavan kaltainen:

X-Bogosity: Yes, tests=bogofilter, spamicity=0.988761, version=0.12.3

Otsakkeen nimeä X-Bogosity seuraa aina arvio siitä, onko viesti roskapostia vai ei. Mahdollisia arvoja ovat "Yes", "No" ja "Unsure". Tämän perässä on luettelo testeistä (bogofilter), varsinainen indeksiarvo (spamicity) ja ohjelmiston versionumero.

Suodatinta on helpointa hyödyntää kaikissa postiohjelmissa määrittelemällä postinohjaussääntö, jolla "X-Bogosity: Yes" -arvion saaneet sähköpostiviestit automaattisesti siirretään johonkin tiettyyn kansioon ilman että ne kulkevat INBOXin kautta. Kansiona voi käyttää Trash-kansiota, jonka useimmat postiohjelmat luovat automaattisesti ja josta postijärjestelmämme automaattisesti poistaa viikkoa vanhemmat viestit. Toinen mahdollisuus on luoda erillinen Spam-kansio. Tämä onnistuu laitoksen www-postin (eli SqWebMailin) Folders-sivulla kohdassa "Create new folder", mutta se käy melko helposti myös kaikilla postinlukuohjelmilla.

Varsinainen roskapostin ohjaus tapahtuu www-postin käyttöliittymällä seuraavasti:

  1. Siirry "Edit Mail Filters" -toiminteeseen yläreunan linkistä.
  2. Täytä "Edit/Add mail filter" -lomakkeeseen seuraavat tiedot:
    • Rule name: vapaavalintainen nimi, esim. "roskaposti"
    • klikkaa "Condition: Header" ja kirjoita kenttään "X-Bogosity"
    • valitse alasvetovalikosta "starts with" ja kirjoita kenttään "Yes"
    • klikkaa "Action: Save in" ja valitse alasvetovalikosta haluamasi kansion nimi, ÄLÄ laita merkkiä ruutuun "and continue filtering".
  3. Paina "Submit".
  4. Paina "Save all changes" sivun yläosassa.
  5. Voit kirjoittautua ulos yläreunan "Log out" -linkistä.

Ohjaus tulee voimaan heti ja kaikki roskapostilta vaikuttavat viestit ohjautuvat tämän jälkeen valitsemaasi kansioon. Kansioon kannattaa kuitenkin aika ajoin vilkaista, sillä joissain tapauksissa bogofilterkin erehtyy ja roskapostin joukkoon saattaa eksyä oikeita viestejä.

Karkeasti arvioiden bogofilter pystyy suodattamaan 95% roskapostista eli joitakin viestejä tulee aina eksymään varsinaiseen postilaatikkoonkin. Yhdistettynä IP-suodatuksen noin 90% tehoon voitaisiin arvioida roskapostin kokonaistorjuntatehon olevan noin 99.5%.

postmaster@cs.helsinki.fi