WWW-diary of Juhapekka Tolvanen:

Tuesday, 23 March 2004




00:39:07 EET @985

Kävinpä tuossa vähän ennen iltayhdeksää kaupassa ja sitten vielä R-kioskilla.





02:30:39 EET @062

Löysin pari kivaa lisäpalikkaa SpamAssassiniin:

Debianissa noi fileet täytyy heittää hakemistoon /etc/spamassassin . Noilla voi tapella sitä vastaan, kun viimeaikoina spammeripaskiaiset ovat alkaneet tunkea spammeihinsa randomtekstiä kiertääkseen spammifilttereitä tehokkaamin. Mutta eräissä spammeissa on ollut HTML-tiedosto, jonka keskellä on yksi linkki spammattavan tuotteen WWW-saitille ja ympärillä jotain tosielämässä esiintynyttä ihkaoikeaa tekstiä, esim. kaunokirjallisuudesta otettua sellaista. Sellaista vastaan tappeleminen vaatii jo tosi hyvää bayesilaista tai sen sukuista filtteriä.

Mua on viimeaikoina hieman mietitttänyt, että voisko spammifiltterin tehdä vielä paremmaksi, kuin mitä SpamAssassin on. Eräs juttu, mikä tekisi spammifiltteristä nopeamman, olisi se, että se kirjoitettaisiin jollain käännettävällä ohjelmointikielellä, kuten C:llä eikä tulkattavalla ohjelmointikielellä, kuten Perlillä. SpamAssassin on kirjoitettu nimenomaan Perlillä ja se kyllä hidastaa sitä jonkin verran. Ja mun koneessa se hitaus todella on haitaksi.

Yksi melko hyvä ratkaisu voi olla, jos SpamAsassinin oma bayesilainen filtteri disabloitaisiin ja sen sijaan se huutaisi avukseen jotain C:llä kirjoitettua softaa, joka implementoi bayesilaisen filtterin. Tod.näk. siitä saavutettu nopeushyöty olisi suurempi kuin uuden prosessin forkaamisesta aiheutuva hidastus. Mä ainakin luulen, että bayesilainen filtteri on SpamAssassinin pahin hidastaja. Eräs aika mielenkiintoinen kanditaatti SpamAssassinin bayesilaiseksi filtteriksi olisi crm114.

Tosin sen crm114:n tekijä väitti mulle meilissään jotain sellaista, että se softa on jo niin osumatarkka yksinäänkin, ettei hän itsekään enää tarvitse SpamAssassinia. Itse olen kyllä aikaisemmin ollut sitä mieltä, että tehokkaan ja osumatarkan spammifiltteröinnin aikaansaamiseksi sitä spammia pitää analysoida mahd. monilla erilaisilla tavoilla ja bayesilainen filtteri voi olla vain eräs niistä tavoista, joskin varsin tärkeä sellainen. Muita tapoja ovat esim. nuo erilaiset netin kautta toimivat tietokantasysteemit, joihin kerätään saatujen spammien tarkistussummia ja joihin saatua meiliä verrataan sen spammistatusta arvioitaessa. Distributed Checksum Clearinghouse (DCC), Pyzor ja Vipul's Razor toimivat juuri näin. Toinen tapa taas on katsoa, että onko spammi kulkenut jonkin mustalle listalle päätyneen serverin kautta. Tuollaisia mustia listojahan ovat esim. Spews ja RBL+ . Näitä tietokantoja ja mustia listoja voi sitten pisteyttää eri tavoin sen mukaan, miten paljon niihin tohtii luottaa. Esim. jotkut mustat listat ovat olleet vähän "write-only": Vaikka joku sinne joutunut avoin rele olisikin jo saatu sulkikiinni, niin pääseminen mustalta listalta pois on ollut työn ja tuskan takana. Mutta em. spammitietokantasysteemeissä ei ole viimeaikoina näkynyt kummoisia ongelmia. Vipul's Razor vaikuttaa luotettavimmalta: Kun siltä kysyy, että onko joku meili spammia, niin vastaus ei ole kyllä tai ei, vaan se kertoo, että kuinka monen prosentin todennäköisyydellä se meili on spammia. Ne prosentit voi sitten haluamallaan tavalla muuntaa SpamAssassinin spammipisteiksi.

Mutta jos mun pitäisi valita noista em. kolmesta spammin analysointitavasta (bayesilaiset filtterit muunnelmineen, spammitietokannat ja mustat listat) vain yksi ainoa, niin kyllä mä valitsisin bayesilaisen filtterin. Siinä on sekin hyvä puoli, että kun spammeripaskiaiset keksivät jotain uutta paskaa, mitä spammeihinsa tunkea filttereitä harhauttamaan, niin bayesilainen filtteri mukautuu niihin ihan itsekseen, kunhan sille vaan jaksaa sitä uutta spammia syöttää tarpeeksi. Sen sijaan SpamAssassin on varsinkin ilman bayesilaista filtteriä ihan kusessa sellaisten kanssa: Sen softan tekijöitten pitää sitten sorvata uusia hienoja regexpejä, joilla spammereitten uusimmat temput tunnistettaisiin. Ja sitten kun he saavat julkaistua SpamAssassinista uuden version, jossa nuo uudet regexpit ovat mukana, niin sen jälkeen erilaiset patalaiskat tai kiireiset ylläpitäjät eivät kuitenkaan ihan heti sitä uutta SpamAssassinin versiota asenna, haukkui heidät sitten lyttyyn tai pystyyn: Ei auta, vaikka kuinka koittaisi niille tolkuttaa, että "Olemme kilpavarustelussa spammereita vastaan jäljessä!1 katsokaa, miten paljon mullakin pääsee spammia läpi teidän laiminlyöntienne tähden! Päivittäkää se vitun SpamAssassin!". Nähty on. Mun kotikoneessa taas tulee sellainen ongelma, että SpamAssassinin uuden version tultua menee jonkin aikaa, ennenkuin siitä tulee myös Debian-paketti. Ja mä koetan vältellä sorsista asentamista mahd. pitkälle, jotta mun ohjelmat toimisivat kunnolla myös keskenään ja mahd. vähällä käsin säätämisellä. Itseasiassa mulla on niin, että SpamAssassin käyttämistä muista ohjelmista vain DCC on itse sorsista asennettu. Pyzor ja Vipul's Razor on sentään saatavana Debian-paketteina.

Mustissa listoissa on se huono puoli, että niitä syntyy ja kuolee. Ja pitää aktiivisesti ottaa selvää, että mitkä niistä ovat luotettavia, eivätkä esim. liian "write-only". Jos joku mustista listoista pääsisi kuolemaan, niin on melko triviaalia saada ylläpito uskomaan, että se tod. on kuollut eikä sitä kannata esim. sendmail:in milter:in avulla käyttää. Mutta jos taas tahtoisi jonkin löytämänsä uuden mustan listan käyttöön, niin siinä on taas se vaiva, että pitäisi ylläpitäjät saada vakuuttuneiksi, että ko. musta lista todella on toimiva ja tarkka. Jos taas SpamAssassinista käsin haluaa käyttää mustia listoja, niin siinäkin on pientä viivettä, että miten hyvin siinä on otettu mustien listojen syntyminen ja kuoleminen huomioon. SpamAssassinin Debian -paketin tekijä kyllä pystyy muokkaamaan sen softan upstream-sorsia niin, että jotain vastikään kuollutta mustaa listaa ei siinä Debian-paketista asennetussa SpamAssassinissa enää käytetä. Sen sijaan uusien mustien listojen lisääminen tapahtuu huomattavasti hitaammin.

Äskettäin törmäsin tällaiseen spammifiltteriin: DSPAM. Sekin käyttää bayseilaista filtteriä ja muita sen tyylisiä algoritmeja. crm114:ään verrattuna sen pitäisi olla helpompi käyttää. Ja sen pitäisi olla sairaan nopea ja samaan aikana tehokas ja osumatarkka. Sen kotisivulta voitte lukea lisää "hypeä".





14:46:44 EET @573

Aamukuuden tienoilla aloin opetella CRM116-softan käyttöä. On tää kyllä vähän hacker-warea, mutta kun lukee ohjeen, niin hyvin menee. Ja kyllä tää tuntuu paljon nopeammalta spammifiltteriltä kuin SpamAssassin.

Mutta nyt meen nukq.





23:47:28 EET @949

Heräsin jokin aika sitten.





Edellinen / Previous

Seuraava / Next

Juhapekka Tolvanen