tietynlaisten tietojen parsimeinen pitkästä tekstistä

perl

eli miten saan sähköpostin header tiedoista talteen lähettäjän IP:n ja lähetysajan.

haettava tieto on header tiedoissa tässä muodossa :

from jotain domainnimi [192.168.IP.IP] by mail.server with SMTP id joku ID for jotain; Thu, 13 Jan 2005 12:20:49 -0500

eli tuo on siellä kaiken muun roskan joukossa, ja siitä pitäisi saada talteen IP-osoite ja päivämäärä.

tiedoissahan on useita IP-osoitteita, mutta haluan sieltä talteen nimenomaan tietystä osoiteavaruudesta tulevat. eli IP:n kaksi ensimmäistä numeroa ovat aina samat.

niin ja käytössä MDK 9.2 kone ja Perl jos noista nyt on jotain apua.

10

973

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • *BSD

      Siis lokien parsintaan on olemassa jos jonkinlaista härpäkkää.

      Sun tapauksessa varmaan grep (ja sed) on ihan riittävä työkalu (ja mikähän helvetti on MDK 9.2? Joku mandrake linuks vai?).

      Oletetaan, että halutaan entryt, jotka on tullut osoitteista 192.168.0/16

      mun liinuks bashi $ cat loki.log | egrep '\[192\.168\.' | sed -n 's/^from .*\[\([^]]*\)\].*;\(.*\)$/\1 \2/p'

      Tossa edellä tulostaa ip date -pareja. Ton voi kyllä tehdä muillakin tavoilla.

      • Aii, silmiäni sattuu moinen putkitus ja jälleen kerran klassinen "useless use of cat".

        Perlillä homman saisi tehtyä varmasti yksinkertaisemminkin, jotenkin tähän tyyliin (testaamaton):

        ($loppuosa) ~= /^from .*? \[192.168.(\d{1,3}\.\d{1,3})\]/

        Jos ohjelma on vähänkään pidempi, niin se kannattaa tehdä perlillä. Grep/sed tuntuu toimivan eri alustoilla vähän vaihtelevasti.


      • perl
        Mik26 kirjoitti:

        Aii, silmiäni sattuu moinen putkitus ja jälleen kerran klassinen "useless use of cat".

        Perlillä homman saisi tehtyä varmasti yksinkertaisemminkin, jotenkin tähän tyyliin (testaamaton):

        ($loppuosa) ~= /^from .*? \[192.168.(\d{1,3}\.\d{1,3})\]/

        Jos ohjelma on vähänkään pidempi, niin se kannattaa tehdä perlillä. Grep/sed tuntuu toimivan eri alustoilla vähän vaihtelevasti.

        eli viestit luetaan postilaatikosta mysql kantaan, josta sitten pitäisi saada viestien sisällöstä ainoastaan nuo em. tiedot talteen.

        viestit ovat välillä pitkiä, ja niitä on todella paljon. grepillä jo koitin, ja se ei toimi riittävän luotettavasti.

        viestit ovat sisällöltään kokonaisia sähköpostin headertietoja, joten ne ovat joskus aika pitkiäkin.
        kuitenkin ne aina noudattavat tuota em kaavaa, jonka perusteella ip ja päivämäärä on varmaan jotenkin mahdolista talteen saada.


      • *BSD
        Mik26 kirjoitti:

        Aii, silmiäni sattuu moinen putkitus ja jälleen kerran klassinen "useless use of cat".

        Perlillä homman saisi tehtyä varmasti yksinkertaisemminkin, jotenkin tähän tyyliin (testaamaton):

        ($loppuosa) ~= /^from .*? \[192.168.(\d{1,3}\.\d{1,3})\]/

        Jos ohjelma on vähänkään pidempi, niin se kannattaa tehdä perlillä. Grep/sed tuntuu toimivan eri alustoilla vähän vaihtelevasti.

        Ei ole sellaista kun "useless use of cat". Syystä, että se on *huomattavasti* helpompi ymmärtää kun streamien uudelleenohjaus, varsinkin aloittelijalta:

        cat x.y | jotain
        tai
        jotain < x.y

        Toisekseen sun perli ei tee mitä on tarkoitus. Eli päivämäärät vielä puuttuu. Sitten kun lisäät ton ja loopin ympärille (voi tietenkin tehdä komentoriviltä myös) on lopputulos suhteellisen samanlainen kun grep & sed ratkaisu.

        Lisäksi grep/sed toimii kaikilla *NIX-alustoilla kun taas esim. perl ei ole vakiona mukana läheskään kaikissa.

        Samaa mieltä olen tossa, että jos ohjelma on vähänkään pidempi se kannattaa tietenkin tehdä muuten kun käyttämällä komentoriviä.


      • *BSD
        perl kirjoitti:

        eli viestit luetaan postilaatikosta mysql kantaan, josta sitten pitäisi saada viestien sisällöstä ainoastaan nuo em. tiedot talteen.

        viestit ovat välillä pitkiä, ja niitä on todella paljon. grepillä jo koitin, ja se ei toimi riittävän luotettavasti.

        viestit ovat sisällöltään kokonaisia sähköpostin headertietoja, joten ne ovat joskus aika pitkiäkin.
        kuitenkin ne aina noudattavat tuota em kaavaa, jonka perusteella ip ja päivämäärä on varmaan jotenkin mahdolista talteen saada.

        Grep toimii riittävän luotetavasti. Syy on poikkeuksetta aina käyttäjässä. Jos tuntuu siltä, ettei sun skripti toimi, kannattaa tutustua grep:n manuskaan (man grep) ja varsinkin grep:n regexeihin (noita voi sitten hyödyntää muuallakin kun ovat aika samanlaisia grep/awk/sed/perl -rintamalla).

        grep, sed ja awk ovat juuri luotu tuollaiseen tekstin parsintaan. Niillä *varmasti* pystyt tekemään tarvittavan. Lisäksi jos teet tosta skriptin, se jopa toimii muillakin alustoilla kun liinuksissa.


      • *BSD kirjoitti:

        Ei ole sellaista kun "useless use of cat". Syystä, että se on *huomattavasti* helpompi ymmärtää kun streamien uudelleenohjaus, varsinkin aloittelijalta:

        cat x.y | jotain
        tai
        jotain < x.y

        Toisekseen sun perli ei tee mitä on tarkoitus. Eli päivämäärät vielä puuttuu. Sitten kun lisäät ton ja loopin ympärille (voi tietenkin tehdä komentoriviltä myös) on lopputulos suhteellisen samanlainen kun grep & sed ratkaisu.

        Lisäksi grep/sed toimii kaikilla *NIX-alustoilla kun taas esim. perl ei ole vakiona mukana läheskään kaikissa.

        Samaa mieltä olen tossa, että jos ohjelma on vähänkään pidempi se kannattaa tietenkin tehdä muuten kun käyttämällä komentoriviä.

        Tuolla uselessilla tarkoitin tilannetta, jossa tehdään "cat file | grep jotain", kun grepille voi antaa tiedoston suoraankin "grep jotain file". En siis tarkoittanut uudelleenohjausta


      • *BSD
        Mik26 kirjoitti:

        Tuolla uselessilla tarkoitin tilannetta, jossa tehdään "cat file | grep jotain", kun grepille voi antaa tiedoston suoraankin "grep jotain file". En siis tarkoittanut uudelleenohjausta

        Heh,


    • perl

      kiitokset Mik26, toi sun skripti ei suoraan toiminut, mutta tuosta sain sopivasti muuttamalla kaiken kasaan.

      seuraavalla parsii oikein :

      =~ m/.*?from(\d \.\d \.\d \.\d ).*?SMTP.*?;.*?\,.*?(\d )\s{1}(\w{3})\s{1}(\d{4}).*?(\d{2}:\d{2}:\d{2}).*?(\W{1}\d{4})/

      • Optimointina mainittakoon, että \s{1} on sama kuin \s. Tuloksena on astetta siistimpi versio.

        Eikö tuohon ensimmäisen fromin jälkeen ennen sulkua tule tyhjä ? Rivin alun voisi matchata vielä ^:lla tuon .*?:n sijaan. Muuten esim. rivi "asdf from .." voisi mennä läpi.


      • perl
        Mik26 kirjoitti:

        Optimointina mainittakoon, että \s{1} on sama kuin \s. Tuloksena on astetta siistimpi versio.

        Eikö tuohon ensimmäisen fromin jälkeen ennen sulkua tule tyhjä ? Rivin alun voisi matchata vielä ^:lla tuon .*?:n sijaan. Muuten esim. rivi "asdf from .." voisi mennä läpi.

        juu tyhjä tulee siihen, ei ole copy&paste, joten jokunen kirjotusvirhe siellä voi olla.

        kyllä siinä tuo .*? saa olla, jotta menee läpi myös noi (adfsgggg from...), kun noissa headereissa on kaikenlaista.

        kiitokset vielä kerran.


    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Valtion alijäämä = yritystukien määrä = 10 mrd. euroa

      Mutta persut eivät vaan suostu tasapainottamaan valtion budjettia, vaikka yritystuet on tiedetty haitallisiksi. Miksi p
      Maailman menoa
      57
      6383
    2. Suomi käyttää sosiaalietuuksiin suhteessa eniten rahaa koko maailmassa

      Suomi käyttää sosiaaliturvaetuuksiin enemmän rahaa suhteessa bruttokansantuotteeseen kuin mikään muu maa maailmassa. Su
      Maailman menoa
      336
      5401
    3. Poliisien suosikkipuolueet ylivoimaisesti: Kokoomus ja persut

      samoin on armeijan henkilöstön kanssa. Sen sijaan sekä vihreät, vasliitto ja SDP ovat hyljeksittyjä puolueita poliisien
      Maailman menoa
      167
      5077
    4. Sdp, Vihreät ja vasemmistoliitto muuttumassa naisten puolueiksi?

      Sdp 64 % naisia, vihreät 70 % naisia ja vasemmistoliitto 60 % naisia. Ilmankos ne puolueet ajaa autoilevien kantasuomal
      Maailman menoa
      140
      4864
    5. Epäonnistunut "Tuppurais-operaatio" kaatoi Purran hallituksen

      Persut yrittivät viimemetreillä häivyttää omaa täydellistä epäonnistumistaan syyttämällä opposition edustajaa nimettömil
      Maailman menoa
      20
      4100
    6. Ostaisitko sinä rempattavan asunnon Italiasta tai jostain muualta ulkomailta, mistä?

      Ella Kanninen on tehnyt Italiassa asuntokaupat. Hän kertoo Instagramissa kierrelleensä viime kesänä Toscanassa katselema
      Asunnot ja asuminen
      20
      2606
    7. Jenni Alexandrova ja Toni Lähde ratkeavat liitoksistaan - Tällainen on uusperhe!

      Radiojuontaja Jenni Alexandrova ja Diili-tuttu Toni Lähde ovat pariskunta, joka elää uusperhearkea. He ovat ostaneet uud
      Suomalaiset julkkikset
      3
      2388
    8. Vähän fiksumpi Nimi kisa ? :=)

      Kirjoita teidän etunimet allekkain. Jos nimissä on joku kirjain sama, poista se. Tee sama tarkistus kaikille kirjaimill
      Ikävä
      28
      2277
    9. Romanttinen ystävänpäivä?

      Millainen olisi hyvä ystävänpäivä hänen kanssaan?
      Ikävä
      76
      1997
    10. Kaisa Juuso eroaa

      Jää välittömästi sairaslomalle. Onko nyt Keskisarjan vuoro?
      Perussuomalaiset
      225
      1865
    Aihe