Regular expression -lauseessen apuja

i hate regexp

Olen tekemässä Linux-ympäristöön skriptiä, joka parsii regexp-lauseella xml-dokumenttia. Tarkoitus olisi etsiä vain kahden elementin sisältö ja palauttaa se taustaohjelman käyttöön. Ongelmia aiheuttaa nyt xml-elementti, jossa on attribuutti, jolla puolestaan on vaihtuva arvo. En siis voi tehdä kiinteää elementin viittausta regexp-lauseeseen. Laitan alle esimerkin tuosta elementistä:

Hello world!

Olen testannut parsintaa komentorivillä oheisella regexp-lauseella:

cat xml_dokkari.xml | sed -n -e 's/.*\(.*\).*/\1/p'

Tuo lause kyllä palauttaa elementin sisällön, mutta kuten mainitsin, en voi viitata kiinteästi elementtiin, koska attribuutin arvo voi muuttua. Sitten lause ei taas toimi. Tuossa siis pitäisi jotenin ohittaa tuo attribuutti tai sitten lukea koko rimpsu "dynaamiesti". Mutta miten se määritetään regexp-lauseeseen?

15

249

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • i hate regexp

      Tämä S24 näköjään poisti xml-tagit tuosta esimerkistäk. Kokeilen laittaa sen uudelleen.

      ["Hello world!"]

      Lisäksi jäi keskeneräinen regexp-lause. Alla lause kokonaisuudessaan:

      cat xml_dokkari.xml | sed -n -e 's/.*\(.*\).*/\1/p'

      • i hate regexp

        Jaa ei toimi vieläkään. No antaa sitten olla.


      • Ehkä auttaisi?
        i hate regexp kirjoitti:

        Jaa ei toimi vieläkään. No antaa sitten olla.

        Jospa vaan antaisit pari pientä esimerkkiä xml-dokkarin sisällöstä, ja mitä haluat sieltä kaivaa?


      • i hate regexp
        Ehkä auttaisi? kirjoitti:

        Jospa vaan antaisit pari pientä esimerkkiä xml-dokkarin sisällöstä, ja mitä haluat sieltä kaivaa?

        Yritin, mutta tämä S24 foorumiwebbisovellushässäkkä poisti esimerkistä tagit ja näytti vaan dokun sisällön. Samoin se pätki tuota regexp-esimerkkiä. Sain oikeastaan tuon jo eilen ratkaistua, mutta yritän nyt vielä laittaa nuo esimerkit ja ratkaisumallini tähän keskusteluun. Kokeilen näkyykö oikein, jos laitan koodipätkät [code]-tagien sisään.

        Eli siis esimerkki xml-dokun elementistä, josta data piti hakea:
        [code]Hello world![/code]

        Sitten esimerkki regexp-lauseesta, jota testailin komentoriviltä suoraan:
        [code]cat xml_dokkari.xml | sed -n -e 's/.*\(.*\).*/\1/p' [/code]

        Eli tuo regexp-lause toimii ja nyt attribuutissa saa olla mikä arvo tahansa, jolloin se ei vaikuta varsiaisen tiedon poimimiseen.


      • i hate regexp
        i hate regexp kirjoitti:

        Yritin, mutta tämä S24 foorumiwebbisovellushässäkkä poisti esimerkistä tagit ja näytti vaan dokun sisällön. Samoin se pätki tuota regexp-esimerkkiä. Sain oikeastaan tuon jo eilen ratkaistua, mutta yritän nyt vielä laittaa nuo esimerkit ja ratkaisumallini tähän keskusteluun. Kokeilen näkyykö oikein, jos laitan koodipätkät [code]-tagien sisään.

        Eli siis esimerkki xml-dokun elementistä, josta data piti hakea:
        [code]Hello world![/code]

        Sitten esimerkki regexp-lauseesta, jota testailin komentoriviltä suoraan:
        [code]cat xml_dokkari.xml | sed -n -e 's/.*\(.*\).*/\1/p' [/code]

        Eli tuo regexp-lause toimii ja nyt attribuutissa saa olla mikä arvo tahansa, jolloin se ei vaikuta varsiaisen tiedon poimimiseen.

        Eipä näkynyt kumpikaan oikein, ihme systeemi tämä! Miten tänne voi laittaa mitään esimerkkejä tms., jos ne eivät näy kunnolla?! Lisäänpä vielä välilyöntejä xml-tageihin, niin jospa S24 ei tajuaisi niitä:

        < elementti attribuutti="AA.BB.CC" > Hello world! < / elementti >

        ja regexp:

        cat xml_dokkari.xml | sed -n -e 's/.* < elementti attribuutti=.* > \(.*\) < \/ elementti >.*/\1/p'


      • i hate regexp
        i hate regexp kirjoitti:

        Eipä näkynyt kumpikaan oikein, ihme systeemi tämä! Miten tänne voi laittaa mitään esimerkkejä tms., jos ne eivät näy kunnolla?! Lisäänpä vielä välilyöntejä xml-tageihin, niin jospa S24 ei tajuaisi niitä:

        < elementti attribuutti="AA.BB.CC" > Hello world! < / elementti >

        ja regexp:

        cat xml_dokkari.xml | sed -n -e 's/.* < elementti attribuutti=.* > \(.*\) < \/ elementti >.*/\1/p'

        No nyt ne näkyvät oikein. Eli tosiaan tämä ongelma on jo ratkaistu. Kun regexp-lauseeseen laittaa .* merkin attribuutin arvon kohdalle, niin tällöin siinä saa olla mikä arvo tahansa.


      • ;-)
        i hate regexp kirjoitti:

        No nyt ne näkyvät oikein. Eli tosiaan tämä ongelma on jo ratkaistu. Kun regexp-lauseeseen laittaa .* merkin attribuutin arvon kohdalle, niin tällöin siinä saa olla mikä arvo tahansa.

        Hyvinhän se sitten sujui, nimimerkistäsi huolimatta.


      • i hate regexp
        ;-) kirjoitti:

        Hyvinhän se sitten sujui, nimimerkistäsi huolimatta.

        Vihaan näitä regexp:ä siitä syystä, että näitä joutuu käyttämään tässä systeemissä. Saatavilla olisi helpompiakin keinoja parsia XML-dokumentteja tai txt-tiedostoja, mutta ei.


      • ???
        i hate regexp kirjoitti:

        Vihaan näitä regexp:ä siitä syystä, että näitä joutuu käyttämään tässä systeemissä. Saatavilla olisi helpompiakin keinoja parsia XML-dokumentteja tai txt-tiedostoja, mutta ei.

        Mitä helpompia?


    • Lazarus 1.2.6

      Ratkaisisin tuon nopeasti Lazaruksella sillä voi tehdä myös komentorivi sovelluksia (toki sama asia ratkennee myös esim. javalla tai c:llä).

      jos oletan ettei xml-parseria tarvita vaan riittää keskusteluissa
      ( http://keskustelu.suomi24.fi/node/12785091 ) aiemmin mainittu
      funktio
      function lueTieto( TiedostonNimi, aluntunniste, lopuntunniste:string):string;

      niin ei muuta kuin muutama riviä koodia lisää niin homma on selvä

      Eli tekisin lisäksi tälläisen aliohjelman:

      procedure naytatieto;
      var
      s:string;
      begin
      s := lueTieto('testitxt.txt', '"a": "', '",' );
      writeln( s );
      end;

      ja generoisin Lazaruksella komentorivi sovelluksen johon lisäisi nuo

      sekä laittaisin

      { add your program here } kohtaan kutsun
      naytatieto;

      Tällä tavoin tulisi valmis ajettava komentorivi sovellus (linuxiin/ windowsiin ...)
      aika helposti.

      • Kädet paskassa

        Kiertokoulupuoskarin ihmelääke joka vaivaan.


      • 823 vuotta
        Kädet paskassa kirjoitti:

        Kiertokoulupuoskarin ihmelääke joka vaivaan.

        Sivuston
        https://www.openhub.net/p/lazarus/estimated_cost
        mukaan _ammattimaisilta_ koodareilta menee tuon ( Lazarus ) tekemiseen
        823 henkilötyövuotta.

        joten kai siitä sitten johonkin on!


      • Eikoodari
        Kädet paskassa kirjoitti:

        Kiertokoulupuoskarin ihmelääke joka vaivaan.

        Yllättävän kauan meni, ennen kuin ilmestyi ketjuun perinteinen, kateellinen paskantaputtelija.


      • heipparallaa
        Eikoodari kirjoitti:

        Yllättävän kauan meni, ennen kuin ilmestyi ketjuun perinteinen, kateellinen paskantaputtelija.

        Aivan. Sinun kaltaisia täällä tosiaan piisaa.


    • 1+1

      Gawk (windows, linux)/nawk (unix) on myös kätevä tooli skriptistä tai komentoriviltä tehtävään prosessointiin. Siinä on
      -preprosessointi (BEGIN)
      -riviprosessointi
      -postprosessointi (END)
      -siihen voi tehdä funktioita

      Tässä simppeli gawk-esimerkki, miten Firefoxin html-exportista saa normi-html-linkkitiedoston, minkä voi vaikka kopioida tikulle ja avata toisella selaimella,
      kuvauksilla (DD) tai ilman, gawk-ohjelma oltava asennettuna (pakettivarastosta)

      http://mkk-demo.net/wordpress/kml.awk
      http://mkk-demo.net/wordpress/kml-nodd.awk

    Ketjusta on poistettu 1 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Purra hyökkää nyt suomalaisen duunarin kimppuun teettämällä mamuilla palkatonta työtä

      Niinpä niin. Persut duunaripuolue, HAH. Joko alkaa kovapäisinkin persu älyämään, että persut ovat Suomen kansan vastain
      Maailman menoa
      366
      12330
    2. Purra ehdottaa vaan Tanskan mallia, joka on erittäin hyvä malli

      Purra ehdotti helmikuussa Suomeen Tanskan mallia, jossa maahanmuuttajilta vaaditaan työntekoa sosiaalitukien saamiseksi.
      Maailman menoa
      255
      5387
    3. Kokoomusnuoret: Sosiaalitukien työvelvoitteen tulisi koskea kaikkia

      Riikka Purra on esittänyt, että maahanmuuttajilta tulisi edellyttää palkatonta työtä sosiaalitukien vastineeksi. Kokoom
      Maailman menoa
      212
      3918
    4. Purra vaatii: Työvelvoite maahanmuuttajille ja kantasuomalaisille pitkäaikaistyöttömille

      Jos Perussuomalaiset ja Kokoomus ovat seuraavan hallituksen kaksi johtavaa puoluetta, on suomalaisille pitkäaikaistyöttö
      Perussuomalaiset
      196
      2588
    5. Jyrki Linnankivi, Jyrki 69 - Goottirokkarista kirkonmieheksi Lappiin!

      Jyrki Linnankivi eli Jyrki 69 on The 69 Eyes -rockyhtyeen vokalisti. Lauluhommien lisäksi hän sanoittaa, säveltää ja sov
      Työ ja opiskelu
      15
      1972
    6. Onnea Maria ja Vilma Amazing Race -voitosta!

      Maria Guzenina ja Vilma Vähämaa voittivat Amazing Race Suomi -kisan. Voiton hetkellä Guzenina paljasti, miksi valitsi Vi
      Tv-sarjat
      19
      1824
    7. Mikä on mielestäsi paras miestyyppi?

      Esimerkit kärjistettyinä: a) perustavallinen/tasainen b) himourheilija c) varakas, turvallinen elättäjä d) puolikrimina
      Ikävä
      167
      880
    8. Martina Aitolehti

      Instagramissa pomppas esille Martinan kumipallot. Ihan säikähin. Ja tää on Martina-ketju!
      Kotimaiset julkkisjuorut
      271
      842
    9. No kolahtaako kukaan

      Samalla tavalla kuin mä? Harmi kun et uskaltanut kohdata. Ehkä me löydetään jotkut muut jotka voi olla konkreettisempiak
      Ikävä
      74
      762
    10. Rippituoli

      Kerro joku synkkä tai outo salaisuus, joka liittyy ikävääsi kaivattuasi kohtaan. Tee tunnustus anonyyminä. Se helpottaa
      Ikävä
      59
      716
    Aihe