Ison tekstitiedoston luku Pythonilla

Anonyymi

Minulla on iso tiedosto kovalevyllä. Haluaisin Pythonin avulla lukea siitä tietyn rivin osan. Miten kannattaisi tehdä funktio

def read_part(file, line, start, length):

joka lukisi tiedostosta file riviltä line kohdasta start kohtaan start length olevan merkkijonon siten, että kone ei hyydy?

26

<50

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • Anonyymi

      Tarvitsetko nimenomaan python koodia tähän, koska Bash Shell jo sisältää tarvittavan komennon, tai itse asiassa useammankin, joilla tuollainen saadaan toteutettua, vaikka näin:

      awk '(NR==100000){print $1}' sanasto.txt | cut -c 3-5

      Tuo suoritus kestää reippaasti alle sekunnin, vaikka kohteena on tiedosto, jossa on pitkänmatkaa yli miljoona riviä:
      real 0m0,171s
      user 0m0,157s
      sys 0m0,015s

      • Anonyymi

        Miksi kestää lukea zilioona bittä? Siis noin nopeasti.


      • Anonyymi
        Anonyymi kirjoitti:

        Miksi kestää lukea zilioona bittä? Siis noin nopeasti.

        Olikohan se aikoinaan Turbo Pascal tai joku muu, joka selvitti noita kiintolevyltä lukemisija niin että voidaan siirtyä tiedoston luennassa tietylle riville suoraan asettamalla johonkin osoitttimeen haluttu arvo, ja tämä mahdollisti palata lukemaan siitä eteen päin johon jäätiin, joten ei tarvinnut lukea tiedostoa systemaattisesti alusta asti.


      • Anonyymi
        Anonyymi kirjoitti:

        Olikohan se aikoinaan Turbo Pascal tai joku muu, joka selvitti noita kiintolevyltä lukemisija niin että voidaan siirtyä tiedoston luennassa tietylle riville suoraan asettamalla johonkin osoitttimeen haluttu arvo, ja tämä mahdollisti palata lukemaan siitä eteen päin johon jäätiin, joten ei tarvinnut lukea tiedostoa systemaattisesti alusta asti.

        What to f.. ohitetaan kaikki opittu ja mennään suoraan asiaan.
        Tuohan on nerokasta!


      • Anonyymi
        Anonyymi kirjoitti:

        Olikohan se aikoinaan Turbo Pascal tai joku muu, joka selvitti noita kiintolevyltä lukemisija niin että voidaan siirtyä tiedoston luennassa tietylle riville suoraan asettamalla johonkin osoitttimeen haluttu arvo, ja tämä mahdollisti palata lukemaan siitä eteen päin johon jäätiin, joten ei tarvinnut lukea tiedostoa systemaattisesti alusta asti.

        Eikös tuo ole aika vaarallista, koska mennään helposti vahingossa sörkkimään aivan kiellettyjä alueita ja muita tiedostojakin vaikka itse käyttöjärjestelmää.


      • Anonyymi
        Anonyymi kirjoitti:

        What to f.. ohitetaan kaikki opittu ja mennään suoraan asiaan.
        Tuohan on nerokasta!

        Anonyymi 03.12.2021 08:13
        Anonyymi 03.12.2021 08:35

        Luultavammin sama kirjoittaja (kolli), mutta kummallekin yhdessä ja erikseen. Siitä on niin kauan kun tuota kävin lävitse ja ympäristötkin on muuttuneet, mutta tiedostojen käsittelyssä käytetyt rajapinnat noudattelee varmaan edelleen tukien vanhaa käytäntöä.

        Ohjeet on varmasti nykyäänkin löydettävissä, mutta epäasiallisen tyyliset kommentit eivät houkuttele niitä etsimään, joten koettakaa opiskella omin päin. Ehkä tieto löytyy parhaitten C, C tai Delphi ohjelmointia koskevista tiedostojen käsittelystä, ehkä tarkemmin tiedostojen avauskättelyyn liittyvistä ohjeista.


      • Anonyymi
        Anonyymi kirjoitti:

        Eikös tuo ole aika vaarallista, koska mennään helposti vahingossa sörkkimään aivan kiellettyjä alueita ja muita tiedostojakin vaikka itse käyttöjärjestelmää.

        Höh. Ei mitenkään vaarallista. Tuossahan vain luetaan.


    • Anonyymi

      cut -d\/ -f1

    • Anonyymi

      Tässä vaihtoehto, joka lukee rivi kerrallaan, kunnes ollaan halutussa rivissä. Sen jälkeen funktio palauttaa halutun kokoisen siivun rivistä. Jos rivi on lyhyempi kuin "jäljellä oleva" length, niin palauttaa loppurivin. Jos taas annettu rivinumero on suurempi kuin tiedoston rivien määrä, niin palauttaa "None".

      def read_part(file, line, start, length):
          lines = 0
          with open(file, 'r') as f:
              current_line = f.readline()
              while current_line:
                  if lines == line:
                      return current_line.rstrip()[start:][:length]
                  lines = lines 1
                  current_line = f.readline()
              return None

    • Anonyymi

      Tässä python versio tuosta jonka jaoin aiemmin:
      Anonyymi 02.12.2021 23:36 tunnuksin.

      import sys
      file = open(sys.argv[1])
      rivit = file.readlines()
      print( rivit[int(sys.argv[2])].rstrip()[int(sys.argv[3]):][:int(sys.argv[4])] )

      Huomaa siinä on vain neljä (4) riviä, tuo print() rivi on pitkä, älä jaa sitä kahtia kuten se tässä näkyy. Oletetaan että tallennat sen nimellä (rfl.py) ja annat suoritus oikeudet sille. Niin käyttö menisi näin:

      rfl.py sanasto 99999 3 5

      Ja tuohan lukee sanasto nimisen tiedostosta rivin 99999 ja tulostaa siitä kolmannesta (3) merkistä eteen päin viisi (5) merkkiä.

      Aikaa tehtävään kuluu seuraavasti:
      real 0m0,192s
      user 0m0,152s
      sys 0m0,040s

      • Anonyymi

        Hups, eipä tuo print() rivi jakautunutkaan kahdelle riville, kuten pelkäsin.


      • Anonyymi

        Vieläkin on selityksessä virhe:
        "Ja tuohan lukee sanasto nimisen tiedostosta rivin 99999"

        kuuluisi lukea:
        "Ja tuohan lukee sanasto nimisen tiedoston, ja tulostaa rivin 99999"

        Eli se kyllä lukee koko tiedoston, eikä yhtä riviä.


      • Anonyymi

        Eipä tuo selittely meinaa onnistua, teletapit vielä kerran:
        "Ja tuohan lukee sanasto nimisen tiedoston, ja tulostaa riviltä 99999"


      • Anonyymi

        Pienten tiedostojen kanssa tuo .readlines() on ihan hyvä, koska lukee koko tiedoston kerralla muistiin ja on sen vuoksi nopea. Isoille tiedostoille se ei tietenkään sovi.


      • Anonyymi
        Anonyymi kirjoitti:

        Pienten tiedostojen kanssa tuo .readlines() on ihan hyvä, koska lukee koko tiedoston kerralla muistiin ja on sen vuoksi nopea. Isoille tiedostoille se ei tietenkään sovi.

        Ei toista miljoonaa riviä ilmeisesti sitten ole iso, kun aikaa menee noin vähän.

        real 0m0,192s


      • Anonyymi
        Anonyymi kirjoitti:

        Pienten tiedostojen kanssa tuo .readlines() on ihan hyvä, koska lukee koko tiedoston kerralla muistiin ja on sen vuoksi nopea. Isoille tiedostoille se ei tietenkään sovi.

        Niin ja sitten mikäs se sopii, rivi riviltä luku vai?


      • Anonyymi
        Anonyymi kirjoitti:

        Pienten tiedostojen kanssa tuo .readlines() on ihan hyvä, koska lukee koko tiedoston kerralla muistiin ja on sen vuoksi nopea. Isoille tiedostoille se ei tietenkään sovi.

        Jos koneen rahkeet eivät riitä, täytyy menetellä samalla tavalla kuin videoitten kassa, pistetään palasiksi, muokataan palasia, ja kootaan takaisin.

        Käytännössä en ole koskaan joutunut *.txt tiedostoja koon vuoksi pilkkomaan.


      • Anonyymi
        Anonyymi kirjoitti:

        Pienten tiedostojen kanssa tuo .readlines() on ihan hyvä, koska lukee koko tiedoston kerralla muistiin ja on sen vuoksi nopea. Isoille tiedostoille se ei tietenkään sovi.

        Isoja tiedostoja muokatessa, ei kannata käyttää mitä tahansa editoria. Editori joka rinkulaa pyörittää miljoona riviä sisältävän tiedoston kanssa joutaa poistaa järjestelmästä, ei sellaisella mitään tee.


      • Anonyymi
        Anonyymi kirjoitti:

        Niin ja sitten mikäs se sopii, rivi riviltä luku vai?

        Ainahan rivit joutuu jollain tavalla lukemaan.

        Readlines kiskoo koko tiedoston muistiin, jonka jälkeen sitä voi alkaa perkaamaan. Lukee siis nekin rivit, joita ei enää tarvita, jos ollaan tavoiterivin kohdalla.

        Readline taas lukee tiedostoa rivi kerrallaan. Tiedostoa siis rämpätään enemmän lueskellessa rivi kerrallaan, mutta säästetään muistia.

        Pentti Peruskoodaajalle on yleensä aivan sama miten tekee, koska harvoin tietokoneelle tarjotaan gigaluokan tekstitiedostoja. Enemmän noita pitää pallotella siinä vaiheessa, kun tehdään mahdollisimman pienillä resursseilla toimivia mikropalveluja, joilla saadaan kuitenkin haluttu lopputulos.


      • Anonyymi
        Anonyymi kirjoitti:

        Pienten tiedostojen kanssa tuo .readlines() on ihan hyvä, koska lukee koko tiedoston kerralla muistiin ja on sen vuoksi nopea. Isoille tiedostoille se ei tietenkään sovi.

        Esimerkki sellaisesta editorista löytyy ubuttajilta oletus editorina GEdit, mutta onhan se ympäristönsä veroinen, meinaan ettei kummallakaan ole mitään virkaa. Jorpakkoon joutaa molemmat heittää.


      • Anonyymi
        Anonyymi kirjoitti:

        Ainahan rivit joutuu jollain tavalla lukemaan.

        Readlines kiskoo koko tiedoston muistiin, jonka jälkeen sitä voi alkaa perkaamaan. Lukee siis nekin rivit, joita ei enää tarvita, jos ollaan tavoiterivin kohdalla.

        Readline taas lukee tiedostoa rivi kerrallaan. Tiedostoa siis rämpätään enemmän lueskellessa rivi kerrallaan, mutta säästetään muistia.

        Pentti Peruskoodaajalle on yleensä aivan sama miten tekee, koska harvoin tietokoneelle tarjotaan gigaluokan tekstitiedostoja. Enemmän noita pitää pallotella siinä vaiheessa, kun tehdään mahdollisimman pienillä resursseilla toimivia mikropalveluja, joilla saadaan kuitenkin haluttu lopputulos.

        "Pentti Peruskoodaajalle on yleensä aivan sama miten tekee"

        Minäkin katson kuuluvani tuohon ryhmään, voin vakuuttaa ettei varmasti ole sama. Mitä nopeampi sen parempi, koitahan laajemmin kilpailuttaa kaksi ohjelmaa jolla toisella menee 45 sekuntia ja toisella 0,2 sekuntia samaan tehtävään, kumpi jää henkiin.


      • Anonyymi
        Anonyymi kirjoitti:

        "Pentti Peruskoodaajalle on yleensä aivan sama miten tekee"

        Minäkin katson kuuluvani tuohon ryhmään, voin vakuuttaa ettei varmasti ole sama. Mitä nopeampi sen parempi, koitahan laajemmin kilpailuttaa kaksi ohjelmaa jolla toisella menee 45 sekuntia ja toisella 0,2 sekuntia samaan tehtävään, kumpi jää henkiin.

        Riippuu hinnoittelumallista.


    • Anonyymi

      Olisko täällä python koodaajia, mun pitäs saada tehtyy parikoodia olisko täällä ammattilaista, voin maksaa koodeista

      • Anonyymi

        Tätä sivustoa rikastavat python taidoillaan tasan kaksi kirjoittelijaa, ja minä olen niistä toinen. Minulla ei ole mitään mielitekoja sitoutua tulosvastuullisesti mihinkään.


      • Anonyymi

        Totta kai koodaajia löytyy kun hinnasta sovitaan, mutta jos sinä oikeasti olisit sellaista etsimässä, niin et sinä täällä siitä huutelisi, vaan etsisit freelanceria esimerkiksi Fiverrista.


    • Anonyymi

      Nykyään on hyvin vähän älykkäämpien kirjoituksia näillä sivuilla. Kun tarkastelee 60 ensimmäistä ketjua, niistä 54 ketjua on roskakirjoittelua, ja näitä kirjoittelee kaverit joilla ei ole mitään annettavaa kenellekään.

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Katso: Ohhoh! Miina Äkkijyrkkä sai käskyn lähteä pois Farmi-kuvauksista -Kommentoi asiaa: "En ole.."

      Tämä oli shokkiyllätys. Oliko tässä kyse tosiaan siitä, että Äkkijyrkkä sanoi asioita suoraan vai mistä.... Tsemppiä, Mi
      Tv-sarjat
      134
      5385
    2. Voi kun mies rapsuttaisit mua sieltä

      Saisit myös sormiisi ihanan tuoksukasta rakkauden mahlaa.👄
      Ikävä
      32
      3337
    3. Haluan jutella kanssasi Nainen

      Olisiko jo aika tavata ja avata tunteemme...On niin paljon asioita joihin molemmat ehkä haluaisimme saada vastaukset...O
      Ikävä
      16
      1867
    4. Poliisiauto Omasp:n edessä parkissa

      Poliisiauto oli parkissa monta tuntia Seinäjoen konttorin edessä tänään. Haettiinko joku tai jotain pankista tutkittavak
      Seinäjoki
      22
      1840
    5. Onko mies niin,

      että sinulle ei riitä yksi nainen? Minulle suhde tarkoittaa sitoutumista, tosin eihän se vankila saa olla kummallekaan.
      Tunteet
      19
      1685
    6. Voitasko leikkiä jotain tunnisteleikkiä?

      Tietäisi ketä täällä käy kaipaamassa.. kerro jotain mikä liittyy sinuun ja häneen eikä muut tiedä. Vastaan itsekin kohta
      Ikävä
      72
      1542
    7. Tietysti jokainen ansaitsee

      Hän varmasti ansaitsee vain parasta ja sopivinta tietenkin, suon sen onnen hänelle enemmän kuin mielelläni. Aika on nyt
      Ikävä
      12
      1443
    8. Armi Aavikko Malmin hautausmaa

      Haudattiinko Armi arkussa Malmin hautausmaalle vai tuhkattiinko hänet? Kuka tietää asiasta oikein?
      Kotimaiset julkkisjuorut
      11
      1326
    9. Haluisin suudella ja huokailla

      ja purra kaulaasi ja rakastella sinua. Haluisin puristella rintojasi ja pakaroitasi. Ei sinulla taida olla kuitenkaan ni
      Ikävä
      16
      1317
    10. Miksi näin?

      Miksi vihervassut haluaa maahan porukkaa jonka pyhä kirja kieltää sopeutumisen vääräuskoisten keskuuteen? Näin kotoutumi
      Maailman menoa
      20
      1288
    Aihe