Python, verkkosivujen haku

pythonnoviisi

Miten tehdään ohjelma, jolla voisi luetella kaikkien annetun nettisivun alasivut? Siis jos vaikkapa annan osoitteeksi

http://keskustelu.suomi24.fi/ , niin se osaisi antaa muiden muassa sivun http://keskustelu.suomi24.fi/debate/3341 mutta ei sivua http://keskustelu.suomi24.fi/dekate/3341 Tai että sivua https://fi.wikipedia.org/wiki/17._tammikuutajjjjj ei oteta luetteloon mutta https://fi.wikipedia.org/wiki/17._tammikuuta otetaan. Varmaankin on olemassa tehokkaampikin tapa kuin kaikkien eri osoitteiden läpikäynti

4

179

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • aadfadadas

      1. Lataa sivu
      2. Parseta se
      3. Poimi linkit
      4. ???

      Sivujen lataamiseen löytyy kaikki tarvittava urllib2 -moduulista. Jos vähänkään monimutkaisemmasta on kyse niin on suositeltavaa käyttää Requests -moduulia joka tekee siitä inhimillisempää (http://docs.python-requests.org/en/latest/)

      Linkkien poimiminen onnistuu toki suoraan sivun datasta kaivelemallakin. Mutta miksi nähdä sitä vaivaa kun on olemassa Beautiful Soup? Parsetat sivun souppia käyttämällä ja sen kun poimit linkit DOM:sta
      http://www.crummy.com/software/BeautifulSoup/

      Ja jos johonkin oikeeseen tarpeeseen tulee niin kannattaa tarkistaa onko jotain valmista soveltuvaa jo olemassa.
      http://blog.adlibre.org/2011/06/03/extracting-all-links-website-using-wget/

      • pythonnoviisi

        Niin. Ajattelin lähinnä, että miten saan selville ne sivut, joihin ei ole linkkiä muilta sivuilta.


      • pythonnoviisi

      • aaaasdadsa

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Nainen kokki autossa kammottavan kuoleman sähköauto-Teslan syttyessä tuleen.

      https://www.is.fi/autot/art-2000011652873.html Näin vaarallisia sähköautopalot voivat olla.
      Maailman menoa
      84
      5157
    2. Persuja ei aluevaltuustoissa näy

      Ei tunnu persuja paljon paikalliset asiat kiinnostavan, vaan ainoastaan ulkomaalaiset, joku Israel ja Trumpin fanitus.
      Maailman menoa
      25
      3480
    3. Päivän Riikka: Uudenkaupungin autotehdas hiljeni

      Näin ne 100 000 uutta pysyvää ei-tempputyötä yksityiselle sektorille tämän hallituksen ansiosta syntyy. Työntekijöille j
      Maailman menoa
      38
      2828
    4. Riikka vie Suomen kohta ykköseksi työttömyyskisassa

      Espanja: 10,5 % Suomi: 10,3 % Ruotsi: 9,3 % Kisa on tiukkaa, mutta Riikalla hyvä draivi päällä. Vasemmistolaisen päämin
      Maailman menoa
      9
      1972
    5. Kerro kaivattusi nimi tai nimikirjaimet

      🌠 Tähdenlento! Kirjoittamalla kaivattusi nimen tai nimikirjaimet tähän, saattaa toiveesi toteutua.
      Ikävä
      58
      1820
    6. Miksi pitäisit enemmän

      Minusta kuin siitä toisesta?
      Ikävä
      47
      1586
    7. Alkuvuodesta poistuu työttömyyskorvaus kaikilta joilla on säästössä rahaa

      Tippuu korvaukselta iso määrä työttömiä.
      Maailman menoa
      263
      1476
    8. Mitä meidän välillä

      Tulee tapahtumaan vai tuleeko mitään?
      Ikävä
      94
      1382
    9. Tämmönen höpsö

      Höpönassu mä olen. En mikään erikoinen…hölötän välillä ihan levottomia. Tykkäisit varmasti jos olisin siellä sun vieress
      Suhteet
      44
      1356
    10. Hiljaisuus

      Tarkoittaa välinpitämättömyyttä, henkistä väkivaltaa ja kiusaamista. Olet valinnut hiljaisuuden.
      Ikävä
      73
      1078
    Aihe