Miten tehdään ohjelma, jolla voisi luetella kaikkien annetun nettisivun alasivut? Siis jos vaikkapa annan osoitteeksi
http://keskustelu.suomi24.fi/ , niin se osaisi antaa muiden muassa sivun http://keskustelu.suomi24.fi/debate/3341 mutta ei sivua http://keskustelu.suomi24.fi/dekate/3341 Tai että sivua https://fi.wikipedia.org/wiki/17._tammikuutajjjjj ei oteta luetteloon mutta https://fi.wikipedia.org/wiki/17._tammikuuta otetaan. Varmaankin on olemassa tehokkaampikin tapa kuin kaikkien eri osoitteiden läpikäynti
Python, verkkosivujen haku
4
157
Vastaukset
- aadfadadas
1. Lataa sivu
2. Parseta se
3. Poimi linkit
4. ???
Sivujen lataamiseen löytyy kaikki tarvittava urllib2 -moduulista. Jos vähänkään monimutkaisemmasta on kyse niin on suositeltavaa käyttää Requests -moduulia joka tekee siitä inhimillisempää (http://docs.python-requests.org/en/latest/)
Linkkien poimiminen onnistuu toki suoraan sivun datasta kaivelemallakin. Mutta miksi nähdä sitä vaivaa kun on olemassa Beautiful Soup? Parsetat sivun souppia käyttämällä ja sen kun poimit linkit DOM:sta
http://www.crummy.com/software/BeautifulSoup/
Ja jos johonkin oikeeseen tarpeeseen tulee niin kannattaa tarkistaa onko jotain valmista soveltuvaa jo olemassa.
http://blog.adlibre.org/2011/06/03/extracting-all-links-website-using-wget/- pythonnoviisi
Niin. Ajattelin lähinnä, että miten saan selville ne sivut, joihin ei ole linkkiä muilta sivuilta.
- pythonnoviisi
pythonnoviisi kirjoitti:
Niin. Ajattelin lähinnä, että miten saan selville ne sivut, joihin ei ole linkkiä muilta sivuilta.
Löytyikin, https://fi.wikipedia.org/wiki/Toiminnot:Kaikki_sivut
- aaaasdadsa
pythonnoviisi kirjoitti:
Löytyikin, https://fi.wikipedia.org/wiki/Toiminnot:Kaikki_sivut
Siis DOHH. Miksi kysyt asiaa A kun tarkoitat asiaa B? No hyvä että löysit vastauksesi kuitenkin
Ketjusta on poistettu 0 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
Mies, mitä minun pitäisi tehdä
Niin, mitä naisen siis pitäisi tehdä, että lähestyisit ja tekisit aloitteen? Mikä on riittävä kiinnostuksen osoitus juur1812576- 1892108
Toivottavasti et mussukka elättele toiveita meikäläisen suhteen
Tiedän mitä olet touhunnut joten aivan turha haaveilla mistään enää 👍1771965Sofia Virralla ja Minja Koskelalla ei mitään käsitystä terveyskeskusmaksuista!
Vasemmistopimut Sofia ja Minja täysin ulkona sote asioista, ei minkäänlaista käsitystä edes mittaluokasta, missä terveys1221771- 1641715
Summit-tippuja Nicola sai Carolalta yllättävän viestin - Some älähtää rajusti: "Älä viitsi..."
The Summit Suomi -kisa käy kuumana kylmässä Norjan vuoristossa. Nicola tiputettiin kisasta juuri ennen finaalia. Likaise311655Varattais lähihotellista
🥰 huone viikoksi. Oltais vaan ja tilattais huonepalvelusta herkkuja! Viikonloppukin käy jos et viikoksi ehdi ❤ Hyvää1791265Kompostointitarkastaja tuli tarkastukselle!
En ole ikinä kompostoinnut ja eilen kävi kompostointitarkastaja kylässä. Tosi hianoa byrokratiaa taas: "Laki edellyttää,721237Juusolle sataa vihaisia viestejä hoitajilta ja loput nauravat hänelle
Ei löydy montaakaan, joka kehuisi Juuson toimintaa ministerinä: "Selvä enemmistö Juuson päivitykseen reagoineista on su1711225Persuehdokas uhkasi tappaa "jätkän" ja ravintolayrittäjän
Kuuntele tästä kuinka meuhkaa. https://www.iltalehti.fi/politiikka/a/4eb3034d-48c5-4f31-b53c-42be3dc9607c801181