Datan nouto internetistä

Anonyymi

2021-04-29 20:49:37

Haluaisin rakentaa ohjelman, joka noutaa lähtötiedot internetin sivustolta. Olisiko se edes teoriassa mahdollista? Olisiko mahdollista esim php:llä? Kyseisellä sivulla tiedot on ladattavissa linkistä tiedostona. Kun saisin ohjelman hakemaan tiedot palvelimelle, osaisin käsittelyn siitä eteenpäin. Olisiko tästä esimerkkejä?

590

Äänestä

Vastaukset

malaire
2021-04-29 21:22:31
Mitä tarkoitat "lähtötiedoilla"?
Anonyymi
2021-04-29 23:33:06
Linuxiin saa asennettu 'wget' -sovelluksen joka noutaa tiedot automaattisesti. Tämä pitäisi olla saatavilla myös windowsiin Tästä syystä en näe tarvetta lähteä keksimään pyörää uudelleen tehdäkseen PHP:llä softan joka on jo olemassa.
Anonyymi
2021-04-29 23:35:08
Vaikka Pythonilla:

import urllib2
page = urllib2.urlopen("http://example.com/").read()
print page
Anonyymi
2021-04-30 05:38:42
Minä ymmärsin kysymyksen niin että

on olemassa sivu osoitteessa x
mikä sisältää linkin y
jota klikkaamalla saa näkymään datan z.

Asiaa olisi helpompi pohtia kun näkisi miten osoite x on toteutettu, mutta asian arkaluontoisuuden takia tuota tietoa ei nyt ole saatavissa.
Anonyymi
2021-04-30 12:48:59
1.) Olisiko se edes teoriassa mahdollista?
Olisi mahdollista teoriassa.

2.) Olisiko mahdollista esim. php:llä?
Olisi mahdollista PHP:llä.

3.) Olisiko tästä esimerkkejä?
Kyllä olisi esimerkkejä.

Oliko muuta?
- Anonyymi
  2021-04-30 13:23:34
  Kyllä on. Anna esimerkki miten luet esim. nettisivulla foosamplesite.net olevan linkin tuottaman aineiston silloin kun se vaatii linkin klikkaamisen ja siinä linkissä on javascriptillä toteutettu hakumääritys.
- Anonyymi
  2021-04-30 14:44:29
  Anonyymi kirjoitti:
  Kyllä on. Anna esimerkki miten luet esim. nettisivulla foosamplesite.net olevan linkin tuottaman aineiston silloin kun se vaatii linkin klikkaamisen ja siinä linkissä on javascriptillä toteutettu hakumääritys.
  foosamplesite.net on toimimaton verkko-osoite.
  
  Normaalisti käytän Lynx -komentopohjaista selainta noutamaan verkkosivun sisällön, mutta se ei tue JavaScriptillä tuotettua sisältöä.
  
  Vastaavan ELinks selaimen taas sanotaan tukevan, en ole käyttänyt, joten en osaa tällä hetkellä opastaa, ehkä myöhemmin.
  
  Myös Chromium selainta voi käyttää komentokehotteesta, ja mikään ei ole tavoittamattomissa, kun yhdistät siihen xdotool makrot.
  
  Anna toimiva osoite, saatan antaa täsmäohjeen, jos pystyn siihen, mikään ei ole jäänyt tekemättä tähän mennessä.
Anonyymi
2021-04-30 16:44:52
En ole ketjun aloittaja, mutta aihe alkoi kiinnostamaan. Otetaan esim. sivu
http://www.nasdaqomxnordic.com/shares/microsite?Instrument=HEX24395
ja sieltä sivun puolimatkasta löytyy linkki "Download CSV". Saako sen imuroitua ohjelmallisesti esim. cURL:illa?
- Anonyymi
  2021-04-30 19:43:51
  Ei onnistu, joutuisin jommallakummalla tavalla suorittamaan latauksen.
  
  1.) Selain Selainlaajennos
  2.) Selain xdotool
- Anonyymi
  2021-05-01 13:15:21
  chromessa:
  klikkaa sitä download-sanaa hiiren kakkosella. sitten valitse välilehti "network" aukeavasta näkymästä.
  klikkaa download-sanaa hiiren ykkösellä.
  Siihen oikealle ilmestyy nyt kohta "DataFeedProxy.asp". klikkaa sitä hiiren kakkosella -> Copy -> Copy as cURL
  Nyt leikepöydällä on komento, joka curlia hyväksi käyttäen osaa ladata sen datan
  sen voi linuxissa pastettaa suoraan päätteeseen ja näkee sen CSV-datan
  
  tolla tavalla noita erilaisia selaimen tekemiä pyyntöjä on helppo tutkiskella selaimen omilla työkaluilla.
  https://ibb.co/BgK6Fvd
  
  ja kun googletat "DataFeedProxy nasdaq github" niin noitahan on valmiina jos haluaa säästää tekemisen vaivan.
- Anonyymi
  2021-05-01 13:17:37
  Anonyymi kirjoitti:
  chromessa:
  klikkaa sitä download-sanaa hiiren kakkosella. sitten valitse välilehti "network" aukeavasta näkymästä.
  klikkaa download-sanaa hiiren ykkösellä.
  Siihen oikealle ilmestyy nyt kohta "DataFeedProxy.asp". klikkaa sitä hiiren kakkosella -> Copy -> Copy as cURL
  Nyt leikepöydällä on komento, joka curlia hyväksi käyttäen osaa ladata sen datan
  sen voi linuxissa pastettaa suoraan päätteeseen ja näkee sen CSV-datan
  
  tolla tavalla noita erilaisia selaimen tekemiä pyyntöjä on helppo tutkiskella selaimen omilla työkaluilla.
  https://ibb.co/BgK6Fvd
  
  ja kun googletat "DataFeedProxy nasdaq github" niin noitahan on valmiina jos haluaa säästää tekemisen vaivan.
  korjaus kun jotain unohtui:
  
  klikkaa sitä download-sanaa hiiren kakkosella -> Tarkista. sitten valitse välilehti "network" aukeavasta näkymästä.
- Anonyymi
  2021-05-01 13:33:24
  Anonyymi kirjoitti:
  korjaus kun jotain unohtui:
  
  klikkaa sitä download-sanaa hiiren kakkosella -> Tarkista. sitten valitse välilehti "network" aukeavasta näkymästä.
  No olippaan temppu, kiitän ja kumarran. Tämä avasi uusia mahdollisuuksia, olen ylen tyytyväinen.
- Anonyymi
  2021-05-01 13:35:21
  Anonyymi kirjoitti:
  korjaus kun jotain unohtui:
  
  klikkaa sitä download-sanaa hiiren kakkosella -> Tarkista. sitten valitse välilehti "network" aukeavasta näkymästä.
  VUODEN PARAS
- Anonyymi
  2021-05-12 09:09:04
  Saa, mutta riippuu nykyään aika monesta asiasta:
  1. Jos saat suoran linkin helposti tiedostoon niin lataa se
  2. Jos linkki on www-sivulla, pitää sivulta pystyä löytämään em. linkki staattiselta sivulta se on siis ensin ladata sivu jolla linkki. Sitten sieltä jollakin keinolla napata oikea linkki ja tämän jälkeen tehdä ensimmäisen kohdan mukaan.
  3. Jos sivu on dynaamisesti generoitu ja linkki esim. javascriptillä kirjain kirjaimelta tuotettu - niin kakkos-kohta ei toimi, pitää tehdä oma "selain", esim. Qt:lla:
  https://www.bogotobogo.com/Qt/Qt5_WebKit_WebView_WebBrowser_QtCreator.php
  -Tämän jälkeen pystyt tekemään mm. klikkauksia linkkeihin yms. hauskaa - vaikka täyttämään web-lomakkeen ja lähettämään sen tiedonhakupyyntönä jollekin kirjastopalvelulle yms. mukavaa. Tällainen komponentti löytyy eri tasoisena varmaan suurimmalle osalle ohjelmointikielistä.
  -Mutta jos joudut tekemään näin, on mahdollista että olet tekemässä jotakin täysin väärin ja väärästä päästä aloittaen. Kannattaa miettiä ehkä uudestaan koska sovelluksesta tulee tällä keinolla älyttömän hidas! Esim. Saisiko suoraan tietokantaan yhteyden ja käyttäisi sql:ää? Onko jossain tieto jo saatavilla valmiiksi prosessoituna linkiksi, yms.? Koodaukseen käytetyn ajan säästö voi tulla jossain vaiheessa lumipalloefektinä takaisin, kun kaikki pitää tehdä uusiksi.
Anonyymi
2021-04-30 17:51:20
Aloittajalle riittää työkaluksi joko wget tai curl. Molemmat löytyvät moniin käyttöjärjestelmiin ja ovat linuxeissa yleensä mukana automaattisesti.

Löytyy myös ohjelmistoja, jotka ovat tarkoitettuja datan keräämiseen nettisivuilta. Toiminnan nimi on web scraping. Tässä työkaluja:

https://www.google.com/search?q=web scraping tools
- Anonyymi
  2021-04-30 21:32:14
  Testasin tätä ilmaista ParseHub ( https://www.parsehub.com/ ) web-kaavintatyökalua. Ainakin se on helppo asentaa, vaatii rekisteröitymisen, ja jättää jälkeensä 1476 tiedostoa roskaksi.
  
  En rekisteröitynyt käyttäjäksi, joten en osaa hänestä sen enempää kertoa.
- Anonyymi
  2021-04-30 21:47:05
  Otin testiin Scrapy Web Scraping -pythonkirjaston ( https://scrapy.org/ ). Ainakin on helppo asentaa, eikä ole rekisteröintejä. Puutteena JavaScript-tuen puuttuminen. On senverran mielenkiintoinen että joutuu testaamaan ihan käytäntöön soveltamalla. Väittävät olevan hyvin dokumentoitu, saa sitten nähdä mitä se tarkoittaa.
Anonyymi
2021-05-01 12:58:35
Jos tiedosto linkin takana on CSV-muodossa, voit hakea sen ja käsitellä tietoja helposti Pythonin pandas-kirjastolla. Tyyliin näin:

import pandas as pd
data = pd.readcsv('linkki_tähän')

Jos tiedosto on esim. txt-muodossa eli perustekstitiedosto, niin lisäät erotusmerkin jota datassa käytetään

data = pd.readcsv('linkki_tähän', sep=';')

Ammattikoodari
Anonyymi
2021-05-12 13:39:51
Voit tehdä sen scriptinä.

Ensin.
set xmlhttp = createobject("msxml2.xmlhttp")
Ja Sitten.
xmlhttp.open (osoite)
xmlhttp.onreadystatechange (aliohjelma)
xmlhttp.send
Ja odotella että data saapuu aliohjelmaan.

Tätä xmlhttp:tä nykyajan modernit internetsivut käyttävät intensiivisesti siirtäen sivujen prosessointi vastuun vastaanottajalle ja ladaten sivut täyteen mainoksia.

https://devblogs.microsoft.com/scripting/how-can-i-tell-whether-a-web-page-is-accessible/

Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

Takaisin ylös

Luetuimmat keskustelut

IL - PerSut tykittää - Vaaralliset tappajat vankilaan jopa loppuelämäksi!!
Entistä rajumpi elinkautinen tulee – Vaaralliset tappajat vankilaan jopa loppuelämäksi Henkirikosten uusijat voidaan ja
04.11.2025 13:30Maailman menoa
30
13871
Päivi Räsänen vs. Abbas Bahmanpour
(Bahmanpour on imaami Helsingissä) Syyttäjä siis jahtaa edelleen Räsästä tämän H-puheista, joissa hän on ilmeisesti vaa
02.11.2025 10:22Maailman menoa
154
5461
Demokratian uhka: Perussuomalaiset ja polarisoiva "me ja muut" -ajattelu
Laurence Rees varoittaa, kuinka demokratian heikkeneminen ja autoritaaristen liikkeiden nousu voidaan liittää "me ja muu
02.11.2025 09:38Maailman menoa
200
5089
SIELTÄ SE TULI: Kepu-Kurvinen: "Emme enää lähde punavihreään hallitukseen"
Nyt muuten nauretaan loppuviikko, että tähänkö kaatui Lindtmanin pääministerihaaveet. "Antti Kurvisen mukaan puolue ei
04.11.2025 10:04Maailman menoa
86
4255
"Rauhanomainen" miekkari hesassa: "Eläköön aseellinen vastarinta" - lakana
Kyseessä on Suomen Palestiinalaisten yhdistyksen viime perjantaina järjestämä ”Hiljainen kynttiläkulkue Palestiinalaiste
03.11.2025 11:52Maailman menoa
87
3551
Palkansaajan oikeus nauttia työuransa hedelmistä
Työeläkejärjestelmä on verrattavissa pyramidihuijaukseen, jossa alemmat tasot, eli nykyiset palkansaajat, toimivat maksa
02.11.2025 10:44Maailman menoa
109
3058
HS - Sanna Marinin kirja on priimaluokan vedätys!
Kirja-arvio|Toivo on tekoja tulisi ensisijaisesti nähdä maineen rahallisen hyödyntämisen voimaannuttavana merkkipaaluna.
04.11.2025 11:37Maailman menoa
14
2919
Vanhat miehet eivät muista
Niinistö muistaa vain Marinin hölmistyneen ilmeen, mutta ei miksi möllötti sen näköisenä. Vanhanen taas ei muuten vaan
04.11.2025 08:18Maailman menoa
12
2591
Monella äärivasemmistolaisella C-paperit armeijasta
Kuinka kävisi sodan tullen noille? Puolustusvoimat huomauttaa, että C-luokituksen saaneiden sijoittumisesta sodan aikan
03.11.2025 19:56Maailman menoa
39
2507
Äärioikeistopurran nukke Petteri Lapanen paniikissa
Kun Suomen historian paras pääministeri antoi vankan lausunnon, kuinka "keskustelu politiikassa on käpertynyt lähinnä va
04.11.2025 15:31Maailman menoa
6
2189

Datan nouto internetistä

Vastaukset

Anonyymi kirjoitti:

Anonyymi kirjoitti:

Anonyymi kirjoitti:

Anonyymi kirjoitti:

Luetuimmat keskustelut

IL - PerSut tykittää - Vaaralliset tappajat vankilaan jopa loppuelämäksi!!

Päivi Räsänen vs. Abbas Bahmanpour

Demokratian uhka: Perussuomalaiset ja polarisoiva "me ja muut" -ajattelu

SIELTÄ SE TULI: Kepu-Kurvinen: "Emme enää lähde punavihreään hallitukseen"

"Rauhanomainen" miekkari hesassa: "Eläköön aseellinen vastarinta" - lakana

Palkansaajan oikeus nauttia työuransa hedelmistä

HS - Sanna Marinin kirja on priimaluokan vedätys!

Vanhat miehet eivät muista

Monella äärivasemmistolaisella C-paperit armeijasta

Äärioikeistopurran nukke Petteri Lapanen paniikissa

Marin vetäs lopullisesti maton alta hallitusyhteistyöltä Kepun kanssa

Paljonko teillä jää niin sanottua käyttörahaa?

Tätä ei nähty tv:ssä: Johannes Brotherus lataa suorat sanat Käärijän "Vantaalainen" biisistä

MTV: Lisätietoa: Marko Anttila avaa yksityiskohtia tapaturmasta - Loukkaantuminen tapahtui näin!

Katsoitko? 100 litraa sahtia tuli tv:stä - Uusinta-ajat tässä!

Gallup: Mikä on sinun Elämäsi biisi - ja miksi?

Mitä olet tykännyt asteikolla 1-10 Johanneksen esityksistä Vain elämää -ohjelmassa?

Ilmoittaako 171 vai 172cm pituudeksi?

Oho! Ensitreffit alttarilla -parit eivät olekaan "oikeasti" naimisissa!

Kaksi uutta ilmoitussyytä asiattomalle sisällölle