Koneellisesti käytettävissä olevia hakukoneita ?

datascraping

Koneellisesti käytettävissä olevia hakukoneita ?

mitä koneellisesti käytettävissä olevia hakukoneita on olemassa ?

Esim. Googlehan on tässä täysin käyttökelvoton, koska Google alkaa kysellä hyvin nopeasti CAPTCHAn ratkaisua, jos googlelle yrittää massapostata kyselyjä ohjelmallisesti.

Googlella voi hyvin olla hakukonemaailman parhaat hakualgoritmit, mutta ikävä kyllä googlella on myös robottivihamielinen asenne.

Tietyissä erityistapauksissa on olemassa hyviä syitä hakukoneiden käyttämiseen ohjelmallisesti, siis omasta ohjelmasta käsin.

Näin varsinkin, jos aikoo tehdä haun, joka tuottaa tuhansia tukloksia, ja jos haluan nuo tuhannet URLit listana tekstitiedostoksi.

Tuota tekstitiedostoahan voi sitten tarjota parametriksi vaikkapa linuxin wget -komennolle.

Tämän lisäksi olisi tarpeen html -> txt -konvertteri, joka ottaa sisäänsä HTML -koodia ja työntää ulos puhtaita tekstitiedostoja, jossa tekstitiedostossa siis pitäisi näkyä periaatteessa sama teksti kuin ihminen näkee selainta käyttäen, mutta pitäisi siis siivota pois javascriptit, ja muukin ns "roska", mitä nyky -websivut ovat täynnä.

Eli periaatteessa suunnilleen sama teksti tekstitiedostoksi, kuin minkä tekstin ääneenlukuohjelma lukisi web -sivulta sokealle käyttäjälle.

13

63

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • "Esim. Googlehan on tässä täysin käyttökelvoton, koska Google alkaa kysellä hyvin nopeasti CAPTCHAn ratkaisua, jos googlelle yrittää massapostata kyselyjä ohjelmallisesti."

      Varmaan kannattaa lukea käyttöehdot ja kysyä mitä maksaa hakukoneen rajapinnan käyttö ja voi käyttää myös ilmaiseksi kun cachettaa hakutulokset ja rajaa tehtyjen kysylyjen määrää.

    • GooglenHakupalvelu

      Kannattaa hiukan perehtyä Googlen toimintaan. Googlea ohjataan aika paljon asetuksilla ja hakuhistorialla. Jokainen haku ja sivuilla käynti vaikuttaa seuraavaan haun tuloksiin. Google pyrkii näyttämään tuloksia sivuilta, jotka ovat maksaneet Googlelle eniten.

      Tulosten päätarkoitus on siis tehdä rahaa Googlelle. Kaikki muu on sivuseikka. Jokainen haku maksaa Googlelle maltaita, joten ...

      • trollerson

        Vähän liikaa vedit mutkia suoraksi.

        Maksamalla pääsee vain aivan kärkeen ne pari ensimmäistä linkkiä, jotka onkin selvästi merkattu mainoksiksi. Siitä seuraavat paikat kyllä ovat täysin saavutettavissa maksamattakin.

        Luonnollisesti Googlen on tarkoitus tehdä rahaa, mutta rahavirtahan syntyy siitä, että on paljon käyttäjiä, koska näyttökertojen määrä merkitsee.

        Käyttäjäkunta täytyy siis pitää tyytyväisenä, jolloin on vähän pakko näyttää paljon muutakin kuin vain niitä, ketä ovat maksaneet. Vähän sama kuin TV:ssäkin, et voi näyttää pelkkiä mainoksia tai maksettua viestiä, väliin pitää laittaa katsojaa kiinnostavia ohjelmia. Toki se asiallinenkin sisältö voi olla jonkun sponsoroimaa, mutta näinhän on Googlesta riippumatta, eikä se Google ole silloin edes se kenelle maksetaan.

        Hakuhistorian keräämisellä on enempi tekemistä käyttäjän profiloinnin kanssa, ei niinkään itse hakutulosten vuoksi vaan kohdennetun mainonnan mahdollistamiseksi.

        Bottia tehdessä kuitenkin voi itse päättää lähettääkö keksit, jolla käyttäjän linkitys hänen profiiliin ensisijaisesti edelleenkin tapahtuu. Samoin bottia tehdessä voi vaihdella muitakin http headereiden parametrejä, botti voi helposti valehdella eri käyttöjärjestelmän, selaimen, jne. mitä oikeasti on käytössä.


      • Antinko
        trollerson kirjoitti:

        Vähän liikaa vedit mutkia suoraksi.

        Maksamalla pääsee vain aivan kärkeen ne pari ensimmäistä linkkiä, jotka onkin selvästi merkattu mainoksiksi. Siitä seuraavat paikat kyllä ovat täysin saavutettavissa maksamattakin.

        Luonnollisesti Googlen on tarkoitus tehdä rahaa, mutta rahavirtahan syntyy siitä, että on paljon käyttäjiä, koska näyttökertojen määrä merkitsee.

        Käyttäjäkunta täytyy siis pitää tyytyväisenä, jolloin on vähän pakko näyttää paljon muutakin kuin vain niitä, ketä ovat maksaneet. Vähän sama kuin TV:ssäkin, et voi näyttää pelkkiä mainoksia tai maksettua viestiä, väliin pitää laittaa katsojaa kiinnostavia ohjelmia. Toki se asiallinenkin sisältö voi olla jonkun sponsoroimaa, mutta näinhän on Googlesta riippumatta, eikä se Google ole silloin edes se kenelle maksetaan.

        Hakuhistorian keräämisellä on enempi tekemistä käyttäjän profiloinnin kanssa, ei niinkään itse hakutulosten vuoksi vaan kohdennetun mainonnan mahdollistamiseksi.

        Bottia tehdessä kuitenkin voi itse päättää lähettääkö keksit, jolla käyttäjän linkitys hänen profiiliin ensisijaisesti edelleenkin tapahtuu. Samoin bottia tehdessä voi vaihdella muitakin http headereiden parametrejä, botti voi helposti valehdella eri käyttöjärjestelmän, selaimen, jne. mitä oikeasti on käytössä.

        Pöllersön vetää liikaa mutkia TV:sssäkin gooGlesta RiippuMatta KäyttöJärjestelmä selaimeen maksanaaet HakuTulosten MuuTakin RahaVirta KäyttäjäKunta NäyttöKertoja PROHihuloinnin käyttäjän linkitys päättää samoin jne.


    • PitääTietääMitäHaluaa

      Yksinkertainen alkeellinen Bing toimii selkeissä oikeinkirjoitetuissa hauissa usein paremmin kuin Google. Ei tule niitä Googlen hyviä arvailuja ja maksavien mainostajien sivuja niin paljoa

      Ei ole mitään järkeä lähteä turhaan tappelemaan jonkun erillisen hienon toimimattoman ohjelman kanssa. Ei tule koskaan toimimaan halutulla tavalla. Mahdoton edes testata. Helpoin ja toimivin tapa on valita hyvä selain, laittaa kaikki asetukset kohdalleen ja ohjata hakutulostus suoraan tekstitiedostoon. Sitä voi sitten käsitellä miten haluaa. Eikä kannata ahnehtia kerralla liian suurta palaa eikä toistaa hakuja liian tiheään. Riittävästi viivettä joka väliin. Hyvällä onnella saa selville, mitä oikean oikeasti haluaa tehdä.

      • dhdfhdfhdsfhd

        Bing on hyvä hakukone. Sillä voi etsiä Googlen, jolla sitten löytää netistä tietoa.

        Mutta siis oikeasti täsmällisesti toimiva hakukone oli olemassa. Altavista. Ei ole enää. Suurin osa ihmisistä kun tyytyy tuohon Googlen "ehkä tätä etsit"-systeemiin.
        Altavistan tarkka haku oli aivan omiaan, kun esimerkiksi satelliittikanavien salausavaimia haki.
        Haun saattoi muotoilla niin, että se haki vain tismalleen halutut asiat. Haki, eikä sensuroinut mitään. Seköhän se ongelma olikin?


    • Turbo-Urpo1

      Eikös jo DNS osoitteen vaihtaminen vapauta sensuurin alaisista hakutoloksista, ja lopuu kiusa katoaa kun käyttää VPN:ään.

      Sellaiset haut kuten: Activation Code, Registration Code, Serial Code ja tietyn tyyppinen porno ja mitä niitä kaikkia onkaan ovat tiukan kontrollin alla joka ainakin osittain tapahtuu DNS palvelun tasolla, ja kansallisia rajoitteita kierretään VPN palveluja käyttäen. Eikös Googlen yleisen DNS numeron 8.8.8.8 ja 8.8.4.4 käyttö jo jonkin verran tuota laajempia hakutuloksia, kuin mitä olisi ne tulokset kun käytetään laajakaista palvelun mukana tullutta DNS palvelua.

      • Turbo-Urpo1

        Tuli sellainen tunne että tähän pitää välttämättä lisätä ettei tuo edellinen viestini ole muuta kuin mutuilua, en ole asiaa millään tavalla testannut. Uskon kuitenkin tuohon kirjoittamaani niin pitkään ennen kuin juku tulee ja osoittaa sen paikkansa pitämättömäksi.


    • HakukoneVaatiiIhmisen

      Internet on internet. Ei ole iso tietokanta, josta haetaan jotain.
      Internetistä käyttäjälle jotain hakevat hakukoneet ovat hakukoneen omistajan ehdoilla toimivia hakukoneita. Ja Google ei oikeasti ole mikään "hakukone" vaan superälykäs kaiken tietävä ja äärimmäisen hyvin "arvaava" valtavaakin paljon isompi ohjelmisto. Teratavuittain erilailla järjestettyjä indeksejä. Arvaaminen perustuu paljolti siihen, että käytännössä lähes kaikki ihmiset tekevät samoja asioita ja hakevat samoja asioista jatkuvasti ja toistuvasti ja tekevät samoja kirjoitusvirheitä. Joka päivä tulee jotain uutta ja ajankohtaista. Hakuun riittää usein muutama ensimmäinen kirjain. Google ehdottaa usein jo niiden perusteella sen oikean haun. Google tietää käyttäjän asetukset ja historian ja sijainnin. Ei ole taikuutta. Ja hakuhan on aina käytännössä interaktiivinen eli käyttäjä lisää ensimmäisen sivun tulostuksen jälkeen hakuun jotain tai kieltää jonkun häiritsevän sanan esiintymisen. Ei onnistu ohjelmallisesti mitenkään.

    • Tuossssssanoinnnnnnnnn

      Tämän ketjun aivottomat surkimukset eivät osaa Googlea käyttää.

      "Internet on internet." voi saakeli mikä kusiaivo.

      • Anonyymi

        Tähän mennessä palvelinten (kuten Google) ylläpitäjät asettavat sivuille ns. CAPTCHA -testin, jonka ideana on erottaa a) ihmiskäyttäjät ja b) robotit.

        Paras tietysti olisi, jos ylläpitäjät määrittelisivät nuo 2 ryhmää uudelleen näin:

        a) ihmiskäyttäjät ja haitattomat robotit b) haitalliset robotit

        Mutta, jos ylläpitäjät eivät halua muokata toimintaansa noin, niin toiseksi paras ratkaisu olisi kehittää niin hyvä CAPTCHA -ratkaisijarobotti, ettei palvelinten ylläpitäjille enää jäisi keinoa erottaa ihmisiä haitattomista roboteista.

        Sitten muodostuu ongelmaksi vain tämä: Miten tuollainen parempi CAPTCHA -ratkaisijarobotti voitaisiin antaa vain haitattomien robottien kehittäjille, mutta samalla suljettaisiin ulos haitalliset robotit?

        haitalliset robotithan yleensä tekevät jompaakumpaa (tai molempia) seuraavista:

        1) pyrkivät murtamaan palvelimen tietoturvan kokeilemalla useita yleisiä haavoittuvuuksia siltä varalta, että palvelimessa olisi ainakin 1 ko. haavoittuvuuksista. Ja jos haavoittuvuus löytyy, niin sen avulla kaapataan palvelin tekemää jotain kaappaajan haluamaa asiaa (usein esim. haittaohjelmien levitys, tai bitcoin -louhinta kaappaajan hyväksi).

        tai

        2) lähettävät automatisoituja kyselyjä niin tiheään, että palvelin "hukkuu" loputtomiin automaattikyselyihin. Toimii siis (joko tarkoituksella tai tahattomasti suuren kuormituksen takia) ns. DOS -hyökkäyksenä (Denial Of Service).


    • Anonyymi

      Jokainen googlehaku vie sähkölampun verran virtaa ja ylikin joten mieti vähän miten niitä teet!

    • Anonyymi

      Kysy CNC-koneistajilta Commodore-64, he tietävät kaiken.

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. 4 tuntia töitä kerran viikossa on naisen mukaan liian raskasta

      Tämä ei taija olls lieksalaine vaikka "tuntomerkkiin" perusteella nii vois eppäillä! 🤣 31-vuotias Maya ei kykene tekemä
      Lieksa
      90
      3880
    2. Riikka Purra rosvosi eläkeläiset!

      1900 euron eläkkeestä rosvottiin 350 euroa. Kohtuullista vai? Perussuomalaisia ei enää ole olemassa meille eläkeläisille
      Maailman menoa
      596
      3644
    3. Baaritappelu

      Hurjaksi käynyt meno Laffassa. Jotain jätkää kuristettu ja joutunu teholle...
      Kokkola
      43
      3632
    4. Tappo Kokkolassa

      Päivitetty tänään Iltalehti 17.04.2024 Klo: 15:23..Mikähän tämä tapaus nyt sitten taas on.? Henkirikos Kokkolassa on tap
      Kokkola
      13
      2291
    5. Näytit nainen sanoinkuvaamattoman ihanalta

      En voi unohtaa sinua. Pohdin nyt sinua.
      Ikävä
      56
      2255
    6. SDP:n kannatus edelleen kovassa nousussa, ps ja kokoomus putoavat

      SDP on noussut Helsingin Sanomien tuoreessa kannatuskyselyssä kokoomuksen ohi Suomen suosituimmaksi puolueeksi. SDP:n ka
      Maailman menoa
      322
      1972
    7. Ihastuksesi persoonalliset piirteet ulkonäössä?

      Onko jotain massasta poikkeavaa? Uskallatko paljastaa? Aloitan; todella kauniit kädet ja sirot sormet miehellä.
      Tunteet
      123
      1947
    8. Kansaneläkkeiden maksu ulkomaille loppuu

      Hyvä homma! Yli 30 miljoonan säästö siitäkin. Toxia.
      Maailman menoa
      187
      1776
    9. Ketä ammuttu ?

      Ketä sielä Juupajoela ammuttu ei kait mainemies alkanu amuskelemaan , , Kyösti H ?
      Juupajoki
      27
      1443
    10. Nainen, meistä tulisi maailman ihanin pari

      Mutta tosiasiat tosiasioina, on liian monta asiaa, jotka sotivat meidän yhteistä taivalta vastaan. Surulla tämän sanon,
      Ikävä
      66
      1362
    Aihe