Koneellisesti käytettävissä olevia hakukoneita ?
mitä koneellisesti käytettävissä olevia hakukoneita on olemassa ?
Esim. Googlehan on tässä täysin käyttökelvoton, koska Google alkaa kysellä hyvin nopeasti CAPTCHAn ratkaisua, jos googlelle yrittää massapostata kyselyjä ohjelmallisesti.
Googlella voi hyvin olla hakukonemaailman parhaat hakualgoritmit, mutta ikävä kyllä googlella on myös robottivihamielinen asenne.
Tietyissä erityistapauksissa on olemassa hyviä syitä hakukoneiden käyttämiseen ohjelmallisesti, siis omasta ohjelmasta käsin.
Näin varsinkin, jos aikoo tehdä haun, joka tuottaa tuhansia tukloksia, ja jos haluan nuo tuhannet URLit listana tekstitiedostoksi.
Tuota tekstitiedostoahan voi sitten tarjota parametriksi vaikkapa linuxin wget -komennolle.
Tämän lisäksi olisi tarpeen html -> txt -konvertteri, joka ottaa sisäänsä HTML -koodia ja työntää ulos puhtaita tekstitiedostoja, jossa tekstitiedostossa siis pitäisi näkyä periaatteessa sama teksti kuin ihminen näkee selainta käyttäen, mutta pitäisi siis siivota pois javascriptit, ja muukin ns "roska", mitä nyky -websivut ovat täynnä.
Eli periaatteessa suunnilleen sama teksti tekstitiedostoksi, kuin minkä tekstin ääneenlukuohjelma lukisi web -sivulta sokealle käyttäjälle.
Koneellisesti käytettävissä olevia hakukoneita ?
13
106
Vastaukset
"Esim. Googlehan on tässä täysin käyttökelvoton, koska Google alkaa kysellä hyvin nopeasti CAPTCHAn ratkaisua, jos googlelle yrittää massapostata kyselyjä ohjelmallisesti."
Varmaan kannattaa lukea käyttöehdot ja kysyä mitä maksaa hakukoneen rajapinnan käyttö ja voi käyttää myös ilmaiseksi kun cachettaa hakutulokset ja rajaa tehtyjen kysylyjen määrää.- GooglenHakupalvelu
Kannattaa hiukan perehtyä Googlen toimintaan. Googlea ohjataan aika paljon asetuksilla ja hakuhistorialla. Jokainen haku ja sivuilla käynti vaikuttaa seuraavaan haun tuloksiin. Google pyrkii näyttämään tuloksia sivuilta, jotka ovat maksaneet Googlelle eniten.
Tulosten päätarkoitus on siis tehdä rahaa Googlelle. Kaikki muu on sivuseikka. Jokainen haku maksaa Googlelle maltaita, joten ...- trollerson
Vähän liikaa vedit mutkia suoraksi.
Maksamalla pääsee vain aivan kärkeen ne pari ensimmäistä linkkiä, jotka onkin selvästi merkattu mainoksiksi. Siitä seuraavat paikat kyllä ovat täysin saavutettavissa maksamattakin.
Luonnollisesti Googlen on tarkoitus tehdä rahaa, mutta rahavirtahan syntyy siitä, että on paljon käyttäjiä, koska näyttökertojen määrä merkitsee.
Käyttäjäkunta täytyy siis pitää tyytyväisenä, jolloin on vähän pakko näyttää paljon muutakin kuin vain niitä, ketä ovat maksaneet. Vähän sama kuin TV:ssäkin, et voi näyttää pelkkiä mainoksia tai maksettua viestiä, väliin pitää laittaa katsojaa kiinnostavia ohjelmia. Toki se asiallinenkin sisältö voi olla jonkun sponsoroimaa, mutta näinhän on Googlesta riippumatta, eikä se Google ole silloin edes se kenelle maksetaan.
Hakuhistorian keräämisellä on enempi tekemistä käyttäjän profiloinnin kanssa, ei niinkään itse hakutulosten vuoksi vaan kohdennetun mainonnan mahdollistamiseksi.
Bottia tehdessä kuitenkin voi itse päättää lähettääkö keksit, jolla käyttäjän linkitys hänen profiiliin ensisijaisesti edelleenkin tapahtuu. Samoin bottia tehdessä voi vaihdella muitakin http headereiden parametrejä, botti voi helposti valehdella eri käyttöjärjestelmän, selaimen, jne. mitä oikeasti on käytössä. - Antinko
trollerson kirjoitti:
Vähän liikaa vedit mutkia suoraksi.
Maksamalla pääsee vain aivan kärkeen ne pari ensimmäistä linkkiä, jotka onkin selvästi merkattu mainoksiksi. Siitä seuraavat paikat kyllä ovat täysin saavutettavissa maksamattakin.
Luonnollisesti Googlen on tarkoitus tehdä rahaa, mutta rahavirtahan syntyy siitä, että on paljon käyttäjiä, koska näyttökertojen määrä merkitsee.
Käyttäjäkunta täytyy siis pitää tyytyväisenä, jolloin on vähän pakko näyttää paljon muutakin kuin vain niitä, ketä ovat maksaneet. Vähän sama kuin TV:ssäkin, et voi näyttää pelkkiä mainoksia tai maksettua viestiä, väliin pitää laittaa katsojaa kiinnostavia ohjelmia. Toki se asiallinenkin sisältö voi olla jonkun sponsoroimaa, mutta näinhän on Googlesta riippumatta, eikä se Google ole silloin edes se kenelle maksetaan.
Hakuhistorian keräämisellä on enempi tekemistä käyttäjän profiloinnin kanssa, ei niinkään itse hakutulosten vuoksi vaan kohdennetun mainonnan mahdollistamiseksi.
Bottia tehdessä kuitenkin voi itse päättää lähettääkö keksit, jolla käyttäjän linkitys hänen profiiliin ensisijaisesti edelleenkin tapahtuu. Samoin bottia tehdessä voi vaihdella muitakin http headereiden parametrejä, botti voi helposti valehdella eri käyttöjärjestelmän, selaimen, jne. mitä oikeasti on käytössä.Pöllersön vetää liikaa mutkia TV:sssäkin gooGlesta RiippuMatta KäyttöJärjestelmä selaimeen maksanaaet HakuTulosten MuuTakin RahaVirta KäyttäjäKunta NäyttöKertoja PROHihuloinnin käyttäjän linkitys päättää samoin jne.
- PitääTietääMitäHaluaa
Yksinkertainen alkeellinen Bing toimii selkeissä oikeinkirjoitetuissa hauissa usein paremmin kuin Google. Ei tule niitä Googlen hyviä arvailuja ja maksavien mainostajien sivuja niin paljoa
Ei ole mitään järkeä lähteä turhaan tappelemaan jonkun erillisen hienon toimimattoman ohjelman kanssa. Ei tule koskaan toimimaan halutulla tavalla. Mahdoton edes testata. Helpoin ja toimivin tapa on valita hyvä selain, laittaa kaikki asetukset kohdalleen ja ohjata hakutulostus suoraan tekstitiedostoon. Sitä voi sitten käsitellä miten haluaa. Eikä kannata ahnehtia kerralla liian suurta palaa eikä toistaa hakuja liian tiheään. Riittävästi viivettä joka väliin. Hyvällä onnella saa selville, mitä oikean oikeasti haluaa tehdä.- dhdfhdfhdsfhd
Bing on hyvä hakukone. Sillä voi etsiä Googlen, jolla sitten löytää netistä tietoa.
Mutta siis oikeasti täsmällisesti toimiva hakukone oli olemassa. Altavista. Ei ole enää. Suurin osa ihmisistä kun tyytyy tuohon Googlen "ehkä tätä etsit"-systeemiin.
Altavistan tarkka haku oli aivan omiaan, kun esimerkiksi satelliittikanavien salausavaimia haki.
Haun saattoi muotoilla niin, että se haki vain tismalleen halutut asiat. Haki, eikä sensuroinut mitään. Seköhän se ongelma olikin?
- Turbo-Urpo1
Eikös jo DNS osoitteen vaihtaminen vapauta sensuurin alaisista hakutoloksista, ja lopuu kiusa katoaa kun käyttää VPN:ään.
Sellaiset haut kuten: Activation Code, Registration Code, Serial Code ja tietyn tyyppinen porno ja mitä niitä kaikkia onkaan ovat tiukan kontrollin alla joka ainakin osittain tapahtuu DNS palvelun tasolla, ja kansallisia rajoitteita kierretään VPN palveluja käyttäen. Eikös Googlen yleisen DNS numeron 8.8.8.8 ja 8.8.4.4 käyttö jo jonkin verran tuota laajempia hakutuloksia, kuin mitä olisi ne tulokset kun käytetään laajakaista palvelun mukana tullutta DNS palvelua.- Turbo-Urpo1
Tuli sellainen tunne että tähän pitää välttämättä lisätä ettei tuo edellinen viestini ole muuta kuin mutuilua, en ole asiaa millään tavalla testannut. Uskon kuitenkin tuohon kirjoittamaani niin pitkään ennen kuin juku tulee ja osoittaa sen paikkansa pitämättömäksi.
- HakukoneVaatiiIhmisen
Internet on internet. Ei ole iso tietokanta, josta haetaan jotain.
Internetistä käyttäjälle jotain hakevat hakukoneet ovat hakukoneen omistajan ehdoilla toimivia hakukoneita. Ja Google ei oikeasti ole mikään "hakukone" vaan superälykäs kaiken tietävä ja äärimmäisen hyvin "arvaava" valtavaakin paljon isompi ohjelmisto. Teratavuittain erilailla järjestettyjä indeksejä. Arvaaminen perustuu paljolti siihen, että käytännössä lähes kaikki ihmiset tekevät samoja asioita ja hakevat samoja asioista jatkuvasti ja toistuvasti ja tekevät samoja kirjoitusvirheitä. Joka päivä tulee jotain uutta ja ajankohtaista. Hakuun riittää usein muutama ensimmäinen kirjain. Google ehdottaa usein jo niiden perusteella sen oikean haun. Google tietää käyttäjän asetukset ja historian ja sijainnin. Ei ole taikuutta. Ja hakuhan on aina käytännössä interaktiivinen eli käyttäjä lisää ensimmäisen sivun tulostuksen jälkeen hakuun jotain tai kieltää jonkun häiritsevän sanan esiintymisen. Ei onnistu ohjelmallisesti mitenkään. - Tuossssssanoinnnnnnnnn
Tämän ketjun aivottomat surkimukset eivät osaa Googlea käyttää.
"Internet on internet." voi saakeli mikä kusiaivo.- Anonyymi
Tähän mennessä palvelinten (kuten Google) ylläpitäjät asettavat sivuille ns. CAPTCHA -testin, jonka ideana on erottaa a) ihmiskäyttäjät ja b) robotit.
Paras tietysti olisi, jos ylläpitäjät määrittelisivät nuo 2 ryhmää uudelleen näin:
a) ihmiskäyttäjät ja haitattomat robotit b) haitalliset robotit
Mutta, jos ylläpitäjät eivät halua muokata toimintaansa noin, niin toiseksi paras ratkaisu olisi kehittää niin hyvä CAPTCHA -ratkaisijarobotti, ettei palvelinten ylläpitäjille enää jäisi keinoa erottaa ihmisiä haitattomista roboteista.
Sitten muodostuu ongelmaksi vain tämä: Miten tuollainen parempi CAPTCHA -ratkaisijarobotti voitaisiin antaa vain haitattomien robottien kehittäjille, mutta samalla suljettaisiin ulos haitalliset robotit?
haitalliset robotithan yleensä tekevät jompaakumpaa (tai molempia) seuraavista:
1) pyrkivät murtamaan palvelimen tietoturvan kokeilemalla useita yleisiä haavoittuvuuksia siltä varalta, että palvelimessa olisi ainakin 1 ko. haavoittuvuuksista. Ja jos haavoittuvuus löytyy, niin sen avulla kaapataan palvelin tekemää jotain kaappaajan haluamaa asiaa (usein esim. haittaohjelmien levitys, tai bitcoin -louhinta kaappaajan hyväksi).
tai
2) lähettävät automatisoituja kyselyjä niin tiheään, että palvelin "hukkuu" loputtomiin automaattikyselyihin. Toimii siis (joko tarkoituksella tai tahattomasti suuren kuormituksen takia) ns. DOS -hyökkäyksenä (Denial Of Service).
- Anonyymi
Jokainen googlehaku vie sähkölampun verran virtaa ja ylikin joten mieti vähän miten niitä teet!
- Anonyymi
Kysy CNC-koneistajilta Commodore-64, he tietävät kaiken.
Ketjusta on poistettu 0 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
Miehille kysymys
Onko näin, että jos miestä kiinnostaa tarpeeksi niin hän kyllä ottaa vaikka riskin pakeista ja osoittaa sen kiinnostukse1293567- 851845
Olen tosi outo....
Päättelen palstajuttujen perusteella mitä mieltä minun kaipauksen kohde minusta on. Joskus kuvittelen tänne selkeitä tap151641Haluaisin jo
Myöntää nämä tunteet sinulle face to face. En uskalla vain nolata itseäni enää. Enkä pysty elämäänkin näiden kanssa jos541362VENÄJÄ muuttanut tänään ydinasetroktiinia
Venäjän presidentti Vladimir Putin hyväksyi tiistaina päivitetyn ydinasedoktriinin, kertoo uutistoimisto Reuters. Sen mu911202Ylen uutiset Haapaveden yt:stä.
Olipas kamalaa luettavaa kaupungin irtisanomisista. Työttömiä lisää 10 tai enempikin( Mieluskylän opettajat). Muuttavat1121182- 681079
- 65954
Hommaatko kinkkua jouluksi?
Itse tein pakastimeen n. 3Kg:n murekkeen sienillä ja juustokuorrutuksella. Voihan se olla, että jonkun pienen, valmiin k98942Kotkalainen Demari Riku Pirinen vangittu Saksassa lapsipornosta
https://www.kymensanomat.fi/paikalliset/8081054 Kotkalainen Demari Riku Pirinen vangittu Saksassa lapsipornon hallussapi28942