pdf ja jpg -muotoiset tekstit selailtaviksi

teksti_sähköiseksi

2015-07-26 21:02:30

Minulla on vanhoja dokumentteja, jotka on kirjoitettu osin koneella ja osin tulostettu. Osa dokumenteista on 2 ja jopa 3 palstaisia ja niissä on jonkin verran kuvia ja kaavioita. Alkuperäisiä ei siis ole sähköisenä. Haluaisin skannata ne arkistoon ja tieteen harrastajien vapaasti käytettäviksi hakemistoon, josta dokumentteja voisi hakea hakusanoilla. Aivan erinomaista olisi, jos vielä hakutuloksessa olisi jotenkin merkitty etsitty sana. Tällaisia palveluja näkyy esim. joillakin lehdillä. Kuinka tuon voisi toteuttaa. Onkohan valmista ohjelmaa? Osaan vain auttavasti atk:ta, mutta apuja on saatavissa.

<50

Äänestä

Vastaukset

OCR-käyttöön
2015-07-26 21:22:26
https://fi.wikipedia.org/wiki/Tekstintunnistus

Eli siis skannaat ne dokumentit tekstimuotoisiksi. Noita OCR-ohjelmia löytyy kymmeniä ja joidenkin skannereiden mukanakin toimitetaan sellainen. Tunnistus ei ole 100% oikein eli joudut oikolukemaan ne ja korjailemaan virheet, usein korjattavaa jää kuitenkin kohtuullisen vähän jos skannattava materiaali on edes jonkunlaisessa kunnossa (ja useimmat ohjelmat suoriutuvat useamman palstan tunnistamisesta hyvin, tarvittaessa ne voi usein määritellä käsin) . Kuvat ja kaaviot skannaat erikseen ja korjailet tarpeen mukaan.
- Bittinarkkari
  2015-07-27 11:24:24
  "Skannaaminen tekstimuotoisiksi" on melkoinen taikatemppu ;o)
  
  Skannauksen tuloksena syntyy useimmiten kuvatiedosto, jonka tyyppi voi olla esimerkiksi .bmp tai .jpg Tällainen tiedosto ei siis ole tekstimuotoinen, vaan sisältää kuvan itse tekstistä.
  
  Kuvatiedoston sisältämän tekstin tunnistukseen käytetään Optical Character Recognition- eli OCR-tekniikkaa. Siinä syöttötiedostona käytetään kuvatiedostoa, joka esittää haluttua tekstiä. Tämän käytetyn kuvatiedoston laatu ratkaisee osittain sen, kuinka menestyksellisesti käytetty OCR-ohjelma kykenee tunnistamaan ja tulkitsemaan tekstin. Myös OCR-ohjelman oletukset voivat vaikuttaa tulkinnan laatuun; voihan skannattu kuva sisältää vaikka katakana-merkkejä.
  
  Jos kuitenkin oletetaan, että OCR-ohjelma olettaa käytetyn merkistön olevan sama kuin mitä skannattu kuva todella esittää, ja jos kuvan laatu on riittävän hyvä , niin OCR-ohjelman tuottama tulkinta on parhaassa tapauksessa melko hyvä. Koska tietyt merkit kuitenkin tuottavat helposti virhetulkintoja (esimerkiksi "å", "ä", "ü" ja vaikkapa "ç"), on todellakin paras käydä OCR-ohjelman tuottama teksti huolellisesti läpi mahdollisten virhetulkintojen korjaamiseksi.
  
  Tuohon skannauksen tuottaman kuvan laatuun vaikuttavat esimerkiksi skannauksessa käytetty erottelukyky, kuvan kontrasti ja alkuperäisen dokumentin mahdolliset rypyt, repeämät tai tahrat. Näistä lähinnä kontrastia voi jossain määrin korjailla myös skannauksen jälkeen.
- OCR-käyttöön
  2015-07-27 14:09:11
  Bittinarkkari kirjoitti:
  "Skannaaminen tekstimuotoisiksi" on melkoinen taikatemppu ;o)
  
  Skannauksen tuloksena syntyy useimmiten kuvatiedosto, jonka tyyppi voi olla esimerkiksi .bmp tai .jpg Tällainen tiedosto ei siis ole tekstimuotoinen, vaan sisältää kuvan itse tekstistä.
  
  Kuvatiedoston sisältämän tekstin tunnistukseen käytetään Optical Character Recognition- eli OCR-tekniikkaa. Siinä syöttötiedostona käytetään kuvatiedostoa, joka esittää haluttua tekstiä. Tämän käytetyn kuvatiedoston laatu ratkaisee osittain sen, kuinka menestyksellisesti käytetty OCR-ohjelma kykenee tunnistamaan ja tulkitsemaan tekstin. Myös OCR-ohjelman oletukset voivat vaikuttaa tulkinnan laatuun; voihan skannattu kuva sisältää vaikka katakana-merkkejä.
  
  Jos kuitenkin oletetaan, että OCR-ohjelma olettaa käytetyn merkistön olevan sama kuin mitä skannattu kuva todella esittää, ja jos kuvan laatu on riittävän hyvä , niin OCR-ohjelman tuottama tulkinta on parhaassa tapauksessa melko hyvä. Koska tietyt merkit kuitenkin tuottavat helposti virhetulkintoja (esimerkiksi "å", "ä", "ü" ja vaikkapa "ç"), on todellakin paras käydä OCR-ohjelman tuottama teksti huolellisesti läpi mahdollisten virhetulkintojen korjaamiseksi.
  
  Tuohon skannauksen tuottaman kuvan laatuun vaikuttavat esimerkiksi skannauksessa käytetty erottelukyky, kuvan kontrasti ja alkuperäisen dokumentin mahdolliset rypyt, repeämät tai tahrat. Näistä lähinnä kontrastia voi jossain määrin korjailla myös skannauksen jälkeen.
  Luitko ollenkaan tekstiä jota kommentoit ? Kommentistasi päätellen et ainakaan ymmärtänyt kunnolla ensimmäistä lausetta lukuunottamatta.
- Bittinarkkari
  2015-07-29 12:47:36
  OCR-käyttöön kirjoitti:
  Luitko ollenkaan tekstiä jota kommentoit ? Kommentistasi päätellen et ainakaan ymmärtänyt kunnolla ensimmäistä lausetta lukuunottamatta.
  Huvitti tuon OCR-käyttöön esittämä temppu: "skannaat ne dokumentit tekstimuotoisiksi".
  Rautalangasta vääntäen: Skannerit eivät muodosta suoraan tekstimuotoista tai sellaiseksi katsottavaa tiedostoa. Skannerit muodostavat ainoastaan kuvatiedostoja. Niiden mahdollisesti tekstiksi tulkittavissa olevan sisällön muuntaminen tekstimuotoon tapahtuu OCR-ohjelman avulla. Ja niin edelleen.
  OCR-käyttöön esitys pitää kyllä muilta osin suurin piirtein paikkansa. Selvitin hieman niitä osia, joita OCR-käyttöön ei huomannut lainkaan mainita.
- OCR-käyttöön
  2015-07-29 14:16:12
  Bittinarkkari kirjoitti:
  Huvitti tuon OCR-käyttöön esittämä temppu: "skannaat ne dokumentit tekstimuotoisiksi".
  Rautalangasta vääntäen: Skannerit eivät muodosta suoraan tekstimuotoista tai sellaiseksi katsottavaa tiedostoa. Skannerit muodostavat ainoastaan kuvatiedostoja. Niiden mahdollisesti tekstiksi tulkittavissa olevan sisällön muuntaminen tekstimuotoon tapahtuu OCR-ohjelman avulla. Ja niin edelleen.
  OCR-käyttöön esitys pitää kyllä muilta osin suurin piirtein paikkansa. Selvitin hieman niitä osia, joita OCR-käyttöön ei huomannut lainkaan mainita.
  Joillekin tyhmemmille pitäisi näköjään vääntää rautalangasta yksinkertaisetkin perusasiat, koitetaan ymmärtää kaltaisiasi tyhjäpäitä(kin). Suurinosa ihmisistä onneksi ymmärtää ilman rautalankaakin mistä on kyse.
- Bittinarkkari
  2015-07-29 16:55:48
  OCR-käyttöön kirjoitti:
  Joillekin tyhmemmille pitäisi näköjään vääntää rautalangasta yksinkertaisetkin perusasiat, koitetaan ymmärtää kaltaisiasi tyhjäpäitä(kin). Suurinosa ihmisistä onneksi ymmärtää ilman rautalankaakin mistä on kyse.
  Jos sentään harkitsisit hieman paremmin, millä tavoin esität asiasi? Muuten tuloksena voi olla tällaisia huvittavia "skannaat ne dokumentit tekstimuotoisiksi"-juttuja.
okaro
2015-07-26 21:49:16
Tallenna ne OneDriveen, niin MS indeksoi ne sinun puolestasi.
- Kollimaattori
  2015-07-26 22:03:17
  ... ja jos mielenkiintoisia, myy eniten tarjoavalle, pitää lisätä. ;)
- MicroShitille
  2015-07-26 22:29:43
  Mahtaakohan indeksoida kuvina olevaa tekstiä ? Tuskin.
  
  Se indeksointi on tuossa se helpoin ja vähätöisin osuus, suurempi työ on saada aineisto tekstimuotoon.
- okaro
  2015-07-27 22:33:06
  MicroShitille kirjoitti:
  Mahtaakohan indeksoida kuvina olevaa tekstiä ? Tuskin.
  
  Se indeksointi on tuossa se helpoin ja vähätöisin osuus, suurempi työ on saada aineisto tekstimuotoon.
  Indeksoi. Huomasin sattumalta, kun piti käynnistää Excel ja kirjoitin siis "Excel". Haku löysi kuvan Office-paketista, jossa oli teksti Excel. Tosin haku www-sivulta on parempi, Windowsin oma haku lopettaa, jos omasta koneesta löytyy tarpeeksi - sinänsä tyhmää, koska olettavasti ihmisellä on tietoa samoista asioista omalla koneella kuin onedrivessä
- Mitenköhän_on
  2015-07-27 23:53:51
  okaro kirjoitti:
  Indeksoi. Huomasin sattumalta, kun piti käynnistää Excel ja kirjoitin siis "Excel". Haku löysi kuvan Office-paketista, jossa oli teksti Excel. Tosin haku www-sivulta on parempi, Windowsin oma haku lopettaa, jos omasta koneesta löytyy tarpeeksi - sinänsä tyhmää, koska olettavasti ihmisellä on tietoa samoista asioista omalla koneella kuin onedrivessä
  Löysikö kuvan sillä perusteella että kuvassa luki Excel vai sillä perusteella että kuvan yhteydessä oli teksti Excel ? Esim. Googlen kuvahaku toimii nimenomaan kuvatekstien ja kuvan yhteydessä olevien tekstien mukaan eikä edes yritä analysoida sitä kuvaa. En oikein usko että OneDrive analysoisi kuvia milläänlailla indeksointia varten. Löytyisikö tuosta jotain oikeaa faktaa arvailusi sijaan ?
- okaro
  2015-07-28 12:09:51
  Mitenköhän_on kirjoitti:
  Löysikö kuvan sillä perusteella että kuvassa luki Excel vai sillä perusteella että kuvan yhteydessä oli teksti Excel ? Esim. Googlen kuvahaku toimii nimenomaan kuvatekstien ja kuvan yhteydessä olevien tekstien mukaan eikä edes yritä analysoida sitä kuvaa. En oikein usko että OneDrive analysoisi kuvia milläänlailla indeksointia varten. Löytyisikö tuosta jotain oikeaa faktaa arvailusi sijaan ?
  Usko jo, kyllä se löytää tekstit. Tuo oli se, miten asian havaitsin, Toki olen sen myöhemin todennut muutenkin. Se löytää teksit kuvatuista sanomalehtiartikkeliesta, kadulla olevista mainoskylteistä ym.
- Faktaa-peliin
  2015-07-28 16:12:46
  okaro kirjoitti:
  Usko jo, kyllä se löytää tekstit. Tuo oli se, miten asian havaitsin, Toki olen sen myöhemin todennut muutenkin. Se löytää teksit kuvatuista sanomalehtiartikkeliesta, kadulla olevista mainoskylteistä ym.
  Uskon sitten kun pystyt todistamaan asian eli linkki OneDriven virallisille sivuille jossa kerrotaan tuo tai joku muu vastaava uskottava luotettava taho jossa kerrotaan faktana tuo. Sinun arvailusi ei ole uskottavaa luotettavaa faktaa.
- okaro
  2015-07-28 23:04:38
  Faktaa-peliin kirjoitti:
  Uskon sitten kun pystyt todistamaan asian eli linkki OneDriven virallisille sivuille jossa kerrotaan tuo tai joku muu vastaava uskottava luotettava taho jossa kerrotaan faktana tuo. Sinun arvailusi ei ole uskottavaa luotettavaa faktaa.
  Minua ei kiinnosta se uskotko asian. Se on fakta. Esimerkiksi kun kirjoitin tekstin "Sampo", löytyi kuva tuhritusta Perussuomalaisten vaalitoimistosta, jossa oli Sampo Terhon nimi. Jos haluat asian varmistaa niin kokeile itse tai googlaa asiasta.
teksti_sähköiseksi
2015-07-27 14:36:04
Jatkanpa alkuperäistä kysymystä. Avun kanssa on nyt skannattu sivuja ja hyvin tekstintunnistus toimii. Tarkoitus ei ole muokata kaikkea tekstiä sähköiseksi vaan tehdä kokoelma, josta hakusanoilla löytyy siihen osuva dokumentti. Eli hakusanalla "Tampere" löytyy dokumentit joissa tunnistettavasti lukee sana Tampere. Sitten vain avataan tuo dokumentti ja siinä haettu sana on merkitty. Muttatämä tekniikka on vielä hakusessa. Tarvitaan luultavasti joku apuohjelma?
- OCR-käyttöön
  2015-07-27 15:04:48
  Jos haluat että haettu sana on korostettu tai muuten merkitty niin käytännössä ainoa järkevä tapa on muuttaa kaikki aineisto tekstimuotoisiksi tiedostoiksi, se haetun sanan merkitseminen ei muuten ole mahdollista järkevillä tavoilla. Kuvien kohdalla haku toimii kuvatekstin kautta tai erillisillä kuvaan määritetyillä sanoilla.
  
  Hakutoimintoon sopiva ohjelma riippuu siitä millaiseen arkistoon nuo talletat, arkistointiin on valmiita järjestelmiä jotka sisältävät tuollaisen hakutoiminnon tai systeemin voi koota osista. Onko tarkoitus että arkistoa käytetään erillisellä ohjelmalla vai onko se katsottavissa selaimella ? Millaisessa ympäristössä, joku tietty laitos/koulu tms. "suljettu" ympäristö vai avoimena nettipalveluna ?
teksti_sähköiseksi
2015-07-29 17:05:52
Tarkoitus on siis että tiedostoihin päästään kiinni selaimella. Esimerkiksi tämä olisi aivan huippu ratkaisu, mutta kevyempikin kelpaa.
http://digi.kansalliskirjasto.fi/sanomalehti/search
Tähän vain hakukenttään joku sana ja löytää vanhoista lehdistä.
Tekstiä (kuvia) on paljon.
- Bittinarkkari
  2015-07-31 13:38:12
  Tuosta toiveestasi, että "avataan tuo dokumentti ja siinä haettu sana on merkitty" seuraa, että nuo tekstit olisi yksinkertaisinta muuntaa kokonaisuudessaan html (HyperText Markup Language)-muotoisiksi. Pienellä lisänyhräyksellä saat sitten kaikki toiveesi toteutettua, eikä maksa paljoa. Lukuunottamatta aikaa ja vaivaa.

Ketjusta on poistettu 2 sääntöjenvastaista viestiä.

Takaisin ylös

Luetuimmat keskustelut

En ole rakastunut
Tai ihastunut sinuun. Kiinnostuin kyllä heti koska erotut massasta.
14.04.2024 18:22Ikävä
386
3911
Miksi suomalaisia vainajia säilytetään kylmäkonteissa ulkona? Näin kuolleita kohdellaan Suomessa
Suomesta ei löydy enää tilaa kuolleille. Tänä päivänä vainajia säilytetään ympäri maata ulkona kylmäkonteissa. Kontit
15.04.2024 08:49Maailman menoa
216
1935
Olen ärtynyt koska
minulla on tunteita sinua kohtaan. Tunteita joita en voi ilmaista. Kaipaan kaikkea sinussa. Siksi olen välillä hankala.
15.04.2024 15:59Ikävä
67
1444
Suomalaiset marjat loppuvat
Suomalaiset marjat mätänevät metsään, koska ulkomaalaiset, lähinnä thaimaalaiset poimijat ovat huolehtineet suomalaisten
15.04.2024 07:23Maailman menoa
152
1305
Joku tukeva täti syyttää suomalaisia rasisteiksi Hesarissa
”Kaikki valkoiset ihmiset Suomessa ovat kasvaneet rasistiseen ajatteluun”, sanoo Maija Laura Kauhanen: https://www.hs.
14.04.2024 08:22Maailman menoa
167
971
Yhteiskuntaa hyväksi käyttäjät
Kyllä täällä Suomussalmellakin osaavat käyttää näitä Suomen etuja hyväksi. Vuokrataan ns. asunto lapselle että saa asu
14.04.2024 17:53Suomussalmi
60
950
Puhutko toisista ihmisistä
pahaa, jotta näyttäytyisit itse jotenkin paremmassa valossa?
14.04.2024 12:22Ikävä
117
903
Mitä teen väärin?
Alkaa pikku hiljaa tympäsemään ainainen pakkien saanti. Eka ennen kun nähdään, miehet ovat kiinnostuneita viestittelemää
14.04.2024 23:23Sinkut
117
900
Haluaisin tietää
mikä saa sinut tuntemaan olosi rakastetuksi. Ja sitten haluaisin mahdollisuuden tehdä juuri niin. 💔
14.04.2024 20:24Ikävä
51
868
Oli mukava tavata irl
Sattuma toi sinut matkani varrelle. Ihmettelin sitä silloin, ehkä vähän vieläkin. Oli ilo jutella ja tuntea, vaikka nyt
14.04.2024 08:51Ikävä
24
859

pdf ja jpg -muotoiset tekstit selailtaviksi

Vastaukset

Bittinarkkari kirjoitti:

OCR-käyttöön kirjoitti:

Bittinarkkari kirjoitti:

OCR-käyttöön kirjoitti:

MicroShitille kirjoitti:

okaro kirjoitti:

Mitenköhän_on kirjoitti:

okaro kirjoitti:

Faktaa-peliin kirjoitti:

Luetuimmat keskustelut

En ole rakastunut

Miksi suomalaisia vainajia säilytetään kylmäkonteissa ulkona? Näin kuolleita kohdellaan Suomessa

Olen ärtynyt koska

Suomalaiset marjat loppuvat

Joku tukeva täti syyttää suomalaisia rasisteiksi Hesarissa

Yhteiskuntaa hyväksi käyttäjät

Puhutko toisista ihmisistä

Mitä teen väärin?

Haluaisin tietää

Oli mukava tavata irl

Hallitus korottaa yleisen arvonlisäveron 25,5 prosenttiin

Aini Mäensivu voitti Diilin - Avautuu tulevista päivistä somessa näin: "Nyt salailu loppuu ja mä..."

SDP:n kannatus edelleen kovassa nousussa, ps ja kokoomus putoavat

Miksi suomalaisia vainajia säilytetään kylmäkonteissa ulkona? Näin kuolleita kohdellaan Suomessa

Suomalaiset marjat loppuvat

Oho! Niko Saarinen saa melko persoonattomaan kotiinsa luksus faceliftin - Katso ennen-jälkeen kuvat!

Susanna Laine paljastaa, missä asuu Farmi-kuvauksissa - Tämä tuottaa haastetta: "Ei ole kauheasti.."

Katujengi tappoi uimaan poikansa kanssa menossa olleen isän

Totuus Farmi-kisaajien väleistä! Daniel Lehtonen Bile-Dani tekee paljastuksen: "Ei se mennyt.."

Li Andersson osoittaa OrpoPurran olevan täysin väärällä linjalla...