Kun Suomi24:llä ei valitettavasti ole erikseen keskustelualuetta "Lingvistiikka", niin menköön "Yleistä tieteestä" alle sitten:
Kun imuroidaan internet -palvelimelta tekstiä, niin valitettavasti joskus Ä ja Ö ovat korvautuneet "sotkulla", eli korvausmerkillä.
Jos tuotan automaattisesti tuolla tavalla pilalle menneestä tekstistä 2 eri versiota:
versiossa 1 kaikki korvausmerkit korvataan Ä:llä, ja
versiossa 2 kaikki korvausmerkit korvataan Ö:llä.
Seuraavaksi sovelletaan suomen kielen tavutusalgoritmiä.
Löytyyköhän jostain lista kaikista suomen kielen tavuista ?
Sen avulla voisi eliminoida tapaukset, joissa on kelvottomia tavuja.
Tuolla tavalla saisi suurimman osan "kadonneista" Ä ja Ö -kirjaimista oikein.
Ongelmaksi jäisivät vain sellaiset sanat, joissa on samassa sanassa sekä Ä että Ö, ja näihin voi olla vaikea keksiä automaattista ratkaisua, vaan menee väkisin manuaaliseksi editoinniksi.
Lainaan tähän esimerkiksi kirjoituksen joulukuulta 2013:
Jouni Paakkinen
lukematon,
26.12.2013 klo 21.53.02
vastaanottaja
Oma ISP (DNA) lopetti jo jokunen aika sitten, ensin omansa ja sitten
alihankintanakin k�ytt�m�ns� nyyssipalvelimen.
Tauon j�lkeen palasin t�nne juuri Skrollin (2013.4) Usenet-jutun
kannustamana, news.aioe.org tuntuu toimivan ihan jees.
Mutta joo, hiljaista on ja hiljaisemmaksi menee. :(
Jouni
Tuossa esimerkkiviestissä riittää, kun kaikki "�" -merkit korvataan "ä" -kirjaimella.
Mutta teoreettisesti osa voisi olla myös "ö" -kirjaimella korvattavia, vaikka juuri tässä viestissä ei tällaisia olekaan,
Tavoitteena siis kehittää automatiikkaa restoroimaan ä ja ö -kirjaimet kohdalleen tekstissä, joita tietotekniikka (siis huonosti koodatut ohjelmistot) ovat pahoinpidelleet.
Lingvistiikka: Ä, Ö, Tavutus ?
Anonyymi
1
142
Vastaukset
- Anonyymi
em. Jouni Paakkisen viesti on lainattu täältä:
https://groups.google.com/g/sfnet.viestinta.nyyssit/c/yn3VkYbLopU?pli=1
lainatun viestin aikaleima: 26.12.2013 klo 21.53.02
Lainaustiedot mainitaan, koska muuten pelkään, että viesti saatetaan sensuroida sen sisältämän henkilötiedon (etu- ja sukunimi) takia.
Lainauksen syy: esimerkki viestistä, jota tietotekniikka on pahoinpidellyt siten, että ä ja ö -kirjaimet ovat vääristyneet.
Ketjusta on poistettu 0 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
Miksi persuilla ei ole firmoja?
Kuten vasemmisstolaisilla, esim. Sannalla MA\PI. Eikö ole aika erikoista?847152Persut hommasivat Suomeen 35 000 pientä lasta v. 2015
Onko Riikka Purra nyt tavoittelemassa tätä samaa historiallista persujen utopiaa? Purram kaksinaamaisessa pelissä vaadit277089Purran tuhoja tuskin saadaan koskaan korjatuksikaan
Purra on aiheuttanut Suomen taloudelle karmaisevat tuhot. Sen lisäksi Purra on ajanut myös suuren osan Suomen kansasta k1176225Persujen kaksoisstandardit: Räsäsen uhkailu paha, Virran uhkailu hyvä
Tässä taas nähdään kuinka kaksinaamaista porukkaa persut ovat. Mitäs persut tähän?455424Miksette persut irtisanoudu Kirkin lausunnoista?
Kirkhän muun muassa vaati raiskattuja naisia pidättäytymään abortista ja vaimoja alistumaan aviomiestensä tahtoon. Mik885341Demarikultin uhri kertoo
Demarikultin uhri kertoo: “En saanut mennä edes suihkuun ilman lupaa” – Seksuaalisen hyväksikäytön uhri kertoo vuosistaa635235Miksi vasemmistolaiset eivät omista yhtään firmaa?
Vasemmistolaiset eivät omista yhtään firmaa joka työllistäisi ihmisiä. Miksi? No siksi, että jos vasemmistolainen perus415130Sanna valittiin Euroopan huonoimmaksi pääministeriksi
Sannan kaudella Suomi oli ainut maa missä bkt laski. Kannattaa huomata, että luvut valitsi Sannan huonoimmaksi. Ihmiset274615Purran vuoro kiihoittua Lepomäen sääristä
"Ulkoministeri Elina sanoo, ettei muuta pukeutumistaan sen mukaan, kenet tapaa, ja että hän ei suostuisi peittämään kasv193565Vasemmistolaiset paskat eivät nousseet seisomaan kun Akaan kaupunginvaltuusto
vietti hiljaisen hetken Charlie Kirkin muistoksi https://www.aamulehti.fi/uutiset/art-2000011523016.html3013420