Kun Suomi24:llä ei valitettavasti ole erikseen keskustelualuetta "Lingvistiikka", niin menköön "Yleistä tieteestä" alle sitten:
Kun imuroidaan internet -palvelimelta tekstiä, niin valitettavasti joskus Ä ja Ö ovat korvautuneet "sotkulla", eli korvausmerkillä.
Jos tuotan automaattisesti tuolla tavalla pilalle menneestä tekstistä 2 eri versiota:
versiossa 1 kaikki korvausmerkit korvataan Ä:llä, ja
versiossa 2 kaikki korvausmerkit korvataan Ö:llä.
Seuraavaksi sovelletaan suomen kielen tavutusalgoritmiä.
Löytyyköhän jostain lista kaikista suomen kielen tavuista ?
Sen avulla voisi eliminoida tapaukset, joissa on kelvottomia tavuja.
Tuolla tavalla saisi suurimman osan "kadonneista" Ä ja Ö -kirjaimista oikein.
Ongelmaksi jäisivät vain sellaiset sanat, joissa on samassa sanassa sekä Ä että Ö, ja näihin voi olla vaikea keksiä automaattista ratkaisua, vaan menee väkisin manuaaliseksi editoinniksi.
Lainaan tähän esimerkiksi kirjoituksen joulukuulta 2013:
Jouni Paakkinen
lukematon,
26.12.2013 klo 21.53.02
vastaanottaja
Oma ISP (DNA) lopetti jo jokunen aika sitten, ensin omansa ja sitten
alihankintanakin k�ytt�m�ns� nyyssipalvelimen.
Tauon j�lkeen palasin t�nne juuri Skrollin (2013.4) Usenet-jutun
kannustamana, news.aioe.org tuntuu toimivan ihan jees.
Mutta joo, hiljaista on ja hiljaisemmaksi menee. :(
Jouni
Tuossa esimerkkiviestissä riittää, kun kaikki "�" -merkit korvataan "ä" -kirjaimella.
Mutta teoreettisesti osa voisi olla myös "ö" -kirjaimella korvattavia, vaikka juuri tässä viestissä ei tällaisia olekaan,
Tavoitteena siis kehittää automatiikkaa restoroimaan ä ja ö -kirjaimet kohdalleen tekstissä, joita tietotekniikka (siis huonosti koodatut ohjelmistot) ovat pahoinpidelleet.
Lingvistiikka: Ä, Ö, Tavutus ?
Anonyymi
1
148
Vastaukset
- Anonyymi
em. Jouni Paakkisen viesti on lainattu täältä:
https://groups.google.com/g/sfnet.viestinta.nyyssit/c/yn3VkYbLopU?pli=1
lainatun viestin aikaleima: 26.12.2013 klo 21.53.02
Lainaustiedot mainitaan, koska muuten pelkään, että viesti saatetaan sensuroida sen sisältämän henkilötiedon (etu- ja sukunimi) takia.
Lainauksen syy: esimerkki viestistä, jota tietotekniikka on pahoinpidellyt siten, että ä ja ö -kirjaimet ovat vääristyneet.
Ketjusta on poistettu 0 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
Nainen kokki autossa kammottavan kuoleman sähköauto-Teslan syttyessä tuleen.
https://www.is.fi/autot/art-2000011652873.html Näin vaarallisia sähköautopalot voivat olla.845247Persuja ei aluevaltuustoissa näy
Ei tunnu persuja paljon paikalliset asiat kiinnostavan, vaan ainoastaan ulkomaalaiset, joku Israel ja Trumpin fanitus.283498Päivän Riikka: Uudenkaupungin autotehdas hiljeni
Näin ne 100 000 uutta pysyvää ei-tempputyötä yksityiselle sektorille tämän hallituksen ansiosta syntyy. Työntekijöille j402854Riikka vie Suomen kohta ykköseksi työttömyyskisassa
Espanja: 10,5 % Suomi: 10,3 % Ruotsi: 9,3 % Kisa on tiukkaa, mutta Riikalla hyvä draivi päällä. Vasemmistolaisen päämin182031Kerro kaivattusi nimi tai nimikirjaimet
🌠 Tähdenlento! Kirjoittamalla kaivattusi nimen tai nimikirjaimet tähän, saattaa toiveesi toteutua.581830Alkuvuodesta poistuu työttömyyskorvaus kaikilta joilla on säästössä rahaa
Tippuu korvaukselta iso määrä työttömiä.2861596- 471586
- 941382
Tämmönen höpsö
Höpönassu mä olen. En mikään erikoinen…hölötän välillä ihan levottomia. Tykkäisit varmasti jos olisin siellä sun vieress441366Mikä ihme teitä savolaisia tuossa
p*rs*reiässä niin kiinnostelee? Että siitä pitää päntönnään huutaa.71115