Kun Suomi24:llä ei valitettavasti ole erikseen keskustelualuetta "Lingvistiikka", niin menköön "Yleistä tieteestä" alle sitten:
Kun imuroidaan internet -palvelimelta tekstiä, niin valitettavasti joskus Ä ja Ö ovat korvautuneet "sotkulla", eli korvausmerkillä.
Jos tuotan automaattisesti tuolla tavalla pilalle menneestä tekstistä 2 eri versiota:
versiossa 1 kaikki korvausmerkit korvataan Ä:llä, ja
versiossa 2 kaikki korvausmerkit korvataan Ö:llä.
Seuraavaksi sovelletaan suomen kielen tavutusalgoritmiä.
Löytyyköhän jostain lista kaikista suomen kielen tavuista ?
Sen avulla voisi eliminoida tapaukset, joissa on kelvottomia tavuja.
Tuolla tavalla saisi suurimman osan "kadonneista" Ä ja Ö -kirjaimista oikein.
Ongelmaksi jäisivät vain sellaiset sanat, joissa on samassa sanassa sekä Ä että Ö, ja näihin voi olla vaikea keksiä automaattista ratkaisua, vaan menee väkisin manuaaliseksi editoinniksi.
Lainaan tähän esimerkiksi kirjoituksen joulukuulta 2013:
Jouni Paakkinen
lukematon,
26.12.2013 klo 21.53.02
vastaanottaja
Oma ISP (DNA) lopetti jo jokunen aika sitten, ensin omansa ja sitten
alihankintanakin k�ytt�m�ns� nyyssipalvelimen.
Tauon j�lkeen palasin t�nne juuri Skrollin (2013.4) Usenet-jutun
kannustamana, news.aioe.org tuntuu toimivan ihan jees.
Mutta joo, hiljaista on ja hiljaisemmaksi menee. :(
Jouni
Tuossa esimerkkiviestissä riittää, kun kaikki "�" -merkit korvataan "ä" -kirjaimella.
Mutta teoreettisesti osa voisi olla myös "ö" -kirjaimella korvattavia, vaikka juuri tässä viestissä ei tällaisia olekaan,
Tavoitteena siis kehittää automatiikkaa restoroimaan ä ja ö -kirjaimet kohdalleen tekstissä, joita tietotekniikka (siis huonosti koodatut ohjelmistot) ovat pahoinpidelleet.
Lingvistiikka: Ä, Ö, Tavutus ?
Anonyymi
1
122
Vastaukset
- Anonyymi
em. Jouni Paakkisen viesti on lainattu täältä:
https://groups.google.com/g/sfnet.viestinta.nyyssit/c/yn3VkYbLopU?pli=1
lainatun viestin aikaleima: 26.12.2013 klo 21.53.02
Lainaustiedot mainitaan, koska muuten pelkään, että viesti saatetaan sensuroida sen sisältämän henkilötiedon (etu- ja sukunimi) takia.
Lainauksen syy: esimerkki viestistä, jota tietotekniikka on pahoinpidellyt siten, että ä ja ö -kirjaimet ovat vääristyneet.
Ketjusta on poistettu 0 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
Ja taas ammuttu kokkolassa
Kokkolaisilta pitäisi kerätä pois kaikki ampumaset, keittiöveitset ja kaikki mikä vähänkään paukku ja on terävä.475129- 773408
Helena Koivu on äiti
Mitä hyötyä on Mikko Koivulla kohdella LASTENSA äitiä huonosti . Vie lapset tutuista ympyröistä pois . Lasten kodista.3202098Milli-helenalla ongelmia
Suomen virkavallan kanssa. Eipä ole ihme kun on etsintäkuullutettu jenkkilässäkin. Vähiin käy oleskelupaikat virottarell2651865Kuinka kauan
Olet ollut kaivattuusi ihastunut/rakastunut? Tajusitko tunteesi heti, vai syventyivätkö ne hitaasti?1151719Kun näen sinut
tulen iloiseksi. Tuskin uskallan katsoa sinua, herätät minussa niin paljon tunteita. En tunne sinua hyvin, mutta jotain531306Ja taas kerran hallinto-oikeus että pieleen meni
Hallinto-oikeus kumosi kunnanhallituksen päätöksen vuokratalojen pääomituksesta. https://sysmad10.oncloudos.com/cgi/DREQ951259- 701212
Löydänköhän koskaan
Sunlaista herkkää tunteellista joka jumaloi mua. Tuskin. Siksi harmittaa että asiat meni näin 🥲1331177Purra saksii taas. Hän on mielipuuhassaan.
Nyt hän leikkaa hyvinvointialueiltamme kymmeniä miljoonia. Sotea romutetaan tylysti. Terveydenhoitoamme kurjistetaan. ht2801137