Lingvistiikka: Ä, Ö, Tavutus ?

Anonyymi

Kun Suomi24:llä ei valitettavasti ole erikseen keskustelualuetta "Lingvistiikka", niin menköön "Yleistä tieteestä" alle sitten:

Kun imuroidaan internet -palvelimelta tekstiä, niin valitettavasti joskus Ä ja Ö ovat korvautuneet "sotkulla", eli korvausmerkillä.

Jos tuotan automaattisesti tuolla tavalla pilalle menneestä tekstistä 2 eri versiota:

versiossa 1 kaikki korvausmerkit korvataan Ä:llä, ja


versiossa 2 kaikki korvausmerkit korvataan Ö:llä.


Seuraavaksi sovelletaan suomen kielen tavutusalgoritmiä.

Löytyyköhän jostain lista kaikista suomen kielen tavuista ?

Sen avulla voisi eliminoida tapaukset, joissa on kelvottomia tavuja.

Tuolla tavalla saisi suurimman osan "kadonneista" Ä ja Ö -kirjaimista oikein.

Ongelmaksi jäisivät vain sellaiset sanat, joissa on samassa sanassa sekä Ä että Ö, ja näihin voi olla vaikea keksiä automaattista ratkaisua, vaan menee väkisin manuaaliseksi editoinniksi.

Lainaan tähän esimerkiksi kirjoituksen joulukuulta 2013:


Jouni Paakkinen
lukematon,
26.12.2013 klo 21.53.02
vastaanottaja
Oma ISP (DNA) lopetti jo jokunen aika sitten, ensin omansa ja sitten
alihankintanakin k�ytt�m�ns� nyyssipalvelimen.

Tauon j�lkeen palasin t�nne juuri Skrollin (2013.4) Usenet-jutun
kannustamana, news.aioe.org tuntuu toimivan ihan jees.

Mutta joo, hiljaista on ja hiljaisemmaksi menee. :(

Jouni

Tuossa esimerkkiviestissä riittää, kun kaikki "�" -merkit korvataan "ä" -kirjaimella.

Mutta teoreettisesti osa voisi olla myös "ö" -kirjaimella korvattavia, vaikka juuri tässä viestissä ei tällaisia olekaan,

Tavoitteena siis kehittää automatiikkaa restoroimaan ä ja ö -kirjaimet kohdalleen tekstissä, joita tietotekniikka (siis huonosti koodatut ohjelmistot) ovat pahoinpidelleet.

1

132

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • Anonyymi

      em. Jouni Paakkisen viesti on lainattu täältä:

      https://groups.google.com/g/sfnet.viestinta.nyyssit/c/yn3VkYbLopU?pli=1

      lainatun viestin aikaleima: 26.12.2013 klo 21.53.02

      Lainaustiedot mainitaan, koska muuten pelkään, että viesti saatetaan sensuroida sen sisältämän henkilötiedon (etu- ja sukunimi) takia.

      Lainauksen syy: esimerkki viestistä, jota tietotekniikka on pahoinpidellyt siten, että ä ja ö -kirjaimet ovat vääristyneet.

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Alle 15 oli

      Arvasi että lapsi asialla hallin palossa. Surullista. Mutta jos osaa/kykenee käyttää tulentekovehkeitä niin pitää osata
      Vimpeli
      89
      2578
    2. Heh, persut = vassarit = 10,0 %

      Minja tuli nyt jo Riikan rinnalle, sitten alkaa tekemään kaulaa. Molemmilta kympin arvoinen suoritus! https://www.hs.f
      Maailman menoa
      201
      1642
    3. Onko kaivattusi yllättänyt sinut?

      Piditkö häntä toisenlaisena ihmisenä?
      Ikävä
      116
      1570
    4. Paula Koivuniemi täyttää tänään 78 vuotta! Sydämelliset onnittelut!

      Paula Koivuniemi, tuo suomalaisen iskelmän ikoninen artisti, täyttää tänään 78 vuotta. Muutaman vuoden estradeilta pois
      Suomalaiset julkkikset
      41
      1441
    5. Olen miettinyt pitkään miksi hän ei uskalla

      Hän kyllä yrittää tiedän sen ja olen yrittänyt olla helposti lähestyttävä ystävällinen lempeä jne. mutta silti hän yhä v
      Ikävä
      64
      1202
    6. Juhannusterveiset kaivatulle

      Onko teillä yhteisiä juhannuksia vietettynä ja millaista juhannusta viettäisit kaivattusi kanssa juhannuksena 2025? 🌻
      Ikävä
      75
      985
    7. Kaupunki osti Absin

      Nyt vaan yrittäjiä kaivataan
      Haapavesi
      56
      959
    8. Sä oot kyllä

      Aika erikoinen nainen
      Ikävä
      45
      847
    9. Rakastan sinua

      Kohta sanon tämän livenä, älä pelästy.
      Ikävä
      63
      839
    10. Millaistakohan

      Sun kanssa suhde olisi?
      Ikävä
      61
      825
    Aihe