Lingvistiikka: Ä, Ö, Tavutus ?

Anonyymi

Kun Suomi24:llä ei valitettavasti ole erikseen keskustelualuetta "Lingvistiikka", niin menköön "Yleistä tieteestä" alle sitten:

Kun imuroidaan internet -palvelimelta tekstiä, niin valitettavasti joskus Ä ja Ö ovat korvautuneet "sotkulla", eli korvausmerkillä.

Jos tuotan automaattisesti tuolla tavalla pilalle menneestä tekstistä 2 eri versiota:

versiossa 1 kaikki korvausmerkit korvataan Ä:llä, ja


versiossa 2 kaikki korvausmerkit korvataan Ö:llä.


Seuraavaksi sovelletaan suomen kielen tavutusalgoritmiä.

Löytyyköhän jostain lista kaikista suomen kielen tavuista ?

Sen avulla voisi eliminoida tapaukset, joissa on kelvottomia tavuja.

Tuolla tavalla saisi suurimman osan "kadonneista" Ä ja Ö -kirjaimista oikein.

Ongelmaksi jäisivät vain sellaiset sanat, joissa on samassa sanassa sekä Ä että Ö, ja näihin voi olla vaikea keksiä automaattista ratkaisua, vaan menee väkisin manuaaliseksi editoinniksi.

Lainaan tähän esimerkiksi kirjoituksen joulukuulta 2013:


Jouni Paakkinen
lukematon,
26.12.2013 klo 21.53.02
vastaanottaja
Oma ISP (DNA) lopetti jo jokunen aika sitten, ensin omansa ja sitten
alihankintanakin k�ytt�m�ns� nyyssipalvelimen.

Tauon j�lkeen palasin t�nne juuri Skrollin (2013.4) Usenet-jutun
kannustamana, news.aioe.org tuntuu toimivan ihan jees.

Mutta joo, hiljaista on ja hiljaisemmaksi menee. :(

Jouni

Tuossa esimerkkiviestissä riittää, kun kaikki "�" -merkit korvataan "ä" -kirjaimella.

Mutta teoreettisesti osa voisi olla myös "ö" -kirjaimella korvattavia, vaikka juuri tässä viestissä ei tällaisia olekaan,

Tavoitteena siis kehittää automatiikkaa restoroimaan ä ja ö -kirjaimet kohdalleen tekstissä, joita tietotekniikka (siis huonosti koodatut ohjelmistot) ovat pahoinpidelleet.

1

136

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • Anonyymi

      em. Jouni Paakkisen viesti on lainattu täältä:

      https://groups.google.com/g/sfnet.viestinta.nyyssit/c/yn3VkYbLopU?pli=1

      lainatun viestin aikaleima: 26.12.2013 klo 21.53.02

      Lainaustiedot mainitaan, koska muuten pelkään, että viesti saatetaan sensuroida sen sisältämän henkilötiedon (etu- ja sukunimi) takia.

      Lainauksen syy: esimerkki viestistä, jota tietotekniikka on pahoinpidellyt siten, että ä ja ö -kirjaimet ovat vääristyneet.

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Pehmeää laskua

      Sinulle. Muutaman kilsan päästä. Mieheltä, joka salaa välittää.
      Ikävä
      83
      3338
    2. Nainen olet minun

      Olen ominut sinut itselleni, täysin itsekkäistä syistä. Haluan rakastella sinua nainen, toivottavasti sinäkin minua. Oli
      Ikävä
      44
      2777
    3. Sille ei voi enää mitään

      Miten kaikki meni aiemmin. Oon aivan lukossa 🔒 Tuskin uskallat enää mitää tehdä. Ehkä pitää luovuttaa vaan.
      Ikävä
      74
      2316
    4. Mukavaa päivää

      Miehelle 🖕❤️‍🔥 Kahvia ja kävelylle🌞
      Ikävä
      61
      2288
    5. Harmi jos ei enään nähdä

      Ehkä se on parempi näin kuitenkin. Ehkä jotain uutta löytyy. Uskon ja toivon että olet onnellinen. Sinussa on kaikki
      Ikävä
      51
      2221
    6. Miten suhtauisitte jos kaivattunne sanoisi, ettei hänestä ole seurusteluun

      mutta seksi, hellyys ja yhdessäolo kelpaa kyllä??
      Ikävä
      116
      2206
    7. Vau miten upea nainen!

      Näytit todella tyrmäävältä. 🤩😍 En meinannut saada katsettani irti sinusta.
      Tunteet
      20
      2007
    8. Kunpa minä tietäisin

      Olisipa minulla tietoa, siitä oletko sinä nainen kiinnostunut minusta, miehestä joka tätäkirjoittaa, vai olenko minä aiv
      Ikävä
      21
      2003
    9. En voi sanoa että toivon sinulle hyvää.

      Ei meitä ole tarkoitettu yhteen.
      Ikävä
      62
      1944
    10. Merja Kyllönen: Ero

      Joko uusi kierroksessa
      Suomussalmi
      97
      1804
    Aihe