Sanojen lkm

koodarimiettijä

Onko suomessa äärellinen määrä sanoja, jotka eivät ole yhdyssanoja? Joku tietokanta kaikista tällaisista sanoista olisi hyvä saada yhteen ohjelmointiprojektiini.

5

78

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • 4+20

      On tietenkin äärellinen määrä, aakkosiahan on vain 29.
      Siitä vain laskemaan, montako sanaa niistä saadaan.

    • Perussanakirjailija

      Suomen kielessä on todella vähän (paljon alle miljoona) perussanaa. Ne saat helposti kopsattua suomen kielen perussanakirjasta (suuri tietokanta ja kirjasarja). Muutama megatavu. Saat vapaasti valita mitkä sanat tulkitset suomen kielen sanoiksi, murresanoiksi ja lainasanoiksi.

    • Riippuu siitä, miten määrittelet ”suomen kielen” ja ”sanan”.

      Voidaan kuitenkin pitää todennäköisenä, että yhdistämätön suomen kielen sana on enintään tuhat merkkiä pitkä. Tästä voidaan päätellä, että sanojen määrä on äärellinen, ja vieläpä saada määrälle yläraja. Kokonaan eri asia on, onko tästä mitään käytännön hyötyä.

      Tietokanta, jonka on tarkoitus olla edes jossain suhteellisessa mielessä kattava kokoelma suomen sanoista, on niin laaja, että sitä ilman muuta koskee tekijänoikeuslain mukainen luettelosuoja eli sitä ei saa ilman luettelon laatijan lupaa kopioida. Niinpä joutunet rajoittumaan sellaisiin aineistoihin, jotka on annettu vapaaseen käyttöön, kuten http://joukahainen.puimula.org

      Todennäköisesti se, mitä tarvitset, on jotain muuta. Mutta siitä on mahdotonta sanoa mitään tarkempaa, kun et kerro, mitä oikeasti olet tekemässä. Suomenkielisen tekstin käsittelyssä pelkkä perussanojen luettelo on jokseenkin hyödytön.

      • koodarimiettijä

        Mulla on pdfTeX, Version 3.1415926-2.5-1.40.14 (TeX Live 2013/Debian) ja se tavuttaa joitakin sanoja väärin. Ei siis pelkästään kaivosaukkojen ja tulosiltojen tapaisia monitavutuksellisia sanoja, vaan ihan yksimerkityksellisiäkin sanoja. Haluaisin kehittää mahdollisimman hyvän tavutusalgoritmin ja parantaa näin ollen babelin algoritmia.


      • Sanojen Tavuttaja
        koodarimiettijä kirjoitti:

        Mulla on pdfTeX, Version 3.1415926-2.5-1.40.14 (TeX Live 2013/Debian) ja se tavuttaa joitakin sanoja väärin. Ei siis pelkästään kaivosaukkojen ja tulosiltojen tapaisia monitavutuksellisia sanoja, vaan ihan yksimerkityksellisiäkin sanoja. Haluaisin kehittää mahdollisimman hyvän tavutusalgoritmin ja parantaa näin ollen babelin algoritmia.

        On olemassa kaupallisia painotalojen yms. käyttämiä suomen kielen tavutusohjelmia. Niissä olevia virheitä korjataan aktiivisesti. Usein helpoin ja paras lopputulos saavutetaan yksinkertaisesti tavuttamalla käsin jokainen joskus esiintynyt sana ja sen eri taivutusmuoto erikseen tietokannassa. Ei tarvita mitään monimutkaisia algoritmeja. Paitsi siihen, milloin kannattaa tavuttaa, milloin lisätä tyhjää sanojen väleihin jne... Eli pitää tietää mitä ollaan tekemässä ja miksi. Ulkonäkö, luettavuus.

        Se, että joitakin esiiintyvä virheitä ei ole haluttu korjata, on sitten ihan toinen juttu. Ei tarvita kuin yksinkertainen palautejärjestelmä tuhansille tarkkasilmäisille oikolukijoille.


    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Lataus pakkaskelissä

      En olisi koskaan ostanut sähköautoa jos olisin tajunnut että ne eivät lataa pakkasissa suurteholatauksella vaan istut tu
      Hybridi- ja sähköautot
      105
      4094
    2. Kun väestö ikääntyy ja veronmaksajat vähenee, mitä sitten vasemmistolaiset?

      Maahanmuutto ei vaan ole ratkaisu väestön ikääntymiseen. Maahanmuutto lykkää ja hidastaa väestön ikääntymistä ja työv
      Maailman menoa
      57
      2318
    3. Miksei Trump ole kiinnostunut Suomen valloittamisesta?

      Täällähän on enemmän turvetta kuin Norjalla öljyä. Eikö Ttump ole turvenuija?
      Maailman menoa
      74
      1600
    4. Kyllä mä suren

      Sitä että mikään ei ole kuten ennen. Ei niitä hetkiä ja katseita. Toisaalta keho lepää eikä enää tarvitse sitä tuskaa ko
      Ikävä
      5
      1054
    5. Jos vielä joku päivä nähtäis...

      Miten suhtautuisit minuun, mies?
      Ikävä
      66
      844
    6. Nyt se on varmaa kuntajakoselvitys

      Ensi viikolla tuöee kuntaministeri ulos ja kertoo asiasta.
      Ähtäri
      21
      803
    7. Laitetaan nyt kirjaimet kohdilleen

      kuka rakastaa ja ketä ?
      Ikävä
      39
      782
    8. Olet mies aika ailahteleva luonteeltasi

      Olen nähnyt kuinka olet iloinen, sosiaalinen ja osallistuva. Autat ja kannustat muita. Ja sitten olen nähnyt kuinka istu
      Ikävä
      117
      778
    9. Olisin valmis tutustumaan uudelleen

      En menneisyyden kautta vaan haluaisin tutustua ihmiseen, jollaiseksi olet kasvanut.
      Ikävä
      49
      748
    10. Tiedät sen

      Esitän välinpitämätöntä, mutta en ole sitä oikeasti.
      Ikävä
      62
      748
    Aihe