Onko suomessa äärellinen määrä sanoja, jotka eivät ole yhdyssanoja? Joku tietokanta kaikista tällaisista sanoista olisi hyvä saada yhteen ohjelmointiprojektiini.
Sanojen lkm
5
78
Vastaukset
- 4+20
On tietenkin äärellinen määrä, aakkosiahan on vain 29.
Siitä vain laskemaan, montako sanaa niistä saadaan. - Perussanakirjailija
Suomen kielessä on todella vähän (paljon alle miljoona) perussanaa. Ne saat helposti kopsattua suomen kielen perussanakirjasta (suuri tietokanta ja kirjasarja). Muutama megatavu. Saat vapaasti valita mitkä sanat tulkitset suomen kielen sanoiksi, murresanoiksi ja lainasanoiksi.
Riippuu siitä, miten määrittelet ”suomen kielen” ja ”sanan”.
Voidaan kuitenkin pitää todennäköisenä, että yhdistämätön suomen kielen sana on enintään tuhat merkkiä pitkä. Tästä voidaan päätellä, että sanojen määrä on äärellinen, ja vieläpä saada määrälle yläraja. Kokonaan eri asia on, onko tästä mitään käytännön hyötyä.
Tietokanta, jonka on tarkoitus olla edes jossain suhteellisessa mielessä kattava kokoelma suomen sanoista, on niin laaja, että sitä ilman muuta koskee tekijänoikeuslain mukainen luettelosuoja eli sitä ei saa ilman luettelon laatijan lupaa kopioida. Niinpä joutunet rajoittumaan sellaisiin aineistoihin, jotka on annettu vapaaseen käyttöön, kuten http://joukahainen.puimula.org
Todennäköisesti se, mitä tarvitset, on jotain muuta. Mutta siitä on mahdotonta sanoa mitään tarkempaa, kun et kerro, mitä oikeasti olet tekemässä. Suomenkielisen tekstin käsittelyssä pelkkä perussanojen luettelo on jokseenkin hyödytön.- koodarimiettijä
Mulla on pdfTeX, Version 3.1415926-2.5-1.40.14 (TeX Live 2013/Debian) ja se tavuttaa joitakin sanoja väärin. Ei siis pelkästään kaivosaukkojen ja tulosiltojen tapaisia monitavutuksellisia sanoja, vaan ihan yksimerkityksellisiäkin sanoja. Haluaisin kehittää mahdollisimman hyvän tavutusalgoritmin ja parantaa näin ollen babelin algoritmia.
- Sanojen Tavuttaja
koodarimiettijä kirjoitti:
Mulla on pdfTeX, Version 3.1415926-2.5-1.40.14 (TeX Live 2013/Debian) ja se tavuttaa joitakin sanoja väärin. Ei siis pelkästään kaivosaukkojen ja tulosiltojen tapaisia monitavutuksellisia sanoja, vaan ihan yksimerkityksellisiäkin sanoja. Haluaisin kehittää mahdollisimman hyvän tavutusalgoritmin ja parantaa näin ollen babelin algoritmia.
On olemassa kaupallisia painotalojen yms. käyttämiä suomen kielen tavutusohjelmia. Niissä olevia virheitä korjataan aktiivisesti. Usein helpoin ja paras lopputulos saavutetaan yksinkertaisesti tavuttamalla käsin jokainen joskus esiintynyt sana ja sen eri taivutusmuoto erikseen tietokannassa. Ei tarvita mitään monimutkaisia algoritmeja. Paitsi siihen, milloin kannattaa tavuttaa, milloin lisätä tyhjää sanojen väleihin jne... Eli pitää tietää mitä ollaan tekemässä ja miksi. Ulkonäkö, luettavuus.
Se, että joitakin esiiintyvä virheitä ei ole haluttu korjata, on sitten ihan toinen juttu. Ei tarvita kuin yksinkertainen palautejärjestelmä tuhansille tarkkasilmäisille oikolukijoille.
Ketjusta on poistettu 0 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
Lataus pakkaskelissä
En olisi koskaan ostanut sähköautoa jos olisin tajunnut että ne eivät lataa pakkasissa suurteholatauksella vaan istut tu1054094Kun väestö ikääntyy ja veronmaksajat vähenee, mitä sitten vasemmistolaiset?
Maahanmuutto ei vaan ole ratkaisu väestön ikääntymiseen. Maahanmuutto lykkää ja hidastaa väestön ikääntymistä ja työv572318Miksei Trump ole kiinnostunut Suomen valloittamisesta?
Täällähän on enemmän turvetta kuin Norjalla öljyä. Eikö Ttump ole turvenuija?741600Kyllä mä suren
Sitä että mikään ei ole kuten ennen. Ei niitä hetkiä ja katseita. Toisaalta keho lepää eikä enää tarvitse sitä tuskaa ko51054- 66844
- 21803
- 39782
Olet mies aika ailahteleva luonteeltasi
Olen nähnyt kuinka olet iloinen, sosiaalinen ja osallistuva. Autat ja kannustat muita. Ja sitten olen nähnyt kuinka istu117778Olisin valmis tutustumaan uudelleen
En menneisyyden kautta vaan haluaisin tutustua ihmiseen, jollaiseksi olet kasvanut.49748- 62748