Onko suomessa äärellinen määrä sanoja, jotka eivät ole yhdyssanoja? Joku tietokanta kaikista tällaisista sanoista olisi hyvä saada yhteen ohjelmointiprojektiini.
Sanojen lkm
5
86
Vastaukset
- 4+20
On tietenkin äärellinen määrä, aakkosiahan on vain 29.
Siitä vain laskemaan, montako sanaa niistä saadaan. - Perussanakirjailija
Suomen kielessä on todella vähän (paljon alle miljoona) perussanaa. Ne saat helposti kopsattua suomen kielen perussanakirjasta (suuri tietokanta ja kirjasarja). Muutama megatavu. Saat vapaasti valita mitkä sanat tulkitset suomen kielen sanoiksi, murresanoiksi ja lainasanoiksi.
Riippuu siitä, miten määrittelet ”suomen kielen” ja ”sanan”.
Voidaan kuitenkin pitää todennäköisenä, että yhdistämätön suomen kielen sana on enintään tuhat merkkiä pitkä. Tästä voidaan päätellä, että sanojen määrä on äärellinen, ja vieläpä saada määrälle yläraja. Kokonaan eri asia on, onko tästä mitään käytännön hyötyä.
Tietokanta, jonka on tarkoitus olla edes jossain suhteellisessa mielessä kattava kokoelma suomen sanoista, on niin laaja, että sitä ilman muuta koskee tekijänoikeuslain mukainen luettelosuoja eli sitä ei saa ilman luettelon laatijan lupaa kopioida. Niinpä joutunet rajoittumaan sellaisiin aineistoihin, jotka on annettu vapaaseen käyttöön, kuten http://joukahainen.puimula.org
Todennäköisesti se, mitä tarvitset, on jotain muuta. Mutta siitä on mahdotonta sanoa mitään tarkempaa, kun et kerro, mitä oikeasti olet tekemässä. Suomenkielisen tekstin käsittelyssä pelkkä perussanojen luettelo on jokseenkin hyödytön.- koodarimiettijä
Mulla on pdfTeX, Version 3.1415926-2.5-1.40.14 (TeX Live 2013/Debian) ja se tavuttaa joitakin sanoja väärin. Ei siis pelkästään kaivosaukkojen ja tulosiltojen tapaisia monitavutuksellisia sanoja, vaan ihan yksimerkityksellisiäkin sanoja. Haluaisin kehittää mahdollisimman hyvän tavutusalgoritmin ja parantaa näin ollen babelin algoritmia.
- Sanojen Tavuttaja
koodarimiettijä kirjoitti:
Mulla on pdfTeX, Version 3.1415926-2.5-1.40.14 (TeX Live 2013/Debian) ja se tavuttaa joitakin sanoja väärin. Ei siis pelkästään kaivosaukkojen ja tulosiltojen tapaisia monitavutuksellisia sanoja, vaan ihan yksimerkityksellisiäkin sanoja. Haluaisin kehittää mahdollisimman hyvän tavutusalgoritmin ja parantaa näin ollen babelin algoritmia.
On olemassa kaupallisia painotalojen yms. käyttämiä suomen kielen tavutusohjelmia. Niissä olevia virheitä korjataan aktiivisesti. Usein helpoin ja paras lopputulos saavutetaan yksinkertaisesti tavuttamalla käsin jokainen joskus esiintynyt sana ja sen eri taivutusmuoto erikseen tietokannassa. Ei tarvita mitään monimutkaisia algoritmeja. Paitsi siihen, milloin kannattaa tavuttaa, milloin lisätä tyhjää sanojen väleihin jne... Eli pitää tietää mitä ollaan tekemässä ja miksi. Ulkonäkö, luettavuus.
Se, että joitakin esiiintyvä virheitä ei ole haluttu korjata, on sitten ihan toinen juttu. Ei tarvita kuin yksinkertainen palautejärjestelmä tuhansille tarkkasilmäisille oikolukijoille.
Ketjusta on poistettu 0 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
- 1251268
Tiedät, että en voi enää laittaa viestiä
Aikaa kulunut. Eikä se näyttäisi enää luontevalta vastata näin pitkän ajan jälkeen. Tiedän myös, että sinä et enää lait89924- 94904
Nostetaanpas kissa pöydälle: Onko Kuhmossa työpaikkakiusaamista?
Kuka uskaltaa puhua? Vai uskaltaako kukaan? Naisvaltaisella alalla on kuulemma Kuhmossa ruma tilanne. Mitä aikuiset ede23857Tuleeko Martinasta rouva Muhis
Saako vihdoinkin ne haaveilemansa prinsessa häät Hajjin entinen Muhammad kanssa, 😂 yhteistä heillä on se, että molemmat286750- 94730
- 109646
- 34638
Oletko miettinyt sitä
Että jos meidän persoonat ei sovi yhtään yhteen ;) No onneksi kumpikin on fiksu eikä halua toiselle mitään pahaa.50581Eipä oo näkyny montakkasn etelänvetelää vielä kylällä.
Liekkö tuo pensanhinta vetelille liian kallista, kun ovat jeäneet kesäksi kottiinsa vetelehtimmään. Pärjätään iliman vet131558