Merkistöt - ikuinen ongelma

where is the yucca?

Ohjelmani lukee tiedostosta tekstin ja tulostaa sen (siihen dossin näköiseen) konsoliin.

"...Sillä on yhteistä rajaa myös Venäjän kanssa..."

Mitä noille kirjaimille on tarkkaan ottaen tapahtunut? Onko käynyt niin että jotain UTF-x ollaan luettu kuin ascii-tekstiä?

C -kielen standardikirjastossa on joku wifstream ja wcout, jotka käsittelevät unicodeja, mutta ei auttanut tähän ongelmaan.

Kun laitoin
setlocale(LC_CTYPE, "fin");
se muutti väärin näkyviä merkkejä, mutta ei tuonut oikeita merkkejä.

5

327

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • sdfsdfs

      Konsoli käyttää eri merkistöä kuin luetun tekstitiedoston merkistö.

      Ratkaisuja on kaksi. Muuttaa lähdemateriaalin merkistön terminaalin kanssa yhteensopivaksi tai sitten kirjoittaa ohjelman joka pystyy käsittelemään lähdemateriaalin merkistöä.

      Tässä tapauksessa lähdemateriaali käyttää ilmeisesti UTF-X merkistöä.

      Wide kirjastoja käyttämällä pitäisi onnistua käsittelemään "wide" merkistöjä mutta ilmeisesti se on vieläkin ongelmallinen. C ja C:n tulevissa standardeissa tähän tietääkseni puututaan.

      http://utfcpp.sourceforge.net/
      http://tidy.sourceforge.net/cgi-bin/lxr/source/src/utf8.c

    • mies..

      Konsolin asetuksista vain näyttämään tekstit UTF-8:na, niin näkyy ääkkösetkin oikein.

      UTF-8 on ascii/ansi yhteensopiva.

      • sfsdfs

        Mutta C/C classit eivät ole.

        Char muuttujien sisälle ei mahdu UTF-8 merkkejä.


    • Merkistöasiaa

      gcc -kääntäjän windows -väännös mingw-gcc saa konsoliin tulostettaessa aikaan juuri tuota.

      Windowsissa oletusmerkistö on kiinteäpituuksinen 8 bittiä/merkki ns. Windows-1252. (Joissakin windowsin kieliversioissa oletusmerkistö voi olla muu, mutta silti kiinteäpituuksinen 8 bittiä/merkki, tai esim. kiinan- tai japaninkielisessä windowsissa oletusmerkistö voi olla vanhentunutta tapaa käyttävä muuttuvapituuksinen koodaus). MUTTA: Edelläoleva koskee GUI -sovelluksia. Konsolitilan oletusmerkistö on yleensä suomalaisessa windowsissa 850, mutta asennustavasta riippuen se voi olla myös 437. Jenkkiversioissa olettaisin oletuksen olevan 437.


      Windowsin konsolin saa UTF-8 -koodausta käyttäväksi chcp 65001 -komennolla.
      Vastaavasti normaaliin paluu sujuu chcp 850 -komennolla.

      Tuolla komennolla saa siis hölmösti mingw-gcc:llä käännetyn ohjelman näyttämään järkevältä. Mutta muut ohjelmat ja windowsin komentotilan sisäiset komennot eivät välttämättä osaa hallita tilannetta, jossa chcp:llä on vaihdettu merkkikoodaukseksi muu kuin oletus.

      Siksipä tulostuksen uudelleenohjaus tiedostoon tyyliin:

      c:\komento >file1.txt

      tai kirjoittimelle:

      c:\komento >lpt1

      saattaa tuottaa yllätyksiä jos merkkivalikoimaksi on vaihdettu muu kuin oletus.

      Siksi esittämäni tapa on lähinnä hätävara, jolla huonosti koodatut sovellukset saadaan näyttämään oikeilta, mutta fiksumpaa olisi korjata väärin tehdyt sovellukset.

      Windowsin komentotilaa ei ole alunperin suunniteltu tukemaan unicodea, ja esitetty chcp 65001 tuo osittaisen unicode -tuen, mutta rikkoo yhteensopivuutta monessa muussa asiassa.

    • denzo71

      asettamalla chcp 65001, jotta se tukisi utf-8 merkistöä, aiheuttaa useiden dos-komentojen toimimattomuuden, mm. SET ja COPY, kun ne ajetaan batch-filenä.
      Jostain syystä komentorivien alkuosasta leikkautuu merkkejä pois, jolloin tulee erroria ...

      Eikö tähän todellakaan ole mitään ratkaisua ?

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Mitä yhteistä on sulla ja kaivatulla?

      Onko teillä samantyyppinen olemus tai luonne? Vai muistuttaako vartalonne toisiaan? Tai kasvot? Entä pukeutuminen? Onko
      Ikävä
      99
      1516
    2. Kerran oltiin mekin kahdestaan

      Saanko sanoa, että minua kyllä vähän huvitti jälkeenpäin? Olit kuin vapiseva jänis ketun vieressä valmis loikkimaan paik
      Ikävä
      13
      1166
    3. Ozzy Osbourne on kuollut

      Kevyet mullat ja R.I.P. Ei soi enää Paranoid.
      Maailman menoa
      223
      1146
    4. Persut yritti estää somalinaista väittelemästä lääketieteen tohtoriksi

      Yrittivät saada hänet lähihoitajakouluun, vaikka pärjäsi hyvin koulussa. Nyt hän on yliopistossa väitellyt lääketieteen
      Maailman menoa
      251
      975
    5. Oikeasti, voitais mennä kahville

      ja jutella niin kuin normi-ihmiset. Kyllä toivon sitä. En pelkää kohdata enkä istua sun kanssa samassa pöydässä. Miten o
      Ikävä
      81
      959
    6. Naiset, naiset

      Älkää antako painonne nousta. Naisella ylipaino ei ole hyvä.💝
      Ikävä
      141
      930
    7. Jos nainen harrastaa seksiä

      Useiden kanssa, miten se eroaa miesten mielestä siitä, jos miehellä on ollut useita s kumppaneita? Oletan että kaikki mi
      Ikävä
      179
      913
    8. Pihlaja-puulle

      Illat on mulle pahimpia. En tiiä miks se olis vaan parasta yöstä toiseen nukkua sun kanssa ja herätä sun kasvoihin. Jos
      Ikävä
      15
      859
    9. No mitä nyt

      Ollaanko vaiko eikö olla? Miehelle.
      Ikävä
      71
      767
    10. Yritin keväällä unohtaa sinut nainen

      mutta siinä kävi niin, että ikävä tuli korkoineen takaisin. Niin että mikä taikavoima sinulla on minuun, sitä joutuu mie
      Ikävä
      31
      743
    Aihe