Merkistöt - ikuinen ongelma

where is the yucca?

Ohjelmani lukee tiedostosta tekstin ja tulostaa sen (siihen dossin näköiseen) konsoliin.

"...Sillä on yhteistä rajaa myös Venäjän kanssa..."

Mitä noille kirjaimille on tarkkaan ottaen tapahtunut? Onko käynyt niin että jotain UTF-x ollaan luettu kuin ascii-tekstiä?

C -kielen standardikirjastossa on joku wifstream ja wcout, jotka käsittelevät unicodeja, mutta ei auttanut tähän ongelmaan.

Kun laitoin
setlocale(LC_CTYPE, "fin");
se muutti väärin näkyviä merkkejä, mutta ei tuonut oikeita merkkejä.

5

339

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • sdfsdfs

      Konsoli käyttää eri merkistöä kuin luetun tekstitiedoston merkistö.

      Ratkaisuja on kaksi. Muuttaa lähdemateriaalin merkistön terminaalin kanssa yhteensopivaksi tai sitten kirjoittaa ohjelman joka pystyy käsittelemään lähdemateriaalin merkistöä.

      Tässä tapauksessa lähdemateriaali käyttää ilmeisesti UTF-X merkistöä.

      Wide kirjastoja käyttämällä pitäisi onnistua käsittelemään "wide" merkistöjä mutta ilmeisesti se on vieläkin ongelmallinen. C ja C:n tulevissa standardeissa tähän tietääkseni puututaan.

      http://utfcpp.sourceforge.net/
      http://tidy.sourceforge.net/cgi-bin/lxr/source/src/utf8.c

    • mies..

      Konsolin asetuksista vain näyttämään tekstit UTF-8:na, niin näkyy ääkkösetkin oikein.

      UTF-8 on ascii/ansi yhteensopiva.

      • sfsdfs

        Mutta C/C classit eivät ole.

        Char muuttujien sisälle ei mahdu UTF-8 merkkejä.


    • Merkistöasiaa

      gcc -kääntäjän windows -väännös mingw-gcc saa konsoliin tulostettaessa aikaan juuri tuota.

      Windowsissa oletusmerkistö on kiinteäpituuksinen 8 bittiä/merkki ns. Windows-1252. (Joissakin windowsin kieliversioissa oletusmerkistö voi olla muu, mutta silti kiinteäpituuksinen 8 bittiä/merkki, tai esim. kiinan- tai japaninkielisessä windowsissa oletusmerkistö voi olla vanhentunutta tapaa käyttävä muuttuvapituuksinen koodaus). MUTTA: Edelläoleva koskee GUI -sovelluksia. Konsolitilan oletusmerkistö on yleensä suomalaisessa windowsissa 850, mutta asennustavasta riippuen se voi olla myös 437. Jenkkiversioissa olettaisin oletuksen olevan 437.


      Windowsin konsolin saa UTF-8 -koodausta käyttäväksi chcp 65001 -komennolla.
      Vastaavasti normaaliin paluu sujuu chcp 850 -komennolla.

      Tuolla komennolla saa siis hölmösti mingw-gcc:llä käännetyn ohjelman näyttämään järkevältä. Mutta muut ohjelmat ja windowsin komentotilan sisäiset komennot eivät välttämättä osaa hallita tilannetta, jossa chcp:llä on vaihdettu merkkikoodaukseksi muu kuin oletus.

      Siksipä tulostuksen uudelleenohjaus tiedostoon tyyliin:

      c:\komento >file1.txt

      tai kirjoittimelle:

      c:\komento >lpt1

      saattaa tuottaa yllätyksiä jos merkkivalikoimaksi on vaihdettu muu kuin oletus.

      Siksi esittämäni tapa on lähinnä hätävara, jolla huonosti koodatut sovellukset saadaan näyttämään oikeilta, mutta fiksumpaa olisi korjata väärin tehdyt sovellukset.

      Windowsin komentotilaa ei ole alunperin suunniteltu tukemaan unicodea, ja esitetty chcp 65001 tuo osittaisen unicode -tuen, mutta rikkoo yhteensopivuutta monessa muussa asiassa.

    • denzo71

      asettamalla chcp 65001, jotta se tukisi utf-8 merkistöä, aiheuttaa useiden dos-komentojen toimimattomuuden, mm. SET ja COPY, kun ne ajetaan batch-filenä.
      Jostain syystä komentorivien alkuosasta leikkautuu merkkejä pois, jolloin tulee erroria ...

      Eikö tähän todellakaan ole mitään ratkaisua ?

    Ketjusta on poistettu 0 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. SDP jo 100 % suositumpi kuin persut

      Kertoo Hesarin uusin kannatuskysely. Demareiden kannatus on miltei tuplat verrattuna persuihinl. Suomen kansa ei selväst
      Maailman menoa
      89
      10652
    2. Voiko normaali ihminen ryhtyä vasemmistolaiseksi?

      Tätä jäin pohdiskelemaan.
      Maailman menoa
      245
      4566
    3. SDP haluaa 40 000 nettomaahanmuuttajaa

      SDP:n Suunnanmuutos-vaihtoehtobudjetissa, käy ilmi, että demarit itse asiassa vaativat räjähdysmäistä ”työperäisen” maah
      Maailman menoa
      163
      3943
    4. Orpo: Velkajarrua vastustavaa puoluetta vaikea ajatella hallitukseen

      No Minja Koskelan kommunistipuolue jäi ulos tuosta. Kaikki eduskuntapuolueet vasemmistoliittoa lukuun ottamatta sopivat
      Maailman menoa
      167
      3439
    5. PS ylivoimainen nousija myös HS:n gallupissa, SDP laskee taas

      https://www.verkkouutiset.fi/a/hs-gallup-sdpn-suosio-laskee-ps-nousussa/#0a7d2507 Ylivoimainen viime kuukausien nousija
      Maailman menoa
      71
      3259
    6. Valtavasti suomalaisia asunnottomina, mutta ei yhtään somalia

      tai muuta kehitysmaalaista. Mites tässä näin kävi? Tiedän hyvin, että esim. somaleita lentää ulos mm. Hekan asunnoista,
      Maailman menoa
      69
      3020
    7. Mikä tämä henkilö mahtaa touhuta Parkanossa

      Kamalaa https://www.ylasatakunta.fi/teksti/pirkanmaan-karajaoikeus-vangitsi-koiran-tappamisesta-epaillyn-6.68.127794.b58
      Parkano
      32
      2712
    8. Ikävä sinua mies

      Vuosia kuluu, mutta tunteet ei ole hävinnyt. Tasoittuneet toki, kun ei olla nähty. Järki palannut päähän kuitenkin. Se i
      Ikävä
      27
      2280
    9. Hienoa! Eduskunta luopui käteisen käytöstä

      Nyt tuo sama muutos pitää saada myös muuhun yhteiskuntaan. Käteistähän ei tarvitse tänä päivänä enää kuin rikolliset.
      Maailman menoa
      65
      1766
    10. Kiinnostaa - ei kiinnosta - kiinnostaapas

      Selittäkää hämmentyneelle miksi miehiä ei ikinä kiinnosta silloin, kun sitä olisi itsekin kiinnostunut? Sitten kun siirt
      Sinkut
      164
      1510
    Aihe