Millä Delphi-funktiolla voi testata sisältääkö teksti unicodea?

Anonyymi

Olen tehnyt Delphillä tekstinkäsittelysovelluksen, joka voi tallentaa Memon tekstin valinnan mukaan joko ANSI- tai UTF8-tiedostoksi. Delphin Memo on oletuksena unicode-muotoinen. Nyt jos käyttäjä on esim. copy/pastettanut Memo-kenttään unicode sisältävää tekstiä, niin nämä unicode-merkit eivät tallennu ANSI-tiedostoon, joka on siis se vanha perus tekstitiedostomuoto. UTF8-tekstin tallennan eri koodilla. Esim. Notepad varoittaa käyttäjää, jos tallennettava teksi sisältää Unicode-muodossa olevia merkkejä ja kehottaa valitsemaan unicode-tallenusmuodon ANSI:n sijaan.
Millä Delphi-funktiolla voin testata, josko Memo-kenttä sisältää unicode merkkejä, eikä siis ole 'ANSI safe', jolloin voin varoittaa käyttäjää samalla tavalla kuin Notepad tekee?

4

643

    Vastaukset

    Anonyymi (Kirjaudu / Rekisteröidy)
    5000
    • Yksinkertainen niksi olisi mitata kuinka monta 8-bit tavua se vie tilaa suhteessa merkkien määrään. Jos on eroa, siellä on unicode merkkejä.

      Oikeasti paras tapa selvitä harmeilta on tallentaa ihan kaikki UTF8:na, ja jos on vanhaa merkistöä niin korvata UTF8:na.

    • Anonyymi

      UTF-8 ja Ansikoodaus eivät käytä nollatavua (0). Sitä käytetään korkeintaan lopetusmerkkinä nollaan päättyvissä merkkijonoissa.

      Pascalissa voidaan käyttää pointtereita eli osoittimia:
      https://wiki.freepascal.org/Pointer/fi

      Pointterin osoittamaa dataa osoitetaan hattumerkillä ^
      https://wiki.freepascal.org/^/fi

      Pointteri saadaan osoittamaan
      osoiteoperaattorilla @ joka palauttaa muuttujan osoitteen.
      https://wiki.freepascal.org/@/fi

      Esim. käskyllä
      var ptr : Pointer;
      //....
      ptr := @s; // pointer ptr saa muuttujan s osoitteen
      //...
      Pbyte(ptr)^)

      saat selville ptr muuttujan osoittaman tavun.

      Käyt tekstiä tavuina niin kauan läpi että siellä on nolla tai olet tekstin lopussa. Jos siellä on nolla niin se ei ole UTF-8 eikä Ansia vaan jotain muuta unicodea.

    • Anonyymi

      Var a:String; b:ansistring;
      begin
      a:=Memo1.Lines.Text;
      b:=AnsiSTring(a);
      if b<>a then

    • Anonyymi

      Pelkkä ANSi ei ole riittävän tarkaa määrittämään koodausta. Delpissä String tyyppi on UTF-16LE. Siinä siis kukin merkki vie joko 2 tai 4 tavua. Unicoden ensimmäisen tason merkit (ekat 64K) olvat UTF-16 kaksitavausia. Loppujen tasosen merkit ovat 4-tavusia. AnsiString taas perustuu johonkin Windows koodisivuus. Valitettavasti AnsiString tyyppi ei sisällä tätä koodiasivua vaan merkkijonon purkamiseen käytetään ohjelman oletuskoodiasivua. Se taas riippuu Windows_n asetuksiat. Suomalaisessa, englantialaisessa ja kaikkissa länsi-euroopan kielissä oletuskoodiasivu on 1252, mutta noita koodisivuja on useistä. Euroopalaiset koodisivut ovat yksitavuosia eli yksia merkki on aika yksi tavua. Aasialaiset taa ovat monitavuosia joissa yksi merkki on yksi tai kaksi tavua. Sitten on Utf8String joka itseasiassa on AnsiString jonka koodiasiuna on UTF-8. Yheteistä näill kaikille ANSI koodauksille on se että ASCII vie aina yhden tavun.

      Itse alkuperäiseen kysymykseen. Jotta voit tarkoistaa onko vain ANSI sinun pitää käydä läpi merkki kerrallaan ja tarkistaa kuuluuku merrkki koodisivuun vain ei. Jos ei niin sulla on merkkejä joita koodisivua ei tue ja näinolleen sitä ei voi tallettaa AnsiString:nä käyttäen tätä koodiasivua. Siis joko käytä toista koodiaivua tai UTF-8.

      Ongelmana on jos käytät toista koodisivua muta Notepad olettaa niin osa merkeistä näkyy mojibake:na (katso Wikipedia)

    Ketjusta on poistettu 3 sääntöjenvastaista viestiä.

    Luetuimmat keskustelut

    1. Kiitos nainen

      Kuitenkin. Olet sitten ajanmerkkinä. Tuskin enää sinua näen ja huomasitko, että olit siinä viimeisen kerran samassa paik
      Tunteet
      18
      5243
    2. MTV: Kirkossa saarnan pitänyt Jyrki 69 koki yllätyksen - Paljastaa: "Se mikä oli hyvin erikoista..."

      Jyrki Linnankivi alias Jyrki 69 on rokkari ja kirkonmies. Teologiaa opiskeleva Linnankivi piti elämänsä ensimmäisen saar
      Maailman menoa
      116
      2730
    3. Tykkään sinusta ikuisesti

      Olet niin mukava ja ihana ihminen rakas. ❤️
      Ikävä
      10
      2274
    4. Hyväksytkö sinä sen että päättäjämme ei rakenna rauhaa Venäjän kanssa?

      Vielä kun sota ehkäpä voitaisiin välttää rauhanponnisteluilla niin millä verukkeella voidaan sanoa että on hyvä asia kun
      Maailman menoa
      588
      2012
    5. Kirjoita yhdellä sanalla

      Joku meihin liittyvä asia, mitä muut ei tiedä. Sen jälkeen laitan sulle wappiviestin
      Ikävä
      122
      1739
    6. Olet hyvin erilainen

      Herkempi, ajattelevaisempi. Toisaalta taas hyvin varma siitä mitä haluat. Et anna yhtään periksi. Osaat myös ilkeillä ja
      Ikävä
      70
      1322
    7. Yksi syy nainen miksi sinusta pidän

      on se, että tykkään luomusta. Olet luonnollinen, ihana ja kaunis. Ja luonne, no, en ole tavannut vielä sellaista, joka s
      Ikävä
      41
      1309
    8. Paljastavat kuvat Selviytyjät Suomi kulisseista - 1 päivä vs 36 päivää viidakossa - Katso tästä!

      Ohhoh! Yli kuukausi viidakossa voi muuttaa ulkonäköä perusarkeen aika rajusti. Kuka mielestäsi muuttui eniten: Mia Mill
      Suomalaiset julkkikset
      3
      1088
    9. Hyvää Joulua mies!

      Toivottavasti kaikki on hyvin siellä. Anteeksi että olen hieman lisännyt taakkaasi ymmärtämättä kunnolla tilannettasi, o
      Ikävä
      64
      1047
    10. Veda uskonto vs. muut uskonnot

      Mitenkähän tuo Veda(Krisha)uskonto loppujen lopuksi eroaa muista niin sanotuista ilmoitus uskonnoista? Siinäkin vedotaan
      Ateismi
      382
      1041
    Aihe