Olen tehnyt Delphillä tekstinkäsittelysovelluksen, joka voi tallentaa Memon tekstin valinnan mukaan joko ANSI- tai UTF8-tiedostoksi. Delphin Memo on oletuksena unicode-muotoinen. Nyt jos käyttäjä on esim. copy/pastettanut Memo-kenttään unicode sisältävää tekstiä, niin nämä unicode-merkit eivät tallennu ANSI-tiedostoon, joka on siis se vanha perus tekstitiedostomuoto. UTF8-tekstin tallennan eri koodilla. Esim. Notepad varoittaa käyttäjää, jos tallennettava teksi sisältää Unicode-muodossa olevia merkkejä ja kehottaa valitsemaan unicode-tallenusmuodon ANSI:n sijaan.
Millä Delphi-funktiolla voin testata, josko Memo-kenttä sisältää unicode merkkejä, eikä siis ole 'ANSI safe', jolloin voin varoittaa käyttäjää samalla tavalla kuin Notepad tekee?
Millä Delphi-funktiolla voi testata sisältääkö teksti unicodea?
4
654
Vastaukset
Yksinkertainen niksi olisi mitata kuinka monta 8-bit tavua se vie tilaa suhteessa merkkien määrään. Jos on eroa, siellä on unicode merkkejä.
Oikeasti paras tapa selvitä harmeilta on tallentaa ihan kaikki UTF8:na, ja jos on vanhaa merkistöä niin korvata UTF8:na.- Anonyymi
UTF-8 ja Ansikoodaus eivät käytä nollatavua (0). Sitä käytetään korkeintaan lopetusmerkkinä nollaan päättyvissä merkkijonoissa.
Pascalissa voidaan käyttää pointtereita eli osoittimia:
https://wiki.freepascal.org/Pointer/fi
Pointterin osoittamaa dataa osoitetaan hattumerkillä ^
https://wiki.freepascal.org/^/fi
Pointteri saadaan osoittamaan
osoiteoperaattorilla @ joka palauttaa muuttujan osoitteen.
https://wiki.freepascal.org/@/fi
Esim. käskyllä
var ptr : Pointer;
//....
ptr := @s; // pointer ptr saa muuttujan s osoitteen
//...
Pbyte(ptr)^)
saat selville ptr muuttujan osoittaman tavun.
Käyt tekstiä tavuina niin kauan läpi että siellä on nolla tai olet tekstin lopussa. Jos siellä on nolla niin se ei ole UTF-8 eikä Ansia vaan jotain muuta unicodea. - Anonyymi
Var a:String; b:ansistring;
begin
a:=Memo1.Lines.Text;
b:=AnsiSTring(a);
if b<>a then - Anonyymi
Pelkkä ANSi ei ole riittävän tarkaa määrittämään koodausta. Delpissä String tyyppi on UTF-16LE. Siinä siis kukin merkki vie joko 2 tai 4 tavua. Unicoden ensimmäisen tason merkit (ekat 64K) olvat UTF-16 kaksitavausia. Loppujen tasosen merkit ovat 4-tavusia. AnsiString taas perustuu johonkin Windows koodisivuus. Valitettavasti AnsiString tyyppi ei sisällä tätä koodiasivua vaan merkkijonon purkamiseen käytetään ohjelman oletuskoodiasivua. Se taas riippuu Windows_n asetuksiat. Suomalaisessa, englantialaisessa ja kaikkissa länsi-euroopan kielissä oletuskoodiasivu on 1252, mutta noita koodisivuja on useistä. Euroopalaiset koodisivut ovat yksitavuosia eli yksia merkki on aika yksi tavua. Aasialaiset taa ovat monitavuosia joissa yksi merkki on yksi tai kaksi tavua. Sitten on Utf8String joka itseasiassa on AnsiString jonka koodiasiuna on UTF-8. Yheteistä näill kaikille ANSI koodauksille on se että ASCII vie aina yhden tavun.
Itse alkuperäiseen kysymykseen. Jotta voit tarkoistaa onko vain ANSI sinun pitää käydä läpi merkki kerrallaan ja tarkistaa kuuluuku merrkki koodisivuun vain ei. Jos ei niin sulla on merkkejä joita koodisivua ei tue ja näinolleen sitä ei voi tallettaa AnsiString:nä käyttäen tätä koodiasivua. Siis joko käytä toista koodiaivua tai UTF-8.
Ongelmana on jos käytät toista koodisivua muta Notepad olettaa niin osa merkeistä näkyy mojibake:na (katso Wikipedia)
Ketjusta on poistettu 3 sääntöjenvastaista viestiä.
Luetuimmat keskustelut
Anteeksi mies
En vaan osaa kohdata sinua ja olla normaali. En tiedä mikä vaivaa. Samaan aikaan tekee mieli tulla lähelle ja kuitenkin578847Mietin aina vain
Minä niin haluaisin nähdä sinut. Ei tuo yhden ainoan kuvan katsominen paljon helpota... Miksi sinä et voisi olla se roh123479Hetken jo luulin, että en ikävöi sinua koko aikaa
Mutta nyt on sitten taas ihan hirveä ikävä jotenkin. Tiedätköhän sinä edes, kuinka peruuttamattomasti minä olen sinuun r262690Kysely lieksan miehille
Olemme tässä pohtineet tällaista asiaa, että miten on. Tästä nyt on paljon ollut juttua julkisuudessakin aina sanomaleht802070Palstan henkisesti sairaat ja lihavat
Täällä on sairaita, työttömiä ihmisiä kirjoittelemassa joilla ei ole tarkoituksena kuin satuttaa ihmisiä. Jos eksyt pals1142040Outoa että Trump ekana sanoutui irti ilmastosopimuksesta
kun Kaliforniaa riepottelee siitä johtuvat tuhoisat maastopalot. Hirmumyrskytkin ovat USA:ssa olleet tuhoisia.3571757Saan kengurakkaan kotiin viikon päästä
Mitä tapahtui? Martina hehkutti tätä stoorissaan reilu viikko sitten, mutta eipä aussimiestä Suomessa näkynyt, vaan tapa2411442FinFamin ryhmät
Älkää hyvät ihmiset luottako tähän tahoon. Ryhmiä on, mutta eivät ne toimi. Ihmisiä savustetaan ulos, vaikka näissä piir01221Olen vähän
Hysteerinen se on totta. Etkai ymmärrä miten syvästi tunnen sinua kohtaan. Ja olet aina lähelläni. Olet osa jo jotain. I101095Osmo Peltola voitti ansaitusti Kultaisen Venlan - Kirvoitti yleisöltä mahtavan reaktion!
JEE, onnea Osmo! Osmo Peltola voitti Vuoden esiintyjän Kultainen Venla -palkinnon. Isä-Peltsin ja Osmon luontoseikkailu681060