タグ

charsetに関するtroronのブックマーク (4)

  • character-sets

    Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

  • 3.18.1 Javaにおける文字化けの問題についての注意事項

    Javaにおける文字化けの問題についての注意事項を以下に述べます。 Javaで異機種間結合を行う場合、あるいは、データベース接続を行う場合に起こる問題の1つに、文字化けの問題があります。例えば、Solaris OEマシンからWindowsマシンにネットワークを介して全角のチルダ記号('~')を送ると、Windowsマシンで表示したときに文字化けが発生することがあります。 これは既存の日語コード(JIS、EUC、シフトJIS)をUnicodeに変換する際の変換規則が各ベンダによって異なるために起きる問題です。この問題はJava VMで解決できるものではなく、Javaのシステム開発者がこの問題を避けるための自衛的手段を講じる必要があります。 この問題を理解するには、この問題が起きた背景を理解する必要があります。 この背景を、以下で説明します。 ■Unicodeの特徴 UnicodeはUnic

  • Eclipseで文字符号化の理解を深める

    コンピュータは0と1しか理解できないため、文字をそのまま使うことはできません。そこで普通は、文字に数値を割り当てることによりコンピュータで利用できるようにしています。各文字を数値で表現するためには文字符号化を行います。実際の文字符号化は奥が深く難しいのですが、正しく文字を処理するプログラムを作成するには、これを避けて通ることはできません。基となる概念自体はけっして難しくありませんので、それを理解しておきましょう。 符号化文字集合と文字符号化方式 文字がコンピュータでどのように表現されているのかは、文字符号化を理解できればわかるようになります。文字符号化を理解するためには、符号化文字集合(code character set)と文字符号化方式(character encoding scheme)について理解する必要があります。これらについて、順番に解説をします。 符号化文字集合 まず、コン

    Eclipseで文字符号化の理解を深める
  • ISO-2022-JPを扱う際の注意 - blanket log

    ISO-2022-JP(いわゆるJIS)で書かれたファイルから特定の文字列を検索する、というのはそれほど簡単な話ではありません。単純に部分一致するバイト列を探すだけではできないからです。 ISO-2022-JPという文字コードは、エスケープシーケンスによって文字セットを切り替えながら文字列を表現します。 どういうことかというと、文字列の中で文字がASCIIから日語に切り替わるときに、「ここから日語」と宣言してから日語を表すバイト列が続きます。逆に日語からASCIIに切り替わるときに「ここからASCII」と言ってからASCIIの文字列が続きます。IMEで入力する文字を切り替える度に[半角/全角]キーを押すのと似たようなものです。 つまり文字列の各部分において状態を持つのです。 例えば「0x24 0x22」というバイト列は、ASCII状態では「$"」になりますが、日語状態(JIS X

    ISO-2022-JPを扱う際の注意 - blanket log
    troron
    troron 2011/01/13
    nkf -jと、javaのString#getBytes("iso-2022-jp")の結果が異なるのは、、
  • 1