タグ

文字コードに関するLhankor_Mhyのブックマーク (10)

  • マイナンバーカード作成時に氏名の常用漢字「樹」が代替文字になる問題

    重い腰を上げマイナンバーカードを作成しようと申請したところ、気になることが発生しました。 代替文字とはなんでしょうか。 署名用電子証明書は、コンピュータで使用されるものであるため、氏名、住所は、文字化けせずにコンピュータで表示されるものとする必要があります。このため署名用電子証明書で利用可能な文字は、JIS(日工業規格)の漢字の規格の内、日常的に使用頻度の高い常用漢字と人名用漢字を含むJIS第一水準、第二水準(JISX0208)と補助漢字(JISX0212)の範囲としています。 住民基台帳の氏名または住所が電子証明書に記載するコード取扱範囲外の場合は、コンピュータでの表示に類似の字形を指定し、代替文字として登録します。(公的個人認証サービスポータルサイトより) 平たく言えば、「パソコンで普通に打てない名前は置き換えるよ」という意味です。 名字が旧字体で変換しても出てこない人も多いでしょ

    マイナンバーカード作成時に氏名の常用漢字「樹」が代替文字になる問題
    Lhankor_Mhy
    Lhankor_Mhy 2023/11/18
    最初の写真と解説図が整合しないのだが、(置き換え後)→(置き換え前)と書かれているのか?/ 『「士」のように書いても、「土」のように書いても、同じ長さで書いてもよい。』( https://ja.wiktionary.org/wiki/%E6%A8%B9 )
  • 僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita

    対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨‍👩‍👧"].lengthが5になる理由がわからない人 -> ここから 文字コードについてもう一度 文字コードは以下の二つで構成されています 符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合 文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法 符号化文字集合 符号化文字集合は、 文字 その文字の位置を示す一意の番号 この二つの組み合わせの集合のことを指します。 例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。 しかしASCIIには日語などの非英語圏の文字が収録されていません。 そのため、日語を収録したShift-JISやアジア圏の文字を収録した

    僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita
    Lhankor_Mhy
    Lhankor_Mhy 2019/12/13
    勉強になる。/ これ、修正されたとしても後方互換のために別のビルトインメソッドが定義されるんだろうな……
  • iPhone間の新しい文字化け「兄化け」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    iPhone間の新しい文字化けパターンが発見されたのでメモ*1。この少なくとも3つのダメな仕様が重なって発生する文字化けは、発見者によって「兄化け」と命名された*2。 「兄化け」は、兄がSoftBankまたはauのiPhoneでメッセージアプリを、妹がiPhoneのメールアプリでdocomo.ne.jpアドレスを使っている場合に発生する。兄が絵文字入りのメールを送信すると、妹の環境では絵文字が豆腐に化け、それを引用して返信すると、今度は兄の側でメッセージ全文が化ける。 以下、この文字化けの理屈について。兄のメッセージアプリは、絵文字入りのメッセージをUTF-8で送信。キャリアの送信側のサーバが、これをドコモのShift_JISに変換する。しかし、妹のiPhoneのメールアプリはドコモのShift_JISに対応していないので、ドコモの絵文字を単に「Shift_JISの未定義領域の文字」として

    iPhone間の新しい文字化け「兄化け」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    Lhankor_Mhy
    Lhankor_Mhy 2013/10/28
    ああ、これだったのか。
  • スマートフォンと文字コード

    1. はじめに 内閣府によれば,2012年3月時点における携帯電話の世帯普及率はじつに94.5%にのぼる[1].携帯電話はほとんど全ての国民が1台ずつ持つ,他に例を見ない製品に育った.その中で近年台頭著しいのがスマートフォンである. コムスコア社の調査によると,今年6月時点におけるスマートフォンユーザは全携帯電話ユーザの23.5%であり,この数字は前年同月から43%の増加にあたる[2].つまり,最近になって普及率が急カーブで上昇している.こうした傾向は出荷台数を見るとより顕著になる.MM総研によると,今年4月~9月の国内携帯電話端末の総出荷台数に占めるスマートフォンの比率は69.4%にのぼる[3]. さて,スマートフォンは不特定多数との情報交換を目的とするものだ.したがって文字コードの実装は,重要なポイントとなる.では,その実態はどんなものか,いささか調べた結果をお伝えしたい. 2. レパ

  • iPhone + iOS 5.1 + MMS では絵文字が送れない問題 at yamk blog

    Tweet {lang: 'ja'}日時間 2012年3月8日未明に “The new iPad” が発表され、同時に iOS 5.1 がリリースされた。iPad の方は興味はあるが当分買う予定がないので、とりあえず iPhone の話題。 一部の機体では アップデート無限ループに入る不具合も報告されている らしいが、自分の iPhone 4 と iPhone 3GS は 3/8 の朝に全く問題なくアップデートが完了。それぞれ 15分程度だったように思う。使い始めてバッテリの減り方が劇的に改善されているのがすぐわかった。5.0.1 の頃は、約1時間の通勤で音楽やら Twitter, Web を使って残り 80% 程度だったのが、5.1 では残り 90%。これはすごい。この点だけでもすぐにもアップデートをお勧めしたい。 さて、(SoftBank版) iPhone からいわゆるガラケーにメー

    Lhankor_Mhy
    Lhankor_Mhy 2012/03/13
    独自仕様は滅びちゃえばいいと思う。
  • [Java] UTF-8での文字化け

    以前のエントリーOracleJavaの間で、全角マイナスが文字化け。 - mokkouyou2001の日記 にも少し関係。 IBM-Unicode(標準Unicode)と、MS-Unicodeの間でも以下の差がある。 特に問題は無い場合が多いかもしれないが、外部向けのやり取りの1部にMS932(のファイルでのやりとり)がある。 という場合はMS-Unicode向けの変換をかませておくのが無難かもしれない。 というか、まぁ検索のことを考えたりするとどちらかに寄せるのが無難か・・・ なんでこんなことが起こるかなぁ・・・ 悩ましいねぇ。 文字 IBM-Unicode MS-Unicode ―(全角ダッシュ)*1 U+2014 U+2015 〜 U+301C U+FF5E ‖ U+2016 U+2225 −(全角マイナス) U+2212 U+FF0D ¢ U+00A2 U+FFE0 £ U+00

    [Java] UTF-8での文字化け
  • [Python] urllib.unquoteとunicode - かせきのうさぎさん

    urllib.unquoteはURLエンコードされた文字列を元に戻す関数だ。よくURLで使われている「%E6%97%A5%E6%9C%AC%E8%AA%9E」みたいな文字を元に戻す時に使う。 # Python 2.5.2 on win32 >>> a = urllib.unquote('%E6%97%A5%E6%9C%AC%E8%AA%9E') >>> print a.decode('utf-8') 日語 URLエンコードは文字コードに関して何も規定していない。だから、デコードした結果を画面に出力する場合は適当な文字コードで変換してやる必要がある。上の例ではUTF-8を使っているが、サイトによっては、以下のようにShift_JISやEUC-JPかもしれない。 >>> a = urllib.unquote('%93%FA%96%7B%8C%EA') >>> print a.decode('

    [Python] urllib.unquoteとunicode - かせきのうさぎさん
  • ecl.js (Escape Codec Library) と Sleipnir の相性が悪い件について

    とあるサイトで ecl.js を使っています。ecl.js とは JavaScript で文字コード変換を行うライブラリで Escape Codec Library が正式名称です。配布元は Escape Codec Library: ecl.js です。ちなみに yaplog に組み込まれている /blog/js/urlEnDecoding.js も元ネタは ecl.js みたいですね。もちろん Sleipnir で yaplog 見ると激遅です・・・ Shift_JISエンコードやEUC-JPエンコードなども可能な escape エンコード・デコード関数のライブラリ 文字列をすべてのコンピュータで読めるような形式に変換したり、変換されたものを元の文字列にデコードすることができる関数のライブラリです。 ビルトイン関数 escape() , unescape() とは異なり、どの種類のブラ

  • Unicode HOWTO

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 「美乳」で文字化けが直るって本当?

    ・「美乳」で文字化けが直るって当? オンラインDVD&CDレンタルなら月々1980円で借り放題のDMMがお得! えっ? って聞きなおしたくなるようなタイトルですが、「この『美乳』という文字をヘッダー部分にコメントとして挿入しておくと、文字化けが直る」という話は確かに存在します。ただし、これは大前提としてEUC-JPのページを作成するならば、という話になります。 <HTML> <HEAD> <meta http-equiv=Content-Type content="text/html; charset=EUC-JP"> <!-- 美乳 --> <TITLE>テスト1</TITLE> </HEAD> <BODY bgcolor="#FFFFFF"> このページはアダルトサイトとは無縁です。ヌード画像などは一切ありません。 </BODY> </HTML> では、なぜ、この「美乳」がおまじない

  • 1