文字コードの気持ち - 西尾泰和のはてなダイアリー

半角カナだらけのページだったら本来EUCなのにSJISで開いちゃっている、とかそういうの。

"ソ"がシンタックスエラーになる：ソースコードがSJISで書かれているにもかかわらずasciiかlatin-1として扱われている。ソの2バイト目がバックスラッシュなので閉じクオートがエスケープされてしまっている。

"あ"が「??」と表示される→"？"が"?H"と表示される：SJISのバイト列がASCIIのバイト列だと解釈された上でASCII範囲外の文字が?に置き換えられている。

"あ"が半角Bになる："あ"のUnicode表現u'\u3042'の下位バイト"\x42"(Bに相当)だけが表示されている。

print u"\u3042"が「UnicodeError: ascii encoding error: ordinal not in range(128)」：ユニコード文字列をバイト列に変換する際のデフォルトのエンコーディングがASCIIになっている。

読み込むときに失敗しているケースと書き出すときに失敗しているケースの識別ができるようになってきた。