文字コードの気持ち

半角カナだらけのページだったら本来EUCなのにSJISで開いちゃっている、とかそういうの。

"ソ"がシンタックスエラーになる:ソースコードSJISで書かれているにもかかわらずasciiかlatin-1として扱われている。ソの2バイト目がバックスラッシュなので閉じクオートがエスケープされてしまっている。

"あ"が「??」と表示される→"?"が"?H"と表示される:SJISのバイト列がASCIIのバイト列だと解釈された上でASCII範囲外の文字が?に置き換えられている。

"あ"が半角Bになる:"あ"のUnicode表現u'\u3042'の下位バイト"\x42"(Bに相当)だけが表示されている。

print u"\u3042"が「UnicodeError: ascii encoding error: ordinal not in range(128)」:ユニコード文字列をバイト列に変換する際のデフォルトのエンコーディングがASCIIになっている。

読み込むときに失敗しているケースと書き出すときに失敗しているケースの識別ができるようになってきた。