python3でのstdin,out,errのencodingの変更

暑くてとろけております。
涼しいはずの北海道で全国最高気温(と最低気温)とは・・・。

python3でのopen

python3からopenの仕様が変更となり、text modeの場合(mode=rやwだけで開いた場合)には、encoding付きでopenするようになっています。

返されるオブジェクトもfileオブジェクトではなくTextIOWrapper, BufferedReaderまたはBufferedWriterとなっています。


[code]
 >>> f = open(‘sample.csv’, ‘r’)
>>> f
<_io.TextIOWrapper name=’sample.csv’ mode=’r’ encoding=’UTF-8′>
>>> f.close()

>>> f = open(‘sample.csv’, ‘w’)
>>> f
<_io.TextIOWrapper name=’sample.csv’ mode=’w’ encoding=’UTF-8′>
>>> f.close()

>>> f = open(‘sample.csv’, ‘a’)
>>> f
<_io.TextIOWrapper name=’sample.csv’ mode=’a’ encoding=’UTF-8′>
>>> f.close()

>>> f = open(‘sample.csv’, ‘r+’)
>>> f
<_io.TextIOWrapper name=’sample.csv’ mode=’r+’ encoding=’UTF-8′>
>>> f.close()

>>> f = open(‘sample.csv’, ‘w+’)
>>> f
<_io.TextIOWrapper name=’sample.csv’ mode=’w+’ encoding=’UTF-8′>
>>> f.close()

>>> f = open(‘sample.csv’, ‘rb’)
>>> f
<_io.BufferedReader name=’sample.csv’>
>>> f.close()

>>> f = open(‘sample.csv’, ‘wb’)
>>> f
<_io.BufferedWriter name=’sample.csv’>
>>> f.close()
[/code]

python3の標準入出力のencodingを切り替える

上述のとおりstdin, stdoutにencodingが付いているわけですが、これのデフォルトのencodingは環境に依存しています。

私の環境ではUTF-8がデフォルトのencodingとして設定しているので、何も指定しない状態ではUTF-8でstdinを読もうとします。

例えば、SJISのファイルをcatしてstdinから読み込むとどうなるかというと、

sample1.py

[python]
 from __future__ import print_function
import sys
print(sys.stdin.read())
[/python]

実行

[code]
 cat sample.csv | python3 sample1.py

Traceback (most recent call last):
File "sample1.py", line 2, in <module>
print(sys.stdin.read())
File "/usr/local/Cellar/python3/3.4.0_1/Frameworks/Python.framework/Versions/3.4/lib/python3.4/codecs.py", line 313, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x82 in position 3: invalid start byte
[/code]

SJISの文字列を渡した場合、Decodeできなかったと怒られます。

ちなみにpython2で同じことをすると文字化けしました。

[code]

1, �ق��ق�
2, �ӂ��ӂ�

[/code]

python2の場合、この問題を解決するために次のようにしていました。

sample2.py::

[python]
 from __future__ import print_function
import sys
import codecs

_stdin = codecs.getreader(‘sjis’)(sys.stdin)
print(_stdin.read())
[/python]

これを実行すると::

[code]
 cat sample.csv | python sample2.py
1, ほげほげ
2, ふがふが
[/code]

となります。
SJISをデコードして読み取ることができています。

これをpython3で実行すると::

[code]
 cat sample.csv | python3 sample2.py
Traceback (most recent call last):
File "sample2.py", line 6, in <module>
print(_stdin.read())
File "/usr/local/Cellar/python3/3.4.0_1/Frameworks/Python.framework/Versions/3.4/lib/python3.4/codecs.py", line 313, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x82 in position 3: invalid start byte
[/code]

残念ながら使えません・・・。

そこで、思い出すのが、冒頭に書いていたfileが_io.TextIOWrapperに変わったということです。
text modeで開いた時はすでにTextIOWrapperオブジェクトになっているので、.bufferにアクセスして、それをcodecs.getreaderします。

sample3.py::

[python]
 import sys
import codecs

_stdin = codecs.getreader(‘sjis’)(sys.stdin.buffer)
print(_stdin.read())
[/python]

これで文字化けせずに読むことができるようになります。
しかし、調べて見ると他のやり方がもあるようです。

sample4.py::

[python]
 import sys
import io

_stdin = io.TextIOWrapper(sys.stdin.buffer, encoding=’sjis’)
print(_stdin.read())

[/python]

sample5.py::

[python]
 import sys
_stdin = open(sys.stdin.fileno(), ‘r’, encoding=’sjis’)
print(_stdin.read())
[/python]

どれも正常に動作しています。

となると、今度は結局どれを使えばいいの?となります。
私はgetreaderやらTextIOWrapperという単語を見るよりも、openでstdinをsjisで開き直す、という方がさっぱりしていて良いなと思ってます。

・・・ということで寝られるかと思ったら、何やら怪しい挙動が・・・

sample6.py::

[python]
 import sys
import codecs

_stdin = codecs.getreader(‘sjis’)(sys.stdin.buffer)
_stdout = codecs.getwriter(‘utf-8’)(sys.stdout.buffer)

for line in _stdin:
print(‘!!!’, file=sys.__stdout__)
print(‘???’, file=sys.__stderr__)
_stdout.write(line)
[/python]

実行すると::

[code]
 !!!
???
1, ほげほげ
!!!
???
2, ふがふが
[/code]

sample7.py::

[python]
 import sys
import io

_stdin = io.TextIOWrapper(sys.stdin.buffer, encoding=’sjis’)
_stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=’utf-8′)

for line in _stdin:
print(‘!!!’, file=sys.__stdout__)
print(‘???’, file=sys.__stderr__)
_stdout.write(line)
[/python]

実行すると::

[code]
 !!!
???
!!!
???
1, ほげほげ
2, ふがふが
[/code]

あれ???

sample8.py::

[python]
 import sys
_stdin = open(sys.stdin.fileno(), ‘r’, encoding=’sjis’)
_stdout = open(sys.stdout.fileno(), ‘w’, encoding=’utf-8′)

for line in _stdin:
print(‘!!!’, file=sys.__stdout__)
print(‘???’, file=sys.__stderr__)
_stdout.write(line)
[/python]

実行すると::

[code]
 !!!
???
1, ほげほげ
!!!
???
2, ふがふが
[/code]

なぜかTextIOWrapperのとき、出力順序が違っています。
なんとなくですが、TextIOWrapperを作りなおしている時に、元のバッファとは違うところを使っている、とかでしょうか?

sample7a.py::

[python]
 import sys
import io

_stdin = io.TextIOWrapper(sys.stdin.buffer, encoding=’sjis’)
_stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=’utf-8′)

for line in _stdin:
print(‘!!!’, file=sys.__stdout__)
print(‘???’, file=sys.__stderr__)
_stdout.write(line)
_stdout.flush()
[/python]

実行すると::

!!!
???
1, ほげほげ
!!!
???
2, ふがふが

それっぽい結果がでました。これ以上の深追いはやめておきましょう・・・。

まとめ

どうしてもpython側でstd(in|out|err)の文字コードを吸収(変換)したいなら、今回書いた方法のどれかで変換すればよさそうです。

ただ、pythonでの文字コード変換が必須ではなく、コマンドラインで処理するスクリプトの場合には、iconvやnkfを使った方がpythonのコードもシンプルになります。

sample_simple.py::

[python]
import sys
print(sys.stdin.read())
[/python]

これをこう::

[code] cat sample.csv | iconv -f SJIS -t UTF-8 | python3 sample_simple.py
[/code]

というわけで、頑張った割に、最終的にはpythonで文字コード変換しない方が良い気がしてきました。
お疲れ様でした。。。

追記

 ずっと見てなかったcomp.lang.pythonのメールに何故か目を通してみたら、ちょうど関連する話がありました。

Reading from sys.stdin reads the whole file in – Google Groups

  • バッファリングしているのでflushする必要がある。
  • python -u sample.py のように-uをしていするとバッファリングされない
  • 環境変数 PYTHONUNBUFFERED を設定するとバッファリングされない
  • python3.3から print(*objects, sep=’ ‘, end=’\n’, file=sys.stdout, flush=False) のflushをTrueにすればすぐflushするみたい
  • python2でバッファリングなしでstdinの行ごとの処理をすると遅いし変なことしないとだめなのでオススメしない。python3を使おう。

参考