我有许多用 UTF-8 或 GBK 编码的文件。我的系统编码是 UTF-8 ( LANG=zh_CN.UTF-8
),因此我可以轻松读取使用 UTF-8 编码的文件。但我也必须使用 GBK 读取文件编码。我正在关注Python 3:如何在此处指定标准输入编码:
import sys
import io
input_stream = io.TextIOWrapper(sys.stdin.buffer, encoding='gbk')
for line in input_stream:
print(line)
我的问题是如何从 sys.stdin
. 或者你能给我一些更好的解决方案吗?
为了稍微扩展这个问题,我想处理这样的文件:
cat *.in | python3 handler.py
*.in
返回许多使用 UTF-8 或 GBK 编码的文件。
如果我在handler.py
for line in sys.stdin:
...some code
它会在尝试处理 GBK 文件时立即抛出错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte
另一方面,如果我使用这样的代码:
input_stream = io.TextIOWrapper(sys.stdin.buffer, encoding='gbk')
for line in input_stream:
...some code
它会在任何 UTF-8 文件上引发错误:
UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 25: illegal multibyte sequence
我想找到一种安全的方法来处理我的脚本中的两种类型的文件(UTF-8 和 GBK)。