W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
你的程序獲取了一個(gè)目錄中的文件名列表,但是當(dāng)它試著去打印文件名的時(shí)候程序崩潰,出現(xiàn)了 UnicodeEncodeError
異常和一條奇怪的消息—— surrogates not allowed
。
當(dāng)打印未知的文件名時(shí),使用下面的方法可以避免這樣的錯(cuò)誤:
def bad_filename(filename):
return repr(filename)[1:-1]
try:
print(filename)
except UnicodeEncodeError:
print(bad_filename(filename))
這一小節(jié)討論的是在編寫必須處理文件系統(tǒng)的程序時(shí)一個(gè)不太常見但又很棘手的問題。默認(rèn)情況下,Python假定所有文件名都已經(jīng)根據(jù) sys.getfilesystemencoding()
的值編碼過了。但是,有一些文件系統(tǒng)并沒有強(qiáng)制要求這樣做,因此允許創(chuàng)建文件名沒有正確編碼的文件。這種情況不太常見,但是總會有些用戶冒險(xiǎn)這樣做或者是無意之中這樣做了(可能是在一個(gè)有缺陷的代碼中給 open()
函數(shù)傳遞了一個(gè)不合規(guī)范的文件名)。
當(dāng)執(zhí)行類似 os.listdir()
這樣的函數(shù)時(shí),這些不合規(guī)范的文件名就會讓Python陷入困境。一方面,它不能僅僅只是丟棄這些不合格的名字。而另一方面,它又不能將這些文件名轉(zhuǎn)換為正確的文本字符串。Python對這個(gè)問題的解決方案是從文件名中獲取未解碼的字節(jié)值比如 \xhh
并將它映射成Unicode字符 \udchh
表示的所謂的”代理編碼”。下面一個(gè)例子演示了當(dāng)一個(gè)不合格目錄列表中含有一個(gè)文件名為b?d.txt(使用Latin-1而不是UTF-8編碼)時(shí)的樣子:
>>> import os
>>> files = os.listdir('.')
>>> files
['spam.py', 'b\udce4d.txt', 'foo.txt']
>>>
如果你有代碼需要操作文件名或者將文件名傳遞給 open()
這樣的函數(shù),一切都能正常工作。只有當(dāng)你想要輸出文件名時(shí)才會碰到些麻煩(比如打印輸出到屏幕或日志文件等)。特別的,當(dāng)你想打印上面的文件名列表時(shí),你的程序就會崩潰:
>>> for name in files:
... print(name)
...
spam.py
Traceback (most recent call last):
File "<stdin>", line 2, in <module>
UnicodeEncodeError: 'utf-8' codec can't encode character '\udce4' in
position 1: surrogates not allowed
>>>
程序崩潰的原因就是字符 \udce4
是一個(gè)非法的Unicode字符。它其實(shí)是一個(gè)被稱為代理字符對的雙字符組合的后半部分。由于缺少了前半部分,因此它是個(gè)非法的Unicode。所以,唯一能成功輸出的方法就是當(dāng)遇到不合法文件名時(shí)采取相應(yīng)的補(bǔ)救措施。比如可以將上述代碼修改如下:
>>> for name in files:
... try:
... print(name)
... except UnicodeEncodeError:
... print(bad_filename(name))
...
spam.py
b\udce4d.txt
foo.txt
>>>
在 bad_filename()
函數(shù)中怎樣處置取決于你自己。另外一個(gè)選擇就是通過某種方式重新編碼,示例如下:
def bad_filename(filename):
temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape')
return temp.decode('latin-1')
譯者注:
surrogateescape:
這種是Python在絕大部分面向OS的API中所使用的錯(cuò)誤處理器,
它能以一種優(yōu)雅的方式處理由操作系統(tǒng)提供的數(shù)據(jù)的編碼問題。
在解碼出錯(cuò)時(shí)會將出錯(cuò)字節(jié)存儲到一個(gè)很少被使用到的Unicode編碼范圍內(nèi)。
在編碼時(shí)將那些隱藏值又還原回原先解碼失敗的字節(jié)序列。
它不僅對于OS API非常有用,也能很容易的處理其他情況下的編碼錯(cuò)誤。
使用這個(gè)版本產(chǎn)生的輸出如下:
>>> for name in files:
... try:
... print(name)
... except UnicodeEncodeError:
... print(bad_filename(name))
...
spam.py
b?d.txt
foo.txt
>>>
這一小節(jié)主題可能會被大部分讀者所忽略。但是如果你在編寫依賴文件名和文件系統(tǒng)的關(guān)鍵任務(wù)程序時(shí),就必須得考慮到這個(gè)。否則你可能會在某個(gè)周末被叫到辦公室去調(diào)試一些令人費(fèi)解的錯(cuò)誤。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: