L’encoding en Python, une bonne fois pour toute

roro

21/04/2013

Merci, merci, merci, et…MERCI.
Ta statue sera équestre. Pas moins.

Sam

21/04/2013

Fait gaffe aux nombres de pieds en l’air pour le cheval. J’ai pas envie qu’on me prenne pour un macabé.

Pour la matière, le bronze est mon meilleur profile.

k3c

21/04/2013

s/et le jour où ça se gatte/et le jour où ça se gâte
s/à ou d’autres langage/à où d’autres langages
s/Et certains on plusieurs noms/Et certains ont plusieurs noms
s/c’est ce qu’on appelles les encodings/c’est ce qu’on appelle les encodings
s/Certaines bibliothèque /Certaines bibliothèques

Le sodomiseur de coléoptères :-)

Merci pour l’article, je pensais pas trop mal connaître le sujet, mais visiblement non.

Sam

21/04/2013

Bah tu sais moi je me dis après chaque article que j’ai bien tout relu et qu’il reste pas de faute. Mais visiblement non.

fab

21/04/2013

Franchement merci.
Pour avoir lu plein de choses sur le sujet, mal compris, confondu le vocabulaire, oublié le lendemain, etc… c’est l’article qui explique le mieux et le plus concrètement l’encoding. C’est de la même veine que les articles sur la programmation orientée objet qui sont d’un niveau pédagogique inégalé parmis tout ce que j’ai pu lire. La théorie et les bases sont parfaitement expliquées avec toujours une application concrète. C’est limpide et efficace.
Cela fait un petit moment que je suis régulièrement votre blog, c’est une petite pépite, donc bravo et surtout un grand merci pour le partage car mine du rien c’est du boulot.

Sam

21/04/2013

\ o /

Lyyn

21/04/2013

Yeah, ça part dans mes favoris ! Merci pour l’article !

JeromeJ

21/04/2013

Premier commentaire constructif de la journée :

Vous avez déjà utilisé cette image d’entête d’article pour un autre article, c’est trop nul, vous perdez votre originalité.

<3

Sam

21/04/2013

Meeeeeeeeeeeeerde, j’ai eu un doute en plus.

EDIT: m’en fout, je l’ai changé.

JeromeJ

22/04/2013

Sinon plus sérieusement … c’est un peu perturbant, vous parlez un peu des différences avec Python3 mais la majorité des exemples sont en Python2 et vu que les différences entre python2 et 3 (à ce niveau là en tout cas) sont super chiantes et prêtent à confusion, bah du coup c’est un peu plus dur de bien vous suivre partout (moi qui suis 100% Python3), dommage … Article bien complet sinon :) Merci.

Ah et si l’un de vous à une solution simple pour faire en sorte que les encodings de stdout et stdin se mettent en UTF-8 par défaut, ça serait pas mal. (Surtout que ce sont des propriétés en read only donc, à part des méthodes bizarroïde au lancement de Python (en console), je ne sais même pas si y a moyen de les modifier en live).

JeromeJ

22/04/2013

Au fait, ~~je veux~~ j’aurais bien voulu un tampon :( (tout ça pour ça bitch !)

Max

22/04/2013

le tampon ça se mérite jeune homme ! N’est pas tamponné qui veut.

Sam

22/04/2013

@JeromeJ: pour Python3, c’est pareil, exactement le même article sauf que:

- le type ‘unicode’ est appelé ‘str’ et est celui créé par défaut quand on fabrique une chaîne
- le type décodé est appelé ‘byte’
- pas besoin de déclarer “# -*- coding: utf-8 -*-” si ton fichier est en UTF8 car c’est maintenant la valeur par defaut

C’est tout. Tout le reste est pareil.

Quand à s’assurer que toute écriture sur sdtout est en UTF8, c’est sans doute possible en faisant un truc du genre :

 
 
import sys
from codecs import getwritter
 
sys.__stdout__ =  getwriter('utf8')(sys.stdout.buffer)

Mais je ne le recommanderais pas car :

- ça remplace stout pour tout le code, y compris les libs tierces parties et qui sait ce que ça peut provoquer
- ça rend le code importable (stdout n’est pas en utf8 sous windows, et ça printera un truc illisible)
- ton script peut changer de context en cours d’éxécution, et sdtout ne sera alors plus le même, avec potentiellement un encoding différent

D’une manière générale il vaut mieux spécifier l’encoding par défaut directement sur les fonctions qui font l’opération d’écriture. Par exemple:

import sys
from codecs import getwriter
from functools import partial
 
p = partial(print, file=codecs.getwriter('utf8')(sys.stdout.buffer))
p('yéééééééé') # cette fonction print toujours sur stdout en UTF8

Une alternative est de setter la bonne variable d’environnement pour que Python remplisse stdout avec l’encoding que l’on souhaite. Par exemple sous Ubuntu :

http://drj11.wordpress.com/2007/05/14/python-how-is-sysstdoutencoding-chosen/

(ou PYTHONIOENCODING=utf-8:surrogateescape python somescript.py selon les versions)

Cela conditionne par ailleur le résultat de :

>>> import locale
>>> locale.getdefaultlocale()[1]

JeromeJ

22/04/2013

@Max: J’aurais essayé !

@Sam: Bien ce que je craignais … Pas mal l’idée de wrapper print avec functools.partial, j’aime !

(C’est bien le prob c’est que je travaille à moitié sous Windows)

Sam

22/04/2013

Le terminal de windows n’est pas configuré pour afficher de l’UTF8, Python ne pourra rien y changer. Il faut soit y printer l’encoding qu’il utilise actuellement (et se limiter aux caractères qu’il accepte du coup). On peut le trouver en faisant (il me semble):

>>> import locale
>>> locale.getdefaultlocale()
('fr_FR', 'UTF-8')

Mais print devrait se charger de le faire automatiquement en Python3 donc ça devrait pas poser de problème. Simplement tu oublis les caractères chinois.

Soit setter l’encoding avant avec une commande :

http://stackoverflow.com/questions/388490/unicode-characters-in-windows-command-line-how

Ce n’est pas particulièrement lié à Python, c’est pareil dans tous les langages sous Windows car cet OS n’a pas adopté utf8 par default.

desfrenes

22/04/2013

“Par défaut, Python plante sur les erreurs d’encoding là ou d’autres langage (comme le PHP) se débrouillent pour vous sortir un truc (qui ne veut rien dire, qui peut corrompre toute votre base de données, mais qui ne plante pas).”

Ouais… bah vaut mieux que ça plante, au moins ça donne l’occasion de réparer proprement.

Merci pour cet excellent résumé.

AxelF

22/04/2013

Il y a encore des choses plus rigolotes à faire avec l’encoding. Par exemple ce fichier est tout à fait valide :

# -*- coding: rot13 -*- cevag h'Obawbhe fnz'

j’avais découvert ça il y a quelques temps sur linuxfr, avec même en prime l’encodage en brainfuck, mais on peut également imaginer encoder son fichier en whitespace ou tout autre encodage hyper pratique …

Sam

22/04/2013

Tristement, ça ne marche plus avec Python 3. On pouvait aussi utiliser base64, zlib, etc.

kontre

22/04/2013

Uhu : http://sebsauvage.net/links/?Q3zlyg
Coïncidence ?

C’est la première fois que j’ai l’espoir de comprendre et d’utiliser correctement les fichues chaînes de caractère en python. Chapeau les mecs ! Mais je flippe quand même de modifier mon code sur ce sujet, qui fonctionne actuellement à peu près.

Par rapport à codec.open, il y a ça dans la doc :

Note
Files are always opened in binary mode, even if no binary mode was specified. This is done to avoid data loss due to encodings using 8-bit values. This means that no automatic conversion of ‘\n’ is done on reading and writing.

Ça peut être emmerdant ça ? Il y a un moyen simple de faire la conversion à la main ?

Sam

22/04/2013

Je dirais qu’un bon strip() fera bien l’affaire :-)

kontre

22/04/2013

En effet, ça marche bien à la lecture, mais du coup pas à l’écriture. Y’a plus qu’à utiliser la version standard sans oublier de convertir, j’ai l’impression.

kontre

22/04/2013

Autre différence python2/3 : les exceptions. En python3 on peut leur passer un message en unicode, alors qu’en python2 il faut le .encode(“utf-8). Et ça chie avec les docstrings, après…

YvesD

22/04/2013

Bel article, bravo, j’aime bien la structuration en entrée (eh eh les entrées, règle #4, plat (le traitement python), dessert (les sorties, règle #5).

Cependant je vois souvent comme directivepython, les 2 écritures pour UTF8:

# -*- coding: utf8 -*-
ou
# -*- coding: utf-8 -*-

Est-ce la même chose ? Laquelle est à privilégiée ?

Sam

22/04/2013

C’est kif kif.

Orlanth

22/04/2013

Copié collé direct dans mes notes, à côté de : http://sebsauvage.net/python/charsets_et_encoding.html

Gring

23/04/2013

Merc＀ p〇ʋr cごt art%cle tr⁋s instrucⁱf !

mentat

23/04/2013

stdin et pas stding dans :
sys.(stding|stdout).encoding.

A part çà, rien à redire, c’est nickel comme d’hab !

Sam

23/04/2013

C’est l’acceng, c’est pour ça.

Kyoku57

05/05/2013

Alors là, très bon article !

Quelque soit le langage, le problème le plus récurrent est toujours celui de la manipulation des différents types d’encoding.

Je ne te parle pas de ceux qui développent sous Windows avec un CP-1252 par défaut dans tous les logiciels et qui même avec un réglage de l’IDE finit un jour où l’autre par te ressortir l’encoding par défaut genre .. à la réouverture.

Bref, éternel problème que tu as très bien mis en évidence. Tout le problème est d’origine interface chaise-clavier. Il faut se sortir les doigts du boule pour faire du propre.

yuiio

05/08/2013

Juste merci

A_Vgyle

27/09/2013

Merci grandement!
2 jours que je plante sur ces %?!/%££!! d’encoding, et en 15 minutes… Réglé
Thanx
Continue!!!

Max

01/10/2013

C’est laborieux chez leaseweb :/
Ensuite ça a été un probleme de varnish qui s’est bien lancé quand leaseweb a reboot les VPS mais qui pour une raison mystérieuse ne voulait rien savoir :/

Guts

16/10/2013

Merci pour l’article qui m’a bien aidé sur certains points de blocage mais il y a toujours quelque chose que je ne parviens pas à résoudre : le parsing (avec os.walk) de fichiers qui contiennent des accents. Ce qui me déroute surtout c’est la différence entre Windows et Ubuntu.

Dans mon programme j’ai une fonction (li_geofiles()) chargée de lister les fichiers compatibles (selon leur extension et l’existence de leurs dépendances) contenus dans une arborescence à partir d’un dossier indiqué par l’utilisateur (foldertarget retourné via tkMessageBox.askdirectory) et qui bloque sur les noms de fichiers qui contiennent un accent…mais seulement sur Ubuntu ! Ça fait 2 jours que je me flagelle là-dessus et j’ai essayé qqls solutions :
- un try/except sur le nom de fichier et réencodage à la volée (solution choisie) mais qui a le (gros) défaut de ne pas lister les fichiers avec accents (os.path.isfile ne les reconnaît pas…)
- passer foldertarget en unicode mais ça marche pô (idem avec path.normpath(foldertarget)

Voici la fonction en question :

for root, dirs, files in walk(foldertarget):
    self.num_folders = self.num_folders + len(dirs)
        for f in files:
            try:
                unicode(path.join(root, f))
                full_path = path.join(root, f)
            except UnicodeDecodeError, e:
                full_path = path.join(root, f.decode('latin1').encode('utf8'))
                self.logger.error("%s:%s" % (e, f.decode('utf-8')))
            # Looping on files contained
            if path.splitext(full_path.lower())[1] == '.shp' and \
                path.isfile('%s.dbf'.lower() % full_path[:-4]) and \
                path.isfile('%s.shx'.lower() % full_path[:-4]) and \
                path.isfile('%s.prj'.lower() % full_path[:-4]):
                    # add complete path of shapefile
                    self.li_shp.append(full_path)
            elif path.splitext(full_path.lower())[1] == '.tab' and \
                path.isfile(full_path[:-4]+ '.dat'.lower()) and \
                path.isfile(full_path[:-4]+ '.map'.lower()) and \
                path.isfile(full_path[:-4]+ '.id'.lower()):
                    # add complete path of MapInfo file
                    self.li_tab.append(full_path)

Si quelqu’un voit le problème…et surtout la solution !

PS : je suis géographe à la base donc pas vraiment un développeur… #indulgence

Adrien

04/11/2013

Un grand merci, enfin un tuto qui va à l’essentiel. J’ai enfin compris comment ça fonctionne.

Bromway

26/12/2013

Juste au Top!
Un super cadeau de Noel qui vient de m’offrir une ou deux nuit planche de moins

Réchèr

20/01/2014

Article auquel je me réfère régulièrement, car à chaque fois que je résout mes problèmes d’encodage, je ne me souviens plus comment je les ais résolus et je dois refaire le raisonnement dans mon cerveau.

Juste pour info : y’a des fois, syt.stdout.encoding renvoie None.

Je suis en python 2.7 sous Windows (oui, je sais), quand j’exécute mon script dans la console, j’ai “cp850″. Quand je l’exécute avec Ctrl-B dans Sublime Text, j’ai None.

Du coup, je fais le bourrin comme ça pour écrire sur stdout :

# récupération de l'encodage de la sortie standard.
encoding_out = sys.stdout.encoding
if encoding_out is None:
    encoding_out = "utf-8"
 
def pri(whatever):
    unicode_string = unicode(whatever)
    print unicode_string.encode(encoding_out, "replace")
 
pri("é mon cul cé du poulé.")

Réchèr

21/01/2014

Cela va sans dire, mais je précise que dans mon code précédent, j’ai bien évidemment mis le “from __future__ import unicode_literals” au début de mes fichiers.

Du coup la chaîne “é mon cul cé du poulé” est de l’unicode.

Et ça marche, je vois mes accents, aussi bien dans la console DOS que dans la console Sublime Text.

L’encoding en Python, une bonne fois pour toute

Règle numéro 1 : Le texte brut n’existe pas.

Règle numéro 2 : utf8 est le langage universel, utilisez le

Règle numéro 3 : il faut maîtriser l’encoding de son code

Règle numéro 4 : décodez toutes les entrées de votre programme

Règle numéro 5 : encodez toutes les sorties de votre programme

Résumé des règles

Quelques astuces

Les outils de la dernières chance

37 comments

Leave a Reply Cancel reply

Une lecture plus fastoche ?

Souscrire à nos conneries

Catégories

Posts récents

Posts Populaires

Archives

Flux RSS

Envoyez des sioux

L’encoding en Python, une bonne fois pour toute

Règle numéro 1 : Le texte brut n’existe pas.

Règle numéro 2 : utf8 est le langage universel, utilisez le

Règle numéro 3 : il faut maîtriser l’encoding de son code

Règle numéro 4 : décodez toutes les entrées de votre programme

Règle numéro 5 : encodez toutes les sorties de votre programme

Résumé des règles

Quelques astuces

Les outils de la dernières chance

Partager:

37 comments

Leave a Reply Cancel reply

Une lecture plus fastoche ?

Souscrire à nos conneries

Catégories

Posts récents

Posts Populaires

TagCloud

Archives

Flux RSS

Envoyez des sioux