Comments on: Parser du HTML avec BeautifulSoup http://sametmax.com/parser-du-html-avec-beautifulsoup/ Deux développeurs en vadrouille qui se sortent les doigts du code Wed, 05 Feb 2014 12:15:31 +0000 hourly 1 http://wordpress.org/?v=3.3.1 By: Remram http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-19058 Remram Tue, 28 Jan 2014 15:49:58 +0000 http://sametmax.com/?p=6161#comment-19058 J'ai été récemment surpris, alors que je cherchais un moyen sans prise de tête de "downgrader" du HTML en text/plain, que BeautifulSoup n'avait aucun moyen préconçu de faire ça. J'ai fini par utiliser <a href="http://git.io/html2text" rel="nofollow">html2text</a> d'Aaron Swartz. J'ai raté un truc ? (me renvoyez pas vers get_text, <a href="http://git.io/py_html2text" rel="nofollow">ça pue</a>) J’ai été récemment surpris, alors que je cherchais un moyen sans prise de tête de “downgrader” du HTML en text/plain, que BeautifulSoup n’avait aucun moyen préconçu de faire ça. J’ai fini par utiliser html2text d’Aaron Swartz.

J’ai raté un truc ? (me renvoyez pas vers get_text, ça pue)

]]>
By: k3c http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-18996 k3c Sun, 26 Jan 2014 20:53:32 +0000 http://sametmax.com/?p=6161#comment-18996 Vérifie si rtmpdump et librtmpdump sont bien installés, et si la version est la même pour les 2 (la 2.4 pour moi). Tu peux aussi faire un test rapide, wget d'une Ubuntu 13.10 32 bits, puis qemu-img create -f qcow2 Ubuntu_1304_image.img 6G puis kvm -m 756 -cdrom Téléchargements/ubuntu-13.04-desktop-i386.iso -boot d Ubuntu_1304_image.img installation, reboot kvm -m 756 Ubuntu_1304_image.img installation de rtmpdum et librtmpdump, et test de la commande rtmpdump donnée dans l'article. rm du .img quand tu as fini. Vérifie si rtmpdump et librtmpdump sont bien installés, et si la version est la même pour les 2 (la 2.4 pour moi). Tu peux aussi faire un test rapide, wget d’une Ubuntu 13.10 32 bits, puis
qemu-img create -f qcow2 Ubuntu_1304_image.img 6G
puis
kvm -m 756 -cdrom Téléchargements/ubuntu-13.04-desktop-i386.iso -boot d Ubuntu_1304_image.img
installation, reboot
kvm -m 756 Ubuntu_1304_image.img
installation de rtmpdum et librtmpdump, et test de la commande rtmpdump donnée dans l’article.
rm du .img quand tu as fini.

]]>
By: tester http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-18959 tester Sat, 25 Jan 2014 20:08:00 +0000 http://sametmax.com/?p=6161#comment-18959 Merci pour la réponse k3c ;) En fait c'est carrément la bande annonce que je n'arrive pas à récupérer, ça bloque à 2.60% chez moi avec un retour erreur <code>Download may be incomplete (downloaded about 2.60%), try resuming</code> L'argument -e n'y fait rien...j'ai toujours galèrer avec rtmpdump donc je voulais savoir si ça venait de chez moi ou pas (visiblement oui...). Merci pour la réponse k3c ;)
En fait c’est carrément la bande annonce que je n’arrive pas à récupérer, ça bloque à 2.60% chez moi avec un retour erreur
Download may be incomplete (downloaded about 2.60%), try resuming
L’argument -e n’y fait rien…j’ai toujours galèrer avec rtmpdump donc je voulais savoir si ça venait de chez moi ou pas (visiblement oui…).

]]>
By: k3c http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-18957 k3c Sat, 25 Jan 2014 18:56:56 +0000 http://sametmax.com/?p=6161#comment-18957 La vidéo de D8 est une bande-annonce, donc courte. En matière de replay, on ne sait pas récupérer uniquement les vidéos de M6 qui utilisent du Flash Access (Protected Http Dynamic Streaming). La plupart des sites de replay se téléchargent avec rtmpdump ou AdobeHDS.php, certains encore plus simples, avec juste un wget/curl/msdl. Les sites étrangers demandent un proxy en général uniquement pour trouver l'adresse de la vidéo, ensuite la commande à passer n'a pas besoin de proxy. La vidéo de D8 est une bande-annonce, donc courte. En matière de replay, on ne sait pas récupérer uniquement les vidéos de M6 qui utilisent du Flash Access (Protected Http Dynamic Streaming). La plupart des sites de replay se téléchargent avec rtmpdump ou AdobeHDS.php, certains encore plus simples, avec juste un wget/curl/msdl. Les sites étrangers demandent un proxy en général uniquement pour trouver l’adresse de la vidéo, ensuite la commande à passer n’a pas besoin de proxy.

]]>
By: tester http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-18949 tester Sat, 25 Jan 2014 15:11:03 +0000 http://sametmax.com/?p=6161#comment-18949 Elles ne sont pas fragmentées les videos dans la VOD de D8 ? Parce que la commande rtpmdump me renvoie qu'une portion... Elles ne sont pas fragmentées les videos dans la VOD de D8 ? Parce que la commande rtpmdump me renvoie qu’une portion…

]]>
By: Sam http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-18947 Sam Sat, 25 Jan 2014 12:38:03 +0000 http://sametmax.com/?p=6161#comment-18947 Merci à vous deux, c'est corrigé ! Merci à vous deux, c’est corrigé !

]]>
By: Gontran http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-18945 Gontran Sat, 25 Jan 2014 12:06:25 +0000 http://sametmax.com/?p=6161#comment-18945 "possède un attribut “class” dont la valeur est “boldest”. On peut accéder les attributs d’un tag en le traitant comme un dictionaire :" Manque >>> tag['class'] “possède un attribut “class” dont la valeur est “boldest”. On peut accéder les attributs d’un tag en le traitant comme un dictionaire :”

Manque
>>> tag['class']

]]>
By: fpp http://sametmax.com/parser-du-html-avec-beautifulsoup/#comment-18943 fpp Sat, 25 Jan 2014 10:03:53 +0000 http://sametmax.com/?p=6161#comment-18943 Petit bug dans l'URL de la vidéo D8 au tout début (hhttp :-) Petit bug dans l’URL de la vidéo D8 au tout début (hhttp :-)

]]>