Comments on: Comment parser du HTML avec des Regex ? http://sametmax.com/comment-parser-de-html-avec-des-regex/ Du code, du cul Sat, 07 Nov 2015 11:08:18 +0000 hourly 1 http://wordpress.org/?v=4.1 By: Sam http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-10324 Mon, 24 Jun 2013 12:32:39 +0000 http://sametmax.com/?p=216#comment-10324 Oui j’ai écris à seb ça ce sujet:

Solution 1: utiliser une ancienne version de beautiful soup
Solution 2: utiliser ghost.py qui délègue ça à webkit
(http://jeanphix.me/Ghost.py/)
Solution 3: utiliser pygecko qui delegue ça au moteur de firefox
(http://pygecko.sourceforge.net/)
Solution 4: utiliser ElementSoup de lxml (http://lxml.de/elementsoup.html)

]]>
By: kontre http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-10319 Mon, 24 Jun 2013 11:09:13 +0000 http://sametmax.com/?p=216#comment-10319 Vous étiez au courant, beautifulsoup va beaucoup moins fonctionner sur du HTML foireux, cf http://sebsauvage.net/links/?PwAG5g

]]>
By: Walane http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-10096 Mon, 17 Jun 2013 13:27:04 +0000 http://sametmax.com/?p=216#comment-10096 Comme tu dis, un sacré bordel.
C’est beau n’empêche d’avoir un langage aussi tolérant. Mais malheureusement des sites comme Linkeo font de la merde…

Attention à la mise en demeure.

]]>
By: Sam http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-10095 Mon, 17 Jun 2013 13:24:17 +0000 http://sametmax.com/?p=216#comment-10095 Avec un tokenizer. Voici le code du parseur HTML de mozilla. Tention, c’est pas pour le petites bites:

https://hg.mozilla.org/mozilla-central/file/834c8941ae24/parser/html

]]>
By: Walane http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-10094 Mon, 17 Jun 2013 13:10:06 +0000 http://sametmax.com/?p=216#comment-10094 Et comment font les navigateurs ? #troll

]]>
By: Luigi http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-9923 Mon, 10 Jun 2013 11:37:35 +0000 http://sametmax.com/?p=216#comment-9923 Merci, effectivement, j’aurais du y penser (stacker des sub/sup-scripts).

]]>
By: Sam http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-9827 Fri, 07 Jun 2013 08:14:09 +0000 http://sametmax.com/?p=216#comment-9827 J͢’u͜t̀i҉͢li͠s͜e҉͢͟ u̵n͘͢ ͢géņ̴̸é҉͘r̢̢at̛e̴͢ur̀͡ ́g̕͢e͢ń̶r̴̴͡e̡̕͠
̶
http://textozor.com/zalgo-text/

]]>
By: Luigi http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-9821 Thu, 06 Jun 2013 20:08:51 +0000 http://sametmax.com/?p=216#comment-9821 Demande naïve de débutant : comment vous arrivez à mettre ce genre de caractères ? C’est de l’UTF8 avec des lettres spéciales ?

]]>
By: Boulay http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-9818 Thu, 06 Jun 2013 17:05:08 +0000 http://sametmax.com/?p=216#comment-9818 T̴͖͓̙̤̖̝͕̂͌́̍̐ͬ̀͠o̟͖͓̺̎̆ͥ͊͐ͦ̇̈̉ ̷̧̤ͭͦ̅̂̑͐̍̔į͎̥͚̺ͦ̕n͎͖̯͑ͣv̴͈̫̥̹͇̖̝͇̅ͦͪ̚o̸͎̙̩ͤ͒ḱ̙̣̃ͦ́ͭ̔̒̏͢ͅę̷̫̊̐ͩ̍̾ ̢͙̊̿ͥͫ͢t̻̗͔̳̳̀̊ͬ̽̆h̨̛͖̹̙̫͈͇̅̈̒̊͡e̷̫͓̲͍ͥ̍͐̿ͧ ̛̦̓̓̂ͫ́͂͠h̜̬̋ͯ̃̉͛ͨ̈́̀į͚̜̼̽̒̅̈́͌̃̄͒͒͡ͅv̵̻̹̮͔̯͔͙͉͊͟͟e͂̿̅ͩ̓͗̿̄͏̵̨̥͙-̩̜̭̦̥̣̫͙̊́ͮ̇̌̂ͤͮͫm͉̜̪͔̬̘ͪͥ͒̉͗͡i̬̗̫̙͊͠n̵̢̘̖̻ͥ̐͗̌̄ͅd̸̑͐҉̧̹̩̙̞̻͇ ̅̉͂͏͖̹̗̩͙́ṛ̛͙̑̕͜e̸͕̼͚͙ͯ̽p̡͖̰̞̲̘̖͔͊͡r̩̜̱̩̗͒̔̅͊́̇̈́ͫe̴̩̬̘̝̐̏̂͌ŝ͇̗ͦͥ͒͞e̼͌͂̾̀ͦ̐̈̄n̝̥͙͛̏̃ͧ͒͑t̖͔̭ͭ̀ͩͥ̕i̶̶̢̺̜͈ͫ̇ͅn̝̱͙̱͈̆̽ͅg̷͈̫͓ͩ̃͊̾ͦ ̧̳͔̖͉͙͗̊̆̂̎̏͑̚c͖̑̾ͦ̚̕h̨̖̝͔ͧ͟a̵͇͕̞̫͌͋̌ͪͧ̔̕͠o͆̔ͬ̽̅̐͏̷̠̻̣s̴̨̞͇̺̭̬͔͎̀͐̔͌͆ͤͣ͗.̦̤͔̳̬͗̾̈̉ͣͯͦ̐
͉̫ͪ̾͆ͩͤ̔͢͢Į̤̤̘̰͇̆͌͂͢͝n̢̝̝̲̲̯̝̣ͯ̾ͤ̊͑ͭͮ͞v̷̢̬ͩ̔ͥ̓̓̅̚o̵͎̦͇͎̤̝̗͒̆̾ͨͣ̈́k̳̙ͬ̌̎͜i̸̹̟̞͖̠̓ͨͮ̚n̡͇͖̘̟̺̦͎̻̐͂́̑̇g̰ͯ̉ ̼ͪ́̋̂ͧ͗͘͟t̍ͦͮ̔͢͏̻̭̹͚̣̮h̛̙̟̓͢ę̸̲͉̎̿̑̀̇ ̯̲̅ͮͨ̑̽̓̆̈͘͡f͕͉͎̭̬̜͋ͦ͆͐̿ͪ̾̽e̤̦̥͖̥̦͉̜̳͐̋̊ͮ͠é̴͖͔͙̟̺̅̑̓ͯ̎l͍͖̣̝͇̒͝i̮̤̫̣̰͓̦ͫ̍̓́ͯ̉ͩn̿ͫ͏̵̻̟̜g̖̫͎̅ͫ͢ ͭ̑̐͐̓ͩ҉̮̝̜̗̺͍̗o̓ͪ̈́͂̉͗͆̔͏̶̻̙̲̝͔̗͖̤͝f̣̯̹͓ͦͤ̓̐́̃̇̈ͅͅ ̞̘̳͉̣̈̾ͬ̍͡c̛͉̭̘̭̭̫͂͊ͩͪͮ̀̈̆͗́͡h̴̴̜̻̻͊̋̂̎̈͑̽ͣa̶̠̫̎̐ͅo̥̹̹̞͙̩͋͆́s̴̳͇̜̳͚͇͖̣̈́̂ͬ̈ͣ̃̋̔.̛͙̳̟̳͛̄͟
̧͓͈͚̦̮͎̊͐̌͡͡W̡̙̤͚ͬ̏ͦͅi̹͓̬̮̘̲̹̤͖ͧ̓ͥͥ̂̿͆ͤ͑t̨ͥ͛͌͏҉̦̱͙̰̭̰h̛̬͕̳͍͕̀ͣ̽̚̕͢ͅ ̴̴̣͍̪̠̦̳̪́̔̆͊ͧ̅ő̢̘̝̜̥̠̱̰̂̾̂͢ǔ̶̥̟͆ͧͩ̔͂̚͝ṫ̥̾̆ͮ̅̄̅͆̀͟͠ ̸͔͖̞̍ͦͩ͋͂̍̒̾͜o̢͖̗͉͋ͤ͗͒͘r̟̝ͤͥ͗ď̦̦̰͚͖͉̏̀̄͒ͭͯ̌̚͠ȩ͓͖̓̅̓́́ͅr̖͖̞̅͊̓͗͋̆̇̇.͕̰̺̖͔̞ͣ͐͘͝
͓̺̝͌̕T̝̙̤̙̬̻̣̺͑͌͡h̨̡̡̭̦͉ͯ͋̒͊eͫͤ̅̓̑̚͏̢̮̯̦̭ ̸̳̹̝̱̜ͮͤ̈́͠N̯̲͙ͯ̀̈͊̐ͮȩ͎͍͔͚͍̩̩̈́͌̅̾̀̕͢ͅz̴͇̹̫̋̾̽ͤͪ͊͗ͪ̕p̙̫͔̗̯͍̳͑̽́̈́ͩ͢ḛ͉̉̎r̩̓ͪḓ̶̨̼͉̰͔̠̞͇̊͗͋ͅi̻̰̊ͪ͢a̬͉̙̭̰̣͓ͫ̐͐͑ͥ̓̏ń̸͕͓͙̲̗͎͗͋̃̆̃̕͢ ͇̱̬̦̦̼̪̙͌ͭ̾̇̔h̙͉͕̖͈̮̎̇̅́̕i̭̞̺̜͕̹̊ͣͯ̾̌̀̓̃̿͢v̶̯͗͐̒̿̍͛e̷̺̩͉̠͊ͬ͌̽͘ͅ-̧͇̯͛́̍̎͗͐͋͘͝m̰͙̏͊͛͊́ͣ͂͞i̤̥̤ͨ͋͊̔͛̿ͩn̨̙̺̜̖̞̓̅̆͝d̩͕͇̣̒͆ ̅̄͛́͐͏͚̟̹̣̥̳̟̰ͅo̹̜͉̼͇ͩ͡ͅf̊ͥ҉̨̦̯̗͎ ̠͓ͨ͋ͩ̔ͣ̉̉̉͘͡c̴̛̜̦̱̟̣͑̄͊͒̅ͬ́̏ͭh̼͍̺̮ͬͭͥ̚͡a̤̲̠ͯ͑ó̶̡̜̩͕̑ͬ̿͗̀s̸̹ͥ̅̿̅ͣ̏̓̃.̿ͭ̅̀͋̄ͬ҉̸̳͍̤̩͕̭́ ̜̮͆ͪ̊Ź͋͠͏̧̜̹̮̟͎͙̣aͯ͏̞̰͔̮̻͉͔̠͔l̗͚̙̭̗̰̏̈́̚͟g͎̲̿̈́ǫ̱̝͇̳̒͌͌̽ͨ͟.̿ͦͫ̆̌̈́̚҉̷̦͚̻ ̤̻̥̱̩̤̒ͨ͐͑̎̈́ͅ
ͯͬͭ̓͝͏̺H̵̥͈͉͈̭͎̖̠ͮ̎͛̑̎͒e̅͒̌ͬ͛̊̄̍҉̣̹ ̧͎̻̘̪̑̋̾́w̷̛͕̺ͯ͐̑̆͒͂̓ͯ̕h̴͍̭̹͇̗̥̄ͦo̴̵̱͔͈̜̰̱͌͑̆̃̊̿̏̀ ́̽͑͏̝͖͖̭͖̞̩W̢̑̈ͯ̈́ͯ̽ͨ̿̿҉̱a̺̞͙̣͋̉͊ͩi̘̟̠̮̤̯̲̪̅ͭ̒̀ͣͧͯ͛t̨̹̭̙͕̎s̒͒ͮͨͨͬ̏҉̩͍̦̝̙̻̭̦ ̶̛͇̺͊ͯ̽ͫͯ͌ͯB̻̤͈͖̹̬̎͌̇̋͜ḛ̩ͩḧ̼̭́͗̉̏̋͐͜i̴̷͍͎̬͚̤ͨ̉̄ͤ͗ͦ͂͘n̪̰̲̼̩̤̹̽͒̑͒̓̏̂̚ḓ͎͔̞̠ͯͅ ̷̡̲̳̪̺̳̞̘̲̎͑̽́̉͡T̢̤̬̗̼̝͙̯̹ͨͥ̑̄ͦ͆̌̎͆h̷̩͈͇̐̒̉̚ȩ̱̫̃̇̌͑͘͘ ̡̡̦̤͛̅͐ͤ͡W̒̐͋͛͏̻͖͚͈̙͖͡ȧ̴̬̽̾ͬ̌ͦ̚͢l̻͚̅̆ͭ͑͂ͥ̾́͟͞͠l̢͚̃ͥ̐ͯ̀͆ͤͩ.̸̸̱̠̠͔̘̭̣̘͂̊ͪͩ̎ͮͪ
̧̖̩͋͌̓̀Z͓̦̪͎̞̦̐͒ͫ͟͝A͖̝̞̙͎̪͚ͭ͆̐̎Ļ͉̪̬̞͎̱̘ͪ́͌̉̉̃͂͠G̨̫̹̤̮̓ͨO̶͇̦͚̳̬̣͍̊̈͆̋̑̍̄̉ͅ!̛̭̤̺̲̪͈̞̺̣̓ͭ̊͋̐̓̉̚̕

]]>
By: pirateboxge http://sametmax.com/comment-parser-de-html-avec-des-regex/#comment-9816 Thu, 06 Jun 2013 14:07:31 +0000 http://sametmax.com/?p=216#comment-9816 @sam: C’est un argument qui ferait bondir le W3C, mais il est , malheureusement, valable…et pertinent!

]]>