PYTHON facile

dcxhtmllib.py : Extraction de toutes les données d'un document XHTML.

 

Description

Le fichier dcxhtmllib.py contient la classe docXHTMLParser. Elle créée une liste structurée des données contenues dans un document XHTML. La structure obtenue est celle du document XHTML avec les tags 'header', 'table' et 'p' principalement.

Cette page html peut être utilisée comme document de test dont on peut voir plus bas le résultat du traitement sur la zone de test. Elle est basée sur la classe XHTMLParser.

Cette classe a été testée avec Python 2.1.1 :

ActivePython 2.1.1, build 212 (ActiveState)
Python 2.1.1 (#20, Jul 26 2001, 11:38:51) [MSC 32 bit (Intel)] on win32

Zone de test

 

niveau h1

niveau h2

niveau h3

Table
titre 1titre 2
Texte 1Texte 2

niveau h3

texte niveau 3

niveau h1

texte niveau 1

niveau h3

texte niveau 3


Résultat

Extrait de la "zone de test" :

>python dcxhtmllib.py dcxhtmllib.html

Titre du document XHTML: Python - dcxhtmllib.py - XHTMLParser - Document

 ...

   ['__h3__', 'Zone de test']]],
 ['__h1__',
  'niveau h1',
  ['__h2__',
   'niveau h2',
   ['__h3__',
    'niveau h3',
    ['__table__',
     {'caption': ['Table'],
      'summary': 'Table simple',
      'title': 'Table de Test'},
     [['titre 1'], ['titre 2']],
     [['Texte 1'], ['Texte 2']]]],
   ['__h3__', 'niveau h3', 'texte niveau 3']]],
 ['__h1__',
  'niveau h1',
  'texte niveau 1',
  ['__h3__', 'niveau h3', 'texte niveau 3'],
  
 ...

Afficher le module

Pour visualiser le source du module avec coloration syntaxique : xhtmllib.py


Téléchargement

Source - V 0.3.0 - xhtmllib.py

Ce fichier source est en 'texte brut', utiliser la commande 'enregister-sous' de votre navigateur internet pour le copier.

xhtmllib.py - V 0.3.0 - Format zip - Format tar.gz - Format tar.bz2

Les fichiers sont compressés suivant différents formats. Après décompression on peux soit copier les fichiers soi-même dans son arborescence python, soit automatiser la procédure en tapant la commande : python setup.py install.

xhtmllib.py - V 0.3.0 - Installeur Windows

C'est un exécutable qui installe le module ou le package, généralement dans Lib/site-packages. il met aussi à jour la base de registre pour permettre la désintallation via le panneau de configuration.


Historique des versions


Contact

Pour tous renseignements et critiques: E-mail

Valid XHTML 1.0! Valid CSS 2.0!