PYTHON facile

tbxhtmllib.py : Extraction des tables d'un document XHTML.

 

Description

Le fichier tbxhtmllib.py contient la classe tableXHTMLParser.

La classe tableXHTMLParser extrait les données contenues dans les 'tables' d'un document XHTML. Elle crée une liste structurée contenant les lignes et les cellules des tables. Chaque table débute par un dictionaire contenant divers attributs.

Cette page html peut être utilisée; comme document de test dont on peut voir plus bas le résultat du traitement sur la zone de test. Elle est basée sur la classe XHTMLParser.

Cette classe a été; testée avec Python 2.1.1 :

ActivePython 2.1.1, build 212 (ActiveState)
Python 2.1.1 (#20, Jul 26 2001, 11:38:51) [MSC 32 bit (Intel)] on win32

Zone de test

 
Table sur un seul niveau
Type Valeur
entier 12
flottant 12.0
chaine "chaine"
liens Voir le résultat
image Valid XHTML 1.0!
 
Table in Table
table
in table 1 in table 2
in table 3 in table 4

Résultat

 
>python tbxhtmllib.py tbxhtmllib.html

Titre du document XHTML: Python - tbxhtmllib.py - XHTMLParser - Table

liste des tables:
[[{'caption': ['Table sur un seul niveau'],
   'summary': 'Table contenant divers elements',
   'title': 'Table de Test'},
  [['type'], ['valeur']],
  [['entier'], [12]],
  [['flottant'], [12.0]],
  [['chaine'], ['"chaine"']],
  [['liens'], ['__link__', 'Voir le r\xe9sultat']],
  [['image'], ['__img__']]],
 [{'caption': ['Table in Table'],
   'summary': 'Table contenant une autre table',
   'title': 'Table parente'},
  [['table'],
   [[{'caption': '',
      'summary': 'Table in Table',
      'title': 'Table in Table'},
     [['in table 1'], ['in table 2']],
     [['in table 3'], ['in table 4']]]]]]]

Téléchargement

Source - V 0.3.0 - xhtmllib.py

Ce fichier source est en 'texte brut', utiliser la commande 'enregister-sous' de votre navigateur internet pour le copier.

xhtmllib.py - V 0.3.0 - Format zip - Format tar.gz - Format tar.bz2

Les fichiers sont compressés suivant différents formats. Après décompression on peux soit copier les fichiers soi-même dans son arborescence python, soit automatiser la procédure en tapant la commande : python setup.py install.

xhtmllib.py - V 0.3.0 - Installeur Windows

C'est un exécutable qui installe le module ou le package, généralement dans Lib/site-packages. il met aussi à jour la base de registre pour permettre la désintallation via le panneau de configuration.


Historique des versions


Contact

Pour tous renseignements et critiques: E-mail

Valid XHTML 1.0! Valid CSS 2.0!