Rayon Développement d'applications, langages de programmation
De l'écrit au numérique : constituer, normaliser et exploiter les corpus électroniques

Fiche technique

Format : Broché
Nb de pages : 320 pages
Poids : 547 g
Dimensions : 16cm X 24cm
EAN : 9782225829536

De l'écrit au numérique

constituer, normaliser et exploiter les corpus électroniques


Collection(s) | Informatiques
Paru le
Broché 320 pages

Quatrième de couverture

Internet donne accès à un gisement considérable de connaissances sous forme électronique. Ce gisement est cependant rarement utilisable directement : il faut nettoyer les données textuelles disponibles et les ramener aux standards des documents électroniques (SGML, HTML, etc.).

Cet ouvrage présente les critères à prendre en compte pour constituer un corpus électronique représentatif. Il montre également comment le normaliser et comment l'exploiter. Mis au point et testé dans le cadre d'une formation professionnelle, cet ouvrage forme aux outils standard qui permettent de filtrer les données (grep), d'opérer des transformations simples (sed), de travailler sur des tableaux (awk), de segmenter (lex) et de structurer les textes (yacc) ou d'appliquer des traitements arbitrairement complexes (perl).

Un CD-Rom d'accompagnement permet de se familiariser avec ces notions en travaillant sur un corpus d'entraînement à l'aide des outils présentés. Ces manipulations et de nombreux exercices corrigés conduisent à une maîtrise effective de ces techniques. Cette formation pratique est complétée par la présentation des concepts (langages réguliers, automates...) et des standards (SGML, HTML, ISO-Latin1) dont la connaissance est indispensable dans le domaine en pleine expansion des corpus électroniques.

Biographie

Benoît Habert est maître de conférences en informatique à l'Ecole normale supérieure de Fontenay/Saint-Cloud.

Cécile Fabre est maître de conférences en linguistique à l'université de Toulouse-le-Mirail.

Fabrice Issac est ATER en informatique à l'Ecole normale supérieure de Fontenay/Saint-Cloud.

Avis des lecteurs

Du même auteur : Benoît Habert