Nettoyage d'un fichier html

23 réponses

Escargot

19/10/2015 à 14:27

Bonjour,

J'ai convertis un fichier tableur (LibreOffice Calc) en html pour
pouvoir le lire directement avec un navigateur Web.

Ce fichier a dans ses balises des "propriétés" propres à LibreOffice :

sdnum=" [du texte] "
sdval=" [une valeur] "

Comment faire avec Emacs pour enlever toutes ces "propriétés" et rendre
ainsi le fichier html plus léger ?

Le problème (pour moi) est que le texte ou la valeur indiqués entre
guillements ne sont pas toujours les mêmes.

Merci pour vos réponses.

J.

10 réponses

1 2 3

Jean-Jacques Rétorré

19/10/2015 à 22:21

lun. 19 oct. 2015, Escargot nous disait que :

Bonjour,

J'ai convertis un fichier tableur (LibreOffice Calc) en html pour
pouvoir le lire directement avec un navigateur Web.

Ce fichier a dans ses balises des "propriÃ©tÃ©s" propres Ã L ibreOffice :

sdnum=" [du texte] "
sdval=" [une valeur] "

Comment faire avec Emacs pour enlever toutes ces "propriÃ©tÃ©s" et
rendre ainsi le fichier html plus lÃ©ger ?

Le problÃ¨me (pour moi) est que le texte ou la valeur indiquÃ©s e ntre
guillements ne sont pas toujours les mÃªmes.

Merci pour vos rÃ©ponses.

J.

La regerxp :

b(sdnum|sdval)="[^"]*"

matche toutes les expressions
que tu veux Ã©liminer (chais plus comment on dit en franÃ§ais). Il suffit
de faire une recherche et remplacement par une chaÃ®ne vide.

Par exemple

C-M-% b(sdnum|sdval)="[^"]*" RET RET !

--
JJ R.

Sébastien Kirche

19/10/2015 à 22:26

Le 19 octobre 2015 à 14:27, Escargot vraute :

Bonjour,

Bonjour,

J'ai convertis un fichier tableur (LibreOffice Calc) en html pour
pouvoir le lire directement avec un navigateur Web.

Ce fichier a dans ses balises des "propriétés" propres à LibreOffice :

sdnum=" [du texte] "
sdval=" [une valeur] "

Comment faire avec Emacs pour enlever toutes ces "propriétés" et
rendre ainsi le fichier html plus léger ?

Le problème (pour moi) est que le texte ou la valeur indiqués entre
guillements ne sont pas toujours les mêmes.

Avec un petit motif de remplacement pour query-replace-regexp ?
Sur un petit jeu de données que j'ai simulé ici, un coup de C-M-S-% ou
M-x query-replace-regexp RET

motif à rechercher: (sdnum|sdval)=".*"
à remplacer par "" (chaine vide)

Si c'est susceptible de trouver du texte il sera mis en surbrillance et
Emacs se positionne sur le permier résultat en demandant une
confirmation :
- "y" pour accepter et passer au suivant
- "n" pour refuser et passer au suivant
si ça semble ok après 2 ou 3 remplacements, "!" permet d'effectuer tous
les remplacements restants en une fois sans confirmation supllémentaire.

HTH,
--
Sébastien Kirche

Jean-Jacques Rétorré

19/10/2015 à 22:31

lun. 19 oct. 2015, SÃ©bastien Kirche .invalid> nous disait que :

Le 19 octobre 2015 Ã 14:27, Escargot vraute :

Bonjour,

Bonjour,

J'ai convertis un fichier tableur (LibreOffice Calc) en html pour
pouvoir le lire directement avec un navigateur Web.

Ce fichier a dans ses balises des "propriÃ©tÃ©s" propres Ã LibreOffice :

sdnum=" [du texte] "
sdval=" [une valeur] "

Comment faire avec Emacs pour enlever toutes ces "propriÃ©tÃ©s" et
rendre ainsi le fichier html plus lÃ©ger ?

Le problÃ¨me (pour moi) est que le texte ou la valeur indiquÃ©s entre
guillements ne sont pas toujours les mÃªmes.

Avec un petit motif de remplacement pour query-replace-regexp ?
Sur un petit jeu de donnÃ©es que j'ai simulÃ© ici, un coup de C-M -S-% ou
M-x query-replace-regexp RET

motif Ã rechercher: (sdnum|sdval)=".*"
Ã remplacer par "" (chaine vide)

Je crains que Ã§a ne marche pas si la chaÃ®ne Ã virer est sur plusieurs lignes.

Si c'est susceptible de trouver du texte il sera mis en surbrillance et
Emacs se positionne sur le permier rÃ©sultat en demandant une
confirmation :
- "y" pour accepter et passer au suivant
- "n" pour refuser et passer au suivant
si Ã§a semble ok aprÃ¨s 2 ou 3 remplacements, "!" permet d'effect uer tous
les remplacements restants en une fois sans confirmation supllÃ©menta ire.

HTH,

--
JJ R.

Sébastien Kirche

20/10/2015 à 00:27

Le 19 octobre 2015 à 22:31, Jean-Jacques Rétorré vraute :

> M-x query-replace-regexp RET
>
> motif à rechercher: (sdnum|sdval)=".*"
> à remplacer par "" (chaine vide)

Je crains que ça ne marche pas si la chaîne à virer est sur plusieurs
lignes.

Effectivement, je n'avait pas testé/pensé ce cas en absence de fichier
d'exemple.

--
Sébastien Kirche

Lucas Levrel

20/10/2015 à 21:58

Le 19 octobre 2015, Jean-Jacques Rétorré a écrit :

La regerxp :

b(sdnum|sdval)="[^"]*"

Que signifie le b ?

matche toutes les expressions
que tu veux éliminer (chais plus comment on dit en français).

Dire regexp ou match ? Regexp : expression rationnelle, si jeune m'abuse.
Match : trouve (pour ta phrase) ? Sinon, correspond à ?

--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)

Jean-Jacques Rétorré

20/10/2015 à 23:20

mar. 20 oct. 2015, Lucas Levrel nous disait que :

Le 19 octobre 2015, Jean-Jacques RÃ©torrÃ© a Ã©crit :

La regerxp :

b(sdnum|sdval)="[^"]*"

Que signifie le b ?

,----[ (info "(emacs)Backslash in Regular Expressions") ]
| âbâ
| matches the empty string, but only at the beginning or end of a
| word. Thus, âbfoobâ matches any occurrence of â fooâ as a
| separate word. âbballs?bâ matches âball â or âballsâ as a
| separate word.
|
| âbâ matches at the beginning or end of the buffer r egardless of
| what text appears next to it.
`----

C'est pour Ã©viter de matcher des expressions comme
totosdnum=" [du texte] "
hautement improbable, mais Ã§a ne coÃ»te rien de prÃ©ciser.

matche toutes les expressions
que tu veux Ã©liminer (chais plus comment on dit en franÃ§ais).

Dire regexp ou match ? Regexp : expression rationnelle, si jeune
m'abuse. Match : trouve (pour ta phrase) ? Sinon, correspond Ã ?

Regexp, Ã§a je sais, mais le sens de match me paraÃ®t assez Ã©l oignÃ© de
trouver

D'aprÃ¨s google-translate
,----[ M-x google-translate-at-point ]
| verb
| 1. Ã©galer (match, equal, equate)
| 2. rÃ©pondre Ã (answer, fulfill, fit, cater for, match, return)
| 3. harmoniser (harmonize, match, attune)
| 4. aller bien avec (match)
| 5. faire la paire (pair, match)
| 6. aller bien ensemble (match, match up)
| 7. Ãªtre bien assorti (match)
| 8. Ãªtre l'Ã©gal de (match, be on a par with)
| 9. s'assortir (assort, match)
| 10. s'harmoniser (harmonize, match, tone, match up)
| 11. s'identifier (match)
| 12. s'unir (unite, coalesce, match)
`----

Je dirais s'unifie, mais je pense que tous les utilisateurs des regexps
comprennent ce que veut dire match.

--
JJ R.

Benoit Izac

21/10/2015 à 19:28

Bonjour,

Le 20/10/2015 à 23:20, Jean-Jacques Rétorré a écrit dans le message
:

matche toutes les expressions
que tu veux éliminer (chais plus comment on dit en français).

Dire regexp ou match ? Regexp : expression rationnelle, si jeune
m'abuse. Match : trouve (pour ta phrase) ? Sinon, correspond à ?

Regexp, ça je sais, mais le sens de match me paraît assez éloigné de
trouver

D'après google-translate
,----[ M-x google-translate-at-point ]
| verb
| 1. égaler (match, equal, equate)
| 2. répondre à (answer, fulfill, fit, cater for, match, return)
| 3. harmoniser (harmonize, match, attune)
| 4. aller bien avec (match)
| 5. faire la paire (pair, match)
| 6. aller bien ensemble (match, match up)
| 7. être bien assorti (match)
| 8. être l'égal de (match, be on a par with)
| 9. s'assortir (assort, match)
| 10. s'harmoniser (harmonize, match, tone, match up)
| 11. s'identifier (match)
| 12. s'unir (unite, coalesce, match)
`----

Je dirais s'unifie, mais je pense que tous les utilisateurs des regexps
comprennent ce que veut dire match.

Je pense que c'est plus proche de « correspond à » comme l'avait signalé
Lucas, en tout cas ce n'est pas « unifier ».

‘b’ matches the empty string => 'b' correspond à une chaîne vide
‘b’ matches at the beginning or end => 'b' correspond au début ou à la fin

--
Benoit Izac

Lucas Levrel

21/10/2015 à 20:54

Le 20 octobre 2015, Jean-Jacques Rétorré a écrit :

mar. 20 oct. 2015, Lucas Levrel nous disait que :

Le 19 octobre 2015, Jean-Jacques Rétorré a écrit :

La regerxp :

b(sdnum|sdval)="[^"]*"

Que signifie le b ?

,----[ (info "(emacs)Backslash in Regular Expressions") ]
| ‘b’
| matches the empty string, but only at the beginning or end of a
| word. Thus, ‘bfoob’ matches any occurrence of ‘foo’ as a
| separate word. ‘bballs?b’ matches ‘ball’ or ‘balls’ as a
| separate word.
|
| ‘b’ matches at the beginning or end of the buffer regardless of
| what text appears next to it.
`----

Merci. Question subsidiaire : comment obtient-on cette entrée d'info ?

--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)

Sébastien Kirche

21/10/2015 à 21:14

Le 21 octobre 2015 ¨¤ 20:54, Lucas Levrel a tapot¨¦ :

> > Que signifie le b ?
>
> ,----[ (info "(emacs)Backslash in Regular Expressions") ]
> > ¡®b¡¯
> > matches the empty string, but only at the beginning or end of a
> > word. Thus, ¡®bfoob¡¯ matches any occurrence of ¡®foo ¡¯ as a
> > separate word. ¡®bballs?b¡¯ matches ¡®ball¡¯ or ¡®balls¡¯ as a
> > separate word.
> >
> > ¡®b¡¯ matches at the beginning or end of the buffer regardle ss of
> > what text appears next to it.
> `----

Merci. Question subsidiaire : comment obtient-on cette entr¨¦e d'info ?

Je dirais :
- C-h i pour aller dans Info
- m emacs RET pour ouvrir la partie de la doc d'Emacs
- s backslash RET pour rechercher le noeud
ou m regexp backslash RET si on connait d¨¦j¨¤ la section recher ch¨¦e
--
S¨¦bastien Kirche

Jean-Jacques Rétorré

21/10/2015 à 21:52

mer. 21 oct. 2015, Lucas Levrel nous disait que :

Le 20 octobre 2015, Jean-Jacques RÃ©torrÃ© a Ã©crit :

mar. 20 oct. 2015, Lucas Levrel nous disait que :

Le 19 octobre 2015, Jean-Jacques RÃ©torrÃ© a Ã©crit :

La regerxp :

b(sdnum|sdval)="[^"]*"

Que signifie le b ?

,----[ (info "(emacs)Backslash in Regular Expressions") ]
| âbâ
| matches the empty string, but only at the beginning or end of a
| word. Thus, âbfoobâ matches any occurrence of âfooâ as a
| separate word. âbballs?bâ matches âbal lâ or âballsâ as a
| separate word.
|
| âbâ matches at the beginning or end of the buffe r regardless of
| what text appears next to it.
`----

Merci. Question subsidiaire : comment obtient-on cette entrÃ©e d'info ?

Ãvaluer dans n'importe quel buffer (ou par M-: )
(info "(emacs)Backslash in Regular Expressions")

Pour parcourir le info de Emacs
(info "(emacs)") ou encore M-x info-emacs-manual

Pour apprendre Ã utiliser (info), Ã©valuer
(info "(info)")

Pour parcourir les fichiers info :
M-x info RET ou C-h i

--
JJ R.

1 2 3

Nettoyage d'un fichier html

10 réponses

Veuillez sélectionner un problème