remplacer le caractère "" par une apostrophe

andre_debian

08/10/2015 à 17:50

On Thursday 08 October 2015 16:45:35 Bernard Schoenacker wrote:

j'ai essayÃ© avec sed : sed "s/xc2x92/'/g"
sans rÃ©sultat

sed -i "s#<92>#'#g"

Bernard Schoenacker

08/10/2015 à 18:10

Le Thu, 8 Oct 2015 17:46:23 +0200,
a écrit :

On Thursday 08 October 2015 16:45:35 Bernard Schoenacker wrote:
> j'ai essayé avec sed : sed "s/xc2x92/'/g"
> sans résultat

sed -i "s#<92>#'#g"

bonjour,

aucun résultats ...

slt
bernard

Francois Meyer

08/10/2015 à 22:10

Le 08/10/2015 16:45, Bernard Schoenacker a Ã©crit :

bonjour,

j'ai essayÃ© avec sed : sed "s/xc2x92/'/g"

sans rÃ©sultat

slt
bernard

Les commandes proposÃ©es telles que
sed "s/<92>/'/g"
remplacent le mot ou la chaÃ®ne de caractÃ¨re "<92>" par l'apost rophe.
Mais s'il s'agit d'un seul caractÃ¨re, il faudrait en savoir un peu p lus,
car <92> est alors sa reprÃ©sentation codÃ©e
dans un autre codage...

FranÃ§ois

Bernard Schoenacker

08/10/2015 à 23:40

--MP_/7pnF2SrFz1JYj/ZnC3zFnVe
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
Content-Disposition: inline

Le Thu, 08 Oct 2015 21:37:36 +0200,
Francois Meyer a Ã©crit :

Le 08/10/2015 16:45, Bernard Schoenacker a Ã©crit :
> bonjour,
>
> j'ai essayÃ© avec sed : sed "s/xc2x92/'/g"
>
> sans rÃ©sultat
>
> slt
> bernard
>
>
Les commandes proposÃ©es telles que
sed "s/<92>/'/g"
remplacent le mot ou la chaÃ®ne de caractÃ¨re "<92>" par l'apostrophe.
Mais s'il s'agit d'un seul caractÃ¨re, il faudrait en savoir un peu
plus, car <92> est alors sa reprÃ©sentation codÃ©e
dans un autre codage...

FranÃ§ois

bonjour,

le nÂ° "<92>" est l'apostrophe mais de quel encodage ? (mystÃ¨re et
boulle de gomme) et c'est la sortie avec vim ...

tandis que avec emacs c'est "222" ( Â’ )

voici un extrait en piÃ¨ce jointe ...

la rÃ©ponse avec file :

file AAAStatut_ag_le_phare_oct_2015.txt
AAAStatut_ag_le_phare_oct_2015.txt: Non-ISO extended-ASCII text, with
very long lines

je sent que iconv sera de la partie ....

slt
bernard
--MP_/7pnF2SrFz1JYj/ZnC3zFnVe
Content-Type: text/plain
Content-Transfer-Encoding: quoted-printable
Content-Disposition: attachment; filename=out.txt

LÂordre du jour est fixÃ© par la direction. Seules sont valables l es rÃ©solutions prises par lÂassemblÃ©e gÃ©nÃ©rale sur les points inscrits Ã lÂordre du jour
La prÃ©sidence de lÂassemblÃ©e gÃ©nÃ©rale appartient a u prÃ©sident
Toutes les dÃ©libÃ©rations et rÃ©solutions de lÂassemblÃ ©e gÃ©nÃ©rale font lÂobjet dÂun procÃ¨s-verbal et s ont consignÃ©es dans le registre des Â«dÃ©libÃ©ration des a ssemblÃ©es gÃ©nÃ©ralesÂ» , signÃ©es par le prÃ©side nt et le secrÃ©taire. Il est Ã©galement tenu une feuille de prÃ ©sence qui est signÃ©e par chaque membre et certifiÃ©e conforme p ar le prÃ©sident et le secrÃ©taire

--MP_/7pnF2SrFz1JYj/ZnC3zFnVe--

--MP_/7pnF2SrFz1JYj/ZnC3zFnVe
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
Content-Disposition: inline

Le Thu, 08 Oct 2015 21:37:36 +0200,
Francois Meyer <francois-jean.meyer@ac-versailles.fr> a Ã©crit :

Le 08/10/2015 16:45, Bernard Schoenacker a Ã©crit :
> bonjour,
>
> j'ai essayÃ© avec sed : sed "s/xc2x92/'/g"
>
> sans rÃ©sultat
>
> slt
> bernard
>
>
Les commandes proposÃ©es telles que
sed "s/<92>/'/g"
remplacent le mot ou la chaÃ®ne de caractÃ¨re "<92>" par l'apostrophe.
Mais s'il s'agit d'un seul caractÃ¨re, il faudrait en savoir un peu
plus, car <92> est alors sa reprÃ©sentation codÃ©e
dans un autre codage...

FranÃ§ois

bonjour,

le nÂ° "<92>" est l'apostrophe mais de quel encodage ? (mystÃ¨re et
boulle de gomme) et c'est la sortie avec vim ...

tandis que avec emacs c'est "222" ( Â’ )

voici un extrait en piÃ¨ce jointe ...

la rÃ©ponse avec file :

file AAAStatut_ag_le_phare_oct_2015.txt
AAAStatut_ag_le_phare_oct_2015.txt: Non-ISO extended-ASCII text, with
very long lines

je sent que iconv sera de la partie ....

slt
bernard
--MP_/7pnF2SrFz1JYj/ZnC3zFnVe
Content-Type: text/plain
Content-Transfer-Encoding: quoted-printable
Content-Disposition: attachment; filename=out.txt

LÂordre du jour est fixÃ© par la direction. Seules sont valables l es rÃ©solutions prises par lÂassemblÃ©e gÃ©nÃ©rale sur les points inscrits Ã lÂordre du jour
La prÃ©sidence de lÂassemblÃ©e gÃ©nÃ©rale appartient a u prÃ©sident
Toutes les dÃ©libÃ©rations et rÃ©solutions de lÂassemblÃ ©e gÃ©nÃ©rale font lÂobjet dÂun procÃ¨s-verbal et s ont consignÃ©es dans le registre des Â«dÃ©libÃ©ration des a ssemblÃ©es gÃ©nÃ©ralesÂ» , signÃ©es par le prÃ©side nt et le secrÃ©taire. Il est Ã©galement tenu une feuille de prÃ ©sence qui est signÃ©e par chaque membre et certifiÃ©e conforme p ar le prÃ©sident et le secrÃ©taire

--MP_/7pnF2SrFz1JYj/ZnC3zFnVe--

Alexandre Hoïde

08/10/2015 à 23:50

On Thu, Oct 08, 2015 at 11:30:56PM +0200, Bernard Schoenacker wrote:

Le Thu, 08 Oct 2015 21:37:36 +0200,
Francois Meyer a écrit :

> Le 08/10/2015 16:45, Bernard Schoenacker a écrit :
> > bonjour,
> >
> > j'ai essayé avec sed : sed "s/xc2x92/'/g"
> >
> > sans résultat
> >
> > slt
> > bernard
> >
> >
> Les commandes proposées telles que
> sed "s/<92>/'/g"
> remplacent le mot ou la chaîne de caractère "<92>" par l'apostrophe.
> Mais s'il s'agit d'un seul caractère, il faudrait en savoir un peu
> plus, car <92> est alors sa représentation codée
> dans un autre codage...
>
> François
>

bonjour,

le n° "<92>" est l'apostrophe mais de quel encodage ? (mystère et
boulle de gomme) et c'est la sortie avec vim ...

tandis que avec emacs c'est "222" ( )
[…]
je sent que iconv sera de la partie ....

Ça serait-y pas du Windows-1252, par hasard ? U+2019 est le
guillemet-apostrophe (x92 en W-1252 = 146 en décimal et 222 en octal…
l'étau se ressert !). Auquel cas, éventuellement, un
$ iconv -f WINDOWS-1252 -t UTF-8 filename.txt
… pour redresser la situation ?

--
___________________
| $ post_tenebras ↲ |       waouh !
| GNU         /    |      /
|          -- * --  |     o
| $ who ↲    /     |_-- ~_|
| Alexandre Hoïde   |  _/| |
-------------------

Bernard Schoenacker

09/10/2015 à 00:10

Le Thu, 8 Oct 2015 23:49:13 +0200,
Alexandre Hoïde a écrit :

On Thu, Oct 08, 2015 at 11:30:56PM +0200, Bernard Schoenacker wrote:
> Le Thu, 08 Oct 2015 21:37:36 +0200,
> Francois Meyer a écrit :
>
> > Le 08/10/2015 16:45, Bernard Schoenacker a écrit :
> > > bonjour,
> > >
> > > j'ai essayé avec sed : sed "s/xc2x92/'/g"
> > >
> > > sans résultat
> > >
> > > slt
> > > bernard
> > >
> > >
> > Les commandes proposées telles que
> > sed "s/<92>/'/g"
> > remplacent le mot ou la chaîne de caractère "<92>" par
> > l'apostrophe. Mais s'il s'agit d'un seul caractère, il faudrait
> > en savoir un peu plus, car <92> est alors sa représentation codée
> > dans un autre codage...
> >
> > François
> >
>
> bonjour,
>
> le n° "<92>" est l'apostrophe mais de quel encodage ? (mystère et
> boulle de gomme) et c'est la sortie avec vim ...
>
> tandis que avec emacs c'est "222" ( )
> […]
> je sent que iconv sera de la partie ....
>

Ça serait-y pas du Windows-1252, par hasard ? U+2019 est le
guillemet-apostrophe (x92 en W-1252 = 146 en décimal et 222 en octal…
l'étau se ressert !). Auquel cas, éventuellement, un
$ iconv -f WINDOWS-1252 -t UTF-8 filename.txt
… pour redresser la situation ?

bonjour,

merci du tuyau mais je l'ai employé avant de répondre et tout est
rentré dans l'ordre ....

iconv -f windows-1252 -t UTF-8 file.txt >file-1.txt

slt
bernard

Alexandre Hoïde

09/10/2015 à 00:30

On Fri, Oct 09, 2015 at 12:06:22AM +0200, Bernard Schoenacker wrote:

Le Thu, 8 Oct 2015 23:49:13 +0200,
Alexandre Hoïde a écrit :
> Ça serait-y pas du Windows-1252, par hasard ? U+2019 est le
> guillemet-apostrophe (x92 en W-1252 = 146 en décimal et 222 en octal…
> l'étau se ressert !). Auquel cas, éventuellement, un
> $ iconv -f WINDOWS-1252 -t UTF-8 filename.txt
> … pour redresser la situation ?
>

bonjour,

merci du tuyau mais je l'ai employé avant de répondre et tout est
rentré dans l'ordre ....

iconv -f windows-1252 -t UTF-8 file.txt >file-1.txt

Je t'en prie !

Nous sommes les carabiniers
La sécurité des foyers
Mais par un malheureux hasard
Au secours des particuliers
Nous arrivons toujours trop tard.

--
___________________
| $ post_tenebras ↲ |       waouh !
| GNU         /    |      /
|          -- * --  |     o
| $ who ↲    /     |_-- ~_|
| Alexandre Hoïde   |  _/| |
-------------------

Francois Lafont

09/10/2015 à 00:50

Bonsoir,

le n° "<92>" est l'apostrophe mais de quel encodage ? (mystère et
boulle de gomme) et c'est la sortie avec vim ...

tandis que avec emacs c'est "222" ( )

voici un extrait en pièce jointe ...

Personnellement, sur ma machine, la commande « file » me dit que ton
fichier est en UTF-8 et je comprends que le caractère qui pose problème
est le caractère dont le code point unicode est U+0092 (attention, le
code point ce n'est pas la même chose que l'encodage numérique).

~$ file /tmp/out.txt
/tmp/out.txt: UTF-8 Unicode text, with very long lines

En fait, il suffit a priori de saisir le caractère dans sed et un simple :

sed "s/<LE-CARACTÈRE>/'/g" le-fichier.txt

devrait marcher, exactement comme si on voulait remplacer les « a » par
des « ' » sauf qu'ici ce n'est pas un « a » mais un caractère un peu
étrange.

Une première méthode que j'ai pu tester est de générer le caractère avec
Perl (a priori déjà installé sur ta Debian à 99,99%) :

char=$(perl -C -wE 'say "x{0092}"')
sed -i "s/$char/'/g" le-fichier.txt

Une autre façon de faire est de taper le caractère directement dans le
terminal (là je sais pas si ça marchera partout) en tapant sur le clavier
(alors qu'on est dans un terminal) « shift + u + le-code-point-du-caractère ».
Donc si je tape les caractères suivants :

=> « sed -i "s/ »
=> puis « shift + u + 0092 »
=> puis « /'/g" le-fichier.txt »
=> puis Entrée

alors la commande fonctionne chez moi.

Bref, les 2 méthodes ont fonctionné sur ma Debian Wheezy avec ton
fichier en pièce jointe (md5sum => 83070902dea2600878d40602c396c0d4)
sur mon terminal qui est Terminator en l'occurrence.

Voilà, j'espère qu'au moins une des deux méthodes marchera chez toi.

--
François Lafont

andre_debian

09/10/2015 à 11:10

Je me permets de rebondir par une question trÃ¨s proche :

Comment remplacer cette chaÃ®ne dans un fichier :

</table>' par </table>

(retirer juste l'apostrophe aprÃ¨s </table>)

J'ai bien tentÃ© Ã§a, mais Ã§a marche pas :
sed -i "s#</table>'#</table>#g" fichier

Je prÃ©cise que </table>' se trouve tout Ã la fin du fichier.

AndrÃ©

andre_debian

09/10/2015 à 12:50

On Friday 09 October 2015 11:53:26 franÃ§ois wrote:

Le 09/10/2015 11:09, a Ã©crit :
> Je me permets de rebondir par une question trÃ¨s proche :
> Comment remplacer cette chaÃ®ne dans un fichier :
> </table>' par </table>
> (retirer juste l'apostrophe aprÃ¨s </table>)
> J'ai bien tentÃ© Ã§a, mais Ã§a marche pas :
> sed -i "s#</table>'#</table>#g" fichier
> Je prÃ©cise que </table>' se trouve tout Ã la fin du fichier.
> AndrÃ©

Chez moi (gnome-terminal) Ã§a marche :
sed -r "s/</table>'/</table>/g" (en Ã©chappant bien le slash de /ta ble)
FranÃ§ois

Merci, je vais tester ASAP,

mais pourquoi rÃ©pondre en privÃ© ?
Ã§a peut aider des membres de la liste... et c'est le but.

:

remplacer le caractère "" par une apostrophe

10 réponses

Veuillez sélectionner un problème