DÃ©couper et rassembler des PDF

58 réponses

Olivier Miakinen

22/05/2015 à 00:19

[diapublications dans deux groupes, suivi vers fcolc seul, mais
il vaudrait peut-être mieux choisir fcal -- changez le suivi si
ça vous semble préférable]

Bonjour,

J'ai numérisé des recueils de partitions afin d'en faire des PDF
imprimables pour un ensemble vocal(¹). Le scanner me permet de
numériser les pages deux par deux, et il crée un PDF d'une page
par scan (sauf une fois où, sans que je comprenne pourquoi, il
a mis deux résultats de scan dans un PDF de deux pages).

Bref, pour un recueil de 7 pages, j'obtiens par exemple quatre PDF
contenant ceci :

+----+----+-+
| | | |
| | p1 | |
| | | |
+----+----+-+

+----+----+-+
| | | |
| p2 | p3 | |
| | | |
+----+----+-+

+----+----+-+
| | | |
| p4 | p5 | |
| | | |
+----+----+-+

+----+----+-+
| | | |
| p6 | p7 | |
| | | |
+----+----+-+

Je voudrais alors obtenir un seul PDF de sept pages :

+----+ +----+ +----+ +----+ +----+ +----+ +----+
| | | | | | | | | | | | | |
| p1 | | p2 | | p3 | | p4 | | p5 | | p6 | | p7 |
| | | | | | | | | | | | | |
+----+ +----+ +----+ +----+ +----+ +----+ +----+

Je voudrais savoir ce que vous me conseilleriez, sur Linux, pour le
faire le plus simplement possible. Vu que certains recueils peuvent
avoir beaucoup de pages, si c'était possible avec un outil en ligne
de commande plutôt qu'avec un cliquodrome ce serait encore mieux
(mais si ça n'existe pas, tant pis).

Pour fixer les idées, voici un exemple d'un PDF obtenu en sortie de
numérisation : <http://www.cjoint.com/15mi/EEvxS4BptI5_doc49.pdf>.

Cordialement,
--
Olivier Miakinen

Note (¹) : Pour ceux qui s'en inquièteraient, ce n'est pas illégal. En
effet, l'ensemble vocal a signé une convention avec la SEAM permettant,
avec un abonnement dépendant du nombre de choristes, d'acheter une seule
partition et d'en faire autant de photocopies qu'il y a de choristes :
<http://www.seamfrance.fr/les-conventions/chorales/>.

10 réponses

1 2 3 4 5

Olivier Miakinen

22/05/2015 à 19:05

Bonjour,

Le 22/05/2015 08:53, 125 m'a répondu :

Voir

libreoffice draw
xournal
pdfmod

Tous permettent d'automatiser le travail en ligne de commande ?

En fait je sais déjà qu'il existe de nombreuses solutions, comme
souvent sur Linux, mais mon but en venant ici c'était de profiter
de l'expérience de ceux qui ont déjà utilisé l'un ou l'autre (ou
plusieurs) de ces logiciels, en m'évitant de tester des dizaines
de logiciels dont je me rendrai compte au final qu'ils ne
répondent pas à mon besoin.

Cordialement,
--
Olivier Miakinen

Nicolas George

22/05/2015 à 19:11

"Nicolas Richard" , dans le message , a écrit :

$ convert un-joli-nom-000.pbm -crop 2050x+0+0 gauche.jpg
$ convert un-joli-nom-000.pbm -crop 2200x+2050+0 droite.jpg

Notons que si le scanner a compressé en JPEG, pdfimages -j va extraire les
JPEG (c'est à ça que sert le -j), et dans ce cas il vaut mieux utiliser
jpegtran, car il fait un crop sans pertes.

Olivier Miakinen

22/05/2015 à 19:16

Bonjour,

Le 22/05/2015 11:49, HD m'a répondu :

Pour ma part, j'utilise PDFSam. Il fusionne, sépare, fait tout un tas
d'action sur les pdf.

Il semble qu'il puisse retailler les images (« crop ») avec l'aide
d'un plugin : <http://sourceforge.net/projects/pdfsam-crop/>. Mais
pour le moment je n'ai pas réussi à voir si on pouvait automatiser
les tâches.

Cordialement,
--
Olivier Miakinen

Olivier Miakinen

22/05/2015 à 19:19

Bonjour,

Le 22/05/2015 14:29, Kevin Denis m'a répondu :

Imagemagick sait utiliser le format pdf et peut concaténer/découper
des pdfs.
< http://codetheory.in/convert-split-pdf-files-into-images-with-imagemagick-and-ghostscript/ >
la commande convert peut en plus utiliser des numéros de page
convert toto.pdf[1,3] page1et3.pdf

Ah oui, ça m'a l'air très bien, d'autant qu'avec la commande
convert on commence par extraire l'image qui se trouve dans
le PDF. Je ne peux pas essayer tout de suite, mais je le fais
dès que possible.

Olivier Miakinen

22/05/2015 à 19:22

Bonjour,

Le 22/05/2015 14:49, Nicolas George m'a répondu :

Donc ce sont des PDF qui ont chacun une grosse image par page, n'est-ce
pas ?

Oui, exactement.

Dans ce cas, le mieux est d'extraire les images (pdfimages -j) et de
les manipuler en tant qu'images.

Excellente suggestion. Je ne sais pas ce qui est le mieux entre
pdfimages et convert, mais l'un comme l'autre doivent me permettre
d'automatiser le boulot.

Olivier Miakinen

22/05/2015 à 19:28

Le 22/05/2015 15:58, Lucas Levrel m'a répondu :

[diapublications dans deux groupes, suivi vers fcolc seul, mais
il vaudrait peut-être mieux choisir fcal -- changez le suivi si
ça vous semble préférable]

Tu peux aller voir sur fr.comp.text.tex aussi.

Oh ? Je n'y aurais pas pensé, d'une part parce que je n'ai
jamais utilisé tex, mais surtout parce que mes PDF contiennent
des images et pas du texte...

[...]

Mettons que tu aies scan1.pdf à scan4.pdf

for i in {1..4}
do pdfcrop --bbox '0 0 500 842' scan$i.pdf page$i_a.pdf
pdfcrop --bbox '500 0 1000 842' scan$i.pdf page$i_b.pdf
done

« pdfcrop », voilà un nom qui me plaît bien, s'agissant de
faire un « crop » sur le contenu ! :-)

pdfjoin page*.pdf -o fini.pdf

Super, je vais essayer ça aussi.

Si tu as plus de 9 scans tu remplaces la dernière commande par
pdfjoin $(ls -rt page*.pdf) -o fini.pdf

Ah oui, je comprends pourquoi. Et bien sûr je fais en sorte
de ne pas mettre d'espaces ou de caractères bizarres dans les
noms de fichiers pour ne pas avoir de problèmes.

Philippe

22/05/2015 à 19:29

Le Fri, 22 May 2015 19:01:59 +0200, Olivier Miakinen a écrit :

Je peux me tromper, mais je n'y crois pas, du moins s'il existe une façon
d'automatiser le traitement des fichiers.

En effet,
- le positionnement de l'ouvrage sur la glace, puis le scan proprement
dit sont relativement longs en soi, donc si je peux diviser ce temps par
deux c'est un gros gain de temps ;
- devoir positionner une fois sur deux par rapport au bord de l'ouvrage
et une fois sur deux par rapport au milieu complique encore les choses ;
- aussi, avoir l'ouvrage en partie sur le scanner et en partie en
dehors n'est pas très pratique.

les fonctions de visualisation permettent de limiter la zone scannée.
Tu fais un masque de positionnement en carton, tu règles après «acquisition
de l'aperçu» la zone a scanner et tu fais tes pages a la volée.

De plus...

Tu as alors 1 pdf par page puis tu assembles avec PDFchain ou PDFsam ou
pdftk

... ça ne suffira pas puisque le scanner détecte mal les bords de la page
et qu'il laisse une marge. Il faudra donc de toute façon retailler le
résultat avant d'assembler les différentes pages.

entraînes-toi avec xsane, tu verras que c'est la solution simple.
Mais tu peux faire compliqué aussi...

Regardes bien xsane, la fonction acquisition de l'aperçu et la possibilité
de choisir la zone scannée avec la souris. Tu peux aussi travailler la
lumière et le constraste pour avoir une copie facile a lire. Je mets assez
souvent 25 et 25 comme choix initial pour corriger un peu en fonction du
résultat (niveaux de gris pour moi)

--
http://www.assemblee-nationale.fr/histoire/jaures/discours/responsables-guerre_25071914.asp
https://www.youtube.com/watch?v=EUoxRR5aRlI
Philippe Vessaire Ò¿Ó¬

Philippe

22/05/2015 à 19:31

Le Fri, 22 May 2015 12:49:21 +0000, Nicolas George a écrit :

Olivier Miakinen , dans le message <mjlllh$aho$,
a écrit :
J'ai numérisé des recueils de partitions afin d'en faire des PDF

Donc ce sont des PDF qui ont chacun une grosse image par page, n'est-ce
pas ? Dans ce cas, le mieux est d'extraire les images (pdfimages -j) et de
les manipuler en tant qu'images.

C'est très lourd.
Scanner au plus prés de ce que l'on veux est bien plus efficace.
J'ai aussi scanné des partitions...

--
http://www.assemblee-nationale.fr/histoire/jaures/discours/responsables-guerre_25071914.asp
https://www.youtube.com/watch?v=EUoxRR5aRlI
Philippe Vessaire Ò¿Ó¬

Olivier Miakinen

22/05/2015 à 19:31

Le 22/05/2015 19:11, Nicolas George a écrit :

"Nicolas Richard" , dans le message , a écrit :
$ convert un-joli-nom-000.pbm -crop 2050x+0+0 gauche.jpg
$ convert un-joli-nom-000.pbm -crop 2200x+2050+0 droite.jpg

Notons que si le scanner a compressé en JPEG, pdfimages -j va extraire les
JPEG (c'est à ça que sert le -j), et dans ce cas il vaut mieux utiliser
jpegtran, car il fait un crop sans pertes.

Ok, merci pour le conseil.

Nicolas George

22/05/2015 à 19:31

Olivier Miakinen , dans le message <mjnolc$2kdc$,
a écrit :

Excellente suggestion. Je ne sais pas ce qui est le mieux entre
pdfimages et convert, mais l'un comme l'autre doivent me permettre
d'automatiser le boulot.

pdfimages extrait les images qui sont stockées dans le PDF. Si le PDF
contient du texte, pdfimages ne le voit pas du tout ; s'il y a plusieurs
images par page, pdfimages les extrait de manière indépendante.

convert opère un rendu du PDF (vectoriel) en une image bitmap.

1 2 3 4 5

DÃ©couper et rassembler des PDF

10 réponses

Veuillez sélectionner un problème