PDF énorme... Comment le réduire ?

Ghost Rider

31/10/2008 à 10:30

HD a écrit :

J'ai plusieurs PDF qui proviennent à l'origine d'un scan de document à
partir d'une multifonction. Ces documents ne sont donc pas en pdf avec le
texte considéré comme du texte mais avec du texte considéré en simples
images.

Auriez vous une idée de la façon dont je pourrais procéder pour transformer
ces PDF en PDF moins lourds ? Ou dans un autre format plus compressé ?

Le PDF est déjà très compressé puisque c'est un format vectoriel et non
bitmap.
Je viens de copier un fichier PDF comportant du texte et des images, de
104 kO en PDF, il devient 91 kO en JPG, mais la qualité est altérée.
Le JPG est très compressé, descendre plus bas encore donnerait de
mauvais résultats
A part passer tes fichiers dans un logiciel de reconnaissance de
caractères, je ne vois pas.

GR

HD

31/10/2008 à 12:14

> Je viens de copier un fichier PDF comportant du texte et des images, de
104 kO en PDF, il devient 91 kO en JPG, mais la qualité est altérée.
Le JPG est très compressé, descendre plus bas encore donnerait de mauvais
résultats.

J'ai, par exemple, un PDF de 55 pages qui fait... 58Mo. Le PDF est un format
compressé mais... est-il possible de modifier certains réglages quitte à
perdre du détails pour gagner en place. Le PDF en question est déja en noir
& blanc.

A part passer tes fichiers dans un logiciel de reconnaissance de
caractères, je ne vois pas.

Et je n'ai qu'une confiance limité en l'OCR... Il y'a toujours un
pourcentage d'erreur et il faut retravailler la mise en page. Mais l'idée
est intéressante... l'on peut passer les PDF directement à l'OCR ? Je me
suis toujours posé la question (Lorsque c'est un PDF généré à partir d'un
document Word par exemple l'on a le texte que l'on peut copier/coller mais
si le PDF provient d'un scanner là on est en type images)...

@+
HD

Jean-Claude BELLAMY

31/10/2008 à 13:39

"HD" a écrit dans le message de
news:geepaf$mej$

Je viens de copier un fichier PDF comportant du texte et des images, de
104 kO en PDF, il devient 91 kO en JPG, mais la qualité est altérée.
Le JPG est très compressé, descendre plus bas encore donnerait de mauvais
résultats.

J'ai, par exemple, un PDF de 55 pages qui fait... 58Mo. Le PDF est un
format compressé mais... est-il possible de modifier certains réglages
quitte à perdre du détails pour gagner en place. Le PDF en question est
déja en noir & blanc.

A part passer tes fichiers dans un logiciel de reconnaissance de
caractères, je ne vois pas.

Et je n'ai qu'une confiance limité en l'OCR... Il y'a toujours un
pourcentage d'erreur et il faut retravailler la mise en page. Mais l'idée
est intéressante... l'on peut passer les PDF directement à l'OCR ?

Oui, bien sûr !
C'est le cas avec "OmniPage", que je considère comme étant le meilleur des
outils d'OCR.

Le pourcentage d'erreurs est très faible, et la correction manuelle est
facile à effectuer
Il sait reconnaitre le texte y compris dans des documents multi colonnes, et
le fichier PDF généré au final dans ce cas est forcément très réduit.

Son seul problème est son prix (la version 16 PRO coûte officiellement 479
€, la version 16 non pro coûte 99€)

http://www.digitalriver.com/v2.0-img/operations/scansouk/site/static_pages/OmniPage16_fr/standard/france_index.htm
--
May the Force be with You!
La Connaissance s'accroît quand on la partage
----------------------------------------------------------
Jean-Claude BELLAMY [MVP]
http://www.bellamyjc.org ou http://jc.bellamy.free.fr

Ghost Rider

31/10/2008 à 13:50

Jean-Claude BELLAMY a écrit :

"HD" a écrit dans le message de

J'ai, par exemple, un PDF de 55 pages qui fait... 58Mo. Le PDF est un
format compressé mais... est-il possible de modifier certains réglages
quitte à perdre du détails pour gagner en place. Le PDF en question
est déja en noir & blanc.

Je ne le crois pas, c'est un fichier vectoriel qui donne des résultats
homothétiques quel que soit l'agrandissement.

A part passer tes fichiers dans un logiciel de reconnaissance de
caractères, je ne vois pas.

Et je n'ai qu'une confiance limité en l'OCR... Il y'a toujours un
pourcentage d'erreur et il faut retravailler la mise en page. Mais
l'idée est intéressante... l'on peut passer les PDF directement à l'OCR ?

Oui, bien sûr !
C'est le cas avec "OmniPage", que je considère comme étant le meilleur
des outils d'OCR.

J'ai OmniPage, il est effectivement performant. Si on travaille sur une
bonne image, je crois me souvenir que les mêmes signes non reconnus
peuvent être enseignés au logiciel, et/ou corrigés en série.

Le pourcentage d'erreurs est très faible, et la correction manuelle est
facile à effectuer
Il sait reconnaitre le texte y compris dans des documents multi
colonnes, et le fichier PDF généré au final dans ce cas est forcément
très réduit.

Son seul problème est son prix (la version 16 PRO coûte officiellement
479 €, la version 16 non pro coûte 99€)

GR

Oliver One

31/10/2008 à 14:12

Bonjour ou bonsoir à Ghost Rider qui dans son message précédent a écrit
:

J'ai, par exemple, un PDF de 55 pages qui fait... 58Mo. Le PDF est un
format compressé mais... est-il possible de modifier certains réglages
quitte à perdre du détails pour gagner en place. Le PDF en question est
déja en noir & blanc.

Je ne le crois pas, c'est un fichier vectoriel qui donne des résultats
homothétiques quel que soit l'agrandissement.

Dans le cas présent, c'est pas un PDF créé avec du texte encrypté, mais
tous simplement une numérisation enregistrée au format PDF. Donc toute
diminution de taille de fichier risque d'être destructive !

Pour HD, quand tu dis le PDF est déjà en noir et blanc, c'est pas
plutôt du niveau de gris (ou du noir encodé en RVB) vu la taille pour
55 pages?

Sinon pour réduire la taille de fichier PDF il faut posséder la version
complète d'Acrobat et ses outils internes ou des plugins du style
"Quite A Box of Tricks" que l'on peut tester ici :
http://www.quartet.fr/solutions_pdf/solutions_pdf.html

--
Patience et longueur de temps font plus que force ni que rage
------------------------------
Olivier

mdnews

31/10/2008 à 14:23

On Fri, 31 Oct 2008 10:30:03 +0100, Ghost Rider <"Ghost
Rider"@compuserve.com> wrote:

Le PDF est déjà très compressé puisque c'est un format vectoriel et non
bitmap.

Pas du tout.
Je te recommande la lecture du PDF REFERENCE MANUAL
http://www.adobe.com/devnet/pdf/pdf_reference.html
La bible pour tout ceux qui programment des aplications générant des
résultats en PDF

Un fichier PDF est un langage de description de page qui contient les
fontes, la position, taille, couleur, objets et images.
Seuls les objets (ligne, cadre, et quelques autres sont vectoriels)
Une image dans un PDF reste une image (JPG, PNG etc)
Elle est affichée simplement à l'endroit du document.
Elle n'a pas nécessairement la taille qui est réprésentée sur la page.
(Exactement comme une image dans un fichier word peut être beaucoup
plus grande que la taille affichée)

Pour réduire sensiblement un PDF (si le "zippage" ne donne rien) il
faut donc le "démonter" s'il n'est pas protégé et changer la taille
des images (augmenter la compression (et perdre en qualité) ou
diminuer la taille des images)

Il est courant de voir des gens scanner à 600 dpi ou plus un document
destiné à aller dans un PDF alors que:
- 72 dpi suffisent à lire sur l'écran
- 150 dpi suffisent tà lire des caractères d'1 mm sur une page A4

zloup

31/10/2008 à 17:11

bonjour

J'ai scanné bon nombre de revue de modelisme transformées en pdf, mais les
versions adobe se suivent et ne se resemblent pas, certaines version
augmentent de facon etonnante la taille des fichiers, va savoir pourquoi ?
du coup j'ai tout transformé de nouveau en .jpg, là au moins c'est stable,
et j'utilise un simple viewver et en plus c'est plus rapide !!!

a+

"mdnews" a écrit dans le message de news:

On Fri, 31 Oct 2008 10:30:03 +0100, Ghost Rider <"Ghost
Rider"@compuserve.com> wrote:

Le PDF est déjà très compressé puisque c'est un format vectoriel et non
bitmap.

Pas du tout.
Je te recommande la lecture du PDF REFERENCE MANUAL
http://www.adobe.com/devnet/pdf/pdf_reference.html
La bible pour tout ceux qui programment des aplications générant des
résultats en PDF

Un fichier PDF est un langage de description de page qui contient les
fontes, la position, taille, couleur, objets et images.
Seuls les objets (ligne, cadre, et quelques autres sont vectoriels)
Une image dans un PDF reste une image (JPG, PNG etc)
Elle est affichée simplement à l'endroit du document.
Elle n'a pas nécessairement la taille qui est réprésentée sur la page.
(Exactement comme une image dans un fichier word peut être beaucoup
plus grande que la taille affichée)

Pour réduire sensiblement un PDF (si le "zippage" ne donne rien) il
faut donc le "démonter" s'il n'est pas protégé et changer la taille
des images (augmenter la compression (et perdre en qualité) ou
diminuer la taille des images)

Il est courant de voir des gens scanner à 600 dpi ou plus un document
destiné à aller dans un PDF alors que:
- 72 dpi suffisent à lire sur l'écran
- 150 dpi suffisent tà lire des caractères d'1 mm sur une page A4

Ghost Rider

31/10/2008 à 21:03

Oliver One a écrit :

Bonjour ou bonsoir à Ghost Rider qui dans son message précédent a écrit :

Je ne le crois pas, c'est un fichier vectoriel qui donne des résultats
homothétiques quel que soit l'agrandissement.

Dans le cas présent, c'est pas un PDF créé avec du texte encrypté, mais
tous simplement une numérisation enregistrée au format PDF. Donc toute
diminution de taille de fichier risque d'être destructive !

Tu as raison.

Pour HD, quand tu dis le PDF est déjà en noir et blanc, c'est pas plutôt
du niveau de gris (ou du noir encodé en RVB) vu la taille pour 55 pages?

Sinon pour réduire la taille de fichier PDF il faut posséder la version
complète d'Acrobat et ses outils internes ou des plugins du style "Quite
A Box of Tricks" que l'on peut tester ici :
http://www.quartet.fr/solutions_pdf/solutions_pdf.html

Merci, j'y cours.

GR

Ghost Rider

31/10/2008 à 21:11

mdnews a écrit :

On Fri, 31 Oct 2008 10:30:03 +0100, Ghost Rider <"Ghost
Rider"@compuserve.com> wrote:

Le PDF est déjà très compressé puisque c'est un format vectoriel et non
bitmap.

Pas du tout.
Je te recommande la lecture du PDF REFERENCE MANUAL
http://www.adobe.com/devnet/pdf/pdf_reference.html
La bible pour tout ceux qui programment des aplications générant des
résultats en PDF

Un fichier PDF est un langage de description de page qui contient les
fontes, la position, taille, couleur, objets et images.

Oui, j'ai abusivement simplifié, en disant "vectoriel" je voulais dire
en fait descriptif, ce qui permet des variations d'échelle sans perte.

Seuls les objets (ligne, cadre, et quelques autres sont vectoriels)

Donc un peu vectoriel, non, juste un tout petit peu ? Allez, un bon
mouvement... ;-)

Une image dans un PDF reste une image (JPG, PNG etc)
Elle est affichée simplement à l'endroit du document.

D'accord sur tout cela.

Elle n'a pas nécessairement la taille qui est réprésentée sur la page.
(Exactement comme une image dans un fichier word peut être beaucoup
plus grande que la taille affichée)

Ce qui explique pourqoi Word, qui conserve les images en BMP (je crois,
mais si ce n'est pas vrai, toutes mes excuses), peut donner des fichiers
énormes aussi, avec de petites images.

Pour réduire sensiblement un PDF (si le "zippage" ne donne rien)

En général, c'est le cas

il faut donc le "démonter" s'il n'est pas protégé et changer la taille
des images (augmenter la compression (et perdre en qualité) ou
diminuer la taille des images)

Là, ça devient compliqué.

GR

HD

03/11/2008 à 12:07

> Dans le cas présent, c'est pas un PDF créé avec du texte encrypté, mais
tous simplement une numérisation enregistrée au format PDF.

C'est bien ça...

Donc toute diminution de taille de fichier risque d'être destructive !

Ouille... Existerait il la possibilité de transformer ces PDF dans un autre
format moins lourd ? Le JPG serait pas mal mais... il n'offre pas la
possibilité d'avoir plusieurs pages en un seul fichier...

Pour HD, quand tu dis le PDF est déjà en noir et blanc, c'est pas plutôt
du niveau de gris (ou du noir encodé en RVB) vu la taille pour 55 pages?

A partir du scanner utilisé pour cette numérisation j'ai choisi l'option
"Noir & Blanc"... L'option niveau de gris me donnant un fichier plus lourd
et étrangement moins lisible...

@+
HD

PDF énorme... Comment le réduire ?

10 réponses

Veuillez sélectionner un problème