OVH Cloud OVH Cloud

compression

21 réponses
Avatar
remy
bonjour

je suis hors charte mais la compression c'est de la
representation de donnees donc a la louche du cryptage

donc apres ce grand ecart

je voudrais savoir si vous avez deja entendu
parler d'une methode de compression
similaire les matheux d'a cote me font la tete
ils ne veulent meme pas me dire que cela ne fct pas :-)

donc l'idee de base prendre un fichier deja compresse
ou
remplacer toutes les sequences de fichiers a compresser
en hex
00 00 00 00 00 00 00 00 ->8 00
en gros
000 ...000 ->nb 0

ensuite
l'on concatenne au hasard 8 octets
l'on calcule la racine carree entiere
l'on concatenne les 8 suivants calcul
etc
mx=bx^2+r
recherche de la plus petite racine carree
bmini avec bmini entier bien sur

mx-bmini^2
et l'on ecrit r et bmini bien sur

mais bon c'est tellement trivial que cela doit deja exister
il suffisait simplement de remarquer que l'on ne pouvait pas avoir de 0
ecrit avec n octet dans un fichier compresse ou de s'arranger pour que cela
soit le cas

merci remy

10 réponses

1 2 3
Avatar
Jérémy JUST
On Fri, 24 Dec 2004 08:30:42 +0000 (UTC)
JKB wrote:

À ce propos, je viens de compresser ma partition de news, et vu le
taux record atteint (89% avec bzip2)
Usenet travaille en ASCII, donc avec une répartition des caractères

pas du tout aléatoire (en gros 64 caractères sur 256


Dans l'arborescence fr.*, c'est plutôt 128 sur 256, non?


Effectivement, je me suis aperçu de l'importance de la taille de
l'alphabet en compressant des séquences d'ADN. On utilise
essentiellement 5 lettres (A, T, G, C, N), et le taux de compression
atteint dépend beaucoup plus de ça que du contenu en information
biologique de la séquence (j'avais essayé d'utiliser l'algo de gzip pour
détecter les zones de faible complexité des séquences).
Ça me rappelle aussi que des auteurs ont essayé de spécialiser gzip
pour l'ADN (avec un pré-processeur pour recoder des quatre bases de
façon plus compacte). Mais on perd la précision du code IUPAC complet
(les jokers qui veulent dire « A ou T », etc).


d'où des taux de compression _hénaurmes_


Oui, plus les nombreuses répétitions dans les en-têtes.

--
Jérémy JUST


Avatar
Nicolas George
JKB , dans le message , a
écrit :
C'est une façon de voir les choses ;-) Usenet travaille en ASCII,
donc avec une répartition des caractères pas du tout aléatoire (en
gros 64 caractères sur 256 et une distribution non uniforme, d'où
des taux de compression _hénaurmes_ et au final un fichier dont la
probabilité d'occurence de chaque motif est uniforme sur
l'ensemble).


C'est un peu vrai, mais ça ne justifie pas les 85%. Sur un pur texte en
anglais (plus facile à compresser que le français, à cause des accents),
bzip2 ne fait _que_ 70% environ. Le reste (qui n'a l'air que d'un malheureux
15%, mais représente quand même un nouveau facteur 2 ; il vaudrait mieux
parler de facteur de compression 3,5 et 6,7) doit venir des entêtes, dont la
structure figée est extrêmement répétitive.

Avatar
Sam Hocevar
On Fri, 24 Dec 2004 12:33:42 +0000 (UTC), Nicolas George wrote:

C'est un peu vrai, mais ça ne justifie pas les 85%. Sur un pur texte en
anglais (plus facile à compresser que le français, à cause des accents),
bzip2 ne fait _que_ 70% environ. Le reste (qui n'a l'air que d'un malheureux
15%, mais représente quand même un nouveau facteur 2 ; il vaudrait mieux
parler de facteur de compression 3,5 et 6,7) doit venir des entêtes, dont la
structure figée est extrêmement répétitive.


Ah ah ah, vous ne voyez pas l'ÉVIDENT ! La raison majeure pour
laquelle on compresse si bien un spool de news, c'est simplement l'effet
AOL : les gros gorets qui citent un message de 20 kB pour y rajouter une
pauvre ligne !

--
Sam Hocevar <http://sam.zoy.org/>
Software should be free -- http://www.debian.org/
Media access should be free -- http://www.videolan.org/
Knowledge must be free -- http://www.wikipedia.org/

Avatar
Naibed
Sam Hocevar <sam+ in
news:slrncso4mp.o0l.sam+:

On Fri, 24 Dec 2004 12:33:42 +0000 (UTC), Nicolas George wrote:

C'est un peu vrai, mais ça ne justifie pas les 85%. Sur un pur texte
en anglais (plus facile à compresser que le français, à cause des
accents), bzip2 ne fait _que_ 70% environ. Le reste (qui n'a l'air que
d'un malheureux 15%, mais représente quand même un nouveau facteur 2 ;
il vaudrait mieux parler de facteur de compression 3,5 et 6,7) doit
venir des entêtes, dont la structure figée est extrêmement répétitive.


Ah ah ah, vous ne voyez pas l'ÉVIDENT ! La raison majeure pour
laquelle on compresse si bien un spool de news, c'est simplement l'effet
AOL : les gros gorets qui citent un message de 20 kB pour y rajouter une
pauvre ligne !

Ah ! Et encore, cher Sam ! ..on voit que vous connaissez pas Majorelle !

Avec ce genre de spécimen, sur fsf, on doit allègrement dépasser les 95 %
de con-pression, pardon, je voulais dire de compression..


N
--
-+---------------+-----------------+-----------------+-
Rien n'est plus beau ...(refrain connu)


Avatar
Irvin Probst
On 2004-12-27, Naibed wrote:

Ah ! Et encore, cher Sam ! ..on voit que vous connaissez pas Majorelle !


Eh, on a déjà luc2 et Jayce, ça suffit non ?

--
Irvin Probst
There are 10 types of people in the world... those who understand binary
and those who don't.

Avatar
Rakotomandimby (R12y) Mihamina
( Mon, 27 Dec 2004 10:51:13 +0000 ) Irvin Probst :
Eh, on a déjà luc2 et Jayce, ça suffit non ?


Jayce ca fait longtemps qu'on l'a pas vu...
Il prepare une prochaine release ?
--
ASPO Infogérance - http://aspo.rktmb.org/activites/infogerance
Unofficial FAQ fcolc - http://faq.fcolc.eu.org/
Linux User Group sur Orléans et alentours.
Tél: + 33 2 38 76 43 65 (France)

Avatar
Miod Vallat
Eh, on a déjà luc2 et Jayce, ça suffit non ?


Jayce ca fait longtemps qu'on l'a pas vu...
Il prepare une prochaine release ?


Ses divers sites ont disparu de la circulation ; et compte tenu du type
de contenu que l'on pouvait y trouver il y a six ou huit mois environ,
je ne serai pas étonné qu'il aie eu maille à partir avec la justice.


Avatar
Irvin Probst
On 2004-12-28, Miod Vallat wrote:

Jayce ca fait longtemps qu'on l'a pas vu...
Il prepare une prochaine release ?


Ses divers sites ont disparu de la circulation ; et compte tenu du type
de contenu que l'on pouvait y trouver il y a six ou huit mois environ,
je ne serai pas étonné qu'il aie eu maille à partir avec la justice.


C'est à dire ?

--
Irvin Probst
There are 10 types of people in the world... those who understand binary
and those who don't.


Avatar
Rakotomandimby (R12y) Mihamina
( Tue, 28 Dec 2004 11:33:12 +0000 ) Irvin Probst :

Ses divers sites ont disparu de la circulation ; et compte tenu du type
de contenu que l'on pouvait y trouver il y a six ou huit mois environ,
je ne serai pas étonné qu'il aie eu maille à partir avec la justice.
C'est à dire ?



J'ai cru voir qu'il vendait MultideskOS (je me rappelle plus son nom
exact) en pack...
C'est du secteur informel ca. :-)
--
ASPO Infogérance - http://aspo.rktmb.org/activites/infogerance
Unofficial FAQ fcolc - http://faq.fcolc.eu.org/
Linux User Group sur Orléans et alentours.
Tél: + 33 2 38 76 43 65 (France)


Avatar
Miod Vallat
Ses divers sites ont disparu de la circulation ; et compte tenu du type
de contenu que l'on pouvait y trouver il y a six ou huit mois environ,
je ne serai pas étonné qu'il aie eu maille à partir avec la justice.


C'est à dire ?

Un peu trop de contenu pornographique ou appelant à la prostitution, et

je ne suis pas sûr que c'était du squatt de nom de domaine à l'époque
(d'ailleurs, c'est amusant, si tu veux consulter ça avec la "wayback
machine", comme par hasard tu tombes sur une "erreur technique" lorsque
tu demandes les dates les plus récentes).


1 2 3