Existe-il une solution de HSM/Tiered storage sous Debian ?
3 réponses
karine
Bonjour =E0 tous,
Je ne suis tout =E0 fait s=FBr qu'il s'agisse du bon terme <HSM> http://en.=
wikipedia.org/wiki/Hierarchical_storage_management
Voici ma probl=E9matique:
J'ai un volume de donn=E9es bureautique en tr=E8s forte augmentation chaque=
ann=E9e. Ce volume est stock=E9 sur des serveurs Debian tr=E8s haute perfo=
rmance.
Pour limit=E9 cette explosion de la consommation, je mesure via un script l=
a taille de certains r=E9pertoires strat=E9giques chaque mois.
Pour am=E9liorer ma maitrise de ces donn=E9es et obtenir une gestion "pro-a=
ctive" j'=E9tudie deux solutions qui me semblent compl=E9mentaires:
1. La mise en place de quota: http://www.siteduzero.com/forum-83-471453-p1-=
limiter-la-taille-d-un-dossier-sous-debian-suite.html
2. ce qui me semble pouvoir =EAtre d=E9sign=E9 par HSM ou Tiered storage
Je d=E9couvre cette notion ce soir mais j'ai du mal =E0 trouver une solutio=
n logicielle correspondante.
Le but de cette notion est de stocker les fichiers fortement sollicit=E9s s=
ur des stockages haute performance et les fichiers les moins utilis=E9s ver=
s du=20
stockage faible co=FBt.
J'ai trouv=E9 =E7a:
* Avec Novell, votre personnel informatique peut =E9tablir des strat=E9gies=
afin de d=E9placer automatiquement les fichiers rarement consult=E9s vers =
des=20
disques =E0 bas prix, sans aucune cons=E9quence pour les utilisateurs.
http://www.novell.com/fr-fr/solutions/collaboration/#backbone
Et =E7a:
Tiered storage is the assignment of different categories of data to differe=
nt types of storage media in order to reduce total storage cost.
http://searchstorage.techtarget.com/sDefinition/0,,sid5_gci1028962,00.html
Voici ma question!
Existe-il sous Debian un logiciel ou en ensemble de logiciel permettant de =
r=E9partir sur plusieurs medias de stockage les fichiers d'un filesystem=20
suivant leurs sollicitations ?
D=E9sol=E9 si je me suis mal expliqu=E9, mais je suis pret =E0 d=E9tailler.
Toute piste, nom de logiciel (libre ou proprio), autres solutions ou discus=
sion est bienvenue.
Merci et bonne soir=E9e.
Salokine.
Info technique:
* Double serveurs debian Etch tr=E8s haute performance (heartbeat/drdb): Sa=
mba 3 + OpenLDAP + (beaucoup d'autres services hors sujet ...) << C'est ici=
=20
que sont stock=E9s les donn=E9es
* Un serveur debian Lenny + disques RAID de plusieurs To basses performance=
s mais tr=E8s haute capacit=E9: Samba 3 << Utilis=E9 pour de l'archivage ma=
nuel
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Jean-Yves F. Barbier
karine a écrit :
Voici ma problématique: J'ai un volume de données bureautique en très forte augmentation chaque année. Ce volume est stocké sur des serveurs Debian très haute performance. Pour limitER cette explosion de la consommation, je mesure via un script la taille de certains répertoires stratégiques chaque mois.
* Un utilisateur, c'est comme un clébard: il faut le dresser correctement ;) stocker tout et n'importe quoi ne sert à rien, sinon à avoir des difficultés à retrouver le bon document le moment venu. C'est à toi de faire un audit et de poser les bonnes questions pour obtenir les bonnes réponses et faire baisser l'encombrement des partoches (et tu seras ptêt surprise...)
* Il existe différents softs de gestion documentaire qui permettent la ventilation intelligente des docs (v. google pour ça), l'affichage de digests, la compression, l'indexation textuelle, etc
* Pour la partie à archiver, perso pour faire simple je ferais un tri régulier à partir de 'atime' (access time) et, au-delà d'un certain temps (à déterminer par ton audit), un autre script basculerait les fichiers en question sur svr2.
À l'évidence ton PB est à reprendre à la racine avant toute manip ou restructuration: la plupart des gens qui n'ont pas été brieffés se contentant de tout sauvegarder sans se poser de questions.
-- Emacs, n.: A slow-moving parody of a text editor.
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS
karine a écrit :
Voici ma problématique:
J'ai un volume de données bureautique en très forte augmentation chaque année. Ce volume est stocké sur des serveurs Debian très haute performance.
Pour limitER cette explosion de la consommation, je mesure via un script la taille de certains répertoires stratégiques chaque mois.
* Un utilisateur, c'est comme un clébard: il faut le dresser correctement ;)
stocker tout et n'importe quoi ne sert à rien, sinon à avoir des difficultés à
retrouver le bon document le moment venu.
C'est à toi de faire un audit et de poser les bonnes questions pour obtenir les
bonnes réponses et faire baisser l'encombrement des partoches (et tu seras ptêt
surprise...)
* Il existe différents softs de gestion documentaire qui permettent la ventilation
intelligente des docs (v. google pour ça), l'affichage de digests, la compression,
l'indexation textuelle, etc
* Pour la partie à archiver, perso pour faire simple je ferais un tri régulier
à partir de 'atime' (access time) et, au-delà d'un certain temps (à déterminer
par ton audit), un autre script basculerait les fichiers en question sur svr2.
À l'évidence ton PB est à reprendre à la racine avant toute manip ou restructuration:
la plupart des gens qui n'ont pas été brieffés se contentant de tout sauvegarder
sans se poser de questions.
--
Emacs, n.:
A slow-moving parody of a text editor.
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Voici ma problématique: J'ai un volume de données bureautique en très forte augmentation chaque année. Ce volume est stocké sur des serveurs Debian très haute performance. Pour limitER cette explosion de la consommation, je mesure via un script la taille de certains répertoires stratégiques chaque mois.
* Un utilisateur, c'est comme un clébard: il faut le dresser correctement ;) stocker tout et n'importe quoi ne sert à rien, sinon à avoir des difficultés à retrouver le bon document le moment venu. C'est à toi de faire un audit et de poser les bonnes questions pour obtenir les bonnes réponses et faire baisser l'encombrement des partoches (et tu seras ptêt surprise...)
* Il existe différents softs de gestion documentaire qui permettent la ventilation intelligente des docs (v. google pour ça), l'affichage de digests, la compression, l'indexation textuelle, etc
* Pour la partie à archiver, perso pour faire simple je ferais un tri régulier à partir de 'atime' (access time) et, au-delà d'un certain temps (à déterminer par ton audit), un autre script basculerait les fichiers en question sur svr2.
À l'évidence ton PB est à reprendre à la racine avant toute manip ou restructuration: la plupart des gens qui n'ont pas été brieffés se contentant de tout sauvegarder sans se poser de questions.
-- Emacs, n.: A slow-moving parody of a text editor.
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS
Jean-Yves F. Barbier
Salokine Terata a écrit : ...
Depuis Samba 3 il y a deux ans, les vannes sont ouvertes. J'ai scripté un rapport mensuel pour me dresser une analyse des évolutions par répertoire + alarme suivant une taille limite ou une évolution (%) trop importante par rapport au mois précédent. Ensuite je dédie au moins 2 jours par mois pour faire la chasse au gaspillage. L'essentiel étant de la relance par mail. Et oui, les utilisateurs ne sont plus bloqués ... ma demande est nettement moins contraingnante et dissuasive qu'avec des quotas "hard-limit" !. Bref, d'un point de vue coût TCO ça n'a rien à voir. Là ou nous traitions cette tâche en temps masqué, aujourd'hui c'est devenu un temps non négligeable de travail et les disques sont pleins (+ 30Go par an par site en moyenne !)
Non, ça ne marche pas: c'est comme réclamé un impayé par fax... Par contre si tu appelles le clients et que tu lui explique gentiment qu'il a 48H pour payer sinon il se retrouve au tribunal, les sous rentrent bcp mieux.
...
Je te rejoint donc sur ta préconisation, et c'est justement parce que les comportements des utilisateurs finaux ne repondent par à mes attentes (et j'ai autre chose à faire que de relancer tout le temps par mail et faire l'archivage à leur place) que je recherche une solution capable de soulager cette gestion et de renouer avec de la performance: quota + cette notion de stockage répartie qui est le sujet de mon mail.
* Il existe différents softs de gestion documentaire qui permettent la ventilation intelligente des docs (v. google pour ça), l'affichage de digests, la compression, l'indexation textuelle, etc
Peux-tu me donner des liens, c'est justement cela que je recherche, cette notion de "ventliation intelligente". Peux-tu me donner des noms de paquets debian ?
Pas de packages Debian que je sache, mais Alfresco ressort parmi les plus cités
!! ;-) Pour la compression, je l'intégre effectivement dans mon étude. merci. L'affichage de digest, même avec google, je ne vois pas de quoi il s'agit. Peux-tu développer.
Un peu la même chose que gogol fait: l'affichage d'un condensé du texte original lors de la recherche (mais ça n'est pas un point bloquant.)
* Pour la partie à archiver, perso pour faire simple je ferais un tri régulier à partir de 'atime' (access time) et, au-delà d'un certain temps (à déterminer par ton audit), un autre script basculerait les fichiers en question sur svr2.
!! ;-) Bien vu pour l'access time, je l'intègre également. Il faut que je regarde si les sauvegardes n'actualisent pas cette donnée.
Je me suis trompé: atime est effectivement modifié à _chaque_ accès (quel qu'il soit), donc ton ami est plutôt mtime ou ctime (V. http://www.brandonhutchinson.com/ctime_atime_mtime.html )
À l'évidence ton PB est à reprendre à la racine avant toute manip ou restructuration:
Je suis à la racine ... je cherche justement les différentes options sans en dénigrer l'une par rapport à l'autre. Ici, je recherche des logiiels Debian gérant cette notion de HSM ou de "ventilation intelligente" comme tu l'appel.
Ben intelligente n'est pas vraiment le mot, disons plutôt 'orientée', CàD découpée en workflows spécifiques à l'entreprise + éventuellement en cadences si les projets sont exécutés par strates. J'ai testé J-DOC, agréable et facile, mais je doute qu'en l'état actuel des choses il soit exploitable (pas de visualisation online des docs, juste un téléchargement; et une visibilité limite sur les Tgros dossiers.)
la plupart des gens qui n'ont pas été brieffés se contentant de tout sauvegarder sans se poser de questions.
Tout à fait d'accord. Pour le moment (mais j'insiste je ne suis qu'à l'étape d'assimilation de piste !), l'application de quota par répertoire me semble la solution qui permettra aux utilisateurs de se RE-poser ces fameuses questions comme dans le système précédent.
Oui, les quotas sont une manière simple (et surtout ne nécessitant aucune surveillance appuyée) pour faire le ménage. D'ailleurs il n'est pas normal que l'ancienne procédure ayant fait ses preuves, elle n'ait pas été automatiquement reconduite sur la nouvelle configuration; ça fait partie de tes attributions de créer une échelle de notation des procs de travail, avec revue régulière et suivi des changements/ajouts/suppressions.
Je ne pense pas qu'il existe de solution toute faite, mais par exemple l'utilisation d'Alfredo sur les 2 svrs, avec le même setup, devrait permettre aux utilisateurs d'archiver facilement - avec un bémol: tu risques de déplacer le PB d'un serveur vers l'autre, donc quotas partout.
Tu peux aussi imposer une normalisation des noms de fichiers et effacer ceux qui n'y correspondent pas (ie: <n° dossier>_<date>_<nom normalisé du doc>).
-- Bell Labs Unix -- Reach out and grep someone.
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS
Salokine Terata a écrit :
...
Depuis Samba 3 il y a deux ans, les vannes sont ouvertes. J'ai scripté un rapport mensuel pour me dresser une analyse des évolutions par répertoire +
alarme suivant une taille limite ou une évolution (%) trop importante par rapport au mois précédent. Ensuite je dédie au moins 2 jours par mois pour
faire la chasse au gaspillage. L'essentiel étant de la relance par mail. Et oui, les utilisateurs ne sont plus bloqués ... ma demande est nettement
moins contraingnante et dissuasive qu'avec des quotas "hard-limit" !. Bref, d'un point de vue coût TCO ça n'a rien à voir. Là ou nous traitions cette
tâche en temps masqué, aujourd'hui c'est devenu un temps non négligeable de travail et les disques sont pleins (+ 30Go par an par site en moyenne !)
Non, ça ne marche pas: c'est comme réclamé un impayé par fax... Par contre si tu
appelles le clients et que tu lui explique gentiment qu'il a 48H pour payer
sinon il se retrouve au tribunal, les sous rentrent bcp mieux.
...
Je te rejoint donc sur ta préconisation, et c'est justement parce que les comportements des utilisateurs finaux ne repondent par à mes attentes (et
j'ai autre chose à faire que de relancer tout le temps par mail et faire l'archivage à leur place) que je recherche une solution capable de soulager
cette gestion et de renouer avec de la performance: quota + cette notion de stockage répartie qui est le sujet de mon mail.
* Il existe différents softs de gestion documentaire qui permettent la
ventilation intelligente des docs (v. google pour ça), l'affichage de
digests, la compression, l'indexation textuelle, etc
Peux-tu me donner des liens, c'est justement cela que je recherche, cette notion de "ventliation intelligente". Peux-tu me donner des noms de paquets
debian ?
Pas de packages Debian que je sache, mais Alfresco ressort parmi les plus cités
!! ;-) Pour la compression, je l'intégre effectivement dans mon étude. merci.
L'affichage de digest, même avec google, je ne vois pas de quoi il s'agit. Peux-tu développer.
Un peu la même chose que gogol fait: l'affichage d'un condensé du texte original
lors de la recherche (mais ça n'est pas un point bloquant.)
* Pour la partie à archiver, perso pour faire simple je ferais un tri
régulier à partir de 'atime' (access time) et, au-delà d'un certain temps
(à déterminer par ton audit), un autre script basculerait les fichiers en
question sur svr2.
!! ;-) Bien vu pour l'access time, je l'intègre également. Il faut que je regarde si les sauvegardes n'actualisent pas cette donnée.
Je me suis trompé: atime est effectivement modifié à _chaque_ accès (quel qu'il soit),
donc ton ami est plutôt mtime ou ctime (V. http://www.brandonhutchinson.com/ctime_atime_mtime.html )
À l'évidence ton PB est à reprendre à la racine avant toute manip ou
restructuration:
Je suis à la racine ... je cherche justement les différentes options sans en dénigrer l'une par rapport à l'autre. Ici, je recherche des logiiels
Debian gérant cette notion de HSM ou de "ventilation intelligente" comme tu l'appel.
Ben intelligente n'est pas vraiment le mot, disons plutôt 'orientée', CàD
découpée en workflows spécifiques à l'entreprise + éventuellement en cadences
si les projets sont exécutés par strates.
J'ai testé J-DOC, agréable et facile, mais je doute qu'en l'état actuel des
choses il soit exploitable (pas de visualisation online des docs, juste un
téléchargement; et une visibilité limite sur les Tgros dossiers.)
la plupart des gens qui n'ont pas été brieffés se
contentant de tout sauvegarder sans se poser de questions.
Tout à fait d'accord. Pour le moment (mais j'insiste je ne suis qu'à l'étape d'assimilation de piste !), l'application de quota par répertoire me
semble la solution qui permettra aux utilisateurs de se RE-poser ces fameuses questions comme dans le système précédent.
Oui, les quotas sont une manière simple (et surtout ne nécessitant aucune
surveillance appuyée) pour faire le ménage.
D'ailleurs il n'est pas normal que l'ancienne procédure ayant fait ses preuves,
elle n'ait pas été automatiquement reconduite sur la nouvelle configuration;
ça fait partie de tes attributions de créer une échelle de notation des procs
de travail, avec revue régulière et suivi des changements/ajouts/suppressions.
Je ne pense pas qu'il existe de solution toute faite, mais par exemple l'utilisation
d'Alfredo sur les 2 svrs, avec le même setup, devrait permettre aux utilisateurs
d'archiver facilement - avec un bémol: tu risques de déplacer le PB d'un serveur
vers l'autre, donc quotas partout.
Tu peux aussi imposer une normalisation des noms de fichiers et effacer ceux qui
n'y correspondent pas (ie: <n° dossier>_<date>_<nom normalisé du doc>).
--
Bell Labs Unix -- Reach out and grep someone.
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Depuis Samba 3 il y a deux ans, les vannes sont ouvertes. J'ai scripté un rapport mensuel pour me dresser une analyse des évolutions par répertoire + alarme suivant une taille limite ou une évolution (%) trop importante par rapport au mois précédent. Ensuite je dédie au moins 2 jours par mois pour faire la chasse au gaspillage. L'essentiel étant de la relance par mail. Et oui, les utilisateurs ne sont plus bloqués ... ma demande est nettement moins contraingnante et dissuasive qu'avec des quotas "hard-limit" !. Bref, d'un point de vue coût TCO ça n'a rien à voir. Là ou nous traitions cette tâche en temps masqué, aujourd'hui c'est devenu un temps non négligeable de travail et les disques sont pleins (+ 30Go par an par site en moyenne !)
Non, ça ne marche pas: c'est comme réclamé un impayé par fax... Par contre si tu appelles le clients et que tu lui explique gentiment qu'il a 48H pour payer sinon il se retrouve au tribunal, les sous rentrent bcp mieux.
...
Je te rejoint donc sur ta préconisation, et c'est justement parce que les comportements des utilisateurs finaux ne repondent par à mes attentes (et j'ai autre chose à faire que de relancer tout le temps par mail et faire l'archivage à leur place) que je recherche une solution capable de soulager cette gestion et de renouer avec de la performance: quota + cette notion de stockage répartie qui est le sujet de mon mail.
* Il existe différents softs de gestion documentaire qui permettent la ventilation intelligente des docs (v. google pour ça), l'affichage de digests, la compression, l'indexation textuelle, etc
Peux-tu me donner des liens, c'est justement cela que je recherche, cette notion de "ventliation intelligente". Peux-tu me donner des noms de paquets debian ?
Pas de packages Debian que je sache, mais Alfresco ressort parmi les plus cités
!! ;-) Pour la compression, je l'intégre effectivement dans mon étude. merci. L'affichage de digest, même avec google, je ne vois pas de quoi il s'agit. Peux-tu développer.
Un peu la même chose que gogol fait: l'affichage d'un condensé du texte original lors de la recherche (mais ça n'est pas un point bloquant.)
* Pour la partie à archiver, perso pour faire simple je ferais un tri régulier à partir de 'atime' (access time) et, au-delà d'un certain temps (à déterminer par ton audit), un autre script basculerait les fichiers en question sur svr2.
!! ;-) Bien vu pour l'access time, je l'intègre également. Il faut que je regarde si les sauvegardes n'actualisent pas cette donnée.
Je me suis trompé: atime est effectivement modifié à _chaque_ accès (quel qu'il soit), donc ton ami est plutôt mtime ou ctime (V. http://www.brandonhutchinson.com/ctime_atime_mtime.html )
À l'évidence ton PB est à reprendre à la racine avant toute manip ou restructuration:
Je suis à la racine ... je cherche justement les différentes options sans en dénigrer l'une par rapport à l'autre. Ici, je recherche des logiiels Debian gérant cette notion de HSM ou de "ventilation intelligente" comme tu l'appel.
Ben intelligente n'est pas vraiment le mot, disons plutôt 'orientée', CàD découpée en workflows spécifiques à l'entreprise + éventuellement en cadences si les projets sont exécutés par strates. J'ai testé J-DOC, agréable et facile, mais je doute qu'en l'état actuel des choses il soit exploitable (pas de visualisation online des docs, juste un téléchargement; et une visibilité limite sur les Tgros dossiers.)
la plupart des gens qui n'ont pas été brieffés se contentant de tout sauvegarder sans se poser de questions.
Tout à fait d'accord. Pour le moment (mais j'insiste je ne suis qu'à l'étape d'assimilation de piste !), l'application de quota par répertoire me semble la solution qui permettra aux utilisateurs de se RE-poser ces fameuses questions comme dans le système précédent.
Oui, les quotas sont une manière simple (et surtout ne nécessitant aucune surveillance appuyée) pour faire le ménage. D'ailleurs il n'est pas normal que l'ancienne procédure ayant fait ses preuves, elle n'ait pas été automatiquement reconduite sur la nouvelle configuration; ça fait partie de tes attributions de créer une échelle de notation des procs de travail, avec revue régulière et suivi des changements/ajouts/suppressions.
Je ne pense pas qu'il existe de solution toute faite, mais par exemple l'utilisation d'Alfredo sur les 2 svrs, avec le même setup, devrait permettre aux utilisateurs d'archiver facilement - avec un bémol: tu risques de déplacer le PB d'un serveur vers l'autre, donc quotas partout.
Tu peux aussi imposer une normalisation des noms de fichiers et effacer ceux qui n'y correspondent pas (ie: <n° dossier>_<date>_<nom normalisé du doc>).
-- Bell Labs Unix -- Reach out and grep someone.
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS