Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Quelques centaines de Mo

6 réponses
Avatar
mdnews
Bonjour,

Pour faire des tests de performance de base et de machine, je cherche
une base, ou un très gros fichier texte délimité à télécharger, mais au
moins 100 Mo voir beaucoup plus (pas de pb avec l'adsl)

Oui, je sais qu'il est possible de faire un générateur de texte
aléatoire, mais ça rend moins réel les essais d'indexation et de plus
je souhaiterais tester les fonctions liées au phonèmes (avec des champs
aléatoire, ça va rien donner)

J'ai pensé à des références de livres par exemple ou des listes de
pièce détachées enfin n'importe quoi, en texte brut (et si en plus il y
a des accents, c'est encore mieux). J'ai bien la liste des codes
postaux, mais c'est trois fois rien pour la puissance des pc actuels.

Merci,

6 réponses

Avatar
Hugues
mdnews a écrit :
Bonjour,

Pour faire des tests de performance de base et de machine, je cherche
une base, ou un très gros fichier texte délimité à télécharger, mais au
moins 100 Mo voir beaucoup plus (pas de pb avec l'adsl)

Oui, je sais qu'il est possible de faire un générateur de texte
aléatoire, mais ça rend moins réel les essais d'indexation et de plus je
souhaiterais tester les fonctions liées au phonèmes (avec des champs
aléatoire, ça va rien donner)

J'ai pensé à des références de livres par exemple ou des listes de pièce
détachées enfin n'importe quoi, en texte brut (et si en plus il y a des
accents, c'est encore mieux). J'ai bien la liste des codes postaux, mais
c'est trois fois rien pour la puissance des pc actuels.

Merci,




[HS] tu utilises quoi comme moteur d'indexation ? et pour les tests sur
les phonémes ?
Avatar
Basile Starynkevitch [news]
On 2005-06-02, mdnews wrote:
Pour faire des tests de performance de base et de machine, je cherche
une base, ou un très gros fichier texte délimité à télécharger, mais au
moins 100 Mo voir beaucoup plus (pas de pb avec l'adsl)




Sous Debian, la Bible en anglais (traduction dite "King James") est
disponible par les paquets bible-kjv & bible-kjv-text
la commande
bible Gen1:1-Rev22:21
sort un texte de 4298239 octets qui commence par

Genesis 1

1 In the beginning God created the heaven and the earth.
2 And the earth was without form, and void; and darkness was upon the face of
the deep. And the Spirit of God moved upon the face of the waters.
3 And God said, Let there be light: and there was light.

et se termine par les derniers versets de l'Apocalypse

19 And if any man shall take away from the words of the book of this
prophecy, God shall take away his part out of the book of life, and out of the
holy city, and from the things which are written in this book.
20 He which testifieth these things saith, Surely I come quickly. Amen. Even
so, come, Lord Jesus.
21 The grace of our Lord Jesus Christ be with you all. Amen.

C'est vrai que ça fait que 4,3 megaoctets, pas 100.

Une autre possibilité, c'est d'adapter un moteur de recherche pour
chercher des gros fichiers sur le Web. En 2002, j'avais utilisé Larbin
(robot de web en logiciel libre) pour ça (et si j'ai bonne mémoire, il
m'a trouvé des fichiers textuels -peut-être HTML- d'une dizaine de
megeoctets).

Voir http://larbin.sourceforge.net/

Si vous cherchez à classifier rapidement des pages en fonction de leur
langue (humaine -français ou anglais-) il est possible que des bouts
de code de POESIA (c'était un projet de filtre de contenu du Web)
puissent vous aider.

Voir http://sourceforge.net/projects/poesia/

Mais si vous voulez juste mesure la performance d'un serveur Web, il
suffit de prendre un texte qu'on multiplie une dizaine de fois...

Par curiosité, que voulez vous mesurer exactement?
--
Basile STARYNKEVITCH http://starynkevitch.net/Basile/
email: basile(at)starynkevitch(dot)net
8, rue de la Faïencerie, 92340 Bourg La Reine, France
Avatar
mdnews
Hugues a présenté l'énoncé suivant :
mdnews a écrit :
Bonjour,

Pour faire des tests de performance de base et de machine, je cherche une
base, ou un très gros fichier texte délimité à télécharger, mais au moins
100 Mo voir beaucoup plus (pas de pb avec l'adsl)

Oui, je sais qu'il est possible de faire un générateur de texte aléatoire,
mais ça rend moins réel les essais d'indexation et de plus je souhaiterais
tester les fonctions liées au phonèmes (avec des champs aléatoire, ça va
rien donner)

J'ai pensé à des références de livres par exemple ou des listes de pièce
détachées enfin n'importe quoi, en texte brut (et si en plus il y a des
accents, c'est encore mieux). J'ai bien la liste des codes postaux, mais
c'est trois fois rien pour la puissance des pc actuels.

Merci,




[HS] tu utilises quoi comme moteur d'indexation ? et pour les tests sur les
phonémes ?



Dans un premier temps, c'est pour tester dans MySQL / PostgreSQL /
SQLite et faire aussi des tests de chargement / déchargement
automatiques.
Avatar
mdnews
Le Thu, 2 Jun 2005 15:52:48 +0000 (UTC), Basile Starynkevitch [news] a
écrit :

Mais si vous voulez juste mesure la performance d'un serveur Web, il
suffit de prendre un texte qu'on multiplie une dizaine de fois...

Par curiosité, que voulez vous mesurer exactement?




Ce n'est pas tant le serveur web, mais le choix d'un algo plutôt qu'un
autre dans les méthodes d'indexation. Avec un gros volume de donnée, les
essais sont beaucoup plus significatifs qu'avec un petit volume (pas de
cache)
J'avais espéré trouver par exemple des nomenclatures de bibliothèques, car
il y a tout ce qu'il faut (titre, auteur, numéros ISBN, date, texte) et des
gros volumes. Mais il semble que ni les edditeurs, ni les bibliothèques ne
mettent en ligne les données à télécharger. Je me demande d'ailleurs
comment font les gestionnaires de bibliothèques qui s'ouvrent? doivent ils
saisir tout leur stock à la main ?
Avatar
JB
mdnews wrote:
Bonjour,

Pour faire des tests de performance de base et de machine, je cherche
une base, ou un très gros fichier texte délimité à télécharger, mais au
moins 100 Mo voir beaucoup plus (pas de pb avec l'adsl)

Oui, je sais qu'il est possible de faire un générateur de texte
aléatoire, mais ça rend moins réel les essais d'indexation et de plus je
souhaiterais tester les fonctions liées au phonèmes (avec des champs
aléatoire, ça va rien donner)

J'ai pensé à des références de livres par exemple ou des listes de pièce
détachées enfin n'importe quoi, en texte brut (et si en plus il y a des
accents, c'est encore mieux). J'ai bien la liste des codes postaux, mais
c'est trois fois rien pour la puissance des pc actuels.

Merci,




Sur tpc.org, différents types de benchs!
ceci de manière indépendantes des SGBDs
le téléchargement inclus un générateur spécifique de données ainsi
qu'une taille préchoisie
c'est un bench dans l'état de l'art, ceci permet de voir que la machine
est bien tunée ainsi que le SGBD
ceci nécessite une connaissance pointue de l'environnement
bon courrage!
A+
JB
Avatar
Pif
TREC est une compétition en recherche d'information, il fournissent des
corpus à l'occasion, tu peux donc en profiter pour comparer tes
résultats avec eux en plus concernant la qualité et pas simplement la
performance de ton algo en terme de rapidité...

ceci dit, je ne sais pas quelle est la taille de leur corpus.


mdnews a écrit :

Bonjour,

Pour faire des tests de performance de base et de machine, je cherche
une base, ou un très gros fichier texte délimité à télécharger, mais au
moins 100 Mo voir beaucoup plus (pas de pb avec l'adsl)

Oui, je sais qu'il est possible de faire un générateur de texte
aléatoire, mais ça rend moins réel les essais d'indexation et de plus je
souhaiterais tester les fonctions liées au phonèmes (avec des champs
aléatoire, ça va rien donner)

J'ai pensé à des références de livres par exemple ou des listes de pièce
détachées enfin n'importe quoi, en texte brut (et si en plus il y a des
accents, c'est encore mieux). J'ai bien la liste des codes postaux, mais
c'est trois fois rien pour la puissance des pc actuels.

Merci,