éliminer la redondance dans une liste de chaines de caractères

Le
pitooon
Bonjour,

je me permets de soumettre un problème que beaucoup ont déjà du
rencontrer auparavant.

Je dispose d'une liste de scalaires dont chaque élément est un en fait
une chaine de caractères.
Je souhaite produire une sous-liste dont toutes les paires d'éléments
ne partagerons pas plus de
de X caractères identiques entre eux au même position, toutes les
chaines de caractères ayant la même
longueur.
On pourrait calculer une matrice de distance puis faire du Single
Linkage Clustering, par exemple.
Je me demandais si il existait des implémentations disponible en perl
de ce type de problème?

Cordialement,
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Denis Dordoigne
Le #21474171
Bonjour,

Je me demandais si il existait des implémentations disponible en perl
de ce type de problème?


Le module AI::Categorizer (1) est prévu pour répondre à ce type de besoin,
il implémente notamment l'algorithme souhaité dans le sous-module
AI::Categorizer::Learner::KNN (2). Note : je n'ai jamais testé ce module, je
l'ai juste trouvé en cherchant "Nearest Neighbour" sur search.cpan.org.

Liens :
1 - http://search.cpan.org/~kwilliams/AI-Categorizer-0.09/lib/AI/Categorizer.pm

2 -
http://search.cpan.org/~kwilliams/AI-Categorizer-0.09/lib/AI/Categorizer/Learner/KNN.pm



--
Denis Dordoigne
Membre de l'April - promouvoir et défendre le logiciel libre - april.org
Rejoignez maintenant plus de 5000 personnes, associations, entreprises et
collectivités qui soutiennent notre action
Publicité
Poster une réponse
Anonyme