Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

éliminer la redondance dans une liste de chaines de caractères

1 réponse
Avatar
pitooon
Bonjour,

je me permets de soumettre un probl=E8me que beaucoup ont d=E9j=E0 du
rencontrer auparavant.

Je dispose d'une liste de scalaires dont chaque =E9l=E9ment est un en fait
une chaine de caract=E8res.
Je souhaite produire une sous-liste dont toutes les paires d'=E9l=E9ments
ne partagerons pas plus de
de X caract=E8res identiques entre eux au m=EAme position, toutes les
chaines de caract=E8res ayant la m=EAme
longueur.
On pourrait calculer une matrice de distance puis faire du Single
Linkage Clustering, par exemple.
Je me demandais si il existait des impl=E9mentations disponible en perl
de ce type de probl=E8me?

Cordialement,

1 réponse

Avatar
Denis Dordoigne
Bonjour,

Je me demandais si il existait des implémentations disponible en perl
de ce type de problème?


Le module AI::Categorizer (1) est prévu pour répondre à ce type de besoin,
il implémente notamment l'algorithme souhaité dans le sous-module
AI::Categorizer::Learner::KNN (2). Note : je n'ai jamais testé ce module, je
l'ai juste trouvé en cherchant "Nearest Neighbour" sur search.cpan.org.

Liens :
1 - http://search.cpan.org/~kwilliams/AI-Categorizer-0.09/lib/AI/Categorizer.pm

2 -
http://search.cpan.org/~kwilliams/AI-Categorizer-0.09/lib/AI/Categorizer/Learner/KNN.pm



--
Denis Dordoigne
Membre de l'April - promouvoir et défendre le logiciel libre - april.org
Rejoignez maintenant plus de 5000 personnes, associations, entreprises et
collectivités qui soutiennent notre action