OVH Cloud OVH Cloud

Soundex en francais

1 réponse
Avatar
Moustique
Bonsoir,

Que pensez-vous de la fonction soundex français sur nexen?
http://dev.nexen.net/scripts/details.php?scripts=294

J'ai fait des tests avec des noms propres:
Soundex à gauche et le nom à droite

a112 Acherli
a112 Acherli
a112 Agarone
a112 Agarone
a112 Agra
a112 Agra
a112 Aiguillon
a112 Aiguillon
a112 Albarello
a112 Albertüsc
a112 Albis
a112 Albis
a112 Albis
a112 Albula
a112 Albula
a112 Albula
a112 Ambra
a112 Amdener Höhe
a112 Amdener Höhe
a112 Aminona
a112 Anarosa Alp
a112 Angone
a112 Anzère
a112 Arbostora
a112 Arolla
a112 Arosa
a112 Arosio
a112 Arosio
a112 Astano
a112 Arvigo
a112 Aubert

C'est comme si on cherche avec a*

Soudex (anglais) de Mysql
A264 Acherli
A264 Acherli
A265 Agarone
A265 Agarone
A260 Agra
A260 Agra
A245 Aiguillon
A245 Aiguillon
A4164 Albarello
A41632 Albertüsc
A412 Albis
A412 Albis
A412 Albis
A414 Albula
A414 Albula
A414 Albula
A516 Ambra
A5356 Amdener Höhe
A5356 Amdener Höhe
A500 Aminona
A56241 Anarosa Alp
A525 Angone
A526 Anzère
A61236 Arbostora
A640 Arolla
A620 Arosa
A620 Arosio
A620 Arosio
A235 Astano
A612 Arvigo
A163 Aubert

Un peu bizzare, je pourrais restraindre à 3 caractères et ce serait mieux.

Quand pensez-vous?



--
Moustique
La souplesse d'esprit permet de s'adapter dans toutes circonstances.

www.velo-passion.com pour les fans de vélo
http://www.lapassade.ch pour les fans de théâtre
http://www.lorimier.com/expo02 pour les nostalgiques d'un super événement

1 réponse

Avatar
P'tit Marcel
Moustique écrivit:

J'ai fait des tests avec des noms propres:
Soundex à gauche et le nom à droite


1°) il faudrait tester avec des mots français et non avec des noms propres
2°) Le SOUNDex s'évalue de façon sonore et non par écrit. ça n'a d'intérêt
que si le mot a été dicté (ex: commande par téléphone).
3°) l'algo de Soundex est simpliste plus que pertinent.

a112 Acherli
non, correspond à acrl donc devrait faire a264

a112 Agra
idem équivalent à agr soit a76


bref il y a une c. dans le script (voir plus bas!)


Que pensez-vous de la fonction soundex français sur nexen?
http://dev.nexen.net/scripts/details.php?scripts)4


défauts conceptuels (mais pas propre à ce script) :
- impasse sur les voyelles (or le français n'est pas l'hébreu)
- impasse sur le h (pas focéement muet) et sur le w (algo de Ouallon ;-)
- impasse sur les lettres liées différentes (ph, ch, qu, mn, etc.)
- x, z et s sont considérés interchangeables
- manque un contrôle que le mot n'a que des lettres a..z non accentuées
En définitive, l'algo devait travailler par phonème et non par lettre.

sur le plan programmation :
- il y a un 'print' qui n'a rien à faire là
- l'instruction cruciale est fausse (ordre et taille des paramètres).
il faudrait probablement :
strtr(substr($chaine,1),'bpckqdtlmnrgjxzsfv','112223345567788899');
au lieu de
strtr("1122233455677888999", "bpckqdtlmnrgjxzsfv", $chaine);


--
P'tit Marcel