3 Replies Latest reply: Sep 28, 2015 4:11 AM by Éric BORDART RSS

    Analyse de fréquence avec des chaînes identité

      Bonjour,

       

       

      Bien qu'ayant eu droit à une formation institutionnelle sur QlikView, en voyant la quantité et la qualité des informations mises à disposition par la communauté, je me considère comme beginner...

       

       

      J'ai pu développer un outil pour mes besoins d'indicateurs qui vient remplacer un ensemble de requêtes Business Objects, mais là j'essaie de monter un outil permettant de démontrer l'utilité d'utiliser un nombre précis de caractères pour effectuer des recherches dans notre base d'identités.

       

       

      L'exemple est simple, j'ai une table contenant le prénom PRN et un identifiant unique ID pour chaque personne.

       

      Plusieurs personnes peuvent avoir le même prénom éventuellement mais ont un identifiant différent.

       

       

      Je veux démontrer la longueur optimale du nombre de caractères à saisir dans le champ de recherche du prénom pour tomber le plus souvent possible sur une personne et une seule. Je cherche donc à calculer le cumul de chaines prénoms tronquées au nombre de caractère (MID(PRN,1,NBCAR) saisi via une variable NBCAR dans un curseur, qui ont individuellement pour résultat de recherche le même cumul d'identifiants (COUNT(DISTINCT ID).

       

      Au final j'aimerai un tableau en histogrammes, avec en abscisse le nombre d'identifiants trouvés, et en ordonnée le nombre de chaînes de caractères distinctes coupées à la longueur définie par le curseur.

       

       

      Bien entendu, je travaille sur des identités et donc la base sera plus conséquente (environ 800.000) et recoupera plusieurs "champs" :  le nom, le prénom, la date de naissance.

       

       

      Aujourd'hui, je parviens à calculer par chaîne tronquée, le nombre d'identifiants trouvés, mais je cale pour passer à l'étape suivante.

       

      J'ai essayé avec des set analysis mais je ne les maîtrise pas.

       

      J'y suis parvenu en scriptant à l'import et en coupant les chaînes dans le script, et en calculant les cumuls dans le script, donc pas d'influence possible via ma variable.

       

       

      Auriez-vous une idée ?

       

       

      Merci

       

      Eric