Unlock a world of possibilities! Login now and discover the exclusive benefits awaiting you.
Bonjour à tous,
Je continue à découvrir Qlik et le forum est une mine d'info. Mais je suis coincé avec un problème +/- de doublon.
J'ai besoin d'identifier des lignes qui seraient identiques pour certains champs , en pratique je recois les données avec un numéro unique attribué à chaque ligne mais je viens de voir que ce numéro n'est pas le gage que chaque ligne soit unique.
En pratique mon numéro id_vente est unique dans la base de données mais des champs de la ligne correspondants à cette peuvent être identiques; ainsi mes "Count (distinct id_vente)" pourraient compter des doublons...(1064589622 et 1364058796 dans l'exemple d'illustration ci-dessous)
id_vente | nom_produit | maj_ref | timestamp_achat | ref_achat |
1024589612 | ask | 01/10/2001 | 12/04/2019 10:05 | 01123 |
1064589622 | blue | 15/06/2010 | 11/09/2019 15:54 | 01356 |
1074569329 | cole | 01/03/2009 | 05/02/2020 17:09 | 02169 |
1123045896 | old | 15/02/2017 | 24/10/2019 11:28 | 12607 |
1364058796 | blue | 15/06/2010 | 11/09/2019 15:54 | 01356 |
1099623501 | alf | 01/09/1999 | 17/08/2019 18:18 | 22749 |
Comment faire une expression pour que Qlik me donne dans un tableau les lignes que j'identifie comme doublon en me basant sur les 4 champs en + de l'id_vente? (il y a beauuuuuuucoup plus de champs par ligne mais ces 4 là, renseignés systématiquement, sont ceux qui pourraient identifier les doublons)
Merci par avance pour votre aide et bon dimanche à tous.
Bonjour
Ajouter un champs clé avec la concatenation des 4 champs identifiants un doublon
puis recharger la table avec un Load distinct
Temp:
Load
nom_produit&maj_ref×tamp_achat&ref_achat as CLE_DOUBLON
id_vente,
nom_produit,
maj_ref,
timestamp_achat,
ref_achat
...
From ...
no concatenate
Final
load DISTINCT
*
resident TEMP;
drop table TEMP
Salut @Dzedai ,
Le moyen le plus simple serait de créer une nouvelle clé unique basé sur les 5 champs comme suit:
Load
id_vente,
nom_produit,
maj_ref,
timestamp_achat,
ref_achat,
AutoNumberHash128(id_vente, nom_produit, maj_ref,timestamp_achat, ref_achat) as Identifiant_vente
From ....
Tu peux ainsi faire ton expression avec le nouvelle clé: Count(Identifiant_vente)
Voila,
J'espère que cela va t'aider.
Lotfi
Bonjour
Ajouter un champs clé avec la concatenation des 4 champs identifiants un doublon
puis recharger la table avec un Load distinct
Temp:
Load
nom_produit&maj_ref×tamp_achat&ref_achat as CLE_DOUBLON
id_vente,
nom_produit,
maj_ref,
timestamp_achat,
ref_achat
...
From ...
no concatenate
Final
load DISTINCT
*
resident TEMP;
drop table TEMP
Salut @Dzedai ,
Le moyen le plus simple serait de créer une nouvelle clé unique basé sur les 5 champs comme suit:
Load
id_vente,
nom_produit,
maj_ref,
timestamp_achat,
ref_achat,
AutoNumberHash128(id_vente, nom_produit, maj_ref,timestamp_achat, ref_achat) as Identifiant_vente
From ....
Tu peux ainsi faire ton expression avec le nouvelle clé: Count(Identifiant_vente)
Voila,
J'espère que cela va t'aider.
Lotfi
Merci bien à tous les deux! Ca fonctionne 🙂
Bonne journée.