Unlock a world of possibilities! Login now and discover the exclusive benefits awaiting you.
Bonjour,
je m'explique, je dispose de données et j'aimerai savoir si ces même données réapparaissent ou non les mois qui suivent.
Pour vérifier cela il faut voir si les 3 champs (idClient, StringA et String B) sont les mêmes pour la date du 18/01/2020 et celle du 18/02/2020.
Le but serait d'obtenir un taux de réapparition des données. Avec le fichier exemple on aurait nb réapparition à la date du 18/02/2020 divisé par le nb de ligne du 18/01/2020.
Ici seule la 1ere ligne réapparait dans la 2eme date (1/5a/33e). On aurait donc 1/4.
Je dispose d'un très grand jeu de données qui ne fait qu'évoluer et j'aimerai pouvoir obtenir ce résultat dans une visualisation.
Je précise que les valeurs distinct de chacun des 3 champs est très important en termes de volumétrie.
Cordialement
This statement I am not clear?
Here only the 1st line reappears in the 2nd date (1 / 5a / 33e). We would therefore have 1/4.
Also, can you share expected result from given data? I understand that If all 3 columns had same data on dates, you need to pick.
Here only the 1st line reappears in the 2nd date (1 / 5a / 33e). We would therefore have 1/4.
We divide data in 2 parts, one part for the first date(18/01/2020) and one for the second(18/02/2020), the goal is to know if each record in first part appear in the second one. In this exemple , only the first record appear in both part (1/5a/33e).
So only one record and there is 4 record in the first part. So the result will be 1/4 = 0.25. That mean 25% of my dataset in part 1 appear in part 2.
Since you have 2 dates may be we can calculate, But what if you have the date more than 5 to aggregate? Are you expecting something like Permutaion and Combination ?
I just take the first date as a reference. Then i want to compare data for the first date with others one by one.