Unlock a world of possibilities! Login now and discover the exclusive benefits awaiting you.
Olá pessoal da Comunidade Qlik,
Comecei a desenvolver um projeto de Data Science dentro da empresa que trabalho atualmente. Procurando soluções open source e possíveis integrações com o Qlik encontrei o Pytools. Este Server Side Extension disponibiliza algoritmos para análises avançadas no Qlik Sense, tornando algoritmos de ciência de dados mais acessíveis para as áreas de negócio.
A Extensão (SSE) para Qlik foi construída utilizando uma serie de algoritmos em Python com a intenção de fornecer um conjunto de funções que podem ser usadas como expressões no Qlik Sense. Pelo o projeto ser open source, a customização e criação de novos algoritmos fica aberta para todos, de acordo com a necessidade.
Juntamente com esse projeto, estou aplicando o conceito de Data Literacy com o foco de ensinar para as áreas de negocio sobre importância da leitura e a escrita de dados. Desta forma, os funcionários da empresa podem tomar decisões mais confiantes e orientadas a dados. Melhorar as habilidades de analise, estatística e analítica tem sido um dos maiores desafios ate o momento.
Voltando para o Pytools, esta versão inclui as seguintes implementações:
Sobre o processo de Setup, desenvolvimento e apresentação.
Primeira Etapa: Configurar o PyTools na Maquina local, realizar os primeiros testes das extensões, estudar e customizar os algoritmos disponíveis. Nesta etapa importante ter instalado o python e seus pacotes compativeis de acordo com o versionamento (pystan, pandas, scipy, prophet etc)
Segunda Etapa: Configuração do PyTools em servidor do Qlik Sense local, inicialmente em ambiente de desenvolvimento e depois em ambiente produtivo.
Terceira Etapa: Criação de modelos relacionais, desenvolvimento métricas, fatos e dimensões no SQL Server e Qlik Sense atendendo a demandas de negocio.
Quarta Etapa: Desenvolvimento Dashboards com funcionalidades padrão do Qlik e uso das extensões do Pytools
Quinta Etapa: Desenvolvimento de um Qlik Mart para otimização de cargas de dados nos Apps criados (Em backlog).
Sexta Etapa: Uso do Nprinting agendando disparos de dashboards para grupos de usuarios.
Funcionamento de alguns algoritmos:
Clustering
Algoritmo de segmentação utiliza a seguinte expressão
PyTools.Cluster([ID],$(vMetrica)& ';' & $(vNMetrica2), 'scaler=quantile,min_cluster_size=3,min_samples=2')
(Imagem não representa um cenário real devido a sigilo dos dados)
Correlação Linear
Algoritmo de correlação utiliza a seguinte expressão
Pytools.Pearson($(vMetrica1), $(vNMetrica2))
Dashboard - Segmentação
Montagem de um dashboard de segmentação de dados usando HDBSCAN e seus parâmetros.
(Imagem sem dados devido a sigilo dos dados)
Recomendações
Duvidas sobre desenvolvimento ou necessidade de material posso compartilhar um PDV com algumas instruções.
Faço este post como divulgação para a Comunidade e encontrar outros cientistas de dados que pretendem utilizar esse SSE ou tem interesse em compartilhar experiencias quanto a essa ferramenta.
Todo o desenvolvimento do SSE foi feito pelo Nabeel Oz. No link do GitHub é possível encontrar o setup base do projeto em inglês https://github.com/nabeel-oz/qlik-py-tools
Lembrando, utilizar esse projeto como base é uma excelente forma de começar um projeto de Data Science. Com ótimos algoritmos de base, é possivel customizar de acordo com a sua necessidade e trabalhar o ensino do Data Literacy dentro do ambiente corporativo sem um grande investimento inicial.
Abraços e Qlik for the win.