Skip to main content
Announcements
See what Drew Clarke has to say about the Qlik Talend Cloud launch! READ THE BLOG
cancel
Showing results for 
Search instead for 
Did you mean: 
FrankVent
Contributor
Contributor

Error al guardar datos en formato .parquet

He detectado que si guardas una tabla residente a un destino .parquet, si en una columna encuentra un dato numérico, guarda la información en parquet como tipo numérico y borra el contenido que sea texto.

Me explico mejor con un ejemplo: supongamos que tengo una tabla con un campo llamado 'email' con 2 registros, en uno de ellos está informado 'usuario@mail.es' pero en el otro registro hay un '29108'. Está claro que es un error de limpieza de dato de origen, pero de todas formas si el contenido de la tabla lo guardas en formato .parquet, el registro con el mail correcto quedará a nulo y mantendrá sólo el numérico. A no ser que sea un fallo que cometa yo en particular, considero que es un gran error, ya que lo que estamos intentando es opimizar los ficheros de trabajo a .parquet por su reducido tamaño respecto a .qvd.

He probado directamente con Python y DuckDb, pero no actúa de esa manera al guardar el .parquet, mantiene el texto y no se pierde ningún valor. 

Labels (3)
0 Replies