PYMES MAGAZINE - MAYO 2020
Revista digital dirigida a pymes, autónomos y emprendedores. Actualidad, reportajes, entrevistas, artículos de expertos en marketing, tecnología y empresa, abogacía, psicología, fiscalidad, recursos humanos, finanzas. Espacio económico, cultural y solidario
Revista digital dirigida a pymes, autónomos y emprendedores. Actualidad, reportajes, entrevistas, artículos de expertos en marketing, tecnología y empresa, abogacía, psicología, fiscalidad, recursos humanos, finanzas. Espacio económico, cultural y solidario
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
“Las empresas
deben de
emprender
medidas para
establecer una
mayor confianza a
sus clientes”
con el Dirty Data?
Como se suele decir siempre es
mejor prevenir que curar… así
que la prevención una vez más, se
erige como nuestra mejora aliada.
En este sentido, las empresas deben
emprender medidas para establecer
una mayor confianza a sus clientes,
consiguiendo de este modo
que estos no aporten datos falsos,
evitando por ejemplo, el envío de
información masiva y poco relevante
(SPAM). Hay que reseñar que la
privacidad es algo que los usuarios
tienen muy presente y el posible
uso que las empresas puedan hacer
de sus datos. Por ellos es muy importante
establecer una buena relación
de confianza con el usuario.
Otra forma de Dirty Data, son las
bases de datos comerciales cuyo
índice de datos erróneos es muy
elevado. Para esta opción solo cabe
plantearnos un proceso de “Cleaning
Data”. Estos métodos son muy
costosos y laboriosos ya que no se
pueden automatizar al 100% por lo
que hay que minimizarlos lo máximo
posible, la adquisición de datos
a través de estos medios.
Una vez sentadas las bases preventivas,
veremos ahora cómo llevar
a cabo una limpieza de los datos
a analizar. Para ello, deberemos
desarrollar esta operativa mediante
varias fases:
Detectar Dirty Data: No podemos
limpiar y corregir datos erróneos
si no sabemos primero cuales son.
Existen soluciones de Data Profiling
(como las incluidas en SQL
o Power BI) que revelan campos
vacíos o inconsistencias en los datos.
También hay metodologías para
asegurar la calidad del dato.
Corrección de los Datos: Una
vez detectados se deben corregir,
pero ¿cuál es el dato correcto? En
ocasiones es un error tipográfico y
es fácil de solucionar, pero si es un
dato falso es muy difícil conocer el
dato real. En el caso de campos vacíos
se pueden rellenar con el dato
más probable, o la media si es un
valor numérico pero estas “aproximaciones·”
son muy peligrosas en
el análisis de datos posterior.
Eliminación de duplicados: Otro
de los problemas más comunes son
los datos duplicados, que provocan
errores en el análisis. Es necesario
eliminarlos, pero teniendo en cuenta
que es posible que en uno de los
registros haya cierta información y
en el segundo registro se encuentre
el resto. Por lo tanto, antes de
eliminar el duplicado es necesario
realizar una unión de la información
para tener el mejor registro
posible.
Conclusión
La explosión de la importancia
del dato es reciente, pero para su
análisis necesitamos explotar datos
históricos para entrenar a nuestros
algoritmos. El problema reside en
que ese histórico se registró cuando
no dábamos importancia a los datos
(excepto en entornos contables por
legislación), y por tanto no cuidábamos
con escrúpulo su calidad.
Por otra parte, en lo que respecta
a los datos nuevos, trabajamos con
volúmenes enormes que dificulta su
correcta validación.
Por todo ello, sólo podemos concluir
que nuestra mejor opción será
la prevención en la adquisición, y
la diligencia en la limpieza de los
datos que tengamos que analizar.
31