03.05.2020 Views

PYMES MAGAZINE - MAYO 2020

Revista digital dirigida a pymes, autónomos y emprendedores. Actualidad, reportajes, entrevistas, artículos de expertos en marketing, tecnología y empresa, abogacía, psicología, fiscalidad, recursos humanos, finanzas. Espacio económico, cultural y solidario

Revista digital dirigida a pymes, autónomos y emprendedores. Actualidad, reportajes, entrevistas, artículos de expertos en marketing, tecnología y empresa, abogacía, psicología, fiscalidad, recursos humanos, finanzas. Espacio económico, cultural y solidario

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

“Las empresas

deben de

emprender

medidas para

establecer una

mayor confianza a

sus clientes”

con el Dirty Data?

Como se suele decir siempre es

mejor prevenir que curar… así

que la prevención una vez más, se

erige como nuestra mejora aliada.

En este sentido, las empresas deben

emprender medidas para establecer

una mayor confianza a sus clientes,

consiguiendo de este modo

que estos no aporten datos falsos,

evitando por ejemplo, el envío de

información masiva y poco relevante

(SPAM). Hay que reseñar que la

privacidad es algo que los usuarios

tienen muy presente y el posible

uso que las empresas puedan hacer

de sus datos. Por ellos es muy importante

establecer una buena relación

de confianza con el usuario.

Otra forma de Dirty Data, son las

bases de datos comerciales cuyo

índice de datos erróneos es muy

elevado. Para esta opción solo cabe

plantearnos un proceso de “Cleaning

Data”. Estos métodos son muy

costosos y laboriosos ya que no se

pueden automatizar al 100% por lo

que hay que minimizarlos lo máximo

posible, la adquisición de datos

a través de estos medios.

Una vez sentadas las bases preventivas,

veremos ahora cómo llevar

a cabo una limpieza de los datos

a analizar. Para ello, deberemos

desarrollar esta operativa mediante

varias fases:

Detectar Dirty Data: No podemos

limpiar y corregir datos erróneos

si no sabemos primero cuales son.

Existen soluciones de Data Profiling

(como las incluidas en SQL

o Power BI) que revelan campos

vacíos o inconsistencias en los datos.

También hay metodologías para

asegurar la calidad del dato.

Corrección de los Datos: Una

vez detectados se deben corregir,

pero ¿cuál es el dato correcto? En

ocasiones es un error tipográfico y

es fácil de solucionar, pero si es un

dato falso es muy difícil conocer el

dato real. En el caso de campos vacíos

se pueden rellenar con el dato

más probable, o la media si es un

valor numérico pero estas “aproximaciones·”

son muy peligrosas en

el análisis de datos posterior.

Eliminación de duplicados: Otro

de los problemas más comunes son

los datos duplicados, que provocan

errores en el análisis. Es necesario

eliminarlos, pero teniendo en cuenta

que es posible que en uno de los

registros haya cierta información y

en el segundo registro se encuentre

el resto. Por lo tanto, antes de

eliminar el duplicado es necesario

realizar una unión de la información

para tener el mejor registro

posible.

Conclusión

La explosión de la importancia

del dato es reciente, pero para su

análisis necesitamos explotar datos

históricos para entrenar a nuestros

algoritmos. El problema reside en

que ese histórico se registró cuando

no dábamos importancia a los datos

(excepto en entornos contables por

legislación), y por tanto no cuidábamos

con escrúpulo su calidad.

Por otra parte, en lo que respecta

a los datos nuevos, trabajamos con

volúmenes enormes que dificulta su

correcta validación.

Por todo ello, sólo podemos concluir

que nuestra mejor opción será

la prevención en la adquisición, y

la diligencia en la limpieza de los

datos que tengamos que analizar.

31

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!