PYMES MAGAZINE - MAYO 2020

More documents

Recommendations

Info

LA VOZ DELOS EXPERTOSTecnología y EmpresaDirty Data: Qué es y surepercusión en el ámbitoempresarialPor Fernando Molina, CEO de NUBEADO - Expertos en tecnologías webEn pleno siglo XXI, es de sobraconocido que un uso adecuadode los datos en la empresa, resultafundamental para ser competitivo.Pero del mismo modo esta informaciónpor sí misma, no es útil sino se tiene en cuenta su ubicación,quién la controla y cuál puede sersu utilidad; y ese es precisamente,el mayor reto de las empresas quetrabajan en torno a la analítica dedatos. En otras palabras, lograr queesta abundante información (BigData), no se acabe convirtiendo en“Dirty Data”.El término “Dirty Data” hace mencióna datos incorrectos y registrosduplicados que, por lo general,conllevan problemas de imprecisión.La información que recopilanlas compañías a través de encuestas,formularios, etc., habitualmente incluyendatos falsos que aportan losusuarios, bien porque el usuario seha equivocado al introducirlos, bienporque han quedado obsoletos, obien porque han sido falsificadosde forma intencionada con finesilegales.La eliminación completa de esos“datos sucios” y su separación dedatos veraces, resultar una misióncuasi imposible y es ahí precisamente,donde se encuentra el granreto.Para alcanzar resultados positivoscon el “Big Data”, es capital quepodamos garantizar que los datossean correctos, pero se calculaque entre el 60% y el 80% de losdatos que se recopilan actualmenteson falsos o imprecisos. Según uninforme del Instituto de Almacenamientode Datos (TDWI), el“Dirty Data” produce un coste a lasempresas de EE.UU. en torno a los600.000 millones de dólares cadaaño.Por ello, es crítica la tarea dereducir este “Dirty Data”, ya queademás de suponer beneficios paralas empresas, también se refleja enlos clientes finales, que ven comolos productos que les ofrecen lasempresas se ajustan mejor a susnecesidades reales.Pero, ¿Cómo podemos acabar
“Las empresasdeben deemprendermedidas paraestablecer unamayor confianza asus clientes”con el Dirty Data?Como se suele decir siempre esmejor prevenir que curar… asíque la prevención una vez más, seerige como nuestra mejora aliada.En este sentido, las empresas debenemprender medidas para estableceruna mayor confianza a sus clientes,consiguiendo de este modoque estos no aporten datos falsos,evitando por ejemplo, el envío deinformación masiva y poco relevante(SPAM). Hay que reseñar que laprivacidad es algo que los usuariostienen muy presente y el posibleuso que las empresas puedan hacerde sus datos. Por ellos es muy importanteestablecer una buena relaciónde confianza con el usuario.Otra forma de Dirty Data, son lasbases de datos comerciales cuyoíndice de datos erróneos es muyelevado. Para esta opción solo cabeplantearnos un proceso de “CleaningData”. Estos métodos son muycostosos y laboriosos ya que no sepueden automatizar al 100% por loque hay que minimizarlos lo máximoposible, la adquisición de datosa través de estos medios.Una vez sentadas las bases preventivas,veremos ahora cómo llevara cabo una limpieza de los datosa analizar. Para ello, deberemosdesarrollar esta operativa mediantevarias fases:Detectar Dirty Data: No podemoslimpiar y corregir datos erróneossi no sabemos primero cuales son.Existen soluciones de Data Profiling(como las incluidas en SQLo Power BI) que revelan camposvacíos o inconsistencias en los datos.También hay metodologías paraasegurar la calidad del dato.Corrección de los Datos: Unavez detectados se deben corregir,pero ¿cuál es el dato correcto? Enocasiones es un error tipográfico yes fácil de solucionar, pero si es undato falso es muy difícil conocer eldato real. En el caso de campos vacíosse pueden rellenar con el datomás probable, o la media si es unvalor numérico pero estas “aproximaciones·”son muy peligrosas enel análisis de datos posterior.Eliminación de duplicados: Otrode los problemas más comunes sonlos datos duplicados, que provocanerrores en el análisis. Es necesarioeliminarlos, pero teniendo en cuentaque es posible que en uno de losregistros haya cierta información yen el segundo registro se encuentreel resto. Por lo tanto, antes deeliminar el duplicado es necesariorealizar una unión de la informaciónpara tener el mejor registroposible.ConclusiónLa explosión de la importanciadel dato es reciente, pero para suanálisis necesitamos explotar datoshistóricos para entrenar a nuestrosalgoritmos. El problema reside enque ese histórico se registró cuandono dábamos importancia a los datos(excepto en entornos contables porlegislación), y por tanto no cuidábamoscon escrúpulo su calidad.Por otra parte, en lo que respectaa los datos nuevos, trabajamos convolúmenes enormes que dificulta sucorrecta validación.Por todo ello, sólo podemos concluirque nuestra mejor opción serála prevención en la adquisición, yla diligencia en la limpieza de losdatos que tengamos que analizar.31
Page 1 and 2: Nº 27 MAYO 2020La Voz de los Exper
Page 3 and 4: EDITORIALSeamos responsablesRocío
Page 5 and 6: Moro es un buen ejemplo de ello.Los
Page 7 and 8: Pero como se ha mencionado conanter
Page 9 and 10: “Permite controlarel absentismola
Page 11 and 12: FICA se congratula por la decisión
Page 13 and 14: Sevilla Digital, el Marketplace par
Page 15 and 16: Ya están disponibles las Ayudas de
Page 17 and 18: “Si una personausuaria nole gusta
Page 19 and 20: 19
Page 21 and 22: Donuts saludablesPara estos días d
Page 23 and 24: Reportaje patrocinado porMateriales
Page 25 and 26: ESPACIO PATROCINADO POREntrevista a
Page 27 and 28: E lreportajeNuevas ideas de negocio
Page 29: sólo para realizar las compras nec
Page 33 and 34: 33
Page 35 and 36: “Una mala gestiónen la comunicac
Page 37 and 38: “La situaciónactual de pandemiam
Page 39 and 40: A los niños seles ha concedidoel s
Page 41 and 42: Para el cáculode los pagosfraccion
Page 43 and 44: Trabajar con latecnología en lanub
Page 45 and 46: “Mi objetivoes seguircreando, seg
Page 47 and 48: Las mujeres queestén sufriendouna

PYMES MAGAZINE - MAYO 2020

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?