Todas las compañías de la era digital requieren adquirir datos, almacenarlos y posteriormente realizar distintos procesamientos para así aportar valor, pero ¿serían conclusiones correctas? El gran problema ya no es cómo almacenar, sino cómo interpretar y analizar la información obtenida. El machine learning no es magia, y por ello, exponemos a continuación diversos factores clave para hacer un excelente uso del Big Data:

  • Bad Data

Un principio fundamental de procesamiento de datos es el ciclo GIGO, como abreviatura de ‘Garbage In Garbage Out’. No se debería ser escéptico con respecto a este término, ya que incluso Apple se vio obligada a pedir disculpas por este asunto. La realidad, es que la mayoría de los almacenes de datos están contaminados por malísimos datos. ¿De qué sirve tener terabytes de datos si existe gran cantidad de datos duplicados, incorrectos o incompletos? Es necesario asumir que los datos, ya sean estructurados o no, vendrán “sin limpiar”; incluso los que se adquieriesen a través de la IoT. Además, esta tarea de limpieza podría ser muy difícil de detectar aunque se realizara de forma constante; por lo que sería uno de los mayores retos a los que se enfrenta actualmente el Big Data. No importa cuántos científicos de datos hubiera en nuestro equipo, por muy buenos que sean, si no pueden estar seguros de que están obteniendo buenas conclusiones sobre datos coherentes.

Big data bad factors

  • Bad Model

El segundo factor que estamos contemplando como entrada serían los modelos. Elegir un modelo ineficiente o inadecuado puede causar estragos. No necesitamos más que echar un vistazo a la crisis económica del 2008, la cual fue causada en parte por la certeza de los bancos en los modelos (dónde en principio no se contemplaban otros riesgos reales fuera de los financieros). Por tanto, es esencial para la construcción de modelos correctos es llevar a cabo un buen análisis exploratorio para así identificar las correlaciones de las diferentes variables.

Big data bad factors

  • Bad Tech

Estudiar detenidamente la pila de tecnologías será crucial. Factores como un buen diseño de la arquitectura, la madurez de las herramientas, la conectividad y la elección de la plataforma hardware que vamos a elegir será de vital importancia ya que sobre las cuales se apoyará todo el procesamiento.

  • Bad Use

Pese a que se haga todo lo anterior de la mejor manera posible, podrían surgir otros nuevos problemas. Este es un problema que no se puede evitar fácilmente, ya que una cuestión fundamental es que para muchos modelos de aprendizaje automático, no suelen existir una manera interpretable “modo humano” de la predicción resultante. En la mayoría de los casos pasaría como en el mundo de la seguridad, nadie se dará cuenta de los problemas hasta que sea evidente que algo no funciona como debería.

Big data bad factors

Imagen clasificada como un panda al 60% de confianza + ruido = imagen modificada clasificada como un mono al 99% de confianza

Por ejemplo, en recientes investigaciones se han empezado a notar algunas deficiencias preocupantes. Los algoritmos de visión artificial y otros modelos discriminativos, tienen un punto débil que les permite ser engañados por imágenes “modificadas” donde para un humano sería totalmente trivial diferenciar.

En esta línea no sería buena idea intentar predecir cada uno de estos sucesos raros, sino construir robustez dentro del ámbito del problema que se está tratando de responder, lo que recuerda de alguna manera a cómo hacer frente a la teoría del cisne negro. De nuevo podemos rescatar el término GIGO para contemplar este ciclo como “Gold In – Garbage Out”.

Big data bad factors

En resumidas cuentas, Big Data promete revolucionar todos los sectores, pero esto sólo ocurrirá si analizamos correctamente la información. Las soluciones de analítica avanzada deberían vigilar estos “bad factors”, transformando la organización en el organismo mejor adaptado de este ecosistema competitivo.

Trash by Boudewijn Mijnlieff, Gold bullion by Tran and Swan by Piotr Kołodziejski from the Noun Project

Imagen destacada: CC by Freepik. Autor: Creativeart

The following two tabs change content below.
Raúl de la Fuente

Raúl de la Fuente

Desarrollo de Negocio. Big Data Architect para el expertise center Big Data & Analytic.
Raúl de la Fuente

Latest posts by Raúl de la Fuente (see all)

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.más información

ACEPTAR

Pin It on Pinterest