Principales tendencias de aprendizaje automático: el camino hacia la materialización

 

Responsable de desarrollo de mercado de ciencias de la vida y computación de alto rendimiento de Western Digital  

El aprendizaje automático (Machine Learning) fue un concepto que existió durante décadas. Sin embargo, solo los avances recientes en software, procesamiento y conjuntos de datos ricos y masivos lo han hecho realidad. Ya no es solo un experimento académico, sino una tecnología con un aumento meteórico que todas las industrias y empresas buscan aprovechar. Entonces, ¿cuan lejos estamos en el camino de la materialización? Aquí hay un vistazo a siete tendencias principales respecto al aprendizaje automático:

1. El aprendizaje automático se dirige a la producción

Quizás la tendencia más significativa del aprendizaje automático fue el hecho de que éste pasó de los modelos de capacitación a su aplicación en la realidad, utilizando conjuntos de datos actuales, accediendo a datos históricos e incluso enriqueciendose con conjuntos de datos externos. El aprendizaje automático ha madurado y los casos de uso de producción son muy reales.

2. La gestión de datos sigue siendo el mayor desafío

Todos están ansiosos por iniciar sus modelos de entrenamiento, pero muchos están descubriendo semanas, o incluso meses más tarde, que los datos no válidos pueden propagar problemas en todo el sistema. Ya sea que se trate de interrupciones o, en última instancia, de malos modelos, para hacer que el aprendizaje automático funcione bien es necesario realizar una gran cantidad de trabajo con la preparación inicial de los datos.  Descubrir dónde se encuentran estos (probablemente en múltiples sistemas de almacenamiento, en diversas ubicaciones con diferentes características), estandarizar el acceso, normalizar los metadatos, identificar dependencias, usar técnicas de validación de datos y aprender cómo tratar los errores es la clave para que el aprendizaje automático sea exitoso.

3. Desafíos diferentes para cada geografía

Nos fijamos en la imagen global, vemos diferentes países en diferentes lugares en su viaje de adopción hacia el aprendizaje automático, enfrentando desafíos muy disímiles. Europa comenzó temprano y ha ido más allá de las pruebas para predecir casos de uso en el mundo real. Sin embargo, las leyes de privacidad de datos requieren mucha más gobernanza y procesos para limpiar los datos. En los EE.UU., las empresas privadas están a la vanguardia de la innovación.  Vemos empresas comerciales que recopilan datos centrados en áreas e industrias con fines de lucro. Más allá está China, cuyo gobierno creó el objetivo de convertirse en “el principal centro de innovación de inteligencia artificial (IA) del mundo”. Si bien comenzaron su viaje de aprendizaje automático e IA mucho más tarde, el beneficio de llegar tarde al juego es que su infraestructura es nueva, está bien financiada y consolida los datos desde el principio. También es un país lleno de datos y comercio móvil[2].

4. La computación y la memoria escalarán aún más 

El surgimiento del Machine Learning se produjo al superar las limitaciones de hardware antiguo. Esta tendencia continuará en nuevas áreas. Ya sea que se trate de GPU de subprocesos múltiples, computación de código abierto basada en RISC-V ISA[3] o nuevas soluciones que amplíen el espacio de la memoria, veremos nuevas formas de usar los datos más rápido.

5. El linaje de datos cumple con el control de versiones

En Machine Learning cada paso es iterativo. Los científicos de datos pasan mucho tiempo ajustando su algoritmo; es crítico poder repetir el mejor resultado. El problema es que es muy fácil volver atrás y ver el código fuente con los sistemas de control de versiones del código fuente, o incluso compartirlo entre diferentes miembros del equipo. Sin embargo, el conjunto de datos de prueba que se utilizó a veces es muy difícil de replicar. Los conjuntos de datos pueden crecer o cambiar rápidamente. Es posible que a lo que acceda hoy no sea lo mismo con lo que trabajó su colega ayer. Entonces, ¿cómo creamos el linaje? El almacenamiento de objetos, ya sea en las instalaciones o en la nube, generalmente tiene una función llamada control de versiones. El control de versiones permite crear una versión archivada de objetos con una marca de tiempo, que se puede restaurar en cualquier momento. Desde el escalado hasta los metadatos y las versiones, el almacenamiento de objetos ofrece una solución más completa para la mayor parte de los datos.

6. Bienvenido al Data Hub

Tenemos que aceptar el hecho de que la consolidación total de datos no funcionará. Los datos simplemente se han vuelto demasiado grandes y dispersos para moverse. En su lugar, las organizaciones tienen datos en varias ubicaciones geográficas, tanto locales como en la nube, en diferentes sistemas y dispositivos. En lugar de intentar consolidarlos en un solo lugar, algunas organizaciones están creando un hub desde fuentes remotas. Como tal, el software que permita el gobierno, los servicios de autenticación y el acceso unificado a los datos es clave para estos avances.

7. De los servicios de datos a un mercado de datos

El valor de los datos está creciendo. Esto no es sólo una tendencia en aprendizaje automático. Todo el mundo está buscando encontrar formas de monetizar los datos. Según las proyecciones iniciales, para 2030, los ingresos de los mercados de datos de IoT habilitados por blockchain podrían alcanzar los 4.400 millones de dólares. El valor de mercado de los datos que se están tramitando a través de estos intercambios podría aumentar a $ 3,6 billones para 2030, momento en el cual, más de 1 millón de organizaciones monetizarían sus activos de datos de IoT.

 

 

 

 

 

 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *