Durante décadas, la gestión de datos significó productos recopilarlos, almacenarlos y, ocasionalmente, acceder a ellos.Todo eso ha cambiado en los últimos años, ya que las empresas buscan la información que se puede extraer de las enormes cantidades de datos que generan, acceden y almacenan en innumerables ubicaciones, desde centros de datos corporativos hasta la nube y el perímetro. Dado que, el análisis de datos, ayudado por tecnologías tan modernas como la inteligencia artificial (IA) y el aprendizaje automático, se ha convertido en una capacidad imprescindible y en 2022, la importancia se amplificará. Las empresas necesitan analizar rápidamente los datos, muchos de ellos no estructurados, para encontrar la información que impulsará las decisiones comerciales. También necesitan crear un entorno de datos moderno en el que hacer que eso suceda.
A continuación, se muestran algunas tendencias en la gestión de datos que se destacarán en 2022:
Los administradores de datos ampliarán su enfoque de datos estructurados a análisis de datos no estructurados
Tradicionalmente, gran parte de la ciencia de datos se centró en alimentar datos estructurados a los almacenes de datos. Pero con el 90% de los datos del mundo desestructurados y con el auge del aprendizaje automático, que se basa en datos no estructurados, los científicos de datos deben ampliar sus habilidades para incorporar datos no estructurados. Necesitan aprender a obtener valor de los datos que no tienen una estructura o esquema específico y abarcan archivos de video, archivos de genómica, imágenes sísmicas, datos de IoT, grabaciones de audio y datos de usuarios como correos electrónicos. El desarrollo de estas habilidades, que implica mantenerse actualizado y experimentar con nuevas capacidades de análisis de datos no estructurados en lagos de datos, así como aprender técnicas de gestión de datos no estructurados,
El análisis de ‘datos correctos’ superará el análisis de big data como tendencia clave
Los macrodatos son casi demasiado grandes y están creando pantanos de datos que son difíciles de aprovechar. Encontrar con precisión los datos correctos en su lugar sin importar dónde se crearon e ingerirlos para el análisis de datos es un cambio de juego porque ahorrará mucho tiempo y esfuerzo manual al tiempo que ofrece un análisis más relevante. Entonces, en el lugar de Big Data, una nueva tendencia será el desarrollo de los llamados análisis de “datos correctos”.
La gestión de datos independiente del almacenamiento se convertirá en un componente crítico del tejido de datos moderno
Una estructura de datos es una arquitectura que proporciona visibilidad de los datos y la capacidad de mover, replicar y acceder a los datos a través del almacenamiento híbrido y los recursos de la nube. A través de análisis casi en tiempo real , pone a los propietarios de datos en control de dónde se encuentran sus datos en las nubes y el almacenamiento para que los datos puedan residir en el lugar correcto en el momento correcto. Los administradores de TI y almacenamiento elegirán arquitecturas de estructura de datos para desbloquear los datos del almacenamiento y habilitar la administración centrada en datos frente a la centrada en el almacenamiento. Por ejemplo, en el lugar de almacenar todas las imágenes médicas en el mismo NAS, los profesionales del almacenamiento pueden utilizar la analítica y los comentarios de los usuarios para segmentar estos archivos, por ejemplo, copiando imágenes médicas para su acceso mediante aprendizaje automático en un estudio clínico o moviendo datos críticos a un storage en la nube inmutable. para defender del ransomware.
Los tejidos de datos serán una tendencia estratégica de TI empresarial en 2022
El tejido de datos sigue siendo una visión. Reconoce que sus datos se encuentran en muchos lugares y una estructura puede salvar los silos y ofrecer una mayor portabilidad, visibilidad y gobernanza. La investigación del tejido de datos se ha centrado normalmente en datos estructurados y semiestructurados. Pero el 90% de los datos del mundo ahora no están estructurados (piense en videos, rayos X, archivos de genómica, archivos de registro y datos de sensores), y estos datos no tienen un esquema definido. Los lagos de datos y las aplicaciones de análisis de datos no pueden acceder fácilmente a estos datos oscuros bloqueados en archivos. Las tecnologías de tejido de datos deben tender un puente entre el almacenamiento de datos no estructurados (almacenamiento de archivos y almacenamiento de objetos) y las plataformas de análisis de datos (incluidos los lagos de datos, el aprendizaje automático y los procesadores de lenguaje natural y el análisis de imágenes). El análisis de datos no estructurados se está volviendo fundamental porque el aprendizaje automático se basa en datos no estructurados. Las tecnologías de estructura de datos deben ser abiertas, estar basadas en estándares y mirar a través de los entornos. En 2022, la estructura de datos debería pasar de ser una visión a un conjunto de principios arquitectónicos de gestión de datos. Los proveedores de tecnología necesitan incorporar datos no estructurados en sus arquitecturas de tejido de datos dada su creciente relevancia y magnitud.
La nube múltiple evolucionará con diferentes estrategias de datos
Hoy en día, muchas organizaciones tienen un entorno de nube híbrida en el que la mayor parte de los datos se almacena y se realiza una copia de seguridad en centros de datos privados en varios sistemas de proveedores. Dado que los datos no estructurados (archivos) han crecido exponencialmente, la nube se está utilizando como un nivel de almacenamiento secundario o terciario. Puede ser difícil ver más allá de los silos para administrar los costos, garantizar el rendimiento y administrar los riesgos. Como resultado, los líderes de TI se dan cuenta de que extraer valor de los datos en las nubes y los entornos locales es un desafío formidable. MultinubeLas estrategias funcionan mejor cuando las organizaciones usan diferentes nubes para diferentes casos de uso y conjuntos de datos. Sin embargo, esto trae consigo otro problema: mover datos es muy costoso cuando y si necesita mover datos posteriormente de una nube a otra. Un concepto más nuevo es llevar la computación hacia datos que viven en un solo lugar. Ese lugar central podría ser un centro de coubicación con enlaces directos a proveedores de nube. La nube múltiple evolucionará con diferentes estrategias: a veces, la computación llega a sus datos y, a veces, los datos residen en varias nubes.
Se necesitarán datos sintéticos y datos no estructurados para gestionar el crecimiento de los datos
La seguridad y la privacidad de los datos son cada vez más urgentes y los datos sintéticos son una excelente solución para evitar la recopilación de datos de los usuarios. Los datos sintéticos también son más portátiles, ya que no tiene que considerar tantas leyes de privacidad. Si bien los datos sintéticos reducen la huella de los datos de los clientes, siguen siendo una pequeña fracción del total de datos no estructurados. La mayor parte de los datos son generados por aplicaciones, no datos del usuario, por lo que se necesitan datos sintéticos junto con una gestión de datos no estructurados para gestionar el crecimiento de los datos.
Las empresas continúan bajo una presión cada vez mayor para adoptar estrategias de gestión de datos que les permitan obtener información útil del tsunami de datos para impulsar decisiones comerciales críticas. La analítica será fundamental para este esfuerzo, al igual que la creación de estructuras de datos abiertas y basadas en estándares que cumplen con las organizaciones tener todos estos datos bajo control para su análisis y acción.
Fuente:
Selección del editor. (2021e, 6 de diciembre). Los datos no estructurados serán clave para la analítica en 2022 . Edad de información. Recuperado 6 de diciembre de 2021, de https://www.information-age.com/unstructured-data-will-be-key-to-analytics-2022-123497982/