ARQUITECTURA DE INVULNERABILIDAD DE DATOS ... - EMC.com

25 downloads 72 Views 573KB Size Report
EMC, consulte las marcas comerciales de EMC Corporation en. EMC.com (visite el sitio web de su país correspondiente). Número de referencia h7219-3.1 ...
Informe técnico

ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS Análisis detallado

Resumen Ningún mecanismo por sí mismo es suficiente para garantizar la integridad de los datos en un sistema de almacenamiento. La capacidad de recuperación de datos solo se puede garantizar mediante la cooperación de una gran cantidad de mecanismos que establecen líneas de defensa contra todos los orígenes de errores. A diferencia de los sistemas de almacenamiento de uso general, los sistemas de almacenamiento con deduplicación EMC® Data Domain® han sido diseñados específicamente como el almacenamiento del último recurso. Los sistemas de almacenamiento Data Domain priorizan la recuperación sobre todo lo demás, con funcionalidades de protección de la integridad de los datos incorporadas mediante la arquitectura de invulnerabilidad de datos de EMC Data Domain. Este informe técnico se centra en cuatro elementos clave de la arquitectura de invulnerabilidad de datos de Data Domain, que, al combinarse, proporcionan los mayores niveles de capacidad de recuperación e integridad de datos del sector: •

Verificación de punto a punto



Evasión y contención de fallas



Detección de fallas y reparación continuas



Capacidad de recuperación del sistema de archivos

abril 2013

Copyright © 2013 EMC Corporation. Todos los derechos reservados. EMC considera que la información de esta publicación es precisa en el momento de su publicación. La información está sujeta a cambios sin previo aviso. LA INFORMACIÓN DE ESTA PUBLICACIÓN SE PROPORCIONA “TAL CUAL”. EMC Corporation no se hace responsable ni ofrece garantía de ningún tipo con respecto a la información de esta publicación y específicamente renuncia a toda garantía implícita de comerciabilidad o capacidad para un propósito determinado. El uso, la copia y la distribución de cualquier software de EMC descrito en esta publicación requieren una licencia de software correspondiente. Para obtener una lista actualizada de nombres de productos de EMC, consulte las marcas comerciales de EMC Corporation en EMC.com (visite el sitio web de su país correspondiente). Número de referencia h7219-3.1

Arquitectura de invulnerabilidad de datos de EMC Data Domain

2

Tabla de contenidos Resumen ejecutivo ........................................................................................... 4 Integridad de datos del sistema de almacenamiento ....................................................... 4

Introducción .................................................................................................... 4 Público al que va dirigido ............................................................................................... 4

Arquitectura de invulnerabilidad de datos de Data Domain.................................... 5 Verificación de punto a punto ......................................................................................... 5 Evasión y contención de fallas ........................................................................................ 6 Los datos nuevos nunca sobrescriben los datos correctos............................................ 6 Menos estructuras de datos complejas ....................................................................... 7 NVRAM para un reinicio seguro y rápido ...................................................................... 7 Sin escrituras parciales de fracciones ......................................................................... 7 Detección de fallas y reparación continuas ...................................................................... 8 RAID 6: Protección contra fallas de dos discos y corrección de errores de lectura ........... 8 Detección y corrección de errores de manera inmediata ............................................... 9 Limpieza para impedir que se dañen los datos ............................................................ 9 Capacidad de recuperación del sistema de archivos ........................................................ 9 Formato de datos autodescriptivo para garantizar la capacidad de recuperación de los metadatos .......................................................................................................... 10 La comprobación de FS, en caso de ser necesaria, es rápida ...................................... 10

Conclusiones .................................................................................................. 11

Arquitectura de invulnerabilidad de datos de EMC Data Domain

3

Resumen ejecutivo Integridad de datos del sistema de almacenamiento Detrás de todo el valor agregado, los sistemas de almacenamiento especializados se basan en componentes informáticos de propósito general y herramientas de software que pueden presentar errores. Algunas fallas tienen un impacto visible e inmediato, por ejemplo, la falla total de una unidad de disco. Otras fallas son sutiles y están ocultas, por ejemplo, un error de software que provoca daños latentes en el sistema de archivos que solo se descubren en el momento de la lectura. Para garantizar la integridad de los datos ante dichas fallas, los mejores sistemas de almacenamiento incluyen varias comprobaciones de integridad de los datos y, generalmente, cuentan con características optimizadas de rendimiento y disponibilidad del sistema, no de invulnerabilidad de los datos. En el análisis final, suponen que todos los respaldos se efectúan, y presentan disyuntivas relacionadas con el diseño que priorizan la velocidad con respecto a la capacidad de recuperación de datos garantizada. Por ejemplo, ningún sistema de archivos de almacenamiento primario de uso general lee datos desde el disco para garantizar que se hayan almacenado correctamente, pues, si lo hiciera, afectaría el rendimiento. Sin embargo, los datos no se pueden considerar invulnerables si no se almacenan correctamente en primer lugar. En el respaldo a disco especialmente diseñado, se debe priorizar la invulnerabilidad de los datos sobre el rendimiento e incluso sobre la disponibilidad. A menos que el interés se centre en la integridad de los datos, los datos de respaldo y de archivo están expuestos a riesgo. Si los datos están expuestos a riesgo, cuando se pierde la copia primaria de los datos, la recuperación también se encuentra expuesta a riesgo. La mayoría de los dispositivos de respaldo especialmente diseñados son simplemente sistemas de almacenamiento primario creados a partir de discos más económicos. Por lo tanto, heredan la filosofía de diseño de sus antecesores de almacenamiento primario. Si bien se etiquetan como dispositivos de respaldo especialmente diseñados, sus diseños destacan el rendimiento a costa de la invulnerabilidad de los datos.

Introducción Este informe técnico se centra en cuatro elementos clave de la arquitectura de invulnerabilidad de datos de EMC® Data Domain®, que, al combinarse, proporcionan los mayores niveles del sector en cuanto a capacidad de recuperación e integridad de los datos.

Público al que va dirigido Este informe técnico está orientado a los clientes de EMC, los consultores técnicos, los partners y los miembros de la comunidad de servicios profesionales de EMC y de partners que estén interesados en obtener más información acerca de la arquitectura de invulnerabilidad de datos de Data Domain.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

4

Arquitectura de invulnerabilidad de datos de Data Domain Los sistemas de almacenamiento con deduplicación Data Domain representan un claro desprendimiento del pensamiento de diseño convencional de sistemas de almacenamiento y presentan una premisa radical: ¿qué ocurriría si la capacidad de recuperación y la integridad de los datos fueran el objetivo más importante? Si uno imaginara un departamento de TI sin cintas, tendría que imaginar un almacenamiento en disco sumamente resistente y protector. Los sistemas Data Domain se han diseñado desde el principio como almacenamiento de último recurso. El sistema operativo Data Domain (DD OS) está especialmente diseñado para la invulnerabilidad de los datos. Existen cuatro áreas de enfoque críticas: •

Verificación de punto a punto



Evasión y contención de fallas



Detección de fallas y reparación continuas



Capacidad de recuperación del sistema de archivos

Incluso con este modelo, resulta importante recordar que DD OS es simplemente tan bueno como los datos que recibe. Puede realizar una prueba de punto a punto de los datos que recibe dentro de los límites del sistema, pero DD OS no puede saber si esos datos estuvieron protegidos durante cada paso de la red en su trayecto hacia el sistema. Si se produce un error en la red que ocasiona daños en los datos o si los datos se dañan en el almacenamiento primario, DD OS no puede repararlos. Recomendamos probar la recuperación a nivel de aplicaciones de manera periódica.

Verificación de punto a punto Dado que todos los componentes de un sistema de almacenamiento pueden introducir errores, la manera más sencilla de garantizar la integridad de los datos es realizar una prueba de punto a punto. La verificación de punto a punto implica leer los datos después de que se escriben y compararlos con los que se enviaron al disco, con lo que se comprueba que es posible acceder a ellos en el disco por medio del sistema de archivos y Figura 1. La comprobación de punto a punto que no están dañados. Cuando verifica todos los datos y metadatos del sistema DD OS recibe una solicitud de de archivos. escritura del software de respaldo, computa una gran suma de verificación para los datos. Luego, el sistema almacena los datos exclusivos y los vuelve a leer para validarlos, con lo que se corrigen de inmediato los errores de I/O. Debido a que los datos se validan después de la escritura a disco y antes de su liberación de la memoria/NVRAM, la corrección de los errores de I/O no requiere un reinicio del trabajo de respaldo.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

5

La verificación de punto a punto confirma que los datos sean correctos y puedan recuperarse desde cualquier nivel del sistema. Si existen problemas en cualquier parte del trayecto (por ejemplo, si se han perdido algunos datos en la unidad), se detectarán. Los errores también se pueden corregir mediante un proceso de autorreparación, como se describe en la sección siguiente. Los sistemas de almacenamiento primario convencionales no pueden realizar este tipo de verificaciones tan exigentes. No obstante, los dispositivos de respaldo especialmente diseñados las requieren. La gran reducción de datos que se logra mediante Data Domain Global Compression™ disminuye la cantidad de datos que se deben verificar y posibilita la realización de estas verificaciones.

Evasión y contención de fallas El próximo paso para la protección de datos es garantizar que los datos que se confirmaron como correctos lo sigan siendo. Paradójicamente, el mayor riesgo en cuanto a la integridad del sistema de archivos son los errores de software del sistema de archivos en el momento de escribir datos nuevos. Solo las nuevas escrituras pueden sobrescribir accidentalmente los datos existentes y solo las nuevas actualizaciones a Figura 2. Los datos nuevos nunca ponen en metadatos del sistema de archivos riesgo los datos antiguos. El log contenedor pueden dañar las estructuras de datos nunca sobrescribe ni actualiza los existentes. Dado que el objetivo datos existentes. Los datos nuevos siempre principal del sistema de archivos de se escriben en nuevos contenedores (en rojo). Las referencias y los contenedores antiguos Data Domain es proteger los datos, su permanecen en su lugar y están seguros, diseño brinda protección incluso incluso, ante errores de software o hardware que contra errores de su propio software puedan producirse durante el almacenamiento que puedan poner en riesgo los de los respaldos nuevos. respaldos existentes. Esto se logra por medio de una combinación de simplicidad en el diseño (que, en primer lugar, reduce la posibilidad de errores), además de diversas características de contención de errores que dificultan la posibilidad de que los errores de software dañen los datos existentes. Los sistemas Data Domain cuentan con un sistema de archivos especializado y estructurado en logs que ofrece cuatro beneficios importantes. Los datos nuevos nunca sobrescriben los datos correctos A diferencia de los sistemas de archivos tradicionales, que, generalmente, sobrescriben bloques cuando se modifican datos, los sistemas Data Domain solo escriben en bloques nuevos. Esto aísla cualquier sobrescritura incorrecta (un tipo de problema de error de software) a los datos de respaldo más nuevos exclusivamente. Las versiones anteriores permanecen seguras.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

6

Menos estructuras de datos complejas En un sistema de archivos tradicional, existen muchas estructuras de datos (por ejemplo, conteos de referencia y mapas de bits de bloques libres) que admiten actualizaciones de bloques muy rápidas. En una aplicación de respaldo, la carga de trabajo consta principalmente de escrituras secuenciales más simples de datos nuevos, lo que implica que se requieren menos estructuras de datos para admitirla. En tanto el sistema pueda rastrear el encabezado del log, las escrituras nuevas no afectarán a los datos antiguos. Esta simplicidad de diseño reduce considerablemente las posibilidades de errores de software que pueden ocasionar daños en los datos. NVRAM para un reinicio seguro y rápido El sistema incluye un buffer de escritura RAM no volátil en el cual coloca todos los datos que aún no están protegidos en el disco. El sistema de archivos aprovecha la seguridad de este buffer de escritura a fin de implementar una funcionalidad de reinicio rápida y segura. El sistema de archivos utiliza muchas comprobaciones lógicas internas y de integridad de estructura de datos. Si se detecta un problema en una de estas comprobaciones, el sistema de archivos se reinicia. Las comprobaciones y los reinicios proporcionan detección y recuperación tempranas de errores que ocasionan daños en los datos. Cuando se reinicia, el sistema de archivos de Data Domain verifica la integridad de los datos en el buffer NVRAM antes de colocarlos en un sistema de archivos, lo que impide la pérdida de datos como consecuencia del reinicio. Dado que NVRAM es un dispositivo de hardware independiente, protege los datos contra errores que pueden dañar los datos en la memoria RAM. Dado que la memoria RAM no es volátil, también brinda protección contra fallas eléctricas. Si bien NVRAM es importante para garantizar el éxito de los nuevos respaldos, el sistema de archivos garantiza la integridad de los respaldos antiguos, incluso ante una falla de NVRAM. Sin escrituras parciales de fracciones Los arreglos de discos de almacenamiento primario tradicionales, ya sean RAID 1, RAID 3, RAID 4, RAID 5 o RAID 6, pueden perder datos antiguos si, durante una operación de escritura, se produce una falla eléctrica que genera errores en un disco. Esto se debe a que la reconstrucción de disco depende de que todos los bloques en una fracción RAID sean consistentes, pero, durante una escritura de bloque, existe una ventana de transición durante la cual la fracción no es consistente, por lo que la reconstrucción de la fracción puede fallar y los datos antiguos del disco con errores se pueden perder. Los sistemas de almacenamiento empresariales ofrecen protección al respecto con fuentes de alimentación sin interrupción o NVRAM. Sin embargo, si estas fallan debido a una interrupción prolongada de energía, se pueden perder los datos antiguos y puede fallar cualquier intento de recuperación. Por este motivo, los sistemas Data Domain nunca actualizan solamente un bloque en una fracción. De acuerdo con la política de no sobrescritura, todas las nuevas escrituras apuntan a nuevas fracciones RAID, y esas fracciones se escriben en su totalidad1. La verificación con posterioridad a la escritura garantiza la consistencia de la nueva fracción. Las escrituras nuevas no 1

El producto de gateway, que utiliza RAID externo, no puede garantizar la ausencia de escrituras parciales de fracciones.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

7

ponen en riesgo los respaldos existentes. Los sistemas Data Domain están diseñados para minimizar la cantidad de errores estándar en el sistema de almacenamiento. Si se producen errores más desafiantes, se tarda menos tiempo en encontrarlos, corregirlos y notificar al operador.

Detección de fallas y reparación continuas Independientemente de las medidas de seguridad de software que se apliquen, los productos de hardware informático presentan errores ocasionales por naturaleza. De manera más visible en un sistema de almacenamiento, se pueden producir errores en las unidades de disco, pero también se pueden producir otros errores más localizados o transitorios. Es posible que un bloque de disco individual no se pueda leer o que haya una alternación de bits en la interconexión de almacenamiento o en el bus interno del sistema. Por este motivo, DD OS emplea niveles adicionales de protección de datos para detectar fallas y recuperarse de ellas inmediatamente a fin de garantizar los resultados óptimos en las operaciones de restauración de datos. RAID 6: Protección contra fallas de dos discos y corrección de errores de lectura RAID 6 constituye la base de la funcionalidad de detección y reparación continuas de fallas que ofrece Data Domain. Su eficiente arquitectura de paridad doble ofrece ventajas significativas con respecto a las arquitecturas convencionales, que incluyen enfoques de paridad única RAID 1 (espejeado), RAID 3, RAID 4 o RAID 5. RAID 6: •

Brinda protección contra fallas en dos discos.



Brinda protección contra errores de lectura de disco durante el proceso de reconstrucción.



Brinda protección contra la extracción del disco incorrecto por parte del operador.



Garantiza la consistencia de las fracciones RAID incluso durante una falla en la energía sin depender de NVRAM ni UPS.



Verifica la integridad de los datos y la consistencia de las fracciones después de las escrituras.

Figura 3. La funcionalidad de detección y reparación continuas de fallas brinda protección contra fallas en el sistema de almacenamiento. El sistema vuelve a comprobar periódicamente la integridad de las fracciones RAID y el log contenedor, y utiliza la redundancia del sistema RAID para solucionar cualquier falla que se produzca. En cada una de las lecturas, se vuelve a verificar la integridad de los datos y se repara cualquier error de manera inmediata.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

8

Cada bandeja incluye una unidad de repuesto global, que reemplaza automáticamente una unidad fallida en cualquier parte del sistema Data Domain. Cuando EMC reemplaza una unidad fallida reemplazable en caliente, esa unidad se convierte en la nueva unidad de repuesto global. En comparación, una vez que un solo disco deja de funcionar en los otros enfoques de RAID, cualquier otro error de disco simultáneo genera la pérdida de datos. Todo sistema de almacenamiento del último recurso debe incluir el nivel de protección adicional que ofrece RAID 6. Detección y corrección de errores de manera inmediata Para garantizar que todos los datos devueltos al usuario durante una restauración sean correctos, el sistema de archivos Data Domain almacena todas sus estructuras de datos en disco en bloques de datos con formato. Estos se identifican automáticamente y se incluyen en una sólida suma de verificación. En cada lectura desde el disco, el sistema, primero, verifica que el bloque leído sea el esperado. Luego, utiliza la suma de verificación para comprobar la integridad de los datos. Si se detecta un problema, le solicita a RAID 6 que utilice su nivel adicional de redundancia para corregir el error en los datos. Debido a que las fracciones RAID nunca se actualizan de manera parcial, se garantiza su consistencia, al igual que la capacidad de reparar un error en el momento de su descubrimiento. Limpieza para impedir que se dañen los datos La detección de errores de manera instantánea funciona correctamente con los datos que se leen, pero no enfrenta los problemas con los datos que no se leen durante semanas o meses antes de que se requieran para una recuperación. Por este motivo, los sistemas Data Domain vuelven a verificar activamente la integridad de todos los datos mediante un proceso continuo que se ejecuta en segundo plano. Este proceso de limpieza encuentra y repara de manera inteligente los errores en el disco antes de que puedan representar un problema. Mediante la detección y la corrección de errores de manera inmediata y la limpieza constante de datos de RAID 6, la mayoría de los errores generados en la unidad de disco y en el sistema informático se pueden aislar y solucionar sin provocar ningún impacto en el funcionamiento del sistema y sin riesgos para los datos.

Capacidad de recuperación del sistema de archivos Si bien se realizan muchos esfuerzos para garantizar que no haya problemas en el sistema de archivos, la arquitectura de invulnerabilidad de datos prevé que, al ser creado por el hombre, cualquier sistema puede presentar un problema en cierto momento. Por lo tanto, incluye características para reconstruir metadatos perdidos o dañados del sistema de archivos y, asimismo, herramientas de comprobación del sistema de archivos que pueden volver a poner en línea un sistema con problemas de manera segura y rápida.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

9

Formato de datos autodescriptivo para garantizar la capacidad de recuperación de los metadatos Las estructuras de metadatos, como los índices que aceleran el acceso, se pueden reconstruir a partir de los datos en disco. Todos los datos se almacenan junto con los metadatos que los describen. Si una estructura de metadatos se daña de algún modo, existen dos niveles de capacidad de recuperación. En primer lugar, se crea un Figura 4. Los datos se escriben en un snapshot de los metadatos del sistema de formato autodescriptivo. Si es necesario, archivos cada cierta cantidad de horas y se puede volver a crear el sistema de archivos mediante el análisis del log y la la capacidad de recuperación puede reconstrucción a partir de los metadatos depender de esta copia de punto en el almacenados con los datos. tiempo. En segundo lugar, se pueden analizar los datos en el disco y se puede reconstruir la estructura de metadatos. Estas funcionalidades hacen posible la capacidad de recuperación incluso si se produce el peor de los daños en el sistema de archivos o en sus metadatos. La comprobación de FS, en caso de ser necesaria, es rápida En un sistema de archivos tradicional, no se comprueba constantemente la consistencia en línea. Los sistemas Data Domain realizan la comprobación mediante una verificación inicial después de cada respaldo a fin de garantizar la consistencia de todas las escrituras nuevas. El tamaño utilizable de un sistema de archivos tradicional, generalmente, está limitado por el tiempo que llevaría recuperar el sistema de archivos si se produjera algún tipo de daño. Imagine la ejecución de fsck en un sistema de archivos tradicional con más de 80 TB de datos. El motivo por el cual el proceso de comprobación puede tardar tanto es que el sistema de archivos debe distinguir dónde se ubican los bloques libres para que las escrituras nuevas no sobrescriban los datos existentes de manera accidental. Por lo general, esto implica la comprobación de todas las referencias para reconstruir los mapas de bloques libres y los conteos de referencia. Cuantos más datos haya en el sistema, más tiempo tardará este proceso. Por el contrario, dado que el sistema de archivos Data Domain nunca sobrescribe datos antiguos ni tiene que reconstruir mapas de bloques ni conteos de referencia, solo debe verificar dónde se ubica el encabezado del log para volver a poner el sistema en línea de manera segura a fin de restaurar los datos críticos.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

10

Conclusiones Ningún mecanismo por sí mismo es suficiente para garantizar la integridad de los datos en un sistema de almacenamiento. La capacidad de recuperación de datos solo se puede garantizar mediante la cooperación de una gran cantidad de mecanismos que establecen líneas de defensa contra todos los orígenes de errores. A diferencia de los sistemas de almacenamiento tradicionales, cuyo propósito ha cambiado del almacenamiento primario a la protección de datos, los sistemas Data Domain están diseñados desde el principio específicamente para el almacenamiento de datos de último recurso. La innovadora arquitectura de invulnerabilidad de datos brinda la mejor protección del sector contra los problemas de integridad de datos. La verificación avanzada garantiza que los nuevos datos de respaldo y de archivo se almacenen correctamente. La arquitectura estructurada en logs y sin sobrescritura del sistema de archivos de Data Domain, junto con la reiteración de escrituras de fracciones completas, garantiza que los datos antiguos siempre estén seguros, incluso, ante posibles errores de software ocasionados por los nuevos datos. Mientras tanto, una implementación simple y sólida reduce la posibilidad de que se produzcan errores de software en primer lugar. Los mecanismos mencionados brindan protección contra problemas durante el almacenamiento de datos de respaldo y de archivo, pero las fallas en el almacenamiento en sí también ponen en peligro la capacidad de recuperación de los datos. Por este motivo, la arquitectura de invulnerabilidad de datos incluye una implementación propietaria de RAID 6 que brinda protección contra fallas en hasta dos discos; puede reconstruir un disco con errores, incluso si se presenta un error de lectura de datos; y corrige errores de manera instantánea durante la lectura. Asimismo, incluye un proceso de limpieza constante que busca y repara de manera activa las fallas latentes antes de que se conviertan en un problema. La última medida de defensa es la función de recuperación del sistema de archivos Data Domain. El formato de datos autodescriptivo permite reconstruir los datos de archivo, incluso si se dañan o se pierden varias estructuras de metadatos. Además, la comprobación y la reparación rápidas del sistema de archivos logran que hasta un sistema con docenas de terabytes de datos no esté offline durante mucho tiempo en caso de que se presente algún tipo de problema. Los sistemas Data Domain son la única solución que incluye esta atención incesante a la integridad de los datos, lo que le permite tener la máxima confianza en su capacidad de recuperación.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

11