Descripción del quórum de clústeres y grupos

  • 01/18/2019
  • 11 minutos de lectura
    • a
    • e
    • v
    • C
    • J
    • +3

Válido para: Windows Server 2019, Windows Server 2016

Los clústeres de conmutación por error de Windows Server proporcionan alta disponibilidad para las cargas de trabajo. Estos recursos se consideran altamente disponibles si los nodos que alojan los recursos están activados; sin embargo, el clúster generalmente requiere que más de la mitad de los nodos se ejecuten, lo que se conoce como quórum.

Quórum está diseñado para evitar escenarios de cerebro dividido que pueden ocurrir cuando hay una partición en la red y subconjuntos de nodos no pueden comunicarse entre sí. Esto puede hacer que ambos subconjuntos de nodos intenten ser dueños de la carga de trabajo y escribir en el mismo disco, lo que puede dar lugar a numerosos problemas. Sin embargo, esto se evita con el concepto de quórum de Clúster de conmutación por error, que obliga a que solo uno de estos grupos de nodos continúe ejecutándose, por lo que solo uno de estos grupos permanecerá en línea.

El quórum determina el número de errores que el clúster puede soportar sin dejar de estar en línea. Quórum está diseñado para manejar el escenario cuando hay un problema con la comunicación entre subconjuntos de nodos de clúster, de modo que varios servidores no intenten alojar simultáneamente un grupo de recursos y escribir en el mismo disco al mismo tiempo. Al tener este concepto de quórum, el clúster obligará al servicio de clúster a detenerse en uno de los subconjuntos de nodos para asegurarse de que solo hay un propietario verdadero de un grupo de recursos en particular. Una vez que los nodos que se han detenido puedan comunicarse de nuevo con el grupo principal de nodos, se volverán a unir automáticamente al clúster e iniciarán su servicio de clúster.

En Windows Server 2019 y Windows Server 2016, hay dos componentes del sistema que tienen sus propios mecanismos de quórum:

  • Quórum de clúster: Funciona a nivel de clúster (p. ej. puede perder nodos y hacer que el clúster permanezca activo)
  • Quórum de grupo: Esto funciona a nivel de grupo cuando está habilitado Storage Spaces Direct (es decir, puede perder nodos y unidades y hacer que el grupo permanezca activo). Los grupos de almacenamiento se diseñaron para usarse en escenarios agrupados y no agrupados, por lo que tienen un mecanismo de quórum diferente.

Descripción general del quórum del clúster

La siguiente tabla ofrece una descripción general de los resultados del quórum del clúster por escenario:

los nodos de Servidor Puede sobrevivir a un servidor de fallo del nodo Puede sobrevivir a un servidor nodo falla, el otro Puede sobrevivir dos simultáneo de nodo del servidor de fallos
2 50/50 No No
2 + Testigo No No
3 50/50 No
3 + Testigo No
4 50/50
4 + Testigo
5 y por encima de

El quórum del clúster recomendaciones

  • Si usted tiene dos nodos, un testigo que se requiere.
  • Si tiene tres o cuatro nodos, se recomienda encarecidamente witness.
  • Si tiene acceso a Internet, use un testigo en la nube
  • Si se encuentra en un entorno de TI con otras máquinas y recursos compartidos de archivos, use un testigo de recursos compartidos de archivos

Cómo funciona el quórum del clúster

Cuando los nodos fallan o cuando un subconjunto de nodos pierde contacto con otro subconjunto, los nodos supervivientes deben verificar que constituyen la mayoría del clúster para permanecer en línea. Si no pueden verificar eso, se desconectarán.

Pero el concepto de mayoría solo funciona de forma limpia cuando el número total de nodos en el clúster es impar (por ejemplo, tres nodos en un clúster de cinco nodos). Entonces, ¿qué pasa con los clústeres con un número par de nodos (digamos, un clúster de cuatro nodos)?

Hay dos maneras en que el grupo puede hacer que el número total de votos sea impar:

  1. Primero, se puede subir uno añadiendo un testigo con un voto extra. Esto requiere la configuración del usuario.
  2. O bien, puede bajar uno al poner a cero el voto de un nodo desafortunado (sucede automáticamente según sea necesario).

Siempre que los nodos sobrevivientes comprueben con éxito que son la mayoría, la definición de mayoría se actualiza para estar solo entre los sobrevivientes. Esto permite que el clúster pierda un nodo, luego otro, luego otro, y así sucesivamente. Este concepto del número total de votos que se adaptan después de fracasos sucesivos se conoce como quórum dinámico.

Testigo dinámico

Testigo dinámico alterna el voto del testigo para asegurarse de que el número total de votos es impar. Si hay un número impar de votos, el testigo no tiene voto. Si hay un número par de votos, el testigo tiene un voto. Testigo dinámico reduce significativamente el riesgo de que el clúster se caiga debido a un fallo de testigo. El clúster decide si desea utilizar el voto de testigo en función del número de nodos de votación disponibles en el clúster.

El quórum dinámico funciona con testigo dinámico de la manera descrita a continuación.

Comportamiento de quórum dinámico

  • Si tiene un número par de nodos y no hay testigos, un nodo obtiene su voto a cero. Por ejemplo, solo tres de los cuatro nodos obtienen votos, por lo que el número total de votos es de tres, y dos sobrevivientes con votos se consideran mayoría.
  • Si tiene un número impar de nodos y no hay testigos, todos obtienen votos.
  • Si tiene un número par de nodos más testigo, el testigo vota, por lo que el total es impar.
  • Si tiene un número impar de nodos más testigo, el testigo no votará.

Quórum dinámico permite asignar un voto a un nodo dinámicamente para evitar perder la mayoría de votos y permitir que el clúster se ejecute con un nodo (conocido como último hombre en pie). Tomemos un clúster de cuatro nodos como ejemplo. Supongamos que el quórum requiere 3 votos.

En este caso, el clúster se habría caído si se hubieran perdido dos nodos.

Diagrama que muestra cuatro nodos de clúster, cada uno de los cuales obtiene un voto

Sin embargo, el quórum dinámico evita que esto suceda. El número total de votos necesarios para el quórum ahora se determina en función del número de nodos disponibles. Por lo tanto, con quórum dinámico, el clúster permanecerá activo incluso si pierde tres nodos.

Diagrama que muestra cuatro nodos de clúster, con nodos que fallan uno a la vez, y el número de votos necesarios se ajusta después de cada error.

El escenario anterior se aplica a un clúster general que no tiene habilitados Espacios de almacenamiento directos. Sin embargo, cuando se habilita Storage Spaces Direct, el clúster solo admite dos errores de nodo. Esto se explica más en la sección de quórum de la piscina.

Ejemplos

Dos nodos sin testigo.

El voto de un nodo se pone a cero, por lo que el voto mayoritario se determina de un total de 1 voto. Si el nodo sin derecho a voto se cae inesperadamente, el sobreviviente tiene 1/1 y el clúster sobrevive. Si el nodo de votación se cae inesperadamente, el sobreviviente tiene 0/1 y el clúster se cae. Si el nodo de votación se apaga correctamente, el voto se transfiere al otro nodo y el clúster sobrevive. Por eso es fundamental configurar un testigo.

 Quórum explicado en el caso con dos nodos sin testigo

  • Puede sobrevivir a un fallo de servidor: Cincuenta por ciento de probabilidad.
  • Puede sobrevivir a un fallo del servidor, luego a otro: No.
  • Puede sobrevivir a dos fallos de servidor a la vez: No.

Dos nodos con un testigo.

Ambos nodos votan, más los votos de los testigos, por lo que la mayoría se determina de un total de 3 votos. Si cualquiera de los nodos cae, el sobreviviente tiene 2/3 y el cúmulo sobrevive.

 Quórum explicado en el caso con dos nodos con un testigo

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: No.
  • Puede sobrevivir a dos fallos de servidor a la vez: No.

Tres nodos sin testigo.

Todos los nodos votan, por lo que la mayoría se determina de un total de 3 votos. Si algún nodo cae, los sobrevivientes son 2/3 y el cúmulo sobrevive. El clúster se convierte en dos nodos sin un testigo; en ese momento, se encuentra en el escenario 1.

 Quórum explicado en el caso con tres nodos sin testigo

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: Cincuenta por ciento de probabilidad.
  • Puede sobrevivir a dos fallos de servidor a la vez: No.

Tres nodos con un testigo.

Todos los nodos votan, por lo que el testigo no vota inicialmente. La mayoría se determina de un total de 3 votos. Después de un error, el clúster tiene dos nodos con un testigo, que vuelve al escenario 2. Entonces, ahora los dos nodos y el testigo votan.

 Quórum explicado en el caso con tres nodos con un testigo

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: Sí.
  • Puede sobrevivir a dos fallos de servidor a la vez: No.

Cuatro nodos sin testigo

El voto de un nodo se pone a cero, por lo que la mayoría se determina de un total de 3 votos. Después de un error, el clúster se convierte en tres nodos, y se encuentra en el escenario 3.

 Quórum explicado en el caso con cuatro nodos sin testigo

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: Sí.
  • Puede sobrevivir a dos fallos de servidor a la vez: Cincuenta por ciento de probabilidad.

Cuatro nodos con un testigo.

Todos los nodos votan y el testigo vota, por lo que la mayoría se determina de un total de 5 votos. Después de un fallo, estás en el escenario 4. Después de dos fallos simultáneos, se pasa al escenario 2.

 Quórum explicado en el caso con cuatro nodos con un testigo

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: Sí.
  • Puede sobrevivir a dos fallos de servidor a la vez: Sí.

Cinco nodos y más.

Todos los nodos votan, o todos menos un voto, lo que hace que el total sea impar. De todos modos, Storage Spaces Direct no puede manejar más de dos nodos hacia abajo, por lo que en este punto, no se necesita ni es útil ningún testigo.

 Quórum explicado en el caso con cinco nodos y más allá

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: Sí.
  • Puede sobrevivir a dos fallos de servidor a la vez: Sí.

Ahora que entendemos cómo funciona el quórum, veamos los tipos de testigos de quórum.

Tipos de testigos de quórum

La agrupación en clúster de conmutación por error admite tres tipos de testigos de Quórum:

  • Almacenamiento de Blob testigo en la nube en Azure accesible para todos los nodos del clúster. Mantiene la información agrupada en un testigo.archivo de registro, pero no almacena una copia de la base de datos del clúster.Testigo de uso compartido de archivos
  • : un uso compartido de archivos SMB configurado en un servidor de archivos que ejecuta Windows Server. Mantiene la información agrupada en un testigo.archivo de registro, pero no almacena una copia de la base de datos del clúster.
  • Testigo de disco: un pequeño disco en clúster que se encuentra en el grupo de almacenamiento Disponible en clúster. Este disco está altamente disponible y puede conmutar por error entre nodos. Contiene una copia de la base de datos del clúster. Un testigo de disco no es compatible con Storage Spaces Direct.

Descripción general del quórum del grupo

Acabamos de hablar del Quórum del clúster, que funciona a nivel de clúster. Ahora, vamos a sumergirnos en el Quórum del grupo, que funciona a nivel del grupo (es decir, puede perder nodos y unidades y hacer que el grupo permanezca activo). Los grupos de almacenamiento se diseñaron para usarse en escenarios agrupados y no agrupados, por lo que tienen un mecanismo de quórum diferente.

La siguiente tabla ofrece una visión general de los resultados del quórum del grupo por escenario:

los nodos de Servidor Puede sobrevivir a un servidor de fallo del nodo Puede sobrevivir a un servidor nodo falla, el otro Puede sobrevivir dos simultáneo de nodo del servidor de fallos
2 No No No
2 + Testigo No No
3 No No
3 + Testigo No No
4 No No
4 + Testigo
5 y superior

Cómo funciona el quórum del grupo

Cuando las unidades fallan, o cuando un subconjunto de unidades pierde contacto con otro subconjunto, las unidades sobrevivientes deben verificar que constituyen la mayoría del grupo para permanecer en línea. Si no pueden verificar eso, se desconectarán. El grupo es la entidad que se desconecta o permanece en línea en función de si tiene suficientes discos para el quórum (50% + 1). El propietario del recurso del grupo (nodo de clúster activo) puede ser el +1.

Pero el quórum del grupo funciona de manera diferente al quórum del clúster de las siguientes maneras:

  • el grupo utiliza un nodo en el clúster como testigo como elemento de desempate para sobrevivir a la mitad de las unidades eliminadas (este nodo que es el propietario del recurso del grupo)
  • el grupo NO tiene quórum dinámico
  • el grupo NO implementa su propia versión de eliminar un voto

Ejemplos

Cuatro nodos con diseño simétrico.

Cada una de las 16 unidades tiene un voto y el nodo dos también tiene un voto (ya que es el propietario del recurso del grupo). La mayoría se determina de un total de 16 votos. Si los nodos tres y cuatro caen, el subconjunto sobreviviente tiene 8 unidades y el propietario del recurso del grupo, que es 9/16 votos. Así que la piscina sobrevive.

 Quórum de la piscina 1

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: Sí.
  • Puede sobrevivir a dos fallos de servidor a la vez: Sí.

Cuatro nodos con diseño simétrico y fallo de la unidad.

Cada una de las 16 unidades tiene un voto y el nodo 2 también tiene un voto (ya que es el propietario del recurso del grupo). La mayoría se determina de un total de 16 votos. Primero, la unidad 7 cae. Si los nodos tres y cuatro caen, el subconjunto sobreviviente tiene 7 unidades y el propietario del recurso del grupo, que es 8/16 votos. Por lo tanto, la piscina no tiene mayoría y se cae.

 Quórum de la piscina 2

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: No.
  • Puede sobrevivir a dos fallos de servidor a la vez: No.

Cuatro nodos con un diseño no simétrico.

Cada una de las 24 unidades tiene un voto y el nodo dos también tiene un voto (ya que es el propietario del recurso del grupo). La mayoría se determina de un total de 24 votos. Si los nodos tres y cuatro caen, el subconjunto sobreviviente tiene 8 unidades y el propietario del recurso del grupo, que es 9/24 votos. Por lo tanto, la piscina no tiene mayoría y se cae.

 Quórum de la piscina 3

  • Puede sobrevivir a un fallo del servidor: Sí.
  • Puede sobrevivir a un fallo del servidor, luego a otro: * * Depende * * (no puede sobrevivir si los nodos tres y cuatro se caen, pero puede sobrevivir a todos los demás escenarios.
  • Puede sobrevivir a dos fallos de servidor a la vez: ** Depende * * (no puede sobrevivir si ambos nodos tres y cuatro caen, pero puede sobrevivir a todos los demás escenarios.

Recomendaciones de quórum de grupo

  • Asegúrese de que cada nodo del clúster es simétrico (cada nodo tiene el mismo número de unidades)
  • Habilite el espejo de tres vías o la paridad dual para que pueda tolerar los errores de un nodo y mantener los discos virtuales en línea. Consulte nuestra página de guía de volumen para obtener más detalles.
  • Si más de dos nodos están caídos, o dos nodos y un disco en otro nodo están caídos, es posible que los volúmenes no tengan acceso a las tres copias de sus datos y, por lo tanto, se desconecten y no estén disponibles. Se recomienda recuperar los servidores o reemplazar los discos rápidamente para garantizar la mayor resiliencia para todos los datos del volumen.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.