Tempo aproximado para leitura: 00:01:00 min
Dúvida
Quais são as métricas de monitoramento de VM IaaS?
Ambiente
CLOUD - IAAS - Todos os ambientes
Solução
Este artigo tem como objetivo estabelecer as métricas utilizadas para o monitoramento de Máquinas Virtuais do T-Cloud IaaS.
Consumo de CPU Linux/Windows
Avalia o consumo de CPU calculando a média móvel dos 10 últimos dados coletados (5 min) de % de tempo de uso do processador. Para avaliar o valor final, são utilizadas as seguintes regras:
- Critical: média >= 90%
- Warning: média >= 85%
- Normal: média < 85%
RAM Usage Linux/Windows
Avalia o consumo total de memória RAM calculando a média móvel de 20 amostras de GB livres e utilizadas (valor computado com base em outros dados). As médias encontradas são avaliadas conforme os seguintes critérios:
- Critical: média % >= 95% AND média free GB <= 4 GB
- Warning: média % >= 90% AND média free GB <= 8 GB
- Normal: média % < 90% OR média free GB > 8 GB
Low Disk Space Linux/Windows
Avalia o espaço livre em cada disco encontrado no host calculando a média móvel dos 20 últimos valores de % de espaço livre e quantidade de GB livres. Os dois valores de média são avaliados conforme as seguintes regras:
- Fatal: média % free space <= 5% AND média free GB <= 10 GB
- Critical: média % free space <= 10% AND média free GB <= 25 GB
- Warning: média % free space <= 15% AND média free GB <= 50 GB
- Normal: média % free space > 15% OR média free GB > 50 GB
ICMP\VM Down
Realiza a cada 1 min teste de ping no IP Privado, enviando 2 pacotes e medindo se houve perda. Caso haja perda de 1 ou 2 pacotes, será considerado como falha no teste. Também há a coleta de status da VM no virtualizador. Os limites para geração de alerta são os seguintes:
- Critical: 3 últimos testes com falha
- Normal: no mínimo 1 teste dos 3 últimos com sucesso
- Critical: se guestState != 'running'
- Normal: se guestState == 'running'
Importante: toda VM com o sistema operacional Windows possui uma regra de ICMP no firewall. A remoção da regra pode acarretar na criação de um falso alerta de ICMP Down, e consequentemente na perda da monitoração em tempo real. A regra é utilizada apenas para a comunicação interna, não afetando a comunicação externa.
Histórico de Monitoramento
Tempo de retenção: 90 DIas.
0 Comentários