Documentação

Monitoramento, Segurança e Conformidade

Eventos, logs, alertas, ameaças, controles e conformidade do Kill Switch

Kill Switch - Monitoramento, Segurança e Conformidade

1. Monitoramento e Observabilidade

Esquema Canônico de Logs

Todos os eventos de Kill Switch devem ser registrados com o seguinte esquema:

Estrutura de Log Padrão
{
  "timestamp": "2025-12-10T16:30:45.123Z",
  "trace_id": "550e8400-e29b-41d4-a716-446655440000",
  "span_id": "f4a8c5b1-2d9e-4f7a-b3c2-1a5d8e9f0c4b",
  "correlation_id": "tour-session-20251210-001",
  "environment": "production",
  "asset_id": "unitree-robot-001",
  "component": "kill-switch-system",
  "service.name": "rust-serial-emergency-button",
  "event.category": "kill-switch",
  "event.type": "activation",
  "severity": "CRITICAL",
  "message": "Emergency stop button activated via serial port",
  "latency_ms": 245,
  "ack_stop_ms": 450,
  "source_channel": "serial",
  "operator_id": "op-001",
  "session_id": "session-20251210-16-30-45"
}

Campos Obrigatórios

CampoTipoDescriçãoExemplo
timestampISO 8601Data/hora UTC2025-12-10T16:30:45.123Z
trace_idUUIDIdentificador único do evento550e8400-e29b-41d4-a716-446655440000
severityStringNível de severidadeCRITICAL, HIGH, MEDIUM, LOW
event.typeStringTipo de eventoactivation, release, error
source_channelStringCanal de origemserial
latency_msIntegerLatência em milissegundos245

O trace_id é essencial para rastrear o evento através de múltiplos serviços e facilitar debugging.

Eventos Importantes

Eventos Monitorados pelo SIEM

EventoSeveridadeDescriçãoAção
KILL_SWITCH_ACTIVATEDCRITICALBotão pressionado, Dump Mode ativadoAlerta imediato, log crítico
KILL_SWITCH_RELEASEDHIGHBotão liberado, Recover Mode iniciadoLog, correlação com telemetria
KILL_SWITCH_ACK_TIMEOUTCRITICALACK não recebido em 1sEscalação imediata
SERIAL_DISCONNECTEDCRITICALPerda de conexão serialAlerta grave, investigar
BUTTON_STUCKCRITICALBotão permanece pressionado > 30sInvestigar hardware, isolar
FALSE_POSITIVE_RATE_HIGHMEDIUMTaxa de falsos positivos > 1/horaRevisar logs, ajustar threshold

Alertas e SLAs

AlertaCondiçãoSLAAçãoEscalação
Kill Switch AcionadoEvento KILL_SWITCH_ACTIVATEDImediatoNotificar operadorAnalista 4
ACK TimeoutACK não recebido em 1s60sEscalar para Analista 4Coordenação
Serial DesconectadoPerda de conexão > 5s60sInvestigar e restaurarAnalista 4
Botão PresoPressionado > 30s2minInvestigar hardwareOperador
Taxa de Falsos Positivos> 1 por hora5minRevisar logs, ajustarAnalista 4
Latência Elevada> 1s (serial)5minInvestigar causaAnalista 4

Qualquer evento CRITICAL dispara notificação automática via ChatOps (Slack/Teams) com SLA de 60 segundos.

2. Análise de Ameaças

Modelo de Ameaças STRIDE

Ameaças Identificadas

AmeaçaCategoriaImpactoProbabilidadeMitigação
Spoofing de SinalSpoofingAcionamento falsoMédiaValidação de trace_id, autenticação JWT
Tampering de BotãoTamperingDesativação intencionalBaixaMonitoramento contínuo, detecção de anomalias
Replay AttackTamperingAcionamento repetidoMédiaTimestamp validation, detecção de seqüência
Perda de ConexãoDenial of ServiceFalha de comunicaçãoAltaFailsafe mecânico, monitoramento
Injection em SerialInjectionComando maliciosoBaixaValidação de caracteres, detecção de anomalias
EavesdroppingInformation DisclosureExposição de dadosBaixaConexão física USB-C, logs mascarados
Privilege EscalationElevation of PrivilegeAcesso não autorizadoBaixaRBAC, ACLs entre serviços
Man-in-the-MiddleTamperingInterceptação de sinalBaixaConexão física dedicada

Matriz de Risco

AmeaçaSeveridadeDetectabilidadeScorePrioridade
Perda de ConexãoGRAVEFácil9/10GRAVE
Spoofing de SinalALTAMédia7/10ALTA
Injection em SerialMÉDIAFácil4/10MÉDIA
Man-in-the-MiddleMÉDIADifícil3/10BAIXA
Tampering de BotãoMÉDIAFácil4/10MÉDIA
Replay AttackMÉDIAMédia5/10MÉDIA

Ameaças com score ≥ 7/10 requerem mitigação imediata e monitoramento contínuo.

3. Controles de Segurança

Controles Implementados

ControleTipoImplementaçãoStatus
Failsafe MecânicoPreventivoDesliga motores se falhar✓ Implementado
Validação de EntradaPreventivoValidação de caracteres serial✓ Implementado
Detecção de AnomaliasDetectivoMonitoramento de taxa de acionamentos✓ Implementado
Logging EstruturadoDetectivoEsquema canônico com trace_id✓ Implementado
Monitoramento SIEMDetectivoAlertas em tempo real✓ Implementado
Proteção FísicaPreventivoConexão USB-C dedicada✓ Implementado
Autenticação SerialPreventivoValidação de trace_id✓ Implementado
Auditoria CompletaDetectivoTrilha de eventos com trace_id✓ Implementado

Controles Recomendados

ControleBenefícioEsforçoPrioridade
Failsafe MecânicoSegurança adicional se eletrônico falharAltoALTA
Encriptação End-to-EndProteção contra MITMMédioALTA
Testes de PenetraçãoValidação de segurançaMédioMÉDIA
Certificados DigitaisAutenticação mútua (mTLS)MédioMÉDIA
Backup RedundanteRecuperação de desastresMédioMÉDIA

4. Mapeamento NIST CSF

O sistema Kill Switch está alinhado com o NIST Cybersecurity Framework em suas 5 funções principais:

1. Identify (Identificar)

AtividadeImplementação
Asset InventoryESP32C3 + Botão Metaltex registrados em CMDB
Risk AssessmentAnálise STRIDE completa
Data ClassificationLogs classificados como CRÍTICOS
Access ControlRBAC definido por função (Operador, Dev, Analista)

2. Protect (Proteger)

AtividadeImplementação
Access ControlRBAC para acesso a logs e configurações
EncryptionAES-256 para logs at-rest
Secure ConfigurationHardening de ESP32C3 e serviço Rust
Supply Chain SecurityValidação de bibliotecas via SCA (Dependabot)

3. Detect (Detectar)

AtividadeImplementação
Anomaly DetectionSIEM monitora taxa de acionamentos
Continuous MonitoringLogs em tempo real via OTel
Security TestingTestes automatizados em CI/CD
Event LoggingEsquema canônico com trace_id

4. Respond (Responder)

AtividadeImplementação
Incident ResponsePlaybooks KS-001/002/003 documentados
Communication PlanAlertas via ChatOps (Slack/Teams)
ContainmentIsolamento automático em caso de falha
Recovery PlanFailsafe mecânico se eletrônico falhar

5. Recover (Recuperar)

AtividadeImplementação
Recovery ProceduresRecover from Fall automático
Backup & RestoreLogs retidos por 90 dias
Disaster RecoveryPlano DR com RTO 15min, RPO 1min
Lessons LearnedPost-mortems após cada incidente

O sistema Kill Switch está alinhado com NIST CSF v1.1. Revisão anual recomendada para manter conformidade.

5. Conformidade com Padrões

Padrões Aplicáveis

PadrãoSeçãoConformidade
ISO 13849-1Safety-related parts of control systemsParcial (Nível PLd)
IEC 61508Functional safety of electrical/electronic systemsParcial (SIL 2)
OWASP Top 10Web Application SecurityCompleto
CIS ControlsCritical Security ControlsCompleto (v8)

Certificações Recomendadas

  • SOC 2 Type II: Para conformidade com clientes
  • ISO 27001: Para gerenciamento de informações de segurança
  • ISO 13849-1 PLe: Para segurança de máquinas (upgrade futuro)

6. Testes de Segurança

SAST (Static Application Security Testing)

# Análise estática do código
semgrep --config=p/security-audit robot-button.cpp

# Esperado: Nenhum problema grave

Teste de Comunicação Serial

# Monitorar porta serial
screen /dev/ttyAM0 115200

# Esperado:
# 0
# 0
# 1  (botão pressionado)
# 1
# 0  (botão liberado)

Sempre teste em ambiente seguro antes de usar em produção com o robô ativo.

Resumo

O Kill Switch implementa controles de segurança robustos, está alinhado com NIST CSF, e segue padrões internacionais de segurança funcional. O monitoramento contínuo via SIEM garante detecção rápida de anomalias e resposta imediata a incidentes.