Playbook: Analysis Failures

Analysis Failures

When to use: Customer reports “analysis not completing”, “stuck in progress”, or AI quality issues.

MCP: get_ai_analytics
  workspace_id: "<workspace_id>"

Look for elevated error rates, increased latency, or low completion rates.

MCP: remote_debug
  workspace_id: "<workspace_id>"
  command: "analysis_status"

MCP: remote_debug
  workspace_id: "<workspace_id>"
  command: "recent_analyses"
  params: { "limit": 10 }

Look for patterns — all failing, specific incident types failing, intermittent failures.

Symptom	Likely Cause	Fix
All analyses failing with timeout	LLM provider degraded	Check provider status page, wait or switch provider
Analyses stuck “in_progress”	Worker process crashed	Restart analysis engine pods
Partial results, low quality	Context window exceeded	Check incident group size, may need log filtering
Rate limit errors	Too many concurrent analyses	Check concurrency settings, consider queue backpressure

If the LLM provider is degraded:

Collect AI analytics output + recent analysis IDs and escalate to the engineering team.