npm - @hiiretail/gcp-infra-cli - Versions diffs - 0.77.1 → 0.78.0 - Mend

@hiiretail/gcp-infra-cli 0.77.1 → 0.78.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/generators/resources/monitoring/index.js +7 -27
package/generators/resources/monitoring/templates/alerts/alerts.yaml +82 -18
package/package.json +1 -1

package/generators/resources/monitoring/index.js CHANGED Viewed

@@ -6,10 +6,12 @@ const BaseGenerator = require('../../../src/BaseGenerator');
 const { required } = require('../../../src/validators');
 const validate = require('./validate');
 const { handleSlos, handleAlerts, handleUptimeChecks } = require('./handle-yaml');
+const { getProjectId } = require('../pubsub/get-gcp-projects');
 const uptimeCheckTemplates = yaml.load(fs.readFileSync(`${__dirname}/templates/uptime-checks/uptime-checks.yaml`));
 const alertTemplates = yaml.load(fs.readFileSync(`${__dirname}/templates/alerts/alerts.yaml`));
 const sloTemplates = yaml.load(fs.readFileSync(`${__dirname}/templates/slos/slos.yaml`));
+const projectId = getProjectId('prod');
 module.exports = class extends BaseGenerator {
   async prompting() {
@@ -54,32 +56,11 @@ module.exports = class extends BaseGenerator {
         validate: required && validate.confluenceUrl,
       },
       {
-        when: (response) => response.alertResource === 'cloud_scheduler',
-        type: 'input',
-        name: 'jobId',
-        message: 'Please provide the "job id"',
-        validate: required,
-      },
-      {
-        when: (response) => response.alertResource === 'cloud_sql',
-        type: 'input',
-        name: 'databaseId',
-        message: 'Please provide the "database id"',
-        validate: required && validate.databaseId,
-      },
-      {
-        when: (response) => response.alertResource === 'memorystore',
-        type: 'input',
-        name: 'instanceId',
-        message: 'Please provide the "instance id"',
-        validate: required && validate.instanceID,
-      },
-      {
-        when: (response) => response.alertResource === 'pub_sub',
-        type: 'input',
-        name: 'subscriptionId',
-        message: 'Please provide the "subscription id"',
-        validate: required && validate.pubSubSubscription,
+        when: (response) => response.monitoringResource === 'alerts',
+        type: 'list',
+        name: 'projectId',
+        message: 'Please select clan project id',
+        choices: [`${projectId}`],
       },
       {
         when: (response) => response.monitoringResource === 'uptime-checks',
@@ -165,7 +146,6 @@ module.exports = class extends BaseGenerator {
       const yamlPath = `${resourceDir}/alerts.yaml`;
       copyTemplate('alerts', resourceDir, yamlPath);
       const oldYaml = yaml.load(fs.readFileSync(yamlPath, 'utf8')) || [];
       const newYaml = await handleAlerts(oldYaml, alertTemplates, this.answers);

package/generators/resources/monitoring/templates/alerts/alerts.yaml CHANGED Viewed

@@ -8,6 +8,7 @@ cloud_run:
             resource.type="knative_revision"
             resource.labels.service_name="<%-serviceName%>"
             metric.type="knative.dev/serving/revision/request_latencies"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 1000
           duration: 300s
           aggregations:
@@ -17,147 +18,210 @@ cloud_run:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
 cloud_scheduler:
   failed_job:
-    display_name: "[P4] <%-systemName%> - Cloud Scheduler | <%-jobId%> - Job Failed"
+    display_name: "[P4] <%-systemName%> - Cloud Scheduler | Job Failed"
     conditions:
       - display_name: Cloud Scheduler Job - Log entries with SEVERITY=Error exceed threshold
         condition_threshold:
           filter: |
             resource.type="cloud_scheduler_job"
-            resource.labels.job_id="<%-jobId%>"
             metric.type="logging.googleapis.com/log_entry_count"
             metric.labels.severity="ERROR"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 1
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_COUNT
+              group_by_fields: ["resource.label.job_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
 cloud_sql:
   cpu_over_65:
-    display_name: "[P3] <%-systemName%> - CloudSQL | <%-databaseId.substring(databaseId.lastIndexOf(':') + 1)%> - CPU over 65%"
+    display_name: "[P3] <%-systemName%> - CloudSQL | CPU over 65%"
     conditions:
       - display_name: Cloud SQL Database - CPU utilization above 65% over 5 min
         condition_threshold:
           filter: |
             resource.type="cloudsql_database"
-            resource.labels.database_id="<%-databaseId%>"
             metric.type="cloudsql.googleapis.com/database/cpu/utilization"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 0.65
           duration: 300s
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_MAX
+              group_by_fields: ["resource.label.database_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
   cpu_over_85:
-    display_name: "[P3] <%-systemName%> - CloudSQL | <%-databaseId.substring(databaseId.lastIndexOf(':') + 1)%> - CPU over 85%"
+    display_name: "[P3] <%-systemName%> - CloudSQL | CPU over 85%"
     conditions:
       - display_name: "Cloud SQL Database - CPU-usage above 85% over 1 min"
         condition_threshold:
           filter: |
             resource.type="cloudsql_database"
-            resource.labels.database_id="<%-databaseId%>"
             metric.type="cloudsql.googleapis.com/database/cpu/utilization"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 0.85
           duration: 60s
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_MAX
+              group_by_fields: ["resource.label.database_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
   cpu_over_90:
-    display_name: "[P3] <%-systemName%> - CloudSQL | <%-databaseId.substring(databaseId.lastIndexOf(':') + 1)%> - CPU over 90%"
+    display_name: "[P3] <%-systemName%> - CloudSQL | CPU over 90%"
     conditions:
       - display_name: Cloud SQL Database - CPU-usage above 90%
         condition_threshold:
           filter: |
             resource.type="cloudsql_database"
-            resource.labels.database_id="<%-databaseId%>"
             metric.type="cloudsql.googleapis.com/database/cpu/utilization"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 0.9
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_MAX
+              group_by_fields: ["resource.label.database_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
   query_over_1s:
-    display_name: "[P4] <%-systemName%> - CloudSQL | <%-databaseId.substring(databaseId.lastIndexOf(':') + 1)%> - Query resolve time"
+    display_name: "[P4] <%-systemName%> - CloudSQL | Query resolve time"
     conditions:
       - display_name: Cloud SQL Instance Database - Per query execution times above 1000 ms
         condition_threshold:
           filter: |
             resource.type="cloudsql_instance_database"
-            resource.labels.resource_id="<%-databaseId%>"
             metric.type="cloudsql.googleapis.com/database/postgresql/insights/perquery/execution_time"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 1000000
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_DELTA
+              group_by_fields: ["resource.label.resource_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
 memorystore:
   memory_over_50:
-    display_name: "[P4] <%-systemName%> - Memorystore | <%-instanceId.substring(instanceId.lastIndexOf('/') + 1)%> - Memory over 50%"
+    display_name: "[P4] <%-systemName%> - Memorystore | Memory over 50%"
     conditions:
       - display_name: Memorystore Redis Instance - Memory Usage above 50% over 5 min
         condition_threshold:
           filter: |
             resource.type="redis_instance"
-            resource.labels.instance_id="<%-instanceId%>"
             metric.type="redis.googleapis.com/stats/memory/usage_ratio"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 0.5
           duration: 300s
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_MAX
+              group_by_fields: ["resource.label.instance_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
   memory_over_75:
-    display_name: "[P4] <%-systemName%> - Memorystore | <%-instanceId.substring(instanceId.lastIndexOf('/') + 1)%> - Memory over 75%"
+    display_name: "[P4] <%-systemName%> - Memorystore | Memory over 75%"
     conditions:
       - display_name: Memorystore Redis Instance - Memory Usage above 75% for 5min
         condition_threshold:
           filter: |
             resource.type="redis_instance"
-            resource.labels.instance_id="<%-instanceId%>"
             metric.type="redis.googleapis.com/stats/memory/usage_ratio"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 0.75
           duration: 300s
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_MAX
+              group_by_fields: ["resource.label.instance_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
   memory_over_90:
-    display_name: "[P2] <%-systemName%> - Memorystore | <%-instanceId.substring(instanceId.lastIndexOf('/') + 1)%> - Memory over 90%"
+    display_name: "[P2] <%-systemName%> - Memorystore | Memory over 90%"
     conditions:
       - display_name: Memorystore Redis Instance - Memory Usage above 90%
         condition_threshold:
           filter: |
             resource.type="redis_instance"
-            resource.labels.instance_id="<%-instanceId%>"
             metric.type="redis.googleapis.com/stats/memory/usage_ratio"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 0.90
           duration: 60s
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_MAX
+              group_by_fields: ["resource.label.instance_id"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
 pub_sub:
   unacknowledged_messages:
-    display_name: "[P4] <%-systemName%> - Pub/Sub | <%-subscriptionId.substring(subscriptionId.lastIndexOf('/') + 1)%> - Undelivered message(s)"
+    display_name: "[P3] <%-systemName%> - Pub/Sub | Undelivered message(s)"
     conditions:
       - display_name: Cloud Pub/Sub Subscription - Undelivered messages above 1 for 5 min
         condition_threshold:
           filter: |
             resource.type="pubsub_subscription"
-            resource.labels.subscription_id="<%-subscriptionId%>"
             metric.type="pubsub.googleapis.com/subscription/num_undelivered_messages"
+            resource.labels.project_id="<%-projectId%>"
           threshold_value: 1
           duration: 300s
           aggregations:
             - alignment_period: 60s
               per_series_aligner: ALIGN_MEAN
+              group_by_fields: ["resource.label.subscription_id"]
+    documentation:
+      content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
+  messages_in_dlq:
+    display_name: "[P3] <%-systemName%> - Pub/Sub | Message(s) in DLQ"
+    conditions:
+      - display_name: Cloud Pub/Sub Subscription - Number of undelivered message(s) forwarded to DLQ
+        condition_threshold:
+          filter: |
+            resource.type="pubsub_subscription"
+            metric.type="pubsub.googleapis.com/subscription/dead_letter_message_count"
+            resource.labels.project_id="<%-projectId%>"
+          threshold_value: 0
+          duration: 60s
+          aggregations:
+            - alignment_period: 60s
+              per_series_aligner: ALIGN_COUNT
+              group_by_fields: ["resource.label.subscription_id"]
+    documentation:
+      content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
+  latency:
+    display_name: "[P3] <%-systemName%> - Pub/Sub | Response latency distribution"
+    conditions:
+      - display_name: Cloud Pub/Sub Subscription - Latency above 3s
+        condition_threshold:
+          filter: |
+            resource.type="pubsub_subscription"
+            metric.type="pubsub.googleapis.com/subscription/push_request_latencies"
+            resource.labels.project_id="<%-projectId%>"
+          threshold_value: 3000000
+          duration: 120s
+          aggregations:
+            - alignment_period: 60s
+              per_series_aligner: ALIGN_DELTA
+              cross_series_reducer: REDUCE_PERCENTILE_95
+              group_by_fields: ["resource.label.subscription_id"]
+    documentation:
+      content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>
+cloud_function:
+  failed_execution:
+    display_name: "[P2] <%-systemName%> - Cloud Function | Failed job execution"
+    conditions:
+      - display_name: Cloud Function - Execution error count
+        condition_threshold:
+          filter: |
+            resource.type="cloud_function"
+            metric.type="cloudfunctions.googleapis.com/function/execution_count"
+            metric.label.status!="ok"
+            resource.labels.project_id="<%-projectId%>"
+          threshold_value: 0
+          duration: 60s
+          aggregations:
+            - alignment_period: 60s
+              per_series_aligner: ALIGN_COUNT
+              group_by_fields: ["metric.label.status", "resource.label.function_name"]
     documentation:
       content: <% if (runbookLink) { %>[Runbook](<%-runbookLink%>)<%} else { %> <% } %>

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@hiiretail/gcp-infra-cli",
-  "version": "0.77.1",
+  "version": "0.78.0",
   "description": "Infrastructure as code generator for GCP.",
   "main": "src/cli.js",
   "bin": {