RubyGems - fluent-plugin-k8s-metrics-agg - Versions diffs - 1.1.7 → 1.1.10 - Mend

fluent-plugin-k8s-metrics-agg 1.1.7 → 1.1.10

Files changed (9) hide show

checksums.yaml +4 -4
data/.github/workflows/ci_build_test.yaml +9 -5
data/Gemfile.lock +10 -10
data/VERSION +1 -1
data/ci_scripts/deploy_connector.sh +7 -3
data/docker/Dockerfile +6 -2
data/docker/Gemfile.lock +11 -11
data/lib/fluent/plugin/in_kubernetes_metrics_aggregator.rb +130 -81
metadata +3 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 11e9b540230a927f8cb2dd469d4b16d16941c8e7cde2d4019394509c8562874e
-  data.tar.gz: 38e231e8cde3aa56f386c3cc835065fec257ecffe502866ae0db8e00a818f970
+  metadata.gz: 70bc112ad78a8b436be2fc81cbb19333c529ace6fecfd914a6fd0322b6f1d416
+  data.tar.gz: dcdb1ecb991835130f35fea247e5f3da4a1a004f3be3d92bef6057e8e47096e2
 SHA512:
-  metadata.gz: 298e621affd96c9185a95e019af9bf947d4f1a81bdb850606fc9c9729ba0f7ec3072ad4df4f176e4280ae70bba1a012d59d183ecd858cc80f1c085c4b99ec44b
-  data.tar.gz: 3ea6fe8cd14f6820a8c3126cc8fc226b28d06786e467fdba6cbdc8d8b1445724a11406a4d28850f87685959ac59170be0e45fab8cee35570476167fb96f3f01e
+  metadata.gz: 97dfe412aee7d7918ad44b3962bbf06afc34dad7fa1ab242c8c34cbe2ff282356e4270ba236f3fabfe1b58047cf63c12e23282c45734363265f599e3e15a1715
+  data.tar.gz: 88bd162e3dd54b0d5dcb2a3cf02ae1d596161dae5840c1b280f3a25054d2802cb25f068a2857490395f6d87d86332f89e7caaa82023dcfcf7b5bec336166620e

data/.github/workflows/ci_build_test.yaml CHANGED Viewed

@@ -67,8 +67,9 @@ jobs:
       CI_INDEX_EVENTS: ci_events
       CI_INDEX_OBJECTS: ci_objects
       CI_INDEX_METRICS: ci_metrics
-      KUBERNETES_VERSION: v1.15.2
-      MINIKUBE_VERSION: v1.21.0
+      KUBERNETES_VERSION: v1.23.2
+      MINIKUBE_VERSION: v1.24.0
+      MINIKUBE_NODE_COUNTS: 2
       GITHUB_ACTIONS: true
     steps:
@@ -121,7 +122,7 @@ jobs:
           chmod +x minikube
           sudo mv minikube /usr/local/bin/
           # Start Minikube and Wait
-          minikube start --driver=docker --container-runtime=docker --cpus 2 --memory 4096 --kubernetes-version=${KUBERNETES_VERSION} --no-vtx-check
+          minikube start --driver=docker --container-runtime=docker --cpus 2 --memory 4096 --kubernetes-version=${KUBERNETES_VERSION} --no-vtx-check -n=${MINIKUBE_NODE_COUNTS}
           export JSONPATH='{range .items[*]}{@.metadata.name}:{range @.status.conditions[*]}{@.type}={@.status};{end}{end}'
           until kubectl get nodes -o jsonpath="$JSONPATH" 2>&1 | grep -q "Ready=True"; do
             sleep 1;
@@ -130,13 +131,15 @@ jobs:
       - name: Install Splunk
         run: |
           # Wait until minikube is ready
-          kubectl apply -f https://docs.projectcalico.org/v3.14/manifests/calico.yaml
           export JSONPATH='{range .items[*]}{@.metadata.name}:{range @.status.conditions[*]}{@.type}={@.status};{end}{end}'
           until kubectl get nodes -o jsonpath="$JSONPATH" 2>&1 | grep -q "Ready=True"; do
             echo "wait for minikube ready ..."
             sleep 1;
           done
           kubectl get nodes
+          until kubectl get sa | grep -q 'default'; do
+            sleep 1;
+          done
           # Install Splunk on minikube
           kubectl apply -f ci_scripts/k8s-splunk.yml
           # Wait until splunk is ready
@@ -189,4 +192,5 @@ jobs:
           	--splunkd-url https://$CI_SPLUNK_HOST:8089 \
           	--splunk-user admin \
           	--splunk-password $CI_SPLUNK_PASSWORD \
-          	-p no:warnings -s
+            --nodes-count $MINIKUBE_NODE_COUNTS\
+          	-p no:warnings -s -n auto

data/Gemfile.lock CHANGED Viewed

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    fluent-plugin-k8s-metrics-agg (1.1.7)
+    fluent-plugin-k8s-metrics-agg (1.1.10)
       fluentd (>= 1.9.1)
       kubeclient (~> 4.6.0)
       multi_json (~> 1.14.1)
@@ -19,14 +19,14 @@ GEM
     docile (1.4.0)
     domain_name (0.5.20190701)
       unf (>= 0.0.5, < 1.0.0)
-    ffi (1.15.4)
+    ffi (1.15.5)
     ffi-compiler (1.0.1)
       ffi (>= 1.0.0)
       rake
-    fluentd (1.14.2)
+    fluentd (1.14.4)
       bundler
       cool.io (>= 1.4.5, < 2.0.0)
-      http_parser.rb (>= 0.5.1, < 0.8.0)
+      http_parser.rb (>= 0.5.1, < 0.9.0)
       msgpack (>= 1.3.1, < 2.0.0)
       serverengine (>= 2.2.2, < 3.0.0)
       sigdump (~> 0.2.2)
@@ -47,16 +47,16 @@ GEM
     http-form_data (2.3.0)
     http-parser (1.2.3)
       ffi-compiler (>= 1.0, < 2.0)
-    http_parser.rb (0.7.0)
+    http_parser.rb (0.8.0)
     json (2.6.1)
     kubeclient (4.6.0)
       http (>= 3.0, < 5.0)
       recursive-open-struct (~> 1.0, >= 1.0.4)
       rest-client (~> 2.0)
-    mime-types (3.3.1)
+    mime-types (3.4.1)
       mime-types-data (~> 3.2015)
-    mime-types-data (3.2021.0901)
-    msgpack (1.4.2)
+    mime-types-data (3.2022.0105)
+    msgpack (1.4.4)
     multi_json (1.14.1)
     netrc (0.11.0)
     oj (3.10.18)
@@ -70,7 +70,7 @@ GEM
       mime-types (>= 1.16, < 4.0)
       netrc (~> 0.8)
     rexml (3.2.5)
-    serverengine (2.2.4)
+    serverengine (2.2.5)
       sigdump (~> 0.2.2)
     sigdump (0.2.4)
     simplecov (0.16.1)
@@ -107,4 +107,4 @@ DEPENDENCIES
   webmock (~> 3.5.1)
 BUNDLED WITH
-   2.2.30
+   2.3.9

data/VERSION CHANGED Viewed

	@@ -1 +1 @@
1	- 1.1.7
1	+ 1.1.10

data/ci_scripts/deploy_connector.sh CHANGED Viewed

@@ -23,7 +23,11 @@ helm install ci-sck --set global.splunk.hec.token=$CI_SPLUNK_HEC_TOKEN \
 --set splunk-kubernetes-metrics.imageAgg.tag=recent \
 --set splunk-kubernetes-metrics.imageAgg.pullPolicy=IfNotPresent \
 -f ci_scripts/sck_values.yml helm-chart/splunk-connect-for-kubernetes
-#wait for deployment to finish
-until kubectl get pod | grep Running | [[ $(wc -l) == 4 ]]; do
+kubectl get pod
+# wait for deployment to finish
+# metric and logging deamon set for each node + aggr + object + splunk
+PODS=$((MINIKUBE_NODE_COUNTS*2+2+1))
+until kubectl get pod | grep Running | [[ $(wc -l) == $PODS ]]; do
    sleep 1;
-done
+done

data/docker/Dockerfile CHANGED Viewed

@@ -31,13 +31,17 @@ RUN mkdir /licenses
 COPY --from=builder /app/LICENSE /licenses/LICENSE
 COPY --from=builder /app/docker/Gemfile* ./
+RUN gem update date cgi
+RUN rm -f /usr/share/gems/specifications/default/cgi-0.1.0.gemspec /usr/share/gems/specifications/default/date-3.0.0.gemspec
 RUN yum update -y \
    && yum remove -y nodejs npm \
    && gem install bundler \
+   && gem uninstall -i /usr/share/gems bundler \
    && gem unpack /tmp/*.gem --target gem \
    && bundle install \
-   && rpm -e --nodeps python3-pip-wheel python3-urllib3-* python3-requests-* python3-libxml2-* python3-dmidecode-* subscription-manager-* libwebp-* libwebp-devel-*  glib2-* libjpeg-turbo-devel-* libjpeg-turbo-* mariadb-connector-c-config-* mariadb-connector-c-* mariadb-connector-c-devel-* rsync-* sqlite-libs-* sqlite-devel-* sqlite-* libxml2-* libxml2-devel-* libX11-* libX11-common-* libX11-devel-* libX11-xcb-* nettle-* libsolv-* file-libs-* dbus-daemon-* tar-* qt5-srpm-macros-* perl-parent-*  git-* bsdtar-* openssh-clients-* json-c-* binutils-* libtiff-devel-* libtiff-*
+   && bundle update i18n \
+   && gem uninstall -i /usr/share/gems i18n --version 1.8.11 \
+   && rpm -e --nodeps python3-pip-wheel python3-urllib3-* python3-requests-* python3-libxml2-* python3-dmidecode-* subscription-manager-* libwebp-* libwebp-devel-*  glib2-* libjpeg-turbo-devel-* libjpeg-turbo-* mariadb-connector-c-config-* mariadb-connector-c-* mariadb-connector-c-devel-* rsync-* sqlite-libs-* sqlite-devel-* sqlite-* libxml2-* libxml2-devel-* libX11-* libX11-common-* libX11-devel-* libX11-xcb-* nettle-* libsolv-* file-libs-* dbus-daemon-* tar-* qt5-srpm-macros-* perl-parent-*  git-* bsdtar-* openssh-clients-* json-c-* binutils-* libtiff-devel-* libtiff-* || true
 RUN groupadd -r $FLUENT_USER && \
   useradd -r -g $FLUENT_USER $FLUENT_USER && \

data/docker/Gemfile.lock CHANGED Viewed

@@ -1,7 +1,7 @@
 PATH
   remote: gem
   specs:
-    fluent-plugin-k8s-metrics-agg (1.1.7)
+    fluent-plugin-k8s-metrics-agg (1.1.10)
       fluentd (>= 1.9.1)
       kubeclient (~> 4.6.0)
       multi_json (~> 1.14.1)
@@ -10,9 +10,9 @@ PATH
 GEM
   remote: https://rubygems.org/
   specs:
-    activemodel (6.1.4.1)
-      activesupport (= 6.1.4.1)
-    activesupport (6.1.4.1)
+    activemodel (6.1.4.3)
+      activesupport (= 6.1.4.3)
+    activesupport (6.1.4.3)
       concurrent-ruby (~> 1.0, >= 1.0.2)
       i18n (>= 1.6, < 2)
       minitest (>= 5.1)
@@ -33,7 +33,7 @@ GEM
     ffi-compiler (1.0.1)
       ffi (>= 1.0.0)
       rake
-    fluent-plugin-kubernetes_metadata_filter (2.9.2)
+    fluent-plugin-kubernetes_metadata_filter (2.9.3)
       fluentd (>= 0.14.0, < 1.15)
       kubeclient (>= 4.0.0, < 5.0.0)
       lru_redux
@@ -42,16 +42,16 @@ GEM
       prometheus-client (>= 2.1.0)
     fluent-plugin-record-modifier (2.1.0)
       fluentd (>= 1.0, < 2)
-    fluent-plugin-splunk-hec (1.2.7)
+    fluent-plugin-splunk-hec (1.2.11)
       fluentd (>= 1.4)
       multi_json (~> 1.13)
       net-http-persistent (~> 3.1)
       openid_connect (~> 1.1.8)
       prometheus-client (>= 2.1.0)
-    fluentd (1.14.2)
+    fluentd (1.14.3)
       bundler
       cool.io (>= 1.4.5, < 2.0.0)
-      http_parser.rb (>= 0.5.1, < 0.8.0)
+      http_parser.rb (>= 0.5.1, < 0.9.0)
       msgpack (>= 1.3.1, < 2.0.0)
       serverengine (>= 2.2.2, < 3.0.0)
       sigdump (~> 0.2.2)
@@ -86,11 +86,11 @@ GEM
     lru_redux (1.1.0)
     mail (2.7.1)
       mini_mime (>= 0.1.1)
-    mime-types (3.3.1)
+    mime-types (3.4.1)
       mime-types-data (~> 3.2015)
-    mime-types-data (3.2021.0901)
+    mime-types-data (3.2021.1115)
     mini_mime (1.1.2)
-    minitest (5.14.4)
+    minitest (5.15.0)
     msgpack (1.4.2)
     multi_json (1.14.1)
     net-http-persistent (3.1.0)

data/lib/fluent/plugin/in_kubernetes_metrics_aggregator.rb CHANGED Viewed

@@ -51,11 +51,11 @@ module Fluent
           # m cpu is assumed standard
           @cpu_mult = 1
           @cpu_mult = 1000 if cpu[-1] != 'm'
-          cpu.delete('^0-9').to_i
+          cpu.delete('^0-9.').to_i
         end
         def get_cpu_or_memory_value(resource)
-          resource = resource.tr('^0-9', '').to_i
+          resource = resource.tr('^0-9.', '').to_i
           resource
         end
@@ -66,29 +66,35 @@ module Fluent
         end
         # https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/#meaning-of-memory
+        # 1 Ki = 1024 bytes
+        # 1 K = 1000 bytes = 1000/1024 Ki = 1000/1024*1024 Mi
         def get_memory_mult(memory)
-          memory_mult = if memory[-2] == 'Ki'
-                          0.001
-                        elsif memory[-2] == 'K'
+          memory_mult = if memory[-2..] == 'Ki'
                           1.0 / 1024
-                        elsif memory[-2] == 'Mi'
+                        elsif memory[-1] == 'K'
+                          1e3 / 1024 ** 2
+                        elsif memory[-2..] == 'Mi'
                           1
-                        elsif memory[-2] == 'M'
-                          1
-                        elsif memory[-2] == 'Gi'
-                          1000
-                        elsif memory[-2] == 'G'
+                        elsif memory[-1] == 'M'
+                          1e6 / 1024 ** 2
+                        elsif memory[-2..] == 'Gi'
                           1024
-                        elsif memory[-2] == 'Ti'
-                          1_000_000
-                        elsif memory[-2] == 'T'
-                          1_048_576
-                        elsif memory[-2] == 'Ei'
-                          1_000_000_000
+                        elsif memory[-1] == 'G'
+                          1e9 / 1024 ** 2
+                        elsif memory[-2..] == 'Ti'
+                          1024 ** 2
+                        elsif memory[-1] == 'T'
+                          1e12 / 1024 ** 2
+                        elsif memory[-2..] == 'Pi'
+                          1024**3
+                        elsif memory[-2] == 'P'
+                          1e15 / 1024 ** 2
+                        elsif memory[-2..] == 'Ei'
+                          1024**4
                         elsif memory[-2] == 'E'
-                          1_073_741_824
+                          1e18 / 1024 ** 2
                         else
-                          0.000001
+                          1.0 / 1024 ** 2
                         end
           memory_mult
         end
@@ -278,43 +284,47 @@ module Fluent
       end
       def get_cpu_value(resource)
-        cpu_val = resource.tr('^0-9', '').to_i
+        cpu_val = resource.tr('^0-9.', '').to_i
         mult = get_cpu_mult(resource)
-        cpu_val += cpu_val * mult
+        cpu_val = cpu_val * mult
         cpu_val
       end
       def get_memory_mult(memory)
-        memory_mult = if memory[-2] == 'Ki'
-                        0.001
-                      elsif memory[-2] == 'K'
+        memory_mult = if memory[-2..] == 'Ki'
                         1.0 / 1024
-                      elsif memory[-2] == 'Mi'
-                        1
-                      elsif memory[-2] == 'M'
+                      elsif memory[-1] == 'K'
+                        1e3 / 1024 ** 2
+                      elsif memory[-2..] == 'Mi'
                         1
-                      elsif memory[-2] == 'Gi'
-                        1000
-                      elsif memory[-2] == 'G'
+                      elsif memory[-1] == 'M'
+                        1e6 / 1024 ** 2
+                      elsif memory[-2..] == 'Gi'
                         1024
-                      elsif memory[-2] == 'Ti'
-                        1_000_000
-                      elsif memory[-2] == 'T'
-                        1_048_576 # 1024*1024
-                      elsif memory[-2] == 'Ei'
-                        1_000_000_000
+                      elsif memory[-1] == 'G'
+                        1e9 / 1024 ** 2
+                      elsif memory[-2..] == 'Ti'
+                        1024 ** 2
+                      elsif memory[-1] == 'T'
+                        1e12 / 1024 ** 2
+                      elsif memory[-2..] == 'Pi'
+                        1024**3
+                      elsif memory[-2] == 'P'
+                        1e15 / 1024 ** 2
+                      elsif memory[-2..] == 'Ei'
+                        1024**4
                       elsif memory[-2] == 'E'
-                        1_073_741_824 # 1024*1024*1024
+                        1e18 / 1024 ** 2
                       else
-                        0.000001
+                        1.0 / 1024 ** 2
                       end
         memory_mult
       end
       def get_memory_value(resource)
-        mem_val = resource.tr('^0-9', '').to_i
+        mem_val = resource.tr('^0-9.', '').to_i
         mult = get_memory_mult(resource)
-        mem_val += mem_val * mult
+        mem_val = mem_val * mult
         mem_val
       end
@@ -418,7 +428,7 @@ module Fluent
                 end
               end
               container_usage_metrics.add_usage_metrics(cpu_limit, cpu_request, memory_limit, memory_request)
-              container_labels = { 'name' => container_json['name'], 'image' => container_json['image'], 'node' => pod_json['spec']['nodeName'] }
+              container_labels = { 'pod-name' => pod_json['metadata']['name'], 'namespace' => pod_json['metadata']['namespace'], 'name' => container_json['name'], 'image' => container_json['image'], 'node' => pod_json['spec']['nodeName'] }
               emit_limits_requests_metrics(generate_tag('container'), @scraped_at, container_labels, container_usage_metrics)
               pod_usage_metrics.add_usage_metrics(cpu_limit, cpu_request, memory_limit, memory_request)
             end
@@ -485,46 +495,53 @@ module Fluent
       end
       def process_node_response(response)
-        Array(response['items']).each do |node_json|
-          node_name = node_json['metadata']['name']
-          node_cpu_capacity = get_cpu_value(node_json['status']['capacity']['cpu'])
-          router.emit generate_tag('node') << ('.cpu.capacity'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_capacity
-          node_cpu_allocatable = get_cpu_value(node_json['status']['allocatable']['cpu'])
-          router.emit generate_tag('node') << ('.cpu.allocatable'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_allocatable
-          node_memory_capacity = get_memory_value(node_json['status']['capacity']['memory'])
-          router.emit generate_tag('node') << ('.memory.capacity'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_capacity
-          node_memory_allocatable = get_memory_value(node_json['status']['allocatable']['memory'])
-          router.emit generate_tag('node') << ('.memory.allocatable'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_allocatable
-          node_req_lim = UsageMetricsUnit.new
-          node_res_usage = ResourceUsageMetricsUnit.new
-          @mutex_node_req_lim.synchronize do
-            next if @@node_requests_limits_metrics_map[node_name].nil?
+        @mutex_node_req_lim.synchronize do
+          Array(response['items']).each do |node_json|
+            node_name = node_json['metadata']['name']
+            node_cpu_capacity = get_cpu_value(node_json['status']['capacity']['cpu'])
+            router.emit generate_tag('node') << ('.cpu.capacity'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_capacity
+            node_cpu_allocatable = get_cpu_value(node_json['status']['allocatable']['cpu'])
+            router.emit generate_tag('node') << ('.cpu.allocatable'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_allocatable
+            node_memory_capacity = get_memory_value(node_json['status']['capacity']['memory'])
+            router.emit generate_tag('node') << ('.memory.capacity'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_capacity
+            node_memory_allocatable = get_memory_value(node_json['status']['allocatable']['memory'])
+            router.emit generate_tag('node') << ('.memory.allocatable'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_allocatable
+            node_req_lim = UsageMetricsUnit.new
+            if @@node_requests_limits_metrics_map[node_name].nil?
+              next
+            end
             node_req_lim = @@node_requests_limits_metrics_map[node_name]
+            node_cpu_reservation = node_req_lim.instance_variable_get(:@cpu_request).to_f / node_cpu_allocatable
+            router.emit generate_tag('node') << ('.cpu.reservation'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_reservation
+            node_memory_reservation = node_req_lim.instance_variable_get(:@memory_request).to_f / node_memory_allocatable
+            router.emit generate_tag('node') << ('.memory.reservation'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_reservation
           end
-          @mutex_node_res_usage.synchronize do
-            next if @@node_resource_usage_metrics_map[node_name].nil?
+          @@node_requests_limits_metrics_map = nil
+          @@node_requests_limits_metrics_map = {}
+        end
+        @mutex_node_res_usage.synchronize do
+          Array(response['items']).each do |node_json|
+            node_name = node_json['metadata']['name']
+            node_cpu_allocatable = get_cpu_value(node_json['status']['allocatable']['cpu'])
+            node_memory_allocatable = get_memory_value(node_json['status']['allocatable']['memory'])
+            node_res_usage = ResourceUsageMetricsUnit.new
+            if @@node_resource_usage_metrics_map[node_name].nil?
+              next
+            end
             node_res_usage = @@node_resource_usage_metrics_map[node_name]
+            # https://github.com/kubernetes/heapster/blob/c78cc312ab3901acfe5c2f95f7a621909c8455ad/metrics/processors/node_autoscaling_enricher.go#L62
+            node_cpu_utilization = node_res_usage.instance_variable_get(:@cpu_usage).to_f / 1_000_000 * node_cpu_allocatable # converting from nano cores to milli core
+            router.emit generate_tag('node') << ('.cpu.utilization'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_utilization
+            node_memory_utilization = node_res_usage.instance_variable_get(:@memory_usage).to_f / node_memory_allocatable # converting from bytes to megabytes
+            router.emit generate_tag('node') << ('.memory.utilization'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_utilization
           end
-          # https://github.com/kubernetes/heapster/blob/c78cc312ab3901acfe5c2f95f7a621909c8455ad/metrics/processors/node_autoscaling_enricher.go#L62
-          node_cpu_utilization = node_res_usage.instance_variable_get(:@cpu_usage).to_f / 1_000_000 * node_cpu_allocatable # converting from nano cores to milli core
-          router.emit generate_tag('node') << ('.cpu.utilization'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_utilization
-          node_cpu_reservation = node_req_lim.instance_variable_get(:@cpu_request).to_f / node_cpu_allocatable
-          router.emit generate_tag('node') << ('.cpu.reservation'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_cpu_reservation
-          node_memory_utilization = node_res_usage.instance_variable_get(:@memory_usage).to_f / 1_000_000 * node_memory_allocatable # converting from bytes to megabytes
-          router.emit generate_tag('node') << ('.memory.utilization'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_utilization
-          node_memory_reservation = node_req_lim.instance_variable_get(:@memory_request).to_f / node_memory_allocatable
-          router.emit generate_tag('node') << ('.memory.reservation'), Fluent::EventTime.from_time(@scraped_node_at), 'node' => node_name, 'value' => node_memory_reservation
-          @mutex_node_req_lim.synchronize do
-            @@node_requests_limits_metrics_map = nil
-            @@node_requests_limits_metrics_map = {}
-          end
-          @mutex_node_res_usage.synchronize do
-            @@node_resource_usage_metrics_map = nil
-            @@node_resource_usage_metrics_map = {}
-          end
+          @@node_resource_usage_metrics_map = nil
+          @@node_resource_usage_metrics_map = {}
         end
       end
@@ -541,7 +558,7 @@ module Fluent
       def scrape_resource_usage_metrics
         response = resource_usage_api.get(@client.headers)
         handle_resource_usage_response(response)
-       rescue StandardError => e
+      rescue StandardError => e
          log.error "Failed to get resource usage metrics, error=#{$ERROR_INFO}, #{e.inspect}"
          log.error_backtrace
       end
@@ -573,16 +590,21 @@ module Fluent
                 end
               end
-            node_response = JSON.parse(node_rest_client.get(@client.headers))
+            begin
+              node_response = JSON.parse(node_rest_client.get(@client.headers))
+            rescue RestClient::ServiceUnavailable
+              log.warn("Couldn't scrap metric for node '#{node_name} as it is unavailable. Ignoring it.'")
+              next
+            end
             Array(node_response['pods']).each do |pod_json|
               unless pod_json['cpu'].nil? || pod_json['memory'].nil?
-                pod_cpu_usage = pod_json['cpu'].fetch('usageNanoCores', 0)/ 1_000_000
-                pod_memory_usage = pod_json['memory'].fetch('usageBytes', 0)
+                pod_cpu_usage = pod_json['cpu'].fetch('usageNanoCores', 0)/ 1_000_000.to_f
+                pod_memory_usage = pod_json['memory'].fetch('usageBytes', 0) / 1024 ** 2.to_f # Converting to Mi
                 pod_namespace = pod_json['podRef']['namespace']
                 pod_usage = ResourceUsageMetricsUnit.new
                 pod_usage.add_resource_usage_metrics(pod_cpu_usage, pod_memory_usage)
                 if @@namespace_resource_usage_metrics_map[pod_namespace].nil?
-                  namespace_usage_metrics = ResourceUsageMetricsUnit.new
                   @@namespace_resource_usage_metrics_map[pod_namespace] = pod_usage
                 else
                   @@namespace_resource_usage_metrics_map[pod_namespace].add_resource_usage_metrics(pod_cpu_usage, pod_memory_usage)
@@ -594,6 +616,33 @@ module Fluent
                 @@node_resource_usage_metrics_map[node_name].add_resource_usage_metrics(pod_cpu_usage, pod_memory_usage)
                 pod_usage = nil
               end
+              if pod_json['cpu'].nil? || pod_json['memory'].nil?
+                unless pod_json['containers'].nil?
+                  pod_namespace = pod_json['podRef']['namespace']
+                  Array(pod_json['containers']).each do |container_json|
+                    unless container_json['cpu'].nil? || container_json['memory'].nil?
+                      container_cpu_usage = container_json['cpu'].fetch('usageNanoCores', 0)/ 1_000_000.to_f
+                      container_memory_usage = container_json['memory'].fetch('usageBytes', 0) / 1024 ** 2.to_f # Converting to Mi
+                      container_usage = ResourceUsageMetricsUnit.new
+                      container_usage.add_resource_usage_metrics(container_cpu_usage, container_memory_usage)
+                      if @@namespace_resource_usage_metrics_map[pod_namespace].nil?
+                        namespace_usage_metrics = ResourceUsageMetricsUnit.new
+                        @@namespace_resource_usage_metrics_map[pod_namespace] = container_usage
+                      else
+                        @@namespace_resource_usage_metrics_map[pod_namespace].add_resource_usage_metrics(container_cpu_usage, container_memory_usage)
+                      end
+                      if @@node_resource_usage_metrics_map[node_name].nil?
+                        node_name_usage_metrics = ResourceUsageMetricsUnit.new
+                        @@node_resource_usage_metrics_map[node_name] = node_name_usage_metrics
+                      else
+                        @@node_resource_usage_metrics_map[node_name].add_resource_usage_metrics(container_cpu_usage, container_memory_usage)
+                      end
+                      container_usage = nil
+                    end
+                  end
+                end
+              end
             end
           end
         end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: fluent-plugin-k8s-metrics-agg
 version: !ruby/object:Gem::Version
-  version: 1.1.7
+  version: 1.1.10
 platform: ruby
 authors:
 - Splunk Inc.
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-11-03 00:00:00.000000000 Z
+date: 2022-03-15 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -201,7 +201,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.0.1
+rubygems_version: 3.1.4
 signing_key:
 specification_version: 4
 summary: A fluentd input plugin that collects kubernetes cluster metrics.