open-telemetry · DylanRussell · Mar 26, 2025 · Mar 26, 2025 · Mar 27, 2025 · Mar 27, 2025
@@ -119,4 +119,4 @@ def force_flush(self, timeout_millis: float = 10_000) -> bool:
 
     @property
     def _exporting(self) -> str:
-        return "logs"
+        return "logs"
@@ -19,7 +19,6 @@
 from collections.abc import Sequence  # noqa: F401
 from logging import getLogger
 from os import environ
-from time import sleep
 from typing import (  # noqa: F401
     Any,
     Callable,
@@ -47,7 +46,6 @@
     ssl_channel_credentials,
 )
 from opentelemetry.exporter.otlp.proto.common._internal import (
-    _create_exp_backoff_generator,
     _get_resource_data,
 )
 from opentelemetry.exporter.otlp.proto.grpc import (
@@ -258,8 +256,9 @@ def __init__(
             )
         self._client = self._stub(self._channel)
 
-        self._export_lock = threading.Lock()
-        self._shutdown = False
+        self._export_not_occuring = threading.Event()
+        self._export_not_occuring.set()
+        self._shutdown_occuring = threading.Event()
 
     @abstractmethod
     def _translate_data(
@@ -285,82 +284,80 @@ def _export(
         #     data.__class__.__name__,
         #     delay,
         # )
-        max_value = 64
-        # expo returns a generator that yields delay values which grow
-        # exponentially. Once delay is greater than max_value, the yielded
-        # value will remain constant.
-        for delay in _create_exp_backoff_generator(max_value=max_value):
-            if delay == max_value or self._shutdown:
+        for delay in [1, 2, 4, 8, 16, 32]:
+            if self._shutdown_occuring.is_set():
                 return self._result.FAILURE
-
-            with self._export_lock:
-                try:
-                    self._client.Export(
-                        request=self._translate_data(data),
-                        metadata=self._headers,
-                        timeout=self._timeout,
+            try:
+                self._export_not_occuring.clear()
+                self._client.Export(
+                    request=self._translate_data(data),
+                    metadata=self._headers,
+                    timeout=self._timeout,
+                )
+                self._export_not_occuring.set()
+
+                return self._result.SUCCESS
+
+            except RpcError as error:
+                if error.code() in [
+                    StatusCode.CANCELLED,
+                    StatusCode.DEADLINE_EXCEEDED,
+                    StatusCode.RESOURCE_EXHAUSTED,
+                    StatusCode.ABORTED,
+                    StatusCode.OUT_OF_RANGE,
+                    StatusCode.UNAVAILABLE,
+                    StatusCode.DATA_LOSS,
+                ]:
+                    # No more retry will happen. Return failure.
+                    if delay == 32:
+                        return self._result.FAILURE
+                    retry_info_bin = dict(error.trailing_metadata()).get(
+                        "google.rpc.retryinfo-bin"
                     )
-
-                    return self._result.SUCCESS
-
-                except RpcError as error:
-                    if error.code() in [
-                        StatusCode.CANCELLED,
-                        StatusCode.DEADLINE_EXCEEDED,
-                        StatusCode.RESOURCE_EXHAUSTED,
-                        StatusCode.ABORTED,
-                        StatusCode.OUT_OF_RANGE,
-                        StatusCode.UNAVAILABLE,
-                        StatusCode.DATA_LOSS,
-                    ]:
-                        retry_info_bin = dict(error.trailing_metadata()).get(
-                            "google.rpc.retryinfo-bin"
-                        )
-                        if retry_info_bin is not None:
-                            retry_info = RetryInfo()
-                            retry_info.ParseFromString(retry_info_bin)
-                            delay = (
-                                retry_info.retry_delay.seconds
-                                + retry_info.retry_delay.nanos / 1.0e9
-                            )
-
-                        logger.warning(
-                            (
-                                "Transient error %s encountered while exporting "
-                                "%s to %s, retrying in %ss."
-                            ),
-                            error.code(),
-                            self._exporting,
-                            self._endpoint,
-                            delay,
-                        )
-                        sleep(delay)
-                        continue
-                    else:
-                        logger.error(
-                            "Failed to export %s to %s, error code: %s",
-                            self._exporting,
-                            self._endpoint,
-                            error.code(),
-                            exc_info=error.code() == StatusCode.UNKNOWN,
+                    if retry_info_bin is not None:
+                        retry_info = RetryInfo()
+                        retry_info.ParseFromString(retry_info_bin)
+                        delay = (
+                            retry_info.retry_delay.seconds
+                            + retry_info.retry_delay.nanos / 1.0e9
                         )
 
+                    logger.warning(
+                        (
+                            "Transient error %s encountered while exporting "
+                            "%s to %s, retrying in %ss."
+                        ),
+                        error.code(),
+                        self._exporting,
+                        self._endpoint,
+                        delay,
+                    )
+                    self._shutdown_occuring.wait(delay)
+                    continue
+                else:
+                    # Should not be possible ?
                     if error.code() == StatusCode.OK:
                         return self._result.SUCCESS
+                    logger.error(
+                        "Failed to export %s to %s, error code: %s",
+                        self._exporting,
+                        self._endpoint,
+                        error.code(),
+                        exc_info=error.code() == StatusCode.UNKNOWN,
+                    )
 
                     return self._result.FAILURE
 
         return self._result.FAILURE
 
     def shutdown(self, timeout_millis: float = 30_000, **kwargs) -> None:
-        if self._shutdown:
+        if self._shutdown_occuring.is_set():
             logger.warning("Exporter already shutdown, ignoring call")
             return
         # wait for the last export if any
-        self._export_lock.acquire(timeout=timeout_millis / 1e3)
-        self._shutdown = True
+        self._export_not_occuring.wait(timeout=timeout_millis / 1e3)
         self._channel.close()
-        self._export_lock.release()
+        self._shutdown_occuring.set()
 
     @property
     @abstractmethod

@@ -14,17 +14,14 @@
 
 import gzip
 import logging
+import threading
 import zlib
 from io import BytesIO
 from os import environ
-from time import sleep
 from typing import Dict, Optional, Sequence
 
 import requests
 
-from opentelemetry.exporter.otlp.proto.common._internal import (
-    _create_exp_backoff_generator,
-)
 from opentelemetry.exporter.otlp.proto.common._log_encoder import encode_logs
 from opentelemetry.exporter.otlp.proto.http import (
     _OTLP_HTTP_HEADERS,
@@ -63,8 +60,6 @@
 
 
 class OTLPLogExporter(LogExporter):
-    _MAX_RETRY_TIMEOUT = 64
-
     def __init__(
         self,
         endpoint: Optional[str] = None,
@@ -121,7 +116,9 @@ def __init__(
             self._session.headers.update(
                 {"Content-Encoding": self._compression.value}
             )
-        self._shutdown = False
+        self._export_not_occuring = threading.Event()
+        self._export_not_occuring.set()
+        self._shutdown_occuring = threading.Event()
 
     def _export(self, serialized_data: bytes):
         data = serialized_data
@@ -150,31 +147,26 @@ def _retryable(resp: requests.Response) -> bool:
         return False
 
     def export(self, batch: Sequence[LogData]) -> LogExportResult:
-        # After the call to Shutdown subsequent calls to Export are
-        # not allowed and should return a Failure result.
-        if self._shutdown:
-            _logger.warning("Exporter already shutdown, ignoring batch")
-            return LogExportResult.FAILURE
-
         serialized_data = encode_logs(batch).SerializeToString()
-
-        for delay in _create_exp_backoff_generator(
-            max_value=self._MAX_RETRY_TIMEOUT
-        ):
-            if delay == self._MAX_RETRY_TIMEOUT:
+        for delay in [1, 2, 4, 8, 16, 32]:
+            if self._shutdown_occuring.is_set():
+                _logger.warning("Exporter already shutdown, ignoring batch")
                 return LogExportResult.FAILURE
-
+            self._export_not_occuring.clear()
             resp = self._export(serialized_data)
+            self._export_not_occuring.set()
             # pylint: disable=no-else-return
             if resp.ok:
                 return LogExportResult.SUCCESS
             elif self._retryable(resp):
+                if delay == 32:
+                    return LogExportResult.FAILURE
                 _logger.warning(
                     "Transient error %s encountered while exporting logs batch, retrying in %ss.",
                     resp.reason,
                     delay,
                 )
-                sleep(delay)
+                self._shutdown_occuring.wait(delay)
                 continue
             else:
                 _logger.error(
@@ -189,12 +181,14 @@ def force_flush(self, timeout_millis: float = 10_000) -> bool:
         """Nothing is buffered in this exporter, so this method does nothing."""
         return True
 
-    def shutdown(self):
-        if self._shutdown:
+    def shutdown(self, timeout_millis: float = 30_000, **kwargs):
+        if self._shutdown_occuring.is_set():
             _logger.warning("Exporter already shutdown, ignoring call")
             return
+        # wait for the last export if any
+        self._export_not_occuring.wait(timeout=timeout_millis / 1e3)
+        self._shutdown_occuring.set()
         self._session.close()
-        self._shutdown = True
 
 
 def _compression_from_env() -> Compression:

@@ -14,10 +14,10 @@
 
 import gzip
 import logging
+import threading
 import zlib
 from io import BytesIO
 from os import environ
-from time import sleep
 from typing import (  # noqa: F401
     Any,
     Callable,
@@ -31,7 +31,6 @@
 from deprecated import deprecated
 
 from opentelemetry.exporter.otlp.proto.common._internal import (
-    _create_exp_backoff_generator,
     _get_resource_data,
 )
 from opentelemetry.exporter.otlp.proto.common._internal.metrics_encoder import (
@@ -100,8 +99,6 @@
 
 
 class OTLPMetricExporter(MetricExporter, OTLPMetricExporterMixin):
-    _MAX_RETRY_TIMEOUT = 64
-
     def __init__(
         self,
         endpoint: str | None = None,
@@ -164,6 +161,9 @@ def __init__(
         self._common_configuration(
             preferred_temporality, preferred_aggregation
         )
+        self._export_not_occuring = threading.Event()
+        self._export_not_occuring.set()
+        self._shutdown_occuring = threading.Event()
 
     def _export(self, serialized_data: bytes):
         data = serialized_data
@@ -197,24 +197,26 @@ def export(
         timeout_millis: float = 10_000,
         **kwargs,
     ) -> MetricExportResult:
-        serialized_data = encode_metrics(metrics_data)
-        for delay in _create_exp_backoff_generator(
-            max_value=self._MAX_RETRY_TIMEOUT
-        ):
-            if delay == self._MAX_RETRY_TIMEOUT:
+        serialized_data = encode_metrics(metrics_data).SerializeToString()
+        for delay in [1, 2, 4, 8, 16, 32]:
+            if self._shutdown_occuring.is_set():
+                _logger.warning("Exporter already shutdown, ignoring batch")
                 return MetricExportResult.FAILURE
-
-            resp = self._export(serialized_data.SerializeToString())
+            self._export_not_occuring.clear()
+            resp = self._export(serialized_data)
+            self._export_not_occuring.set()
             # pylint: disable=no-else-return
             if resp.ok:
                 return MetricExportResult.SUCCESS
             elif self._retryable(resp):
+                if delay == 32:
+                    return MetricExportResult.FAILURE
                 _logger.warning(
                     "Transient error %s encountered while exporting metric batch, retrying in %ss.",
                     resp.reason,
                     delay,
                 )
-                sleep(delay)
+                self._shutdown_occuring.wait(delay)
                 continue
             else:
                 _logger.error(
@@ -225,8 +227,14 @@ def export(
                 return MetricExportResult.FAILURE
         return MetricExportResult.FAILURE
 
-    def shutdown(self, timeout_millis: float = 30_000, **kwargs) -> None:
-        pass
+    def shutdown(self, timeout_millis: float = 30_000, **kwargs):
+        if self._shutdown_occuring.is_set():
+            _logger.warning("Exporter already shutdown, ignoring call")
+            return
+        # wait for the last export if any
+        self._export_not_occuring.wait(timeout=timeout_millis / 1e3)
+        self._shutdown_occuring.set()
+        self._session.close()
 
     @property
     def _exporting(self) -> str: