PyPI - clickhouse-driver - Versions diffs - 0.2.1__cp39-cp39-win_amd64.whl → 0.2.8__cp39-cp39-win_amd64.whl - Mend

clickhouse-driver 0.2.1__cp39-cp39-win_amd64.whl → 0.2.8__cp39-cp39-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (85) hide show

clickhouse_driver/__init__.py +9 -9
clickhouse_driver/block.py +227 -195
clickhouse_driver/blockstreamprofileinfo.py +22 -22
clickhouse_driver/bufferedreader.cp39-win_amd64.pyd +0 -0
clickhouse_driver/bufferedwriter.cp39-win_amd64.pyd +0 -0
clickhouse_driver/client.py +896 -666
clickhouse_driver/clientinfo.py +119 -80
clickhouse_driver/columns/arraycolumn.py +161 -150
clickhouse_driver/columns/base.py +221 -147
clickhouse_driver/columns/boolcolumn.py +7 -0
clickhouse_driver/columns/datecolumn.py +108 -49
clickhouse_driver/columns/datetimecolumn.py +202 -207
clickhouse_driver/columns/decimalcolumn.py +116 -118
clickhouse_driver/columns/enumcolumn.py +119 -119
clickhouse_driver/columns/exceptions.py +12 -12
clickhouse_driver/columns/floatcolumn.py +34 -34
clickhouse_driver/columns/intcolumn.py +157 -157
clickhouse_driver/columns/intervalcolumn.py +33 -33
clickhouse_driver/columns/ipcolumn.py +118 -118
clickhouse_driver/columns/jsoncolumn.py +37 -0
clickhouse_driver/columns/largeint.cp39-win_amd64.pyd +0 -0
clickhouse_driver/columns/lowcardinalitycolumn.py +142 -123
clickhouse_driver/columns/mapcolumn.py +73 -58
clickhouse_driver/columns/nestedcolumn.py +10 -0
clickhouse_driver/columns/nothingcolumn.py +13 -13
clickhouse_driver/columns/nullablecolumn.py +7 -7
clickhouse_driver/columns/nullcolumn.py +15 -15
clickhouse_driver/columns/numpy/base.py +47 -14
clickhouse_driver/columns/numpy/boolcolumn.py +8 -0
clickhouse_driver/columns/numpy/datecolumn.py +19 -12
clickhouse_driver/columns/numpy/datetimecolumn.py +143 -145
clickhouse_driver/columns/numpy/floatcolumn.py +24 -13
clickhouse_driver/columns/numpy/intcolumn.py +43 -43
clickhouse_driver/columns/numpy/lowcardinalitycolumn.py +96 -83
clickhouse_driver/columns/numpy/service.py +58 -80
clickhouse_driver/columns/numpy/stringcolumn.py +78 -76
clickhouse_driver/columns/numpy/tuplecolumn.py +37 -0
clickhouse_driver/columns/service.py +185 -131
clickhouse_driver/columns/simpleaggregatefunctioncolumn.py +7 -7
clickhouse_driver/columns/stringcolumn.py +73 -73
clickhouse_driver/columns/tuplecolumn.py +63 -65
clickhouse_driver/columns/util.py +60 -0
clickhouse_driver/columns/uuidcolumn.py +64 -64
clickhouse_driver/compression/__init__.py +28 -28
clickhouse_driver/compression/base.py +87 -52
clickhouse_driver/compression/lz4.py +21 -55
clickhouse_driver/compression/lz4hc.py +9 -9
clickhouse_driver/compression/zstd.py +20 -51
clickhouse_driver/connection.py +784 -632
clickhouse_driver/context.py +36 -36
clickhouse_driver/dbapi/__init__.py +62 -62
clickhouse_driver/dbapi/connection.py +99 -96
clickhouse_driver/dbapi/cursor.py +370 -368
clickhouse_driver/dbapi/errors.py +40 -40
clickhouse_driver/dbapi/extras.py +73 -0
clickhouse_driver/defines.py +55 -42
clickhouse_driver/errors.py +453 -446
clickhouse_driver/log.py +48 -44
clickhouse_driver/numpy/block.py +8 -8
clickhouse_driver/numpy/helpers.py +25 -25
clickhouse_driver/numpy/result.py +123 -123
clickhouse_driver/opentelemetry.py +43 -0
clickhouse_driver/progress.py +38 -32
clickhouse_driver/protocol.py +114 -105
clickhouse_driver/queryprocessingstage.py +8 -8
clickhouse_driver/reader.py +69 -69
clickhouse_driver/readhelpers.py +26 -26
clickhouse_driver/result.py +144 -144
clickhouse_driver/settings/available.py +405 -405
clickhouse_driver/settings/types.py +50 -50
clickhouse_driver/settings/writer.py +34 -29
clickhouse_driver/streams/compressed.py +88 -88
clickhouse_driver/streams/native.py +102 -90
clickhouse_driver/util/compat.py +39 -0
clickhouse_driver/util/escape.py +94 -55
clickhouse_driver/util/helpers.py +57 -57
clickhouse_driver/varint.cp39-win_amd64.pyd +0 -0
clickhouse_driver/writer.py +67 -67
{clickhouse_driver-0.2.1.dist-info → clickhouse_driver-0.2.8.dist-info}/LICENSE +21 -21
clickhouse_driver-0.2.8.dist-info/METADATA +201 -0
clickhouse_driver-0.2.8.dist-info/RECORD +89 -0
{clickhouse_driver-0.2.1.dist-info → clickhouse_driver-0.2.8.dist-info}/WHEEL +1 -1
clickhouse_driver-0.2.1.dist-info/METADATA +0 -24
clickhouse_driver-0.2.1.dist-info/RECORD +0 -80
{clickhouse_driver-0.2.1.dist-info → clickhouse_driver-0.2.8.dist-info}/top_level.txt +0 -0

clickhouse_driver/columns/base.py CHANGED Viewed

@@ -1,147 +1,221 @@
-from struct import Struct, error as struct_error
-from . import exceptions
-class Column(object):
-    ch_type = None
-    py_types = None
-    check_item = None
-    after_read_items = None
-    before_write_items = None
-    types_check_enabled = False
-    null_value = 0
-    def __init__(self, types_check=False, **kwargs):
-        self.nullable = False
-        self.types_check_enabled = types_check
-        super(Column, self).__init__()
-    def make_null_struct(self, n_items):
-        return Struct('<{}B'.format(n_items))
-    def _read_nulls_map(self, n_items, buf):
-        s = self.make_null_struct(n_items)
-        return s.unpack(buf.read(s.size))
-    def _write_nulls_map(self, items, buf):
-        s = self.make_null_struct(len(items))
-        items = [x is None for x in items]
-        buf.write(s.pack(*items))
-    def check_item_type(self, value):
-        if not isinstance(value, self.py_types):
-            raise exceptions.ColumnTypeMismatchException(value)
-    def prepare_items(self, items):
-        nullable = self.nullable
-        null_value = self.null_value
-        check_item = self.check_item
-        if self.types_check_enabled:
-            check_item_type = self.check_item_type
-        else:
-            check_item_type = False
-        if (not self.nullable and not check_item_type and
-                not check_item and not self.before_write_items):
-            return items
-        nulls_map = [False] * len(items) if self.nullable else None
-        for i, x in enumerate(items):
-            if x is None and nullable:
-                nulls_map[i] = True
-                x = null_value
-            else:
-                if check_item_type:
-                    check_item_type(x)
-                if check_item:
-                    check_item(x)
-            items[i] = x
-        if self.before_write_items:
-            self.before_write_items(items, nulls_map=nulls_map)
-        return items
-    def write_data(self, items, buf):
-        if self.nullable:
-            self._write_nulls_map(items, buf)
-        self._write_data(items, buf)
-    def _write_data(self, items, buf):
-        prepared = self.prepare_items(items)
-        self.write_items(prepared, buf)
-    def write_items(self, items, buf):
-        raise NotImplementedError
-    def read_data(self, n_items, buf):
-        if self.nullable:
-            nulls_map = self._read_nulls_map(n_items, buf)
-        else:
-            nulls_map = None
-        return self._read_data(n_items, buf, nulls_map=nulls_map)
-    def _read_data(self, n_items, buf, nulls_map=None):
-        items = self.read_items(n_items, buf)
-        if self.after_read_items:
-            return self.after_read_items(items, nulls_map)
-        elif nulls_map is not None:
-            return tuple(
-                (None if is_null else items[i])
-                for i, is_null in enumerate(nulls_map)
-            )
-        return items
-    def read_items(self, n_items, buf):
-        raise NotImplementedError
-    def read_state_prefix(self, buf):
-        pass
-    def write_state_prefix(self, buf):
-        pass
-class FormatColumn(Column):
-    """
-    Uses struct.pack for bulk items writing.
-    """
-    format = None
-    def make_struct(self, n_items):
-        return Struct('<{}{}'.format(n_items, self.format))
-    def write_items(self, items, buf):
-        s = self.make_struct(len(items))
-        try:
-            buf.write(s.pack(*items))
-        except struct_error as e:
-            raise exceptions.StructPackException(e)
-    def read_items(self, n_items, buf):
-        s = self.make_struct(n_items)
-        return s.unpack(buf.read(s.size))
-# How to write new column?
-# - Check ClickHouse documentation for column
-# - Wireshark and tcpdump are your friends.
-# - Use `clickhouse-client --compression 0` to see what's going on data
-#   transmission.
-# - Check for similar existing columns and tests.
-# - Use `FormatColumn` for columns that use "simple" types under the hood.
-# - Some columns have before_write and after_read hooks.
-#   Use them to convert items in column into "simple" types.
+from struct import Struct, error as struct_error
+from . import exceptions
+from ..varint import read_varint
+class CommonSerialization(object):
+    def __init__(self, column):
+        self.column = column
+        super(CommonSerialization, self).__init__()
+    def read_sparse(self, n_items, buf):
+        return n_items
+    def apply_sparse(self, items):
+        return items
+class SparseSerialization(CommonSerialization):
+    def __init__(self, *args, **kwargs):
+        self.sparse_indexes = []
+        self.items_total = None
+        super(SparseSerialization, self).__init__(*args, **kwargs)
+    def read_sparse(self, n_items, buf):
+        sparse_indexes = []
+        items_total = 0
+        non_default_items = 0
+        END_OF_GRANULE_FLAG = 1 << 62
+        end_of_granule = False
+        while not end_of_granule:
+            group_size = read_varint(buf)
+            end_of_granule = group_size & END_OF_GRANULE_FLAG
+            group_size &= ~END_OF_GRANULE_FLAG
+            items_total += group_size + 1
+            if not end_of_granule:
+                non_default_items += 1
+                sparse_indexes.append(items_total)
+        self.sparse_indexes = sparse_indexes
+        self.items_total = items_total
+        return non_default_items
+    def apply_sparse(self, items):
+        default = self.column.null_value
+        if self.column.after_read_items:
+            default = self.column.after_read_items([default])[0]
+        rv = [default] * (self.items_total - 1)
+        for item_number, i in enumerate(self.sparse_indexes):
+            rv[i - 1] = items[item_number]
+        return rv
+class Column(object):
+    ch_type = None
+    py_types = None
+    check_item = None
+    after_read_items = None
+    before_write_items = None
+    types_check_enabled = False
+    null_value = 0
+    def __init__(self, types_check=False, has_custom_serialization=False,
+                 **kwargs):
+        self.nullable = False
+        self.types_check_enabled = types_check
+        self.has_custom_serialization = has_custom_serialization
+        self.serialization = CommonSerialization(self)
+        self.input_null_as_default = False
+        self.context = kwargs['context']
+        self.input_null_as_default = self.context.client_settings \
+            .get('input_format_null_as_default', False)
+        super(Column, self).__init__()
+    def make_null_struct(self, n_items):
+        return Struct('<{}B'.format(n_items))
+    def _read_nulls_map(self, n_items, buf):
+        s = self.make_null_struct(n_items)
+        return s.unpack(buf.read(s.size))
+    def _write_nulls_map(self, items, buf):
+        s = self.make_null_struct(len(items))
+        items = [x is None for x in items]
+        buf.write(s.pack(*items))
+    def check_item_type(self, value):
+        if not isinstance(value, self.py_types):
+            raise exceptions.ColumnTypeMismatchException(value)
+    def prepare_items(self, items):
+        nullable = self.nullable
+        null_value = self.null_value
+        null_as_default = self.input_null_as_default
+        check_item = self.check_item
+        if self.types_check_enabled:
+            check_item_type = self.check_item_type
+        else:
+            check_item_type = False
+        if (not (self.nullable or null_as_default) and not check_item_type and
+                not check_item and not self.before_write_items):
+            return items
+        nulls_map = [False] * len(items) if self.nullable else None
+        for i, x in enumerate(items):
+            if x is None:
+                if nullable:
+                    nulls_map[i] = True
+                    x = null_value
+                elif null_as_default:
+                    x = null_value
+            else:
+                if check_item_type:
+                    check_item_type(x)
+                if check_item:
+                    check_item(x)
+            items[i] = x
+        if self.before_write_items:
+            self.before_write_items(items, nulls_map=nulls_map)
+        return items
+    def write_data(self, items, buf):
+        if self.nullable:
+            self._write_nulls_map(items, buf)
+        self._write_data(items, buf)
+    def _write_data(self, items, buf):
+        prepared = self.prepare_items(items)
+        self.write_items(prepared, buf)
+    def write_items(self, items, buf):
+        raise NotImplementedError
+    def read_data(self, n_items, buf):
+        n_items = self.serialization.read_sparse(n_items, buf)
+        if self.nullable:
+            nulls_map = self._read_nulls_map(n_items, buf)
+        else:
+            nulls_map = None
+        items = self._read_data(n_items, buf, nulls_map=nulls_map)
+        return self.serialization.apply_sparse(items)
+    def _read_data(self, n_items, buf, nulls_map=None):
+        items = self.read_items(n_items, buf)
+        if self.after_read_items:
+            return self.after_read_items(items, nulls_map)
+        elif nulls_map is not None:
+            return tuple(
+                (None if is_null else items[i])
+                for i, is_null in enumerate(nulls_map)
+            )
+        return items
+    def read_items(self, n_items, buf):
+        raise NotImplementedError
+    def read_state_prefix(self, buf):
+        if self.has_custom_serialization:
+            use_custom_serialization = read_varint(buf)
+            if use_custom_serialization:
+                self.serialization = SparseSerialization(self)
+    def write_state_prefix(self, buf):
+        pass
+class FormatColumn(Column):
+    """
+    Uses struct.pack for bulk items writing.
+    """
+    format = None
+    def make_struct(self, n_items):
+        return Struct('<{}{}'.format(n_items, self.format))
+    def write_items(self, items, buf):
+        s = self.make_struct(len(items))
+        try:
+            buf.write(s.pack(*items))
+        except struct_error as e:
+            raise exceptions.StructPackException(e)
+    def read_items(self, n_items, buf):
+        s = self.make_struct(n_items)
+        return s.unpack(buf.read(s.size))
+# How to write new column?
+# - Check ClickHouse documentation for column
+# - Wireshark and tcpdump are your friends.
+# - Use `clickhouse-client --compression 0` to see what's going on data
+#   transmission.
+# - Check for similar existing columns and tests.
+# - Use `FormatColumn` for columns that use "simple" types under the hood.
+# - Some columns have before_write and after_read hooks.
+#   Use them to convert items in column into "simple" types.

clickhouse_driver/columns/boolcolumn.py ADDED Viewed

@@ -0,0 +1,7 @@
+from .base import FormatColumn
+class BoolColumn(FormatColumn):
+    ch_type = 'Bool'
+    py_types = (bool, )
+    format = '?'

clickhouse_driver/columns/datecolumn.py CHANGED Viewed

@@ -1,49 +1,108 @@
-from datetime import date, timedelta
-from .base import FormatColumn
-epoch_start = date(1970, 1, 1)
-class DateColumn(FormatColumn):
-    ch_type = 'Date'
-    py_types = (date, )
-    format = 'H'
-    epoch_start = epoch_start
-    epoch_end = date(2105, 12, 31)
-    date_lut = {x: epoch_start + timedelta(x) for x in range(65535)}
-    date_lut_reverse = {value: key for key, value in date_lut.items()}
-    def before_write_items(self, items, nulls_map=None):
-        null_value = self.null_value
-        date_lut_reverse = self.date_lut_reverse
-        epoch_start = self.epoch_start
-        epoch_end = self.epoch_end
-        for i, item in enumerate(items):
-            if nulls_map and nulls_map[i]:
-                items[i] = null_value
-                continue
-            if type(item) != date:
-                item = date(item.year, item.month, item.day)
-            if item > epoch_end or item < epoch_start:
-                items[i] = 0
-            else:
-                items[i] = date_lut_reverse[item]
-    def after_read_items(self, items, nulls_map=None):
-        date_lut = self.date_lut
-        if nulls_map is None:
-            return tuple(date_lut[item] for item in items)
-        else:
-            return tuple(
-                (None if is_null else date_lut[items[i]])
-                for i, is_null in enumerate(nulls_map)
-            )
+from os import getenv
+from datetime import date, timedelta
+from .base import FormatColumn
+epoch_start = date(1970, 1, 1)
+epoch_end = date(2149, 6, 6)
+epoch_start_date32 = date(1900, 1, 1)
+epoch_end_date32 = date(2299, 12, 31)
+class LazyLUT(dict):
+    def __init__(self, *args, _factory, **kwargs):
+        super().__init__(*args, **kwargs)
+        self._default_factory = _factory
+    def __missing__(self, key):
+        return self.setdefault(key, self._default_factory(key))
+def make_date_lut_range(date_start, date_end):
+    return range(
+        (date_start - epoch_start).days,
+        (date_end - epoch_start).days + 1,
+    )
+enable_lazy_date_lut = getenv('CLICKHOUSE_DRIVER_LASY_DATE_LUT', False)
+if enable_lazy_date_lut:
+    try:
+        start, end = enable_lazy_date_lut.split(':')
+        start_date = date.fromisoformat(start)
+        end_date = date.fromisoformat(end)
+        date_range = make_date_lut_range(start_date, end_date)
+    except ValueError:
+        date_range = ()
+    # Since we initialize lazy lut with some initially warmed values,
+    # we use iterator and not dict comprehension for memory & time optimization
+    _date_lut = LazyLUT(
+        ((x, epoch_start + timedelta(days=x)) for x in date_range),
+        _factory=lambda x: epoch_start + timedelta(days=x),
+    )
+    _date_lut_reverse = LazyLUT(
+        ((value, key) for key, value in _date_lut.items()),
+        _factory=lambda x: (x - epoch_start).days,
+    )
+else:
+    # If lazy lut is not enabled, we fallback to static dict initialization
+    # In both cases, we use same lut for both data types,
+    # since one encompasses the other and we can avoid duplicating overlap
+    date_range = make_date_lut_range(epoch_start_date32, epoch_end_date32)
+    _date_lut = {x: epoch_start + timedelta(days=x) for x in date_range}
+    _date_lut_reverse = {value: key for key, value in _date_lut.items()}
+class DateColumn(FormatColumn):
+    ch_type = 'Date'
+    py_types = (date, )
+    format = 'H'
+    min_value = epoch_start
+    max_value = epoch_end
+    date_lut = _date_lut
+    date_lut_reverse = _date_lut_reverse
+    def before_write_items(self, items, nulls_map=None):
+        null_value = self.null_value
+        date_lut_reverse = self.date_lut_reverse
+        min_value = self.min_value
+        max_value = self.max_value
+        for i, item in enumerate(items):
+            if nulls_map and nulls_map[i]:
+                items[i] = null_value
+                continue
+            if item is not date:
+                item = date(item.year, item.month, item.day)
+            if min_value <= item <= max_value:
+                items[i] = date_lut_reverse[item]
+            else:
+                items[i] = 0
+    def after_read_items(self, items, nulls_map=None):
+        date_lut = self.date_lut
+        if nulls_map is None:
+            return tuple(date_lut[item] for item in items)
+        else:
+            return tuple(
+                (None if is_null else date_lut[items[i]])
+                for i, is_null in enumerate(nulls_map)
+            )
+class Date32Column(DateColumn):
+    ch_type = 'Date32'
+    format = 'i'
+    min_value = epoch_start_date32
+    max_value = epoch_end_date32