PyPI - arekit - Versions diffs - 0.23.1__py3-none-any.whl → 0.25.0__py3-none-any.whl - Mend

arekit 0.23.1py3-none-any.whl → 0.25.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (267) hide show

arekit/common/context/terms_mapper.py +2 -2
arekit/common/data/const.py +5 -4
arekit/common/{experiment/api/ops_doc.py → data/doc_provider.py} +1 -1
arekit/common/data/input/providers/columns/sample.py +6 -1
arekit/common/data/input/providers/instances/base.py +1 -1
arekit/common/data/input/providers/rows/base.py +36 -13
arekit/common/data/input/providers/rows/samples.py +57 -55
arekit/common/data/input/providers/sample/cropped.py +2 -2
arekit/common/data/input/sample.py +1 -1
arekit/common/data/rows_fmt.py +82 -0
arekit/common/data/rows_parser.py +43 -0
arekit/common/data/storages/base.py +23 -18
arekit/common/data/views/samples.py +2 -8
arekit/common/{news → docs}/base.py +2 -2
arekit/common/{news → docs}/entities_grouping.py +2 -1
arekit/common/{news → docs}/entity.py +2 -1
arekit/common/{news → docs}/parsed/base.py +5 -5
arekit/common/docs/parsed/providers/base.py +68 -0
arekit/common/{news → docs}/parsed/providers/base_pairs.py +2 -2
arekit/common/{news → docs}/parsed/providers/entity_service.py +27 -22
arekit/common/{news → docs}/parsed/providers/opinion_pairs.py +2 -2
arekit/common/{news → docs}/parsed/providers/text_opinion_pairs.py +6 -6
arekit/common/docs/parsed/service.py +31 -0
arekit/common/docs/parser.py +66 -0
arekit/common/{news → docs}/sentence.py +1 -1
arekit/common/entities/base.py +11 -2
arekit/common/experiment/api/base_samples_io.py +1 -1
arekit/common/frames/variants/collection.py +2 -2
arekit/common/linkage/base.py +2 -2
arekit/common/linkage/meta.py +23 -0
arekit/common/linkage/opinions.py +1 -1
arekit/common/linkage/text_opinions.py +2 -2
arekit/common/opinions/annot/algo/base.py +1 -1
arekit/common/opinions/annot/algo/pair_based.py +15 -13
arekit/common/opinions/annot/algo/predefined.py +4 -4
arekit/common/opinions/annot/algo_based.py +5 -5
arekit/common/opinions/annot/base.py +3 -3
arekit/common/opinions/base.py +7 -7
arekit/common/opinions/collection.py +3 -3
arekit/common/pipeline/base.py +12 -16
arekit/common/pipeline/batching.py +28 -0
arekit/common/pipeline/context.py +5 -1
arekit/common/pipeline/items/base.py +38 -1
arekit/common/pipeline/items/flatten.py +5 -1
arekit/common/pipeline/items/handle.py +2 -1
arekit/common/pipeline/items/iter.py +2 -1
arekit/common/pipeline/items/map.py +2 -1
arekit/common/pipeline/items/map_nested.py +4 -0
arekit/common/pipeline/utils.py +32 -0
arekit/common/service/sqlite.py +36 -0
arekit/common/synonyms/base.py +2 -2
arekit/common/text/{partitioning/str.py → partitioning.py} +16 -11
arekit/common/text_opinions/base.py +11 -11
arekit/common/utils.py +33 -46
arekit/contrib/networks/embedding.py +3 -3
arekit/contrib/networks/embedding_io.py +5 -5
arekit/contrib/networks/input/const.py +0 -2
arekit/contrib/networks/input/providers/sample.py +15 -29
arekit/contrib/networks/input/rows_parser.py +47 -134
arekit/contrib/prompt/sample.py +18 -16
arekit/contrib/utils/data/contents/opinions.py +17 -5
arekit/contrib/utils/data/doc_provider/dict_based.py +13 -0
arekit/contrib/utils/data/{doc_ops → doc_provider}/dir_based.py +7 -7
arekit/contrib/utils/data/readers/base.py +3 -0
arekit/contrib/utils/data/readers/csv_pd.py +10 -4
arekit/contrib/utils/data/readers/jsonl.py +3 -0
arekit/contrib/utils/data/readers/sqlite.py +14 -0
arekit/contrib/utils/data/service/balance.py +0 -1
arekit/contrib/utils/data/storages/pandas_based.py +3 -5
arekit/contrib/utils/data/storages/row_cache.py +18 -6
arekit/contrib/utils/data/storages/sqlite_based.py +17 -0
arekit/contrib/utils/data/writers/base.py +5 -0
arekit/contrib/utils/data/writers/csv_native.py +3 -0
arekit/contrib/utils/data/writers/csv_pd.py +3 -0
arekit/contrib/utils/data/writers/json_opennre.py +31 -13
arekit/contrib/utils/data/writers/sqlite_native.py +114 -0
arekit/contrib/utils/io_utils/embedding.py +25 -33
arekit/contrib/utils/io_utils/utils.py +3 -24
arekit/contrib/utils/pipelines/items/sampling/base.py +31 -26
arekit/contrib/utils/pipelines/items/sampling/networks.py +7 -10
arekit/contrib/utils/pipelines/items/text/entities_default.py +2 -2
arekit/contrib/utils/pipelines/items/text/frames.py +2 -3
arekit/contrib/utils/pipelines/items/text/frames_lemmatized.py +3 -3
arekit/contrib/utils/pipelines/items/text/frames_negation.py +2 -1
arekit/contrib/utils/pipelines/items/text/tokenizer.py +3 -5
arekit/contrib/utils/pipelines/items/text/translator.py +136 -0
arekit/contrib/utils/pipelines/opinion_collections.py +5 -5
arekit/contrib/utils/pipelines/text_opinion/annot/algo_based.py +7 -7
arekit/contrib/utils/pipelines/text_opinion/extraction.py +34 -22
arekit/contrib/utils/pipelines/text_opinion/filters/base.py +1 -1
arekit/contrib/utils/pipelines/text_opinion/filters/distance_based.py +1 -1
arekit/contrib/utils/pipelines/text_opinion/filters/entity_based.py +3 -3
arekit/contrib/utils/pipelines/text_opinion/filters/limitation.py +4 -4
arekit/contrib/utils/serializer.py +4 -23
arekit-0.25.0.data/data/logo.png +0 -0
arekit-0.25.0.dist-info/METADATA +82 -0
arekit-0.25.0.dist-info/RECORD +259 -0
{arekit-0.23.1.dist-info → arekit-0.25.0.dist-info}/WHEEL +1 -1
arekit/common/data/row_ids/base.py +0 -79
arekit/common/data/row_ids/binary.py +0 -38
arekit/common/data/row_ids/multiple.py +0 -14
arekit/common/folding/base.py +0 -36
arekit/common/folding/fixed.py +0 -42
arekit/common/folding/nofold.py +0 -15
arekit/common/folding/united.py +0 -46
arekit/common/news/objects_parser.py +0 -37
arekit/common/news/parsed/providers/base.py +0 -48
arekit/common/news/parsed/service.py +0 -31
arekit/common/news/parser.py +0 -34
arekit/common/text/parser.py +0 -12
arekit/common/text/partitioning/__init__.py +0 -0
arekit/common/text/partitioning/base.py +0 -4
arekit/common/text/partitioning/terms.py +0 -35
arekit/contrib/source/__init__.py +0 -0
arekit/contrib/source/brat/__init__.py +0 -0
arekit/contrib/source/brat/annot.py +0 -83
arekit/contrib/source/brat/entities/__init__.py +0 -0
arekit/contrib/source/brat/entities/compound.py +0 -33
arekit/contrib/source/brat/entities/entity.py +0 -42
arekit/contrib/source/brat/entities/parser.py +0 -53
arekit/contrib/source/brat/news.py +0 -28
arekit/contrib/source/brat/opinions/__init__.py +0 -0
arekit/contrib/source/brat/opinions/converter.py +0 -19
arekit/contrib/source/brat/relation.py +0 -32
arekit/contrib/source/brat/sentence.py +0 -69
arekit/contrib/source/brat/sentences_reader.py +0 -128
arekit/contrib/source/download.py +0 -41
arekit/contrib/source/nerel/__init__.py +0 -0
arekit/contrib/source/nerel/entities.py +0 -55
arekit/contrib/source/nerel/folding/__init__.py +0 -0
arekit/contrib/source/nerel/folding/fixed.py +0 -75
arekit/contrib/source/nerel/io_utils.py +0 -62
arekit/contrib/source/nerel/labels.py +0 -241
arekit/contrib/source/nerel/reader.py +0 -46
arekit/contrib/source/nerel/utils.py +0 -24
arekit/contrib/source/nerel/versions.py +0 -12
arekit/contrib/source/nerelbio/__init__.py +0 -0
arekit/contrib/source/nerelbio/io_utils.py +0 -62
arekit/contrib/source/nerelbio/labels.py +0 -265
arekit/contrib/source/nerelbio/reader.py +0 -8
arekit/contrib/source/nerelbio/versions.py +0 -8
arekit/contrib/source/ruattitudes/__init__.py +0 -0
arekit/contrib/source/ruattitudes/collection.py +0 -36
arekit/contrib/source/ruattitudes/entity/__init__.py +0 -0
arekit/contrib/source/ruattitudes/entity/parser.py +0 -7
arekit/contrib/source/ruattitudes/io_utils.py +0 -56
arekit/contrib/source/ruattitudes/labels_fmt.py +0 -12
arekit/contrib/source/ruattitudes/news.py +0 -51
arekit/contrib/source/ruattitudes/news_brat.py +0 -44
arekit/contrib/source/ruattitudes/opinions/__init__.py +0 -0
arekit/contrib/source/ruattitudes/opinions/base.py +0 -28
arekit/contrib/source/ruattitudes/opinions/converter.py +0 -37
arekit/contrib/source/ruattitudes/reader.py +0 -268
arekit/contrib/source/ruattitudes/sentence.py +0 -73
arekit/contrib/source/ruattitudes/synonyms.py +0 -17
arekit/contrib/source/ruattitudes/text_object.py +0 -57
arekit/contrib/source/rusentiframes/__init__.py +0 -0
arekit/contrib/source/rusentiframes/collection.py +0 -157
arekit/contrib/source/rusentiframes/effect.py +0 -24
arekit/contrib/source/rusentiframes/io_utils.py +0 -19
arekit/contrib/source/rusentiframes/labels_fmt.py +0 -22
arekit/contrib/source/rusentiframes/polarity.py +0 -35
arekit/contrib/source/rusentiframes/role.py +0 -15
arekit/contrib/source/rusentiframes/state.py +0 -24
arekit/contrib/source/rusentiframes/types.py +0 -42
arekit/contrib/source/rusentiframes/value.py +0 -2
arekit/contrib/source/rusentrel/__init__.py +0 -0
arekit/contrib/source/rusentrel/const.py +0 -3
arekit/contrib/source/rusentrel/entities.py +0 -26
arekit/contrib/source/rusentrel/io_utils.py +0 -125
arekit/contrib/source/rusentrel/labels_fmt.py +0 -12
arekit/contrib/source/rusentrel/news_reader.py +0 -51
arekit/contrib/source/rusentrel/opinions/__init__.py +0 -0
arekit/contrib/source/rusentrel/opinions/collection.py +0 -30
arekit/contrib/source/rusentrel/opinions/converter.py +0 -40
arekit/contrib/source/rusentrel/opinions/provider.py +0 -54
arekit/contrib/source/rusentrel/opinions/writer.py +0 -42
arekit/contrib/source/rusentrel/synonyms.py +0 -17
arekit/contrib/source/sentinerel/__init__.py +0 -0
arekit/contrib/source/sentinerel/entities.py +0 -52
arekit/contrib/source/sentinerel/folding/__init__.py +0 -0
arekit/contrib/source/sentinerel/folding/factory.py +0 -32
arekit/contrib/source/sentinerel/folding/fixed.py +0 -73
arekit/contrib/source/sentinerel/io_utils.py +0 -87
arekit/contrib/source/sentinerel/labels.py +0 -53
arekit/contrib/source/sentinerel/labels_scaler.py +0 -30
arekit/contrib/source/sentinerel/reader.py +0 -42
arekit/contrib/source/synonyms/__init__.py +0 -0
arekit/contrib/source/synonyms/utils.py +0 -19
arekit/contrib/source/zip_utils.py +0 -47
arekit/contrib/utils/bert/rows.py +0 -0
arekit/contrib/utils/bert/text_b_rus.py +0 -18
arekit/contrib/utils/connotations/__init__.py +0 -0
arekit/contrib/utils/connotations/rusentiframes_sentiment.py +0 -23
arekit/contrib/utils/cv/__init__.py +0 -0
arekit/contrib/utils/cv/doc_stat/__init__.py +0 -0
arekit/contrib/utils/cv/doc_stat/base.py +0 -37
arekit/contrib/utils/cv/doc_stat/sentence.py +0 -12
arekit/contrib/utils/cv/splitters/__init__.py +0 -0
arekit/contrib/utils/cv/splitters/base.py +0 -4
arekit/contrib/utils/cv/splitters/default.py +0 -53
arekit/contrib/utils/cv/splitters/statistical.py +0 -57
arekit/contrib/utils/cv/two_class.py +0 -77
arekit/contrib/utils/data/doc_ops/__init__.py +0 -0
arekit/contrib/utils/data/doc_ops/dict_based.py +0 -13
arekit/contrib/utils/data/ext.py +0 -31
arekit/contrib/utils/data/views/__init__.py +0 -0
arekit/contrib/utils/data/views/linkages/__init__.py +0 -0
arekit/contrib/utils/data/views/linkages/base.py +0 -58
arekit/contrib/utils/data/views/linkages/multilabel.py +0 -48
arekit/contrib/utils/data/views/linkages/utils.py +0 -24
arekit/contrib/utils/data/views/opinions.py +0 -14
arekit/contrib/utils/download.py +0 -78
arekit/contrib/utils/entities/formatters/str_rus_cased_fmt.py +0 -78
arekit/contrib/utils/entities/formatters/str_rus_nocased_fmt.py +0 -15
arekit/contrib/utils/entities/formatters/str_simple_fmt.py +0 -24
arekit/contrib/utils/entities/formatters/str_simple_uppercase_fmt.py +0 -21
arekit/contrib/utils/io_utils/opinions.py +0 -39
arekit/contrib/utils/io_utils/samples.py +0 -78
arekit/contrib/utils/lexicons/__init__.py +0 -0
arekit/contrib/utils/lexicons/lexicon.py +0 -43
arekit/contrib/utils/lexicons/relation.py +0 -45
arekit/contrib/utils/lexicons/rusentilex.py +0 -34
arekit/contrib/utils/nn/__init__.py +0 -0
arekit/contrib/utils/nn/rows.py +0 -83
arekit/contrib/utils/pipelines/items/sampling/bert.py +0 -5
arekit/contrib/utils/pipelines/items/text/terms_splitter.py +0 -10
arekit/contrib/utils/pipelines/items/to_output.py +0 -101
arekit/contrib/utils/pipelines/sources/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel/doc_ops.py +0 -27
arekit/contrib/utils/pipelines/sources/nerel/extract_text_relations.py +0 -59
arekit/contrib/utils/pipelines/sources/nerel/labels_fmt.py +0 -60
arekit/contrib/utils/pipelines/sources/nerel_bio/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel_bio/doc_ops.py +0 -29
arekit/contrib/utils/pipelines/sources/nerel_bio/extrat_text_relations.py +0 -59
arekit/contrib/utils/pipelines/sources/nerel_bio/labels_fmt.py +0 -79
arekit/contrib/utils/pipelines/sources/ruattitudes/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/ruattitudes/doc_ops.py +0 -56
arekit/contrib/utils/pipelines/sources/ruattitudes/entity_filter.py +0 -19
arekit/contrib/utils/pipelines/sources/ruattitudes/extract_text_opinions.py +0 -58
arekit/contrib/utils/pipelines/sources/rusentrel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/rusentrel/doc_ops.py +0 -21
arekit/contrib/utils/pipelines/sources/rusentrel/extract_text_opinions.py +0 -100
arekit/contrib/utils/pipelines/sources/sentinerel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/sentinerel/doc_ops.py +0 -29
arekit/contrib/utils/pipelines/sources/sentinerel/entity_filter.py +0 -62
arekit/contrib/utils/pipelines/sources/sentinerel/extract_text_opinions.py +0 -175
arekit/contrib/utils/pipelines/sources/sentinerel/labels_fmt.py +0 -50
arekit/contrib/utils/pipelines/text_opinion/annot/predefined.py +0 -88
arekit/contrib/utils/resources.py +0 -26
arekit/contrib/utils/sources/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/text_opinion/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/text_opinion/prof_per_org_filter.py +0 -63
arekit/contrib/utils/utils_folding.py +0 -19
arekit/download_data.py +0 -11
arekit-0.23.1.dist-info/METADATA +0 -23
arekit-0.23.1.dist-info/RECORD +0 -403
/arekit/common/{data/row_ids → docs}/__init__.py +0 -0
/arekit/common/{folding → docs/parsed}/__init__.py +0 -0
/arekit/common/{news → docs/parsed/providers}/__init__.py +0 -0
/arekit/common/{news → docs}/parsed/term_position.py +0 -0
/arekit/common/{news/parsed → service}/__init__.py +0 -0
/arekit/{common/news/parsed/providers → contrib/utils/data/doc_provider}/__init__.py +0 -0
{arekit-0.23.1.dist-info → arekit-0.25.0.dist-info}/LICENSE +0 -0
{arekit-0.23.1.dist-info → arekit-0.25.0.dist-info}/top_level.txt +0 -0

arekit/contrib/utils/data/writers/sqlite_native.py ADDED Viewed

@@ -0,0 +1,114 @@
+import os
+import sqlite3
+from os.path import dirname
+from arekit.common.data import const
+from arekit.contrib.utils.data.storages.row_cache import RowCacheStorage
+from arekit.contrib.utils.data.writers.base import BaseWriter
+class SQliteWriter(BaseWriter):
+    """ TODO. This implementation is dedicated for the writing concepts of the data
+        serialization pipeline. However we add the SQLite3 service, it would be
+        right to refactor and utlize some core functionality from the core/service/sqlite.py
+    """
+    def __init__(self, table_name="contents", index_column_names=None, skip_existed=False, clear_table=True):
+        """ index_column_names: list or None
+                column names should be considered to build a unique index;
+                if None, the default 'const.ID' will be considered for row indexation.
+        """
+        assert (isinstance(index_column_names, list) or index_column_names is None)
+        self.__index_column_names = index_column_names if index_column_names is not None else [const.ID]
+        self.__table_name = table_name
+        self.__conn = None
+        self.__cur = None
+        self.__need_init_table = True
+        self.__origin_column_names = None
+        self.__skip_existed = skip_existed
+        self.__clear_table = clear_table
+    def extension(self):
+        return ".sqlite"
+    @staticmethod
+    def __iter_storage_column_names(storage):
+        """ Iter only those columns that existed in storage.
+        """
+        assert (isinstance(storage, RowCacheStorage))
+        for col_name, col_type in zip(storage.iter_column_names(), storage.iter_column_types()):
+            if col_name in storage.RowCache:
+                yield col_name, col_type
+    def __init_table(self, column_data):
+        # Compose column name with the related SQLITE type.
+        column_types = ",".join([" ".join([col_name, self.type_to_sqlite(col_type)])
+                                 for col_name, col_type in column_data])
+        # Create table if not exists.
+        self.__cur.execute(f"CREATE TABLE IF NOT EXISTS {self.__table_name}({column_types})")
+        # Table exists, however we may optionally remove the content from it.
+        if self.__clear_table:
+            self.__cur.execute(f"DELETE FROM {self.__table_name};")
+        # Create index.
+        index_name = f"i_{self.__table_name}_id"
+        self.__cur.execute(f"DROP INDEX IF EXISTS {index_name};")
+        self.__cur.execute("CREATE INDEX IF NOT EXISTS {index} ON {table}({columns})".format(
+            index=index_name,
+            table=self.__table_name,
+            columns=", ".join(self.__index_column_names)
+        ))
+        self.__origin_column_names = [col_name for col_name, _ in column_data]
+    @staticmethod
+    def type_to_sqlite(col_type):
+        """ This is a simple function that provides conversion from the
+            base numpy types to SQLITE.
+            NOTE: this method represent a quick implementation for supporting
+            types, however it is far away from the generalized implementation.
+        """
+        if isinstance(col_type, str):
+            if 'int' in col_type:
+                return 'INTEGER'
+        return "TEXT"
+    def open_target(self, target):
+        os.makedirs(dirname(target), exist_ok=True)
+        self.__conn = sqlite3.connect(target)
+        self.__cur = self.__conn.cursor()
+    def commit_line(self, storage):
+        assert (isinstance(storage, RowCacheStorage))
+        column_data = list(self.__iter_storage_column_names(storage))
+        if self.__need_init_table:
+            self.__init_table(column_data)
+            self.__need_init_table = False
+        # Check whether the related row is already exist in SQLITE database.
+        row_id = storage.RowCache[const.ID]
+        top_row = self.__cur.execute(f"SELECT EXISTS(SELECT 1 FROM {self.__table_name} WHERE id='{row_id}');")
+        is_exists = top_row.fetchone()[0]
+        if is_exists == 1 and self.__skip_existed:
+            return
+        line_data = [storage.RowCache[col_name] for col_name, _ in column_data]
+        parameters = ",".join(["?"] * len(line_data))
+        assert (len(self.__origin_column_names) == len(line_data))
+        self.__cur.execute(
+            f"INSERT OR REPLACE INTO {self.__table_name} VALUES ({parameters})",
+            tuple(line_data))
+        self.__conn.commit()
+    def close_target(self):
+        self.__cur = None
+        self.__origin_column_names = None
+        self.__need_init_table = True
+        self.__conn.close()
+    def write_all(self, storage, target):
+        pass

arekit/contrib/utils/io_utils/embedding.py CHANGED Viewed

@@ -1,11 +1,9 @@
 from os.path import join
-from arekit.common.folding.base import BaseDataFolding
 from arekit.contrib.networks.embedding_io import BaseEmbeddingIO
 from arekit.contrib.utils.io_utils.utils import check_targets_existence
 from arekit.contrib.utils.np_utils.embedding import NpzEmbeddingHelper
 from arekit.contrib.utils.np_utils.vocab import VocabRepositoryUtils
-from arekit.contrib.utils.utils_folding import experiment_iter_index
 class NpEmbeddingIO(BaseEmbeddingIO):
@@ -17,37 +15,35 @@ class NpEmbeddingIO(BaseEmbeddingIO):
             - embedding vocabulary.
     """
-    TERM_EMBEDDING_FILENAME_TEMPLATE = 'term_embedding-{cv_index}'
-    VOCABULARY_FILENAME_TEMPLATE = "vocab-{cv_index}.txt"
-    def __init__(self, target_dir):
+    def __init__(self, target_dir, prefix_name="sample"):
         assert(isinstance(target_dir, str))
         self.__target_dir = target_dir
+        self.__term_emb_fn_template = "-".join([prefix_name, "term_embedding"])
+        self.__vocab_fn_template = "-".join([prefix_name, "term_embedding"])
     # region Embedding-related data
-    def save_vocab(self, data, data_folding):
-        assert(isinstance(data_folding, BaseDataFolding))
-        target = self.__get_default_vocab_filepath(data_folding)
+    def save_vocab(self, data):
+        target = self.__get_default_vocab_filepath()
         return VocabRepositoryUtils.save(data=data, target=target)
-    def load_vocab(self, data_folding):
-        source = self.___get_vocab_source(data_folding)
+    def load_vocab(self):
+        source = self.___get_vocab_source()
         return dict(VocabRepositoryUtils.load(source))
-    def save_embedding(self, data, data_folding):
-        assert(isinstance(data_folding, BaseDataFolding))
-        target = self.__get_default_embedding_filepath(data_folding)
+    def save_embedding(self, data):
+        target = self.__get_default_embedding_filepath()
         NpzEmbeddingHelper.save_embedding(data=data, target=target)
-    def load_embedding(self, data_folding):
-        source = self.__get_term_embedding_source(data_folding)
+    def load_embedding(self):
+        source = self.__get_term_embedding_source()
         return NpzEmbeddingHelper.load_embedding(source)
-    def check_targets_existed(self, data_folding):
+    def check_targets_existed(self):
         targets = [
-            self.__get_default_vocab_filepath(data_folding=data_folding),
-            self.__get_term_embedding_target(data_folding=data_folding)
+            self.__get_default_vocab_filepath(),
+            self.__get_term_embedding_target()
         ]
         return check_targets_existence(targets=targets)
@@ -55,26 +51,22 @@ class NpEmbeddingIO(BaseEmbeddingIO):
     # region embedding-related data
-    def ___get_vocab_source(self, data_folding):
+    def ___get_vocab_source(self):
         """ It is possible to load a predefined embedding from another experiment
             using the related filepath provided by model_io.
         """
-        return self.__get_default_vocab_filepath(data_folding)
+        return self.__get_default_vocab_filepath()
-    def __get_term_embedding_target(self, data_folding):
-        return self.__get_default_embedding_filepath(data_folding)
+    def __get_term_embedding_target(self):
+        return self.__get_default_embedding_filepath()
-    def __get_term_embedding_source(self, data_folding):
-        return self.__get_default_embedding_filepath(data_folding)
+    def __get_term_embedding_source(self):
+        return self.__get_default_embedding_filepath()
-    def __get_default_vocab_filepath(self, data_folding):
-        return join(self.__target_dir,
-                    self.VOCABULARY_FILENAME_TEMPLATE.format(
-                        cv_index=experiment_iter_index(data_folding)))
+    def __get_default_vocab_filepath(self):
+        return join(self.__target_dir, self.__vocab_fn_template)
-    def __get_default_embedding_filepath(self, data_folding):
-        return join(self.__target_dir,
-                    self.TERM_EMBEDDING_FILENAME_TEMPLATE.format(
-                        cv_index=experiment_iter_index(data_folding)) + '.npz')
+    def __get_default_embedding_filepath(self):
+        return join(self.__target_dir, self.__term_emb_fn_template)
     # endregion

arekit/contrib/utils/io_utils/utils.py CHANGED Viewed

@@ -1,35 +1,14 @@
-import collections
+from collections.abc import Iterable
 import logging
-from os.path import join, exists
-from arekit.common.experiment.data_type import DataType
-from arekit.common.folding.base import BaseDataFolding
-from arekit.contrib.utils.utils_folding import experiment_iter_index
+from os.path import exists
 logger = logging.getLogger(__name__)
 logging.basicConfig(level=logging.INFO)
-def join_dir_with_subfolder_name(subfolder_name, dir):
-    """ Returns subfolder in in directory
-    """
-    assert(isinstance(subfolder_name, str))
-    assert(isinstance(dir, str))
-    target_dir = join(dir, "{}/".format(subfolder_name))
-    return target_dir
-def filename_template(data_type, data_folding):
-    assert(isinstance(data_type, DataType))
-    assert(isinstance(data_folding, BaseDataFolding))
-    return "{data_type}-{iter_index}".format(data_type=data_type.name.lower(),
-                                             iter_index=experiment_iter_index(data_folding))
 def check_targets_existence(targets):
-    assert (isinstance(targets, collections.Iterable))
+    assert (isinstance(targets, Iterable))
     result = True
     for filepath in targets:

arekit/contrib/utils/pipelines/items/sampling/base.py CHANGED Viewed

@@ -2,17 +2,13 @@ from arekit.common.data.input.providers.rows.samples import BaseSampleRowProvide
 from arekit.common.data.storages.base import BaseRowsStorage
 from arekit.common.experiment.api.base_samples_io import BaseSamplesIO
 from arekit.common.experiment.data_type import DataType
-from arekit.common.folding.base import BaseDataFolding
-from arekit.common.pipeline.base import BasePipeline
-from arekit.common.pipeline.context import PipelineContext
 from arekit.common.pipeline.items.base import BasePipelineItem
 from arekit.contrib.utils.serializer import InputDataSerializationHelper
-from arekit.contrib.utils.utils_folding import folding_iter_states
 class BaseSerializerPipelineItem(BasePipelineItem):
-    def __init__(self, rows_provider, samples_io, save_labels_func, balance_func, storage):
+    def __init__(self, rows_provider, samples_io, save_labels_func, storage, **kwargs):
         """ sample_rows_formatter:
                 how we format input texts for a BERT model, for example:
                     - single text
@@ -24,18 +20,20 @@ class BaseSerializerPipelineItem(BasePipelineItem):
         assert(isinstance(rows_provider, BaseSampleRowProvider))
         assert(isinstance(samples_io, BaseSamplesIO))
         assert(callable(save_labels_func))
-        assert(callable(balance_func))
         assert(isinstance(storage, BaseRowsStorage))
+        super(BaseSerializerPipelineItem, self).__init__(**kwargs)
         self._rows_provider = rows_provider
-        self._balance_func = balance_func
         self._samples_io = samples_io
         self._save_labels_func = save_labels_func
         self._storage = storage
-    def _serialize_iteration(self, data_type, pipeline, data_folding):
-        assert (isinstance(data_type, DataType))
-        assert (isinstance(pipeline, BasePipeline))
+    def _serialize_iteration(self, data_type, pipeline, data_folding, doc_ids):
+        assert(isinstance(data_type, DataType))
+        assert(isinstance(pipeline, list))
+        assert(isinstance(data_folding, dict) or data_folding is None)
+        assert(isinstance(doc_ids, list) or doc_ids is None)
+        assert(doc_ids is not None or data_folding is not None)
         repos = {
             "sample": InputDataSerializationHelper.create_samples_repo(
@@ -46,27 +44,36 @@ class BaseSerializerPipelineItem(BasePipelineItem):
         writer_and_targets = {
             "sample": (self._samples_io.Writer,
-                       self._samples_io.create_target(
-                           data_type=data_type, data_folding=data_folding)),
+                       self._samples_io.create_target(data_type=data_type)),
         }
         for description, repo in repos.items():
+            if data_folding is None:
+                # Consider only the predefined doc_ids.
+                doc_ids_iter = doc_ids
+            else:
+                # Take particular data_type.
+                doc_ids_iter = data_folding[data_type]
+                # Consider only predefined doc_ids.
+                if doc_ids is not None:
+                    doc_ids_iter = set(doc_ids_iter).intersection(doc_ids)
             InputDataSerializationHelper.fill_and_write(
                 repo=repo,
                 pipeline=pipeline,
-                doc_ids_iter=data_folding.fold_doc_ids_set()[data_type],
-                do_balance=self._balance_func(data_type),
+                doc_ids_iter=doc_ids_iter,
                 desc="{desc} [{data_type}]".format(desc=description, data_type=data_type),
                 writer=writer_and_targets[description][0],
                 target=writer_and_targets[description][1])
-    def _handle_iteration(self, data_type_pipelines, data_folding):
+    def _handle_iteration(self, data_type_pipelines, data_folding, doc_ids):
         """ Performing data serialization for a particular iteration
         """
         assert(isinstance(data_type_pipelines, dict))
-        assert(isinstance(data_folding, BaseDataFolding))
         for data_type, pipeline in data_type_pipelines.items():
-            self._serialize_iteration(data_type=data_type, pipeline=pipeline, data_folding=data_folding)
+            self._serialize_iteration(data_type=data_type, pipeline=pipeline, data_folding=data_folding,
+                                      doc_ids=doc_ids)
     def apply_core(self, input_data, pipeline_ctx):
         """
@@ -76,14 +83,12 @@ class BaseSerializerPipelineItem(BasePipelineItem):
                     DataType.Test: BasePipeline
                 }
-                pipeline: doc_id -> parsed_news -> annot -> opinion linkages
+                data_type_pipelines: doc_id -> parsed_doc -> annot -> opinion linkages
                     for example, function: sentiment_attitude_extraction_default_pipeline
+                doc_ids: optional
+                    this parameter allows to limit amount of documents considered for sampling
         """
-        assert (isinstance(pipeline_ctx, PipelineContext))
-        assert ("data_type_pipelines" in pipeline_ctx)
-        assert ("data_folding" in pipeline_ctx)
-        data_folding = pipeline_ctx.provide("data_folding")
-        for _ in folding_iter_states(data_folding):
-            self._handle_iteration(data_type_pipelines=pipeline_ctx.provide("data_type_pipelines"),
-                                   data_folding=data_folding)
+        assert("data_type_pipelines" in pipeline_ctx)
+        self._handle_iteration(data_type_pipelines=pipeline_ctx.provide("data_type_pipelines"),
+                               doc_ids=pipeline_ctx.provide_or_none("doc_ids"),
+                               data_folding=pipeline_ctx.provide_or_none("data_folding"))

arekit/contrib/utils/pipelines/items/sampling/networks.py CHANGED Viewed

@@ -1,4 +1,3 @@
-from arekit.common.folding.base import BaseDataFolding
 from arekit.contrib.networks.input.embedding.matrix import create_term_embedding_matrix
 from arekit.contrib.networks.input.embedding.offsets import TermsEmbeddingOffsets
 from arekit.contrib.networks.embedding import Embedding
@@ -9,8 +8,7 @@ from arekit.contrib.utils.pipelines.items.sampling.base import BaseSerializerPip
 class NetworksInputSerializerPipelineItem(BaseSerializerPipelineItem):
-    def __init__(self, save_labels_func, rows_provider, samples_io,
-                 emb_io, balance_func, storage, save_embedding=True):
+    def __init__(self, save_labels_func, rows_provider, samples_io, emb_io, storage, save_embedding=True, **kwargs):
         """ This pipeline item allows to perform a data preparation for neural network models.
             considering a list of the whole data_types with the related pipelines,
@@ -25,23 +23,22 @@ class NetworksInputSerializerPipelineItem(BaseSerializerPipelineItem):
             rows_provider=rows_provider,
             samples_io=samples_io,
             save_labels_func=save_labels_func,
-            balance_func=balance_func,
-            storage=storage)
+            storage=storage,
+            **kwargs)
         self.__emb_io = emb_io
         self.__save_embedding = save_embedding
-    def _handle_iteration(self, data_type_pipelines, data_folding):
+    def _handle_iteration(self, data_type_pipelines, data_folding, doc_ids):
         """ Performing data serialization for a particular iteration
         """
         assert(isinstance(data_type_pipelines, dict))
-        assert(isinstance(data_folding, BaseDataFolding))
         # Prepare for the present iteration.
         self._rows_provider.clear_embedding_pairs()
         super(NetworksInputSerializerPipelineItem, self)._handle_iteration(
-            data_type_pipelines=data_type_pipelines, data_folding=data_folding)
+            data_type_pipelines=data_type_pipelines, data_folding=data_folding, doc_ids=doc_ids)
         if not (self.__save_embedding and self._rows_provider.HasEmbeddingPairs):
             return
@@ -52,7 +49,7 @@ class NetworksInputSerializerPipelineItem(BaseSerializerPipelineItem):
         vocab = list(TermsEmbeddingOffsets.extract_vocab(words_embedding=term_embedding))
         # Save embedding matrix
-        self.__emb_io.save_embedding(data=embedding_matrix, data_folding=data_folding)
-        self.__emb_io.save_vocab(data=vocab, data_folding=data_folding)
+        self.__emb_io.save_embedding(data=embedding_matrix)
+        self.__emb_io.save_vocab(data=vocab)
         del embedding_matrix

arekit/contrib/utils/pipelines/items/text/entities_default.py CHANGED Viewed

@@ -4,8 +4,8 @@ from arekit.common.pipeline.items.base import BasePipelineItem
 class TextEntitiesParser(BasePipelineItem):
-    def __init__(self):
-        super(TextEntitiesParser, self).__init__()
+    def __init__(self, **kwargs):
+        super(TextEntitiesParser, self).__init__(**kwargs)
     @staticmethod
     def __process_word(word):

arekit/contrib/utils/pipelines/items/text/frames.py CHANGED Viewed

@@ -6,11 +6,10 @@ from arekit.common.pipeline.items.base import BasePipelineItem
 class FrameVariantsParser(BasePipelineItem):
-    def __init__(self, frame_variants):
+    def __init__(self, frame_variants, **kwargs):
         assert(isinstance(frame_variants, FrameVariantsCollection))
         assert(len(frame_variants) > 0)
-        super(FrameVariantsParser, self).__init__()
+        super(FrameVariantsParser, self).__init__(**kwargs)
         self.__frame_variants = frame_variants
         self.__max_variant_len = max([len(variant) for _, variant in frame_variants.iter_variants()])

arekit/contrib/utils/pipelines/items/text/frames_lemmatized.py CHANGED Viewed

@@ -5,10 +5,10 @@ from arekit.contrib.utils.processing.languages.ru.mods import RussianLanguageMod
 class LemmasBasedFrameVariantsParser(FrameVariantsParser):
-    def __init__(self, frame_variants, stemmer, locale_mods=RussianLanguageMods, save_lemmas=False):
+    def __init__(self, frame_variants, stemmer, locale_mods=RussianLanguageMods, save_lemmas=False, **kwargs):
         assert(isinstance(stemmer, Stemmer))
         assert(isinstance(save_lemmas, bool))
-        super(LemmasBasedFrameVariantsParser, self).__init__(frame_variants=frame_variants)
+        super(LemmasBasedFrameVariantsParser, self).__init__(frame_variants=frame_variants, **kwargs)
         self.__frame_variants = frame_variants
         self.__stemmer = stemmer
@@ -24,7 +24,7 @@ class LemmasBasedFrameVariantsParser(FrameVariantsParser):
     def __provide_lemmatized_terms(self, terms):
         """
-        Compose a list of lemmatized versions of parsed_news
+        Compose a list of lemmatized versions of parsed_doc
         PS: Might be significantly slow, depending on stemmer were used.
         """
         assert(isinstance(terms, list))

arekit/contrib/utils/pipelines/items/text/frames_negation.py CHANGED Viewed

@@ -7,8 +7,9 @@ from arekit.contrib.utils.processing.languages.ru.mods import RussianLanguageMod
 class FrameVariantsSentimentNegation(BasePipelineItem):
-    def __init__(self, locale_mods=RussianLanguageMods):
+    def __init__(self, locale_mods=RussianLanguageMods, **kwargs):
         assert(issubclass(locale_mods, BaseLanguageMods))
+        super(FrameVariantsSentimentNegation, self).__init__(**kwargs)
         self._locale_mods = locale_mods
     @staticmethod

arekit/contrib/utils/pipelines/items/text/tokenizer.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import logging
 from arekit.common.context.token import Token
-from arekit.common.pipeline.context import PipelineContext
 from arekit.common.pipeline.items.base import BasePipelineItem
 from arekit.common.utils import split_by_whitespaces
 from arekit.contrib.utils.processing.text.tokens import Tokens
@@ -14,14 +13,13 @@ class DefaultTextTokenizer(BasePipelineItem):
     """ Default parser implementation.
     """
-    def __init__(self, keep_tokens=True):
-        super(DefaultTextTokenizer, self).__init__()
+    def __init__(self, keep_tokens=True, **kwargs):
+        super(DefaultTextTokenizer, self).__init__(**kwargs)
         self.__keep_tokens = keep_tokens
     # region protected methods
     def apply_core(self, input_data, pipeline_ctx):
-        assert(isinstance(pipeline_ctx, PipelineContext))
         output_data = self.__process_parts(input_data)
         if not self.__keep_tokens:
             output_data = [word for word in output_data if not isinstance(word, Token)]
@@ -60,7 +58,7 @@ class DefaultTextTokenizer(BasePipelineItem):
     @staticmethod
     def __split_tokens(term):
         """
-        Splitting off tokens from parsed_news ending, i.e. for example:
+        Splitting off tokens from parsed_doc ending, i.e. for example:
             term: "сказать,-" -> "(term: "сказать", ["COMMA_TOKEN", "DASH_TOKEN"])
         return: (unicode or None, list)
             modified term and list of extracted tokens.

arekit/contrib/utils/pipelines/items/text/translator.py ADDED Viewed

@@ -0,0 +1,136 @@
+from arekit.common.data.input.providers.const import IDLE_MODE
+from arekit.common.pipeline.conts import PARENT_CTX
+from arekit.common.entities.base import Entity
+from arekit.common.pipeline.context import PipelineContext
+from arekit.common.pipeline.items.base import BasePipelineItem
+class MLTextTranslatorPipelineItem(BasePipelineItem):
+    """ Machine learning based translator pipeline item.
+    """
+    def __init__(self, batch_translate_model, do_translate_entity=True, **kwargs):
+        """ Model, which is based on translation of the text,
+            represented as a list of words.
+        """
+        super(MLTextTranslatorPipelineItem, self).__init__(**kwargs)
+        self.__do_translate_entity = do_translate_entity
+        self.__translate = batch_translate_model
+    def fast_most_accurate_approach(self, input_data, entity_placeholder_template="<entityTag={}/>"):
+        """ This approach assumes that the translation won't corrupt the original
+            meta-annotation for entities and objects mentioned in text.
+        """
+        def __optionally_register(prts):
+            if len(prts) > 0:
+                content.append(" ".join(prts))
+            parts_to_join.clear()
+        content = []
+        origin_entities = []
+        parts_to_join = []
+        for part in input_data:
+            if isinstance(part, str) and part.strip():
+                parts_to_join.append(part)
+            elif isinstance(part, Entity):
+                entity_index = len(origin_entities)
+                parts_to_join.append(entity_placeholder_template.format(entity_index))
+                # Register entities information for further restoration.
+                origin_entities.append(part)
+        # Register original text with masked named entities.
+        __optionally_register(parts_to_join)
+        # Register all named entities in order of their appearance in text.
+        content.extend([e.Value for e in origin_entities])
+        # Compose text parts.
+        translated_parts = self.__translate(content)
+        if len(translated_parts) == 0:
+            return None
+        # Take the original text.
+        text = translated_parts[0]
+        for entity_index in range(len(origin_entities)):
+            if entity_placeholder_template.format(entity_index) not in text:
+                return None
+        # Enumerate entities.
+        from_ind = 0
+        text_parts = []
+        for entity_index, translated_value in enumerate(translated_parts[1:]):
+            entity_placeholder_instance = entity_placeholder_template.format(entity_index)
+            # Cropping text part.
+            to_ind = text.index(entity_placeholder_instance)
+            if self.__do_translate_entity:
+                origin_entities[entity_index].set_display_value(translated_value.strip())
+            # Register entities.
+            text_parts.append(text[from_ind:to_ind])
+            text_parts.append(origin_entities[entity_index])
+            # Update from index.
+            from_ind = to_ind + len(entity_placeholder_instance)
+        # Consider the remaining part.
+        text_parts.append(text[from_ind:])
+        return text_parts
+    def default_pre_part_splitting_approach(self, input_data):
+        """ This is the original strategy, based on the manually cropped named entities
+            before the actual translation call.
+        """
+        def __optionally_register(prts):
+            if len(prts) > 0:
+                content.append(" ".join(prts))
+            parts_to_join.clear()
+        content = []
+        origin_entities = []
+        origin_entity_ind = []
+        parts_to_join = []
+        for _, part in enumerate(input_data):
+            if isinstance(part, str) and part.strip():
+                parts_to_join.append(part)
+            elif isinstance(part, Entity):
+                # Register first the prior parts were merged.
+                __optionally_register(parts_to_join)
+                # Register entities information for further restoration.
+                origin_entity_ind.append(len(content))
+                origin_entities.append(part)
+                content.append(part.Value)
+        __optionally_register(parts_to_join)
+        # Compose text parts.
+        translated_parts = self.__translate(content)
+        for entity_ind, entity_part_ind in enumerate(origin_entity_ind):
+            entity = origin_entities[entity_ind]
+            if self.__do_translate_entity:
+                entity.set_display_value(translated_parts[entity_part_ind].strip())
+            translated_parts[entity_part_ind] = entity
+        return translated_parts
+    def apply_core(self, input_data, pipeline_ctx):
+        assert(isinstance(pipeline_ctx, PipelineContext))
+        assert(isinstance(input_data, list))
+        # Check the pipeline state whether is an idle mode or not.
+        parent_ctx = pipeline_ctx.provide(PARENT_CTX)
+        idle_mode = parent_ctx.provide(IDLE_MODE)
+        # When pipeline utilized only for the assessing the expected amount
+        # of rows (common case of idle_mode), there is no need to perform
+        # translation.
+        if idle_mode:
+            return
+        fast_accurate = self.fast_most_accurate_approach(input_data)
+        return self.default_pre_part_splitting_approach(input_data) \
+            if fast_accurate is None else fast_accurate

arekit 0.23.1__py3-none-any.whl → 0.25.0__py3-none-any.whl

arekit 0.23.1py3-none-any.whl → 0.25.0py3-none-any.whl