PyPI - arekit - Versions diffs - 0.24.0__py3-none-any.whl - Mend

arekit 0.24.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (374) hide show

arekit/__init__.py +0 -0
arekit/common/__init__.py +0 -0
arekit/common/bound.py +48 -0
arekit/common/context/__init__.py +0 -0
arekit/common/context/terms_mapper.py +51 -0
arekit/common/context/token.py +16 -0
arekit/common/data/__init__.py +0 -0
arekit/common/data/const.py +21 -0
arekit/common/data/doc_provider.py +6 -0
arekit/common/data/input/__init__.py +0 -0
arekit/common/data/input/providers/__init__.py +0 -0
arekit/common/data/input/providers/columns/__init__.py +0 -0
arekit/common/data/input/providers/columns/base.py +9 -0
arekit/common/data/input/providers/columns/sample.py +59 -0
arekit/common/data/input/providers/const.py +3 -0
arekit/common/data/input/providers/contents.py +9 -0
arekit/common/data/input/providers/instances/__init__.py +0 -0
arekit/common/data/input/providers/instances/base.py +14 -0
arekit/common/data/input/providers/instances/multiple.py +27 -0
arekit/common/data/input/providers/instances/single.py +8 -0
arekit/common/data/input/providers/label/__init__.py +0 -0
arekit/common/data/input/providers/label/base.py +24 -0
arekit/common/data/input/providers/label/binary.py +11 -0
arekit/common/data/input/providers/label/multiple.py +15 -0
arekit/common/data/input/providers/rows/__init__.py +0 -0
arekit/common/data/input/providers/rows/base.py +64 -0
arekit/common/data/input/providers/rows/samples.py +227 -0
arekit/common/data/input/providers/sample/__init__.py +0 -0
arekit/common/data/input/providers/sample/cropped.py +43 -0
arekit/common/data/input/providers/text/__init__.py +0 -0
arekit/common/data/input/providers/text/single.py +49 -0
arekit/common/data/input/repositories/__init__.py +0 -0
arekit/common/data/input/repositories/base.py +68 -0
arekit/common/data/input/repositories/sample.py +22 -0
arekit/common/data/input/sample.py +66 -0
arekit/common/data/input/terms_mapper.py +88 -0
arekit/common/data/rows_fmt.py +82 -0
arekit/common/data/rows_parser.py +43 -0
arekit/common/data/storages/__init__.py +0 -0
arekit/common/data/storages/base.py +109 -0
arekit/common/data/views/__init__.py +0 -0
arekit/common/data/views/samples.py +26 -0
arekit/common/docs/__init__.py +0 -0
arekit/common/docs/base.py +30 -0
arekit/common/docs/entities_grouping.py +16 -0
arekit/common/docs/entity.py +18 -0
arekit/common/docs/objects_parser.py +37 -0
arekit/common/docs/parsed/__init__.py +0 -0
arekit/common/docs/parsed/base.py +101 -0
arekit/common/docs/parsed/providers/__init__.py +0 -0
arekit/common/docs/parsed/providers/base.py +68 -0
arekit/common/docs/parsed/providers/base_pairs.py +51 -0
arekit/common/docs/parsed/providers/entity_service.py +175 -0
arekit/common/docs/parsed/providers/opinion_pairs.py +20 -0
arekit/common/docs/parsed/providers/text_opinion_pairs.py +78 -0
arekit/common/docs/parsed/service.py +31 -0
arekit/common/docs/parsed/term_position.py +42 -0
arekit/common/docs/parser.py +34 -0
arekit/common/docs/sentence.py +14 -0
arekit/common/entities/__init__.py +0 -0
arekit/common/entities/base.py +51 -0
arekit/common/entities/collection.py +72 -0
arekit/common/entities/str_fmt.py +8 -0
arekit/common/entities/types.py +9 -0
arekit/common/experiment/__init__.py +0 -0
arekit/common/experiment/api/__init__.py +0 -0
arekit/common/experiment/api/base_samples_io.py +20 -0
arekit/common/experiment/data_type.py +17 -0
arekit/common/frames/__init__.py +0 -0
arekit/common/frames/connotations/__init__.py +0 -0
arekit/common/frames/connotations/descriptor.py +17 -0
arekit/common/frames/connotations/provider.py +4 -0
arekit/common/frames/text_variant.py +43 -0
arekit/common/frames/variants/__init__.py +0 -0
arekit/common/frames/variants/base.py +21 -0
arekit/common/frames/variants/collection.py +60 -0
arekit/common/labels/__init__.py +0 -0
arekit/common/labels/base.py +19 -0
arekit/common/labels/provider/__init__.py +0 -0
arekit/common/labels/provider/base.py +7 -0
arekit/common/labels/provider/constant.py +14 -0
arekit/common/labels/scaler/__init__.py +0 -0
arekit/common/labels/scaler/base.py +85 -0
arekit/common/labels/scaler/sentiment.py +7 -0
arekit/common/labels/scaler/single.py +10 -0
arekit/common/labels/str_fmt.py +55 -0
arekit/common/linkage/__init__.py +0 -0
arekit/common/linkage/base.py +44 -0
arekit/common/linkage/meta.py +23 -0
arekit/common/linkage/opinions.py +9 -0
arekit/common/linkage/text_opinions.py +22 -0
arekit/common/log_utils.py +29 -0
arekit/common/model/__init__.py +0 -0
arekit/common/model/labeling/__init__.py +0 -0
arekit/common/model/labeling/base.py +24 -0
arekit/common/model/labeling/modes.py +8 -0
arekit/common/model/labeling/single.py +24 -0
arekit/common/opinions/__init__.py +0 -0
arekit/common/opinions/annot/__init__.py +0 -0
arekit/common/opinions/annot/algo/__init__.py +0 -0
arekit/common/opinions/annot/algo/base.py +4 -0
arekit/common/opinions/annot/algo/pair_based.py +99 -0
arekit/common/opinions/annot/algo/predefined.py +16 -0
arekit/common/opinions/annot/algo_based.py +55 -0
arekit/common/opinions/annot/base.py +15 -0
arekit/common/opinions/base.py +74 -0
arekit/common/opinions/collection.py +150 -0
arekit/common/opinions/enums.py +6 -0
arekit/common/opinions/provider.py +4 -0
arekit/common/opinions/writer.py +4 -0
arekit/common/pipeline/__init__.py +0 -0
arekit/common/pipeline/base.py +25 -0
arekit/common/pipeline/context.py +36 -0
arekit/common/pipeline/conts.py +2 -0
arekit/common/pipeline/items/__init__.py +0 -0
arekit/common/pipeline/items/base.py +12 -0
arekit/common/pipeline/items/flatten.py +14 -0
arekit/common/pipeline/items/handle.py +17 -0
arekit/common/pipeline/items/iter.py +11 -0
arekit/common/pipeline/items/map.py +11 -0
arekit/common/pipeline/items/map_nested.py +13 -0
arekit/common/synonyms/__init__.py +0 -0
arekit/common/synonyms/base.py +151 -0
arekit/common/synonyms/grouping.py +21 -0
arekit/common/text/__init__.py +0 -0
arekit/common/text/enums.py +12 -0
arekit/common/text/parsed.py +42 -0
arekit/common/text/parser.py +12 -0
arekit/common/text/partitioning/__init__.py +0 -0
arekit/common/text/partitioning/base.py +4 -0
arekit/common/text/partitioning/str.py +36 -0
arekit/common/text/partitioning/terms.py +35 -0
arekit/common/text/stemmer.py +16 -0
arekit/common/text_opinions/__init__.py +0 -0
arekit/common/text_opinions/base.py +105 -0
arekit/common/utils.py +129 -0
arekit/contrib/__init__.py +0 -0
arekit/contrib/bert/__init__.py +0 -0
arekit/contrib/bert/input/__init__.py +0 -0
arekit/contrib/bert/input/providers/__init__.py +0 -0
arekit/contrib/bert/input/providers/cropped_sample.py +17 -0
arekit/contrib/bert/input/providers/text_pair.py +62 -0
arekit/contrib/bert/terms/__init__.py +0 -0
arekit/contrib/bert/terms/mapper.py +20 -0
arekit/contrib/networks/__init__.py +0 -0
arekit/contrib/networks/embedding.py +149 -0
arekit/contrib/networks/embedding_io.py +18 -0
arekit/contrib/networks/input/__init__.py +0 -0
arekit/contrib/networks/input/const.py +6 -0
arekit/contrib/networks/input/ctx_serialization.py +28 -0
arekit/contrib/networks/input/embedding/__init__.py +0 -0
arekit/contrib/networks/input/embedding/matrix.py +29 -0
arekit/contrib/networks/input/embedding/offsets.py +55 -0
arekit/contrib/networks/input/formatters/__init__.py +0 -0
arekit/contrib/networks/input/formatters/pos_mapper.py +22 -0
arekit/contrib/networks/input/providers/__init__.py +0 -0
arekit/contrib/networks/input/providers/sample.py +129 -0
arekit/contrib/networks/input/providers/term_connotation.py +23 -0
arekit/contrib/networks/input/providers/text.py +24 -0
arekit/contrib/networks/input/rows_parser.py +47 -0
arekit/contrib/networks/input/term_types.py +13 -0
arekit/contrib/networks/input/terms_mapping.py +60 -0
arekit/contrib/networks/vectorizer.py +6 -0
arekit/contrib/prompt/__init__.py +0 -0
arekit/contrib/prompt/sample.py +61 -0
arekit/contrib/source/__init__.py +0 -0
arekit/contrib/source/brat/__init__.py +0 -0
arekit/contrib/source/brat/annot.py +84 -0
arekit/contrib/source/brat/doc.py +28 -0
arekit/contrib/source/brat/entities/__init__.py +0 -0
arekit/contrib/source/brat/entities/compound.py +13 -0
arekit/contrib/source/brat/entities/entity.py +42 -0
arekit/contrib/source/brat/entities/parser.py +53 -0
arekit/contrib/source/brat/opinions/__init__.py +0 -0
arekit/contrib/source/brat/opinions/converter.py +19 -0
arekit/contrib/source/brat/relation.py +32 -0
arekit/contrib/source/brat/sentence.py +69 -0
arekit/contrib/source/brat/sentences_reader.py +128 -0
arekit/contrib/source/download.py +41 -0
arekit/contrib/source/nerel/__init__.py +0 -0
arekit/contrib/source/nerel/entities.py +55 -0
arekit/contrib/source/nerel/folding/__init__.py +0 -0
arekit/contrib/source/nerel/folding/fixed.py +74 -0
arekit/contrib/source/nerel/io_utils.py +62 -0
arekit/contrib/source/nerel/labels.py +241 -0
arekit/contrib/source/nerel/reader.py +46 -0
arekit/contrib/source/nerel/utils.py +24 -0
arekit/contrib/source/nerel/versions.py +12 -0
arekit/contrib/source/nerelbio/__init__.py +0 -0
arekit/contrib/source/nerelbio/io_utils.py +62 -0
arekit/contrib/source/nerelbio/labels.py +265 -0
arekit/contrib/source/nerelbio/reader.py +8 -0
arekit/contrib/source/nerelbio/versions.py +8 -0
arekit/contrib/source/ruattitudes/__init__.py +0 -0
arekit/contrib/source/ruattitudes/collection.py +36 -0
arekit/contrib/source/ruattitudes/doc.py +51 -0
arekit/contrib/source/ruattitudes/doc_brat.py +44 -0
arekit/contrib/source/ruattitudes/entity/__init__.py +0 -0
arekit/contrib/source/ruattitudes/entity/parser.py +7 -0
arekit/contrib/source/ruattitudes/io_utils.py +56 -0
arekit/contrib/source/ruattitudes/labels_fmt.py +12 -0
arekit/contrib/source/ruattitudes/opinions/__init__.py +0 -0
arekit/contrib/source/ruattitudes/opinions/base.py +28 -0
arekit/contrib/source/ruattitudes/opinions/converter.py +37 -0
arekit/contrib/source/ruattitudes/reader.py +268 -0
arekit/contrib/source/ruattitudes/sentence.py +73 -0
arekit/contrib/source/ruattitudes/synonyms.py +17 -0
arekit/contrib/source/ruattitudes/text_object.py +59 -0
arekit/contrib/source/rusentiframes/__init__.py +0 -0
arekit/contrib/source/rusentiframes/collection.py +157 -0
arekit/contrib/source/rusentiframes/effect.py +24 -0
arekit/contrib/source/rusentiframes/io_utils.py +19 -0
arekit/contrib/source/rusentiframes/labels_fmt.py +22 -0
arekit/contrib/source/rusentiframes/polarity.py +35 -0
arekit/contrib/source/rusentiframes/role.py +15 -0
arekit/contrib/source/rusentiframes/state.py +24 -0
arekit/contrib/source/rusentiframes/types.py +42 -0
arekit/contrib/source/rusentiframes/value.py +2 -0
arekit/contrib/source/rusentrel/__init__.py +0 -0
arekit/contrib/source/rusentrel/const.py +3 -0
arekit/contrib/source/rusentrel/docs_reader.py +51 -0
arekit/contrib/source/rusentrel/entities.py +26 -0
arekit/contrib/source/rusentrel/io_utils.py +125 -0
arekit/contrib/source/rusentrel/labels_fmt.py +12 -0
arekit/contrib/source/rusentrel/opinions/__init__.py +0 -0
arekit/contrib/source/rusentrel/opinions/collection.py +30 -0
arekit/contrib/source/rusentrel/opinions/converter.py +40 -0
arekit/contrib/source/rusentrel/opinions/provider.py +54 -0
arekit/contrib/source/rusentrel/opinions/writer.py +42 -0
arekit/contrib/source/rusentrel/synonyms.py +17 -0
arekit/contrib/source/sentinerel/__init__.py +0 -0
arekit/contrib/source/sentinerel/entities.py +52 -0
arekit/contrib/source/sentinerel/folding/__init__.py +0 -0
arekit/contrib/source/sentinerel/folding/factory.py +31 -0
arekit/contrib/source/sentinerel/folding/fixed.py +70 -0
arekit/contrib/source/sentinerel/io_utils.py +87 -0
arekit/contrib/source/sentinerel/labels.py +53 -0
arekit/contrib/source/sentinerel/labels_scaler.py +30 -0
arekit/contrib/source/sentinerel/reader.py +42 -0
arekit/contrib/source/synonyms/__init__.py +0 -0
arekit/contrib/source/synonyms/utils.py +19 -0
arekit/contrib/source/zip_utils.py +47 -0
arekit/contrib/utils/__init__.py +0 -0
arekit/contrib/utils/bert/__init__.py +0 -0
arekit/contrib/utils/bert/samplers.py +17 -0
arekit/contrib/utils/connotations/__init__.py +0 -0
arekit/contrib/utils/connotations/rusentiframes_sentiment.py +23 -0
arekit/contrib/utils/data/__init__.py +0 -0
arekit/contrib/utils/data/contents/__init__.py +0 -0
arekit/contrib/utils/data/contents/opinions.py +37 -0
arekit/contrib/utils/data/doc_provider/__init__.py +0 -0
arekit/contrib/utils/data/doc_provider/dict_based.py +13 -0
arekit/contrib/utils/data/doc_provider/dir_based.py +53 -0
arekit/contrib/utils/data/readers/__init__.py +0 -0
arekit/contrib/utils/data/readers/base.py +7 -0
arekit/contrib/utils/data/readers/csv_pd.py +38 -0
arekit/contrib/utils/data/readers/jsonl.py +15 -0
arekit/contrib/utils/data/service/__init__.py +0 -0
arekit/contrib/utils/data/service/balance.py +50 -0
arekit/contrib/utils/data/storages/__init__.py +0 -0
arekit/contrib/utils/data/storages/jsonl_based.py +18 -0
arekit/contrib/utils/data/storages/pandas_based.py +123 -0
arekit/contrib/utils/data/storages/row_cache.py +48 -0
arekit/contrib/utils/data/writers/__init__.py +0 -0
arekit/contrib/utils/data/writers/base.py +27 -0
arekit/contrib/utils/data/writers/csv_native.py +63 -0
arekit/contrib/utils/data/writers/csv_pd.py +40 -0
arekit/contrib/utils/data/writers/json_opennre.py +132 -0
arekit/contrib/utils/data/writers/sqlite_native.py +110 -0
arekit/contrib/utils/download.py +77 -0
arekit/contrib/utils/embeddings/__init__.py +0 -0
arekit/contrib/utils/embeddings/rusvectores.py +58 -0
arekit/contrib/utils/embeddings/tokens.py +30 -0
arekit/contrib/utils/entities/__init__.py +0 -0
arekit/contrib/utils/entities/filter.py +7 -0
arekit/contrib/utils/entities/formatters/__init__.py +0 -0
arekit/contrib/utils/entities/formatters/str_display.py +11 -0
arekit/contrib/utils/entities/formatters/str_simple_sharp_prefixed_fmt.py +15 -0
arekit/contrib/utils/io_utils/__init__.py +0 -0
arekit/contrib/utils/io_utils/embedding.py +72 -0
arekit/contrib/utils/io_utils/opinions.py +37 -0
arekit/contrib/utils/io_utils/samples.py +79 -0
arekit/contrib/utils/io_utils/utils.py +39 -0
arekit/contrib/utils/lexicons/__init__.py +0 -0
arekit/contrib/utils/lexicons/lexicon.py +41 -0
arekit/contrib/utils/lexicons/relation.py +42 -0
arekit/contrib/utils/lexicons/rusentilex.py +37 -0
arekit/contrib/utils/nn/__init__.py +0 -0
arekit/contrib/utils/nn/rows.py +83 -0
arekit/contrib/utils/np_utils/__init__.py +0 -0
arekit/contrib/utils/np_utils/embedding.py +22 -0
arekit/contrib/utils/np_utils/npz_utils.py +13 -0
arekit/contrib/utils/np_utils/vocab.py +20 -0
arekit/contrib/utils/pipelines/__init__.py +0 -0
arekit/contrib/utils/pipelines/items/__init__.py +0 -0
arekit/contrib/utils/pipelines/items/sampling/__init__.py +0 -0
arekit/contrib/utils/pipelines/items/sampling/base.py +99 -0
arekit/contrib/utils/pipelines/items/sampling/networks.py +54 -0
arekit/contrib/utils/pipelines/items/text/__init__.py +0 -0
arekit/contrib/utils/pipelines/items/text/entities_default.py +23 -0
arekit/contrib/utils/pipelines/items/text/frames.py +86 -0
arekit/contrib/utils/pipelines/items/text/frames_lemmatized.py +36 -0
arekit/contrib/utils/pipelines/items/text/frames_negation.py +32 -0
arekit/contrib/utils/pipelines/items/text/terms_splitter.py +10 -0
arekit/contrib/utils/pipelines/items/text/tokenizer.py +107 -0
arekit/contrib/utils/pipelines/items/text/translator.py +135 -0
arekit/contrib/utils/pipelines/opinion_collections.py +85 -0
arekit/contrib/utils/pipelines/sources/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel/doc_provider.py +27 -0
arekit/contrib/utils/pipelines/sources/nerel/extract_text_relations.py +65 -0
arekit/contrib/utils/pipelines/sources/nerel/labels_fmt.py +60 -0
arekit/contrib/utils/pipelines/sources/nerel_bio/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel_bio/doc_provider.py +29 -0
arekit/contrib/utils/pipelines/sources/nerel_bio/extrat_text_relations.py +64 -0
arekit/contrib/utils/pipelines/sources/nerel_bio/labels_fmt.py +79 -0
arekit/contrib/utils/pipelines/sources/ruattitudes/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/ruattitudes/doc_provider.py +56 -0
arekit/contrib/utils/pipelines/sources/ruattitudes/entity_filter.py +20 -0
arekit/contrib/utils/pipelines/sources/ruattitudes/extract_text_opinions.py +65 -0
arekit/contrib/utils/pipelines/sources/rusentrel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/rusentrel/doc_provider.py +21 -0
arekit/contrib/utils/pipelines/sources/rusentrel/extract_text_opinions.py +107 -0
arekit/contrib/utils/pipelines/sources/sentinerel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/sentinerel/doc_provider.py +29 -0
arekit/contrib/utils/pipelines/sources/sentinerel/entity_filter.py +62 -0
arekit/contrib/utils/pipelines/sources/sentinerel/extract_text_opinions.py +180 -0
arekit/contrib/utils/pipelines/sources/sentinerel/labels_fmt.py +50 -0
arekit/contrib/utils/pipelines/text_opinion/__init__.py +0 -0
arekit/contrib/utils/pipelines/text_opinion/annot/__init__.py +0 -0
arekit/contrib/utils/pipelines/text_opinion/annot/algo_based.py +34 -0
arekit/contrib/utils/pipelines/text_opinion/annot/predefined.py +88 -0
arekit/contrib/utils/pipelines/text_opinion/extraction.py +93 -0
arekit/contrib/utils/pipelines/text_opinion/filters/__init__.py +0 -0
arekit/contrib/utils/pipelines/text_opinion/filters/base.py +4 -0
arekit/contrib/utils/pipelines/text_opinion/filters/distance_based.py +16 -0
arekit/contrib/utils/pipelines/text_opinion/filters/entity_based.py +29 -0
arekit/contrib/utils/pipelines/text_opinion/filters/limitation.py +26 -0
arekit/contrib/utils/processing/__init__.py +0 -0
arekit/contrib/utils/processing/languages/__init__.py +0 -0
arekit/contrib/utils/processing/languages/mods.py +12 -0
arekit/contrib/utils/processing/languages/pos.py +23 -0
arekit/contrib/utils/processing/languages/ru/__init__.py +0 -0
arekit/contrib/utils/processing/languages/ru/cases.py +78 -0
arekit/contrib/utils/processing/languages/ru/constants.py +6 -0
arekit/contrib/utils/processing/languages/ru/mods.py +13 -0
arekit/contrib/utils/processing/languages/ru/number.py +23 -0
arekit/contrib/utils/processing/languages/ru/pos_service.py +36 -0
arekit/contrib/utils/processing/lemmatization/__init__.py +0 -0
arekit/contrib/utils/processing/lemmatization/mystem.py +51 -0
arekit/contrib/utils/processing/pos/__init__.py +0 -0
arekit/contrib/utils/processing/pos/base.py +12 -0
arekit/contrib/utils/processing/pos/mystem_wrap.py +134 -0
arekit/contrib/utils/processing/pos/russian.py +10 -0
arekit/contrib/utils/processing/text/__init__.py +0 -0
arekit/contrib/utils/processing/text/tokens.py +127 -0
arekit/contrib/utils/resources.py +25 -0
arekit/contrib/utils/serializer.py +43 -0
arekit/contrib/utils/sources/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/text_opinion/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/text_opinion/prof_per_org_filter.py +63 -0
arekit/contrib/utils/synonyms/__init__.py +0 -0
arekit/contrib/utils/synonyms/simple.py +15 -0
arekit/contrib/utils/synonyms/stemmer_based.py +38 -0
arekit/contrib/utils/vectorizers/__init__.py +0 -0
arekit/contrib/utils/vectorizers/bpe.py +93 -0
arekit/contrib/utils/vectorizers/random_norm.py +39 -0
arekit/download_data.py +11 -0
arekit-0.24.0.dist-info/LICENSE +21 -0
arekit-0.24.0.dist-info/METADATA +23 -0
arekit-0.24.0.dist-info/RECORD +374 -0
arekit-0.24.0.dist-info/WHEEL +5 -0
arekit-0.24.0.dist-info/top_level.txt +1 -0

arekit/contrib/utils/embeddings/tokens.py ADDED Viewed

@@ -0,0 +1,30 @@
+import numpy as np
+from arekit.contrib.networks.embedding import Embedding
+from arekit.contrib.utils.processing.text.tokens import Tokens
+class TokenEmbedding(Embedding):
+    """ Embedding vectors for text punctuation, based on Tokens in parsed text
+    """
+    @classmethod
+    def from_supported_tokens(cls, vector_size, random_vector_func):
+        """
+        random_vector_func: func
+            function with parameters (vector_size, seed)
+        """
+        assert(isinstance(vector_size, int))
+        assert(callable(random_vector_func))
+        matrix = []
+        tokens_list = list(Tokens.iter_supported_tokens())
+        for token_index, _ in enumerate(tokens_list):
+            vector = random_vector_func(vector_size, token_index)
+            matrix.append(vector)
+        return cls(matrix=np.array(matrix),
+                   words=tokens_list)

arekit/contrib/utils/entities/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/entities/filter.py ADDED Viewed

@@ -0,0 +1,7 @@
+class EntityFilter(object):
+    def __init__(self):
+        pass
+    def is_ignored(self, entity, e_type):
+        raise NotImplementedError()

arekit/contrib/utils/entities/formatters/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/entities/formatters/str_display.py ADDED Viewed

@@ -0,0 +1,11 @@
+from arekit.common.entities.base import Entity
+from arekit.common.entities.str_fmt import StringEntitiesFormatter
+class StringEntitiesDisplayValueFormatter(StringEntitiesFormatter):
+    """ Provides the contents of the DisplayValue property.
+    """
+    def to_string(self, original_value, entity_type):
+        assert(isinstance(original_value, Entity))
+        return original_value.DisplayValue

arekit/contrib/utils/entities/formatters/str_simple_sharp_prefixed_fmt.py ADDED Viewed

@@ -0,0 +1,15 @@
+from arekit.common.entities.str_fmt import StringEntitiesFormatter
+from arekit.common.entities.types import OpinionEntityType
+class SharpPrefixedEntitiesSimpleFormatter(StringEntitiesFormatter):
+    def to_string(self, original_value, entity_type):
+        assert(isinstance(entity_type, OpinionEntityType))
+        if (entity_type == OpinionEntityType.Object) or (entity_type == OpinionEntityType.SynonymObject):
+            return "#O"
+        elif (entity_type == OpinionEntityType.Subject) or (entity_type == OpinionEntityType.SynonymSubject):
+            return "#S"
+        elif entity_type == OpinionEntityType.Other:
+            return "#E"

arekit/contrib/utils/io_utils/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/io_utils/embedding.py ADDED Viewed

@@ -0,0 +1,72 @@
+from os.path import join
+from arekit.contrib.networks.embedding_io import BaseEmbeddingIO
+from arekit.contrib.utils.io_utils.utils import check_targets_existence
+from arekit.contrib.utils.np_utils.embedding import NpzEmbeddingHelper
+from arekit.contrib.utils.np_utils.vocab import VocabRepositoryUtils
+class NpEmbeddingIO(BaseEmbeddingIO):
+    """ Npz-based IO utils for embedding and text-based for vocabulary.
+        This format represents a archived version of the numpy math data, i.e. vectors, numbers, etc.
+        Provides additional Input/Output paths generation functions for:
+            - embedding matrix;
+            - embedding vocabulary.
+    """
+    def __init__(self, target_dir, prefix_name="sample"):
+        assert(isinstance(target_dir, str))
+        self.__target_dir = target_dir
+        self.__term_emb_fn_template = "-".join([prefix_name, "term_embedding"])
+        self.__vocab_fn_template = "-".join([prefix_name, "term_embedding"])
+    # region Embedding-related data
+    def save_vocab(self, data):
+        target = self.__get_default_vocab_filepath()
+        return VocabRepositoryUtils.save(data=data, target=target)
+    def load_vocab(self):
+        source = self.___get_vocab_source()
+        return dict(VocabRepositoryUtils.load(source))
+    def save_embedding(self, data):
+        target = self.__get_default_embedding_filepath()
+        NpzEmbeddingHelper.save_embedding(data=data, target=target)
+    def load_embedding(self):
+        source = self.__get_term_embedding_source()
+        return NpzEmbeddingHelper.load_embedding(source)
+    def check_targets_existed(self):
+        targets = [
+            self.__get_default_vocab_filepath(),
+            self.__get_term_embedding_target()
+        ]
+        return check_targets_existence(targets=targets)
+    # endregion
+    # region embedding-related data
+    def ___get_vocab_source(self):
+        """ It is possible to load a predefined embedding from another experiment
+            using the related filepath provided by model_io.
+        """
+        return self.__get_default_vocab_filepath()
+    def __get_term_embedding_target(self):
+        return self.__get_default_embedding_filepath()
+    def __get_term_embedding_source(self):
+        return self.__get_default_embedding_filepath()
+    def __get_default_vocab_filepath(self):
+        return join(self.__target_dir, self.__vocab_fn_template)
+    def __get_default_embedding_filepath(self):
+        return join(self.__target_dir, self.__term_emb_fn_template)
+    # endregion

arekit/contrib/utils/io_utils/opinions.py ADDED Viewed

@@ -0,0 +1,37 @@
+from os.path import join
+from arekit.contrib.utils.data.readers.base import BaseReader
+from arekit.common.experiment.api.base_samples_io import BaseSamplesIO
+from arekit.contrib.utils.io_utils.utils import filename_template
+class OpinionsIO(BaseSamplesIO):
+    def __init__(self, target_dir, reader=None, prefix="opinion"):
+        assert(isinstance(reader, BaseReader))
+        self.__target_dir = target_dir
+        self.__prefix = prefix
+        self.__reader = reader
+        self.__target_extension = reader.extension()
+    @property
+    def Reader(self):
+        return self.__reader
+    def create_target(self, data_type):
+        return self.__get_input_opinions_target(data_type)
+    def __get_input_opinions_target(self, data_type):
+        template = filename_template(data_type=data_type)
+        return self.__get_filepath(out_dir=self.__target_dir,
+                                   template=template,
+                                   prefix=self.__prefix,
+                                   extension=self.__target_extension)
+    @staticmethod
+    def __get_filepath(out_dir, template, prefix, extension):
+        assert(isinstance(template, str))
+        assert(isinstance(prefix, str))
+        assert(isinstance(extension, str))
+        return join(out_dir, "{prefix}-{template}{extension}".format(
+            prefix=prefix, template=template, extension=extension))

arekit/contrib/utils/io_utils/samples.py ADDED Viewed

@@ -0,0 +1,79 @@
+import logging
+from os.path import join
+from arekit.contrib.utils.data.readers.base import BaseReader
+from arekit.common.experiment.api.base_samples_io import BaseSamplesIO
+from arekit.contrib.utils.data.writers.base import BaseWriter
+from arekit.contrib.utils.io_utils.utils import filename_template, check_targets_existence
+logger = logging.getLogger(__name__)
+logging.basicConfig(level=logging.INFO)
+class SamplesIO(BaseSamplesIO):
+    """ Samples default IO utils for samples.
+            Sample is a text part which include pair of attitude participants.
+            This class allows to provide saver and loader for such entries, bubbed as samples.
+            Samples required for machine learning training/inferring.
+    """
+    def __init__(self, target_dir, writer=None, reader=None, prefix="sample"):
+        assert(isinstance(target_dir, str))
+        assert(isinstance(prefix, str))
+        assert(isinstance(writer, BaseWriter) or writer is None)
+        assert(isinstance(reader, BaseReader) or reader is None)
+        self.__target_dir = target_dir
+        self.__prefix = prefix
+        self.__writer = writer
+        self.__reader = reader
+        self.__target_extension = None
+        if writer is not None:
+            self.__target_extension = writer.extension()
+        elif reader is not None:
+            self.__target_extension = reader.extension()
+    # region public methods
+    @property
+    def Prefix(self):
+        return self.__prefix
+    @property
+    def Reader(self):
+        return self.__reader
+    @property
+    def Writer(self):
+        return self.__writer
+    def create_target(self, data_type):
+        return self.__get_input_sample_target(data_type)
+    def check_targets_existed(self, data_types_iter):
+        for data_type in data_types_iter:
+            targets = [
+                self.__get_input_sample_target(data_type=data_type),
+            ]
+            if not check_targets_existence(targets=targets):
+                return False
+        return True
+    # endregion
+    def __get_input_sample_target(self, data_type):
+        template = filename_template(data_type=data_type)
+        return self.__get_filepath(out_dir=self.__target_dir,
+                                   template=template,
+                                   prefix=self.__prefix,
+                                   extension=self.__target_extension)
+    @staticmethod
+    def __get_filepath(out_dir, template, prefix, extension):
+        assert(isinstance(template, str))
+        assert(isinstance(prefix, str))
+        assert(isinstance(extension, str))
+        return join(out_dir, "{prefix}-{template}{extension}".format(
+            prefix=prefix, template=template, extension=extension))

arekit/contrib/utils/io_utils/utils.py ADDED Viewed

@@ -0,0 +1,39 @@
+from collections.abc import Iterable
+import logging
+from os.path import join, exists
+from arekit.common.experiment.data_type import DataType
+logger = logging.getLogger(__name__)
+logging.basicConfig(level=logging.INFO)
+def join_dir_with_subfolder_name(subfolder_name, dir):
+    """ Returns subfolder in in directory
+    """
+    assert(isinstance(subfolder_name, str))
+    assert(isinstance(dir, str))
+    target_dir = join(dir, "{}/".format(subfolder_name))
+    return target_dir
+def filename_template(data_type):
+    assert(isinstance(data_type, DataType))
+    return "{data_type}-0".format(data_type=data_type.name.lower())
+def check_targets_existence(targets):
+    assert (isinstance(targets, Iterable))
+    result = True
+    for filepath in targets:
+        assert(isinstance(filepath, str))
+        existed = exists(filepath)
+        logger.info("Check existence [{is_existed}]: {fp}".format(is_existed=existed, fp=filepath))
+        if not existed:
+            result = False
+    return result

arekit/contrib/utils/lexicons/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/lexicons/lexicon.py ADDED Viewed

@@ -0,0 +1,41 @@
+from arekit.contrib.utils.data.readers.csv_pd import PandasCsvReader
+class Lexicon(object):
+    @property
+    def ToneKey(self):
+        return 'tone'
+    @property
+    def TermKey(self):
+        return 'term'
+    def __init__(self, dataframe):
+        self.__lexicon_df = dataframe
+    @classmethod
+    def load(cls, filepath, separator=','):
+        reader = PandasCsvReader(compression=None, sep=separator)
+        return cls(reader.read(filepath))
+    def get_score(self, lemma):
+        assert(type(lemma) == str)
+        s = self.__lexicon_df[lemma.encode('utf-8') == self.__lexicon_df[self.TermKey]]
+        return s[self.ToneKey].values[0] if len(s) > 0 else 0
+    def has_term(self, term):
+        assert(type(term) == str)
+        s = self.__lexicon_df[term.encode('utf-8') == self.__lexicon_df[self.TermKey]]
+        return len(s) > 0
+    def __iter__(self):
+        for term in self.__lexicon_df[self.TermKey]:
+            yield term
+    def __contains__(self, item):
+        assert(isinstance(item, str))
+        result = self.__lexicon_df[self.__lexicon_df[self.TermKey] == item.encode('utf-8')]
+        return len(result) > 0

arekit/contrib/utils/lexicons/relation.py ADDED Viewed

@@ -0,0 +1,42 @@
+from arekit.contrib.utils.data.readers.csv_pd import PandasCsvReader
+class RelationLexicon(object):
+    def __init__(self, dataframe):
+        self.__check(dataframe)
+        self.__lexicon = dataframe
+    @classmethod
+    def load(cls, filepath, separator=','):
+        reader = PandasCsvReader(compression=None, sep=separator)
+        return cls(reader.read(filepath))
+    @staticmethod
+    def __check(df):
+        for index in df.index:
+            relation = df.loc[index][0]
+            assert(len(relation.split('<->')) == 2)
+    @staticmethod
+    def __create_key(l, r):
+        assert(type(l) == str)
+        assert(type(r) == str)
+        return '<->'.join([l, r])
+    def get_score(self, left, right):
+        assert(type(left) == str)
+        assert(type(right) == str)
+        lr_key = self.__create_key(left, right)
+        rl_key = self.__create_key(right, left)
+        lr_score = self.__lexicon[lr_key == self.__lexicon['relation']]
+        rl_score = self.__lexicon[rl_key == self.__lexicon['relation']]
+        if len(lr_score) > 0:
+            return lr_score['tone'].values[0]
+        if len(rl_score) > 0:
+            return rl_score['tone'].values[0]
+        return None

arekit/contrib/utils/lexicons/rusentilex.py ADDED Viewed

@@ -0,0 +1,37 @@
+import importlib
+import zipfile
+from os import path
+from arekit.contrib.source.zip_utils import ZipArchiveUtils
+from arekit.contrib.utils.lexicons.lexicon import Lexicon
+class RuSentiLexLexicon(Lexicon):
+    """
+    RuSentiLex Lexicon wrapper for csv file stored in /data folder.
+    """
+    __INNER_PATH = 'rusentilex.csv'
+    @property
+    def ToneKey(self):
+        return 'tone'
+    @property
+    def TermKey(self):
+        return 'term'
+    @staticmethod
+    def __get_archive_filepath():
+        return path.join(ZipArchiveUtils.get_data_root(), "rusentilex.zip")
+    @classmethod
+    def from_zip(cls):
+        """ Using Pandas API to read lexicon.
+        """
+        pd = importlib.import_module("pandas")
+        with zipfile.ZipFile(cls.__get_archive_filepath(), "r") as zip_ref:
+            with zip_ref.open(cls.__INNER_PATH, mode='r') as csv_file:
+                df = pd.read_csv(csv_file, sep=',')
+                return cls(df)

arekit/contrib/utils/nn/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/nn/rows.py ADDED Viewed

@@ -0,0 +1,83 @@
+import collections
+from arekit.common.data.input.providers.text.single import BaseSingleTextProvider
+from arekit.common.data.input.terms_mapper import OpinionContainingTextTermsMapper
+from arekit.common.entities.str_fmt import StringEntitiesFormatter
+from arekit.contrib.networks.input.ctx_serialization import NetworkSerializationContext
+from arekit.contrib.networks.input.formatters.pos_mapper import PosTermsMapper
+from arekit.contrib.networks.input.providers.sample import NetworkSampleRowProvider
+from arekit.contrib.networks.input.providers.text import NetworkSingleTextProvider
+from arekit.contrib.networks.input.term_types import TermTypes
+from arekit.contrib.networks.input.terms_mapping import VectorizedNetworkTermMapping
+from arekit.contrib.utils.processing.lemmatization.mystem import MystemWrapper
+from arekit.contrib.utils.resources import load_embedding_news_mystem_skipgram_1000_20_2015
+from arekit.contrib.utils.vectorizers.bpe import BPEVectorizer
+from arekit.contrib.utils.vectorizers.random_norm import RandomNormalVectorizer
+def __add_term_embedding(dict_data, term, emb_vector):
+    if term in dict_data:
+        return
+    dict_data[term] = emb_vector
+def create_rows_provider(str_entity_fmt, ctx, vectorizers="default"):
+    """ This method is corresponds to the default initialization of
+        the rows provider for data sampling pipeline.
+        vectorizers:
+            NONE: no need to vectorize, just provide text (using SingleTextProvider).
+            DEFAULT: we consider an application of stemmer for Russian Language.
+            DICT: in which for every type there is an assigned Vectorizer
+                vectorization of term types.
+                {
+                    TermType.Word: Vectorizer,
+                    TermType.Entity: Vectorizer,
+                    ...
+                }
+    """
+    assert(isinstance(str_entity_fmt, StringEntitiesFormatter))
+    assert(isinstance(ctx, NetworkSerializationContext))
+    assert(isinstance(vectorizers, dict) or vectorizers == "default" or vectorizers is None)
+    term_embedding_pairs = None
+    if vectorizers is not None:
+        if vectorizers == "default":
+            # initialize default vectorizer for Russian language.
+            embedding = load_embedding_news_mystem_skipgram_1000_20_2015(stemmer=MystemWrapper(), auto_download=True)
+            bpe_vectorizer = BPEVectorizer(embedding=embedding, max_part_size=3)
+            norm_vectorizer = RandomNormalVectorizer(vector_size=embedding.VectorSize,
+                                                     token_offset=12345)
+            vectorizers = {
+                TermTypes.WORD: bpe_vectorizer,
+                TermTypes.ENTITY: bpe_vectorizer,
+                TermTypes.FRAME: bpe_vectorizer,
+                TermTypes.TOKEN: norm_vectorizer
+            }
+        # Setup term-embedding pairs collection instance.
+        term_embedding_pairs = collections.OrderedDict()
+        # Use text provider with vectorizers.
+        text_provider = NetworkSingleTextProvider(
+            text_terms_mapper=VectorizedNetworkTermMapping(
+                vectorizers=vectorizers,
+                string_entities_formatter=str_entity_fmt),
+            pair_handling_func=lambda pair: __add_term_embedding(
+                dict_data=term_embedding_pairs,
+                term=pair[0],
+                emb_vector=pair[1]))
+    else:
+        # Create text provider which without vectorizers.
+        text_provider = BaseSingleTextProvider(
+            text_terms_mapper=OpinionContainingTextTermsMapper(str_entity_fmt))
+    return NetworkSampleRowProvider(
+        label_provider=ctx.LabelProvider,
+        text_provider=text_provider,
+        frames_connotation_provider=ctx.FramesConnotationProvider,
+        frame_role_label_scaler=ctx.FrameRolesLabelScaler,
+        pos_terms_mapper=PosTermsMapper(ctx.PosTagger) if ctx.PosTagger is not None else None,
+        term_embedding_pairs=term_embedding_pairs)

arekit/contrib/utils/np_utils/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/np_utils/embedding.py ADDED Viewed

@@ -0,0 +1,22 @@
+import logging
+from arekit.contrib.utils.np_utils.npz_utils import NpzRepositoryUtils
+logger = logging.getLogger(__name__)
+logging.basicConfig(level=logging.INFO)
+class NpzEmbeddingHelper:
+    @staticmethod
+    def save_embedding(data, target):
+        NpzRepositoryUtils.save(data=data, target=target)
+        logger.info("Saving embedding [size={shape}]: {filepath}".format(shape=data.shape,
+                                                                         filepath=target))
+    @staticmethod
+    def load_embedding(source):
+        embedding = NpzRepositoryUtils.load(source)
+        logger.info("Embedding read [size={size}]: {filepath}".format(size=embedding.shape,
+                                                                      filepath=source))
+        return embedding

arekit/contrib/utils/np_utils/npz_utils.py ADDED Viewed

@@ -0,0 +1,13 @@
+import numpy as np
+class NpzRepositoryUtils(object):
+    @staticmethod
+    def save(data, target):
+        np.savez(target, data)
+    @staticmethod
+    def load(source):
+        data = np.load(source)
+        return data['arr_0']

arekit/contrib/utils/np_utils/vocab.py ADDED Viewed

@@ -0,0 +1,20 @@
+import logging
+import numpy as np
+logger = logging.getLogger(__name__)
+logging.basicConfig(level=logging.INFO)
+class VocabRepositoryUtils(object):
+    @staticmethod
+    def save(data, target):
+        logger.info("Saving vocabulary [size={size}]: {filepath}".format(size=len(data), filepath=target))
+        np.savetxt(target, data, fmt='%s')
+    @staticmethod
+    def load(source):
+        vocab = np.loadtxt(source, dtype=str, comments=None)
+        logger.info("Loading vocabulary [size={size}]: {filepath}".format(size=len(vocab), filepath=source))
+        return vocab

arekit/contrib/utils/pipelines/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/pipelines/items/__init__.py ADDED Viewed

File without changes

arekit/contrib/utils/pipelines/items/sampling/__init__.py ADDED Viewed

File without changes