PyPI - arekit - Versions diffs - 0.23.1__py3-none-any.whl → 0.25.0__py3-none-any.whl - Mend

arekit 0.23.1py3-none-any.whl → 0.25.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (267) hide show

arekit/common/context/terms_mapper.py +2 -2
arekit/common/data/const.py +5 -4
arekit/common/{experiment/api/ops_doc.py → data/doc_provider.py} +1 -1
arekit/common/data/input/providers/columns/sample.py +6 -1
arekit/common/data/input/providers/instances/base.py +1 -1
arekit/common/data/input/providers/rows/base.py +36 -13
arekit/common/data/input/providers/rows/samples.py +57 -55
arekit/common/data/input/providers/sample/cropped.py +2 -2
arekit/common/data/input/sample.py +1 -1
arekit/common/data/rows_fmt.py +82 -0
arekit/common/data/rows_parser.py +43 -0
arekit/common/data/storages/base.py +23 -18
arekit/common/data/views/samples.py +2 -8
arekit/common/{news → docs}/base.py +2 -2
arekit/common/{news → docs}/entities_grouping.py +2 -1
arekit/common/{news → docs}/entity.py +2 -1
arekit/common/{news → docs}/parsed/base.py +5 -5
arekit/common/docs/parsed/providers/base.py +68 -0
arekit/common/{news → docs}/parsed/providers/base_pairs.py +2 -2
arekit/common/{news → docs}/parsed/providers/entity_service.py +27 -22
arekit/common/{news → docs}/parsed/providers/opinion_pairs.py +2 -2
arekit/common/{news → docs}/parsed/providers/text_opinion_pairs.py +6 -6
arekit/common/docs/parsed/service.py +31 -0
arekit/common/docs/parser.py +66 -0
arekit/common/{news → docs}/sentence.py +1 -1
arekit/common/entities/base.py +11 -2
arekit/common/experiment/api/base_samples_io.py +1 -1
arekit/common/frames/variants/collection.py +2 -2
arekit/common/linkage/base.py +2 -2
arekit/common/linkage/meta.py +23 -0
arekit/common/linkage/opinions.py +1 -1
arekit/common/linkage/text_opinions.py +2 -2
arekit/common/opinions/annot/algo/base.py +1 -1
arekit/common/opinions/annot/algo/pair_based.py +15 -13
arekit/common/opinions/annot/algo/predefined.py +4 -4
arekit/common/opinions/annot/algo_based.py +5 -5
arekit/common/opinions/annot/base.py +3 -3
arekit/common/opinions/base.py +7 -7
arekit/common/opinions/collection.py +3 -3
arekit/common/pipeline/base.py +12 -16
arekit/common/pipeline/batching.py +28 -0
arekit/common/pipeline/context.py +5 -1
arekit/common/pipeline/items/base.py +38 -1
arekit/common/pipeline/items/flatten.py +5 -1
arekit/common/pipeline/items/handle.py +2 -1
arekit/common/pipeline/items/iter.py +2 -1
arekit/common/pipeline/items/map.py +2 -1
arekit/common/pipeline/items/map_nested.py +4 -0
arekit/common/pipeline/utils.py +32 -0
arekit/common/service/sqlite.py +36 -0
arekit/common/synonyms/base.py +2 -2
arekit/common/text/{partitioning/str.py → partitioning.py} +16 -11
arekit/common/text_opinions/base.py +11 -11
arekit/common/utils.py +33 -46
arekit/contrib/networks/embedding.py +3 -3
arekit/contrib/networks/embedding_io.py +5 -5
arekit/contrib/networks/input/const.py +0 -2
arekit/contrib/networks/input/providers/sample.py +15 -29
arekit/contrib/networks/input/rows_parser.py +47 -134
arekit/contrib/prompt/sample.py +18 -16
arekit/contrib/utils/data/contents/opinions.py +17 -5
arekit/contrib/utils/data/doc_provider/dict_based.py +13 -0
arekit/contrib/utils/data/{doc_ops → doc_provider}/dir_based.py +7 -7
arekit/contrib/utils/data/readers/base.py +3 -0
arekit/contrib/utils/data/readers/csv_pd.py +10 -4
arekit/contrib/utils/data/readers/jsonl.py +3 -0
arekit/contrib/utils/data/readers/sqlite.py +14 -0
arekit/contrib/utils/data/service/balance.py +0 -1
arekit/contrib/utils/data/storages/pandas_based.py +3 -5
arekit/contrib/utils/data/storages/row_cache.py +18 -6
arekit/contrib/utils/data/storages/sqlite_based.py +17 -0
arekit/contrib/utils/data/writers/base.py +5 -0
arekit/contrib/utils/data/writers/csv_native.py +3 -0
arekit/contrib/utils/data/writers/csv_pd.py +3 -0
arekit/contrib/utils/data/writers/json_opennre.py +31 -13
arekit/contrib/utils/data/writers/sqlite_native.py +114 -0
arekit/contrib/utils/io_utils/embedding.py +25 -33
arekit/contrib/utils/io_utils/utils.py +3 -24
arekit/contrib/utils/pipelines/items/sampling/base.py +31 -26
arekit/contrib/utils/pipelines/items/sampling/networks.py +7 -10
arekit/contrib/utils/pipelines/items/text/entities_default.py +2 -2
arekit/contrib/utils/pipelines/items/text/frames.py +2 -3
arekit/contrib/utils/pipelines/items/text/frames_lemmatized.py +3 -3
arekit/contrib/utils/pipelines/items/text/frames_negation.py +2 -1
arekit/contrib/utils/pipelines/items/text/tokenizer.py +3 -5
arekit/contrib/utils/pipelines/items/text/translator.py +136 -0
arekit/contrib/utils/pipelines/opinion_collections.py +5 -5
arekit/contrib/utils/pipelines/text_opinion/annot/algo_based.py +7 -7
arekit/contrib/utils/pipelines/text_opinion/extraction.py +34 -22
arekit/contrib/utils/pipelines/text_opinion/filters/base.py +1 -1
arekit/contrib/utils/pipelines/text_opinion/filters/distance_based.py +1 -1
arekit/contrib/utils/pipelines/text_opinion/filters/entity_based.py +3 -3
arekit/contrib/utils/pipelines/text_opinion/filters/limitation.py +4 -4
arekit/contrib/utils/serializer.py +4 -23
arekit-0.25.0.data/data/logo.png +0 -0
arekit-0.25.0.dist-info/METADATA +82 -0
arekit-0.25.0.dist-info/RECORD +259 -0
{arekit-0.23.1.dist-info → arekit-0.25.0.dist-info}/WHEEL +1 -1
arekit/common/data/row_ids/base.py +0 -79
arekit/common/data/row_ids/binary.py +0 -38
arekit/common/data/row_ids/multiple.py +0 -14
arekit/common/folding/base.py +0 -36
arekit/common/folding/fixed.py +0 -42
arekit/common/folding/nofold.py +0 -15
arekit/common/folding/united.py +0 -46
arekit/common/news/objects_parser.py +0 -37
arekit/common/news/parsed/providers/base.py +0 -48
arekit/common/news/parsed/service.py +0 -31
arekit/common/news/parser.py +0 -34
arekit/common/text/parser.py +0 -12
arekit/common/text/partitioning/__init__.py +0 -0
arekit/common/text/partitioning/base.py +0 -4
arekit/common/text/partitioning/terms.py +0 -35
arekit/contrib/source/__init__.py +0 -0
arekit/contrib/source/brat/__init__.py +0 -0
arekit/contrib/source/brat/annot.py +0 -83
arekit/contrib/source/brat/entities/__init__.py +0 -0
arekit/contrib/source/brat/entities/compound.py +0 -33
arekit/contrib/source/brat/entities/entity.py +0 -42
arekit/contrib/source/brat/entities/parser.py +0 -53
arekit/contrib/source/brat/news.py +0 -28
arekit/contrib/source/brat/opinions/__init__.py +0 -0
arekit/contrib/source/brat/opinions/converter.py +0 -19
arekit/contrib/source/brat/relation.py +0 -32
arekit/contrib/source/brat/sentence.py +0 -69
arekit/contrib/source/brat/sentences_reader.py +0 -128
arekit/contrib/source/download.py +0 -41
arekit/contrib/source/nerel/__init__.py +0 -0
arekit/contrib/source/nerel/entities.py +0 -55
arekit/contrib/source/nerel/folding/__init__.py +0 -0
arekit/contrib/source/nerel/folding/fixed.py +0 -75
arekit/contrib/source/nerel/io_utils.py +0 -62
arekit/contrib/source/nerel/labels.py +0 -241
arekit/contrib/source/nerel/reader.py +0 -46
arekit/contrib/source/nerel/utils.py +0 -24
arekit/contrib/source/nerel/versions.py +0 -12
arekit/contrib/source/nerelbio/__init__.py +0 -0
arekit/contrib/source/nerelbio/io_utils.py +0 -62
arekit/contrib/source/nerelbio/labels.py +0 -265
arekit/contrib/source/nerelbio/reader.py +0 -8
arekit/contrib/source/nerelbio/versions.py +0 -8
arekit/contrib/source/ruattitudes/__init__.py +0 -0
arekit/contrib/source/ruattitudes/collection.py +0 -36
arekit/contrib/source/ruattitudes/entity/__init__.py +0 -0
arekit/contrib/source/ruattitudes/entity/parser.py +0 -7
arekit/contrib/source/ruattitudes/io_utils.py +0 -56
arekit/contrib/source/ruattitudes/labels_fmt.py +0 -12
arekit/contrib/source/ruattitudes/news.py +0 -51
arekit/contrib/source/ruattitudes/news_brat.py +0 -44
arekit/contrib/source/ruattitudes/opinions/__init__.py +0 -0
arekit/contrib/source/ruattitudes/opinions/base.py +0 -28
arekit/contrib/source/ruattitudes/opinions/converter.py +0 -37
arekit/contrib/source/ruattitudes/reader.py +0 -268
arekit/contrib/source/ruattitudes/sentence.py +0 -73
arekit/contrib/source/ruattitudes/synonyms.py +0 -17
arekit/contrib/source/ruattitudes/text_object.py +0 -57
arekit/contrib/source/rusentiframes/__init__.py +0 -0
arekit/contrib/source/rusentiframes/collection.py +0 -157
arekit/contrib/source/rusentiframes/effect.py +0 -24
arekit/contrib/source/rusentiframes/io_utils.py +0 -19
arekit/contrib/source/rusentiframes/labels_fmt.py +0 -22
arekit/contrib/source/rusentiframes/polarity.py +0 -35
arekit/contrib/source/rusentiframes/role.py +0 -15
arekit/contrib/source/rusentiframes/state.py +0 -24
arekit/contrib/source/rusentiframes/types.py +0 -42
arekit/contrib/source/rusentiframes/value.py +0 -2
arekit/contrib/source/rusentrel/__init__.py +0 -0
arekit/contrib/source/rusentrel/const.py +0 -3
arekit/contrib/source/rusentrel/entities.py +0 -26
arekit/contrib/source/rusentrel/io_utils.py +0 -125
arekit/contrib/source/rusentrel/labels_fmt.py +0 -12
arekit/contrib/source/rusentrel/news_reader.py +0 -51
arekit/contrib/source/rusentrel/opinions/__init__.py +0 -0
arekit/contrib/source/rusentrel/opinions/collection.py +0 -30
arekit/contrib/source/rusentrel/opinions/converter.py +0 -40
arekit/contrib/source/rusentrel/opinions/provider.py +0 -54
arekit/contrib/source/rusentrel/opinions/writer.py +0 -42
arekit/contrib/source/rusentrel/synonyms.py +0 -17
arekit/contrib/source/sentinerel/__init__.py +0 -0
arekit/contrib/source/sentinerel/entities.py +0 -52
arekit/contrib/source/sentinerel/folding/__init__.py +0 -0
arekit/contrib/source/sentinerel/folding/factory.py +0 -32
arekit/contrib/source/sentinerel/folding/fixed.py +0 -73
arekit/contrib/source/sentinerel/io_utils.py +0 -87
arekit/contrib/source/sentinerel/labels.py +0 -53
arekit/contrib/source/sentinerel/labels_scaler.py +0 -30
arekit/contrib/source/sentinerel/reader.py +0 -42
arekit/contrib/source/synonyms/__init__.py +0 -0
arekit/contrib/source/synonyms/utils.py +0 -19
arekit/contrib/source/zip_utils.py +0 -47
arekit/contrib/utils/bert/rows.py +0 -0
arekit/contrib/utils/bert/text_b_rus.py +0 -18
arekit/contrib/utils/connotations/__init__.py +0 -0
arekit/contrib/utils/connotations/rusentiframes_sentiment.py +0 -23
arekit/contrib/utils/cv/__init__.py +0 -0
arekit/contrib/utils/cv/doc_stat/__init__.py +0 -0
arekit/contrib/utils/cv/doc_stat/base.py +0 -37
arekit/contrib/utils/cv/doc_stat/sentence.py +0 -12
arekit/contrib/utils/cv/splitters/__init__.py +0 -0
arekit/contrib/utils/cv/splitters/base.py +0 -4
arekit/contrib/utils/cv/splitters/default.py +0 -53
arekit/contrib/utils/cv/splitters/statistical.py +0 -57
arekit/contrib/utils/cv/two_class.py +0 -77
arekit/contrib/utils/data/doc_ops/__init__.py +0 -0
arekit/contrib/utils/data/doc_ops/dict_based.py +0 -13
arekit/contrib/utils/data/ext.py +0 -31
arekit/contrib/utils/data/views/__init__.py +0 -0
arekit/contrib/utils/data/views/linkages/__init__.py +0 -0
arekit/contrib/utils/data/views/linkages/base.py +0 -58
arekit/contrib/utils/data/views/linkages/multilabel.py +0 -48
arekit/contrib/utils/data/views/linkages/utils.py +0 -24
arekit/contrib/utils/data/views/opinions.py +0 -14
arekit/contrib/utils/download.py +0 -78
arekit/contrib/utils/entities/formatters/str_rus_cased_fmt.py +0 -78
arekit/contrib/utils/entities/formatters/str_rus_nocased_fmt.py +0 -15
arekit/contrib/utils/entities/formatters/str_simple_fmt.py +0 -24
arekit/contrib/utils/entities/formatters/str_simple_uppercase_fmt.py +0 -21
arekit/contrib/utils/io_utils/opinions.py +0 -39
arekit/contrib/utils/io_utils/samples.py +0 -78
arekit/contrib/utils/lexicons/__init__.py +0 -0
arekit/contrib/utils/lexicons/lexicon.py +0 -43
arekit/contrib/utils/lexicons/relation.py +0 -45
arekit/contrib/utils/lexicons/rusentilex.py +0 -34
arekit/contrib/utils/nn/__init__.py +0 -0
arekit/contrib/utils/nn/rows.py +0 -83
arekit/contrib/utils/pipelines/items/sampling/bert.py +0 -5
arekit/contrib/utils/pipelines/items/text/terms_splitter.py +0 -10
arekit/contrib/utils/pipelines/items/to_output.py +0 -101
arekit/contrib/utils/pipelines/sources/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel/doc_ops.py +0 -27
arekit/contrib/utils/pipelines/sources/nerel/extract_text_relations.py +0 -59
arekit/contrib/utils/pipelines/sources/nerel/labels_fmt.py +0 -60
arekit/contrib/utils/pipelines/sources/nerel_bio/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/nerel_bio/doc_ops.py +0 -29
arekit/contrib/utils/pipelines/sources/nerel_bio/extrat_text_relations.py +0 -59
arekit/contrib/utils/pipelines/sources/nerel_bio/labels_fmt.py +0 -79
arekit/contrib/utils/pipelines/sources/ruattitudes/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/ruattitudes/doc_ops.py +0 -56
arekit/contrib/utils/pipelines/sources/ruattitudes/entity_filter.py +0 -19
arekit/contrib/utils/pipelines/sources/ruattitudes/extract_text_opinions.py +0 -58
arekit/contrib/utils/pipelines/sources/rusentrel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/rusentrel/doc_ops.py +0 -21
arekit/contrib/utils/pipelines/sources/rusentrel/extract_text_opinions.py +0 -100
arekit/contrib/utils/pipelines/sources/sentinerel/__init__.py +0 -0
arekit/contrib/utils/pipelines/sources/sentinerel/doc_ops.py +0 -29
arekit/contrib/utils/pipelines/sources/sentinerel/entity_filter.py +0 -62
arekit/contrib/utils/pipelines/sources/sentinerel/extract_text_opinions.py +0 -175
arekit/contrib/utils/pipelines/sources/sentinerel/labels_fmt.py +0 -50
arekit/contrib/utils/pipelines/text_opinion/annot/predefined.py +0 -88
arekit/contrib/utils/resources.py +0 -26
arekit/contrib/utils/sources/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/text_opinion/__init__.py +0 -0
arekit/contrib/utils/sources/sentinerel/text_opinion/prof_per_org_filter.py +0 -63
arekit/contrib/utils/utils_folding.py +0 -19
arekit/download_data.py +0 -11
arekit-0.23.1.dist-info/METADATA +0 -23
arekit-0.23.1.dist-info/RECORD +0 -403
/arekit/common/{data/row_ids → docs}/__init__.py +0 -0
/arekit/common/{folding → docs/parsed}/__init__.py +0 -0
/arekit/common/{news → docs/parsed/providers}/__init__.py +0 -0
/arekit/common/{news → docs}/parsed/term_position.py +0 -0
/arekit/common/{news/parsed → service}/__init__.py +0 -0
/arekit/{common/news/parsed/providers → contrib/utils/data/doc_provider}/__init__.py +0 -0
{arekit-0.23.1.dist-info → arekit-0.25.0.dist-info}/LICENSE +0 -0
{arekit-0.23.1.dist-info → arekit-0.25.0.dist-info}/top_level.txt +0 -0

arekit/contrib/source/brat/entities/parser.py DELETED Viewed

@@ -1,53 +0,0 @@
-from arekit.common.news.objects_parser import SentenceObjectsParserPipelineItem
-from arekit.common.pipeline.context import PipelineContext
-from arekit.common.text.partitioning.str import StringPartitioning
-from arekit.common.text.partitioning.terms import TermsPartitioning
-from arekit.contrib.source.brat.sentence import BratSentence
-class BratTextEntitiesParser(SentenceObjectsParserPipelineItem):
-    KEY = "sentence"
-    ################################
-    # NOTE: Supported partitionings.
-    ################################
-    # By default, BRAT annotation proposes to adopt entities annotation
-    # based on string input, which means that entity ends described as
-    # `char-ind-begin` and `char-ind-end`. However, the latter could be
-    # expanded to list of terms, which means that we deal with `ind-begin`
-    # and `ind-end` list indices.
-    __supported_partitionings = {
-        "string": StringPartitioning(),
-        "terms": TermsPartitioning()
-    }
-    def __init__(self, partitioning="string"):
-        assert(isinstance(partitioning, str))
-        super(BratTextEntitiesParser, self).__init__(self.__supported_partitionings[partitioning])
-    # region protected methods
-    def _get_text(self, pipeline_ctx):
-        sentence = self.__get_sentence(pipeline_ctx)
-        return sentence.Text
-    def _get_parts_provider_func(self, input_data, pipeline_ctx):
-        sentence = self.__get_sentence(pipeline_ctx)
-        return self.__iter_subs_values_with_bounds(sentence)
-    # endregion
-    # region private methods
-    def __get_sentence(self, pipeline_ctx):
-        assert(isinstance(pipeline_ctx, PipelineContext))
-        assert(self.KEY in pipeline_ctx)
-        return pipeline_ctx.provide(self.KEY)
-    @staticmethod
-    def __iter_subs_values_with_bounds(sentence):
-        assert(isinstance(sentence, BratSentence))
-        return sentence.iter_entity_with_local_bounds()
-    # endregion

arekit/contrib/source/brat/news.py DELETED Viewed

@@ -1,28 +0,0 @@
-from arekit.common.news.base import News
-from arekit.contrib.source.brat.entities.entity import BratEntity
-from arekit.contrib.source.brat.sentence import BratSentence
-class BratNews(News):
-    def __init__(self, doc_id, sentences, text_relations):
-        assert(isinstance(text_relations, list) or text_relations is None)
-        super(BratNews, self).__init__(doc_id=doc_id, sentences=sentences)
-        self.__text_relations = text_relations
-        self.__entity_by_id = {}
-        for sentence in sentences:
-            assert(isinstance(sentence, BratSentence))
-            for brat_entity, _ in sentence.iter_entity_with_local_bounds():
-                assert(isinstance(brat_entity, BratEntity))
-                self.__entity_by_id[brat_entity.ID] = brat_entity
-    @property
-    def Relations(self):
-        for brat_relation in self.__text_relations:
-            yield brat_relation
-    def contains_entity(self, entity_id):
-        return entity_id in self.__entity_by_id
-    def get_entity_by_id(self, entity_id):
-        return self.__entity_by_id[entity_id]

arekit/contrib/source/brat/opinions/__init__.py DELETED Viewed

File without changes

arekit/contrib/source/brat/opinions/converter.py DELETED Viewed

@@ -1,19 +0,0 @@
-from arekit.common.labels.str_fmt import StringLabelsFormatter
-from arekit.common.text_opinions.base import TextOpinion
-from arekit.contrib.source.brat.relation import BratRelation
-class BratRelationConverter(object):
-    @staticmethod
-    def to_text_opinion(brat_relation, doc_id, label_formatter):
-        """ Converts opinion into document-level referenced opinion
-        """
-        assert (isinstance(brat_relation, BratRelation))
-        assert(isinstance(label_formatter, StringLabelsFormatter))
-        return TextOpinion(doc_id=doc_id,
-                           text_opinion_id=int(brat_relation.ID),
-                           source_id=brat_relation.SourceID,
-                           target_id=brat_relation.TargetID,
-                           label=label_formatter.str_to_label(brat_relation.Type))

arekit/contrib/source/brat/relation.py DELETED Viewed

@@ -1,32 +0,0 @@
-class BratRelation(object):
-    def __init__(self, id_in_doc, source_id, target_id, rel_type):
-        assert(isinstance(id_in_doc, str))
-        assert(isinstance(source_id, int))
-        assert(isinstance(target_id, int))
-        assert(isinstance(rel_type, str))
-        self.__id = id_in_doc
-        self.__rel_type = rel_type
-        self.__source_id = source_id
-        self.__target_id = target_id
-    @property
-    def ID(self):
-        return self.__id
-    @property
-    def Type(self):
-        return self.__rel_type
-    @property
-    def SourceID(self):
-        """ Arg0.
-        """
-        return self.__source_id
-    @property
-    def TargetID(self):
-        """ Arg1.
-        """
-        return self.__target_id

arekit/contrib/source/brat/sentence.py DELETED Viewed

@@ -1,69 +0,0 @@
-from functools import cmp_to_key
-from arekit.common.bound import Bound
-from arekit.common.news.sentence import BaseNewsSentence
-from arekit.contrib.source.brat.entities.compound import BratCompoundEntity
-from arekit.contrib.source.brat.entities.entity import BratEntity
-class BratSentence(BaseNewsSentence):
-    """ Represent a raw sentence of BRAT.
-        Provides text could be used to parse then.
-        Provides API to store entities.
-    """
-    def __init__(self, text, index_begin, entities):
-        """ entities: list of BratEntities
-            index_begin: int
-                - char index (in case of string type of `text`)
-                - term index (in case of list type of `text`)
-        """
-        assert(isinstance(text, str) or isinstance(text, list))
-        assert(isinstance(index_begin, int))
-        assert(isinstance(entities, list))
-        super(BratSentence, self).__init__(text=text)
-        self.__index_begin = index_begin
-        self.__entities = entities
-    @staticmethod
-    def cmp_entities(a, b):
-        assert(isinstance(a, BratEntity))
-        assert(isinstance(b, BratEntity))
-        if a.IndexBegin != b.IndexBegin:
-            # Ordered by appearance
-            return a.IndexBegin - b.IndexBegin
-        else:
-            # Ordered by length first
-            b_length = b.IndexEnd - b.IndexBegin
-            a_length = a.IndexEnd - a.IndexBegin
-            return b_length - a_length
-    def iter_entity_with_local_bounds(self):
-        self.__entities.sort(key=cmp_to_key(lambda a, b: self.cmp_entities(a, b)))
-        bounds_and_entities = []
-        # Merging nested entities.
-        for entity in self.__entities:
-            start = entity.IndexBegin - self.__index_begin
-            end = entity.IndexEnd - self.__index_begin
-            bound = Bound(pos=start, length=end - start)
-            updated = False
-            if len(bounds_and_entities) > 0:
-                last_bound, last_entities = bounds_and_entities[-1]
-                if bound.itersects_with(last_bound):
-                    # Update.
-                    last_entities.append(entity)
-                    bounds_and_entities[-1] = (bound.intersect(last_bound), last_entities)
-                    updated = True
-            if not updated:
-                bounds_and_entities.append((bound, [entity]))
-        # Returning result.
-        for item in bounds_and_entities:
-            bound, entities = item
-            entity = entities[0] if len(entities) == 1 else \
-                BratCompoundEntity.from_list(root=entities[0], childs=entities[1:])
-            yield entity, bound

arekit/contrib/source/brat/sentences_reader.py DELETED Viewed

@@ -1,128 +0,0 @@
-from arekit.common.entities.collection import EntityCollection
-from arekit.contrib.source.brat.entities.entity import BratEntity
-from arekit.contrib.source.brat.sentence import BratSentence
-class BratDocumentSentencesReader(object):
-    @staticmethod
-    def from_file(input_file, entities, line_handler=None, skip_entity_func=None):
-        assert(isinstance(entities, EntityCollection))
-        assert(callable(skip_entity_func) or skip_entity_func is None)
-        sentences_data = BratDocumentSentencesReader._parse_sentences(
-            input_file=input_file, line_handler=line_handler)
-        sentence_entities = BratDocumentSentencesReader._parse_entities(
-            sentences_data=sentences_data,
-            entities=entities,
-            skip_entity_func=skip_entity_func)
-        # Convert all the content to brat sentences.
-        brat_sentences = []
-        for s_ind, s_dict in enumerate(sentences_data):
-            brat_sentence = BratSentence(text=s_dict["text"],
-                                         index_begin=s_dict["ind_begin"],
-                                         entities=sentence_entities[s_ind])
-            brat_sentences.append(brat_sentence)
-        return brat_sentences
-    @staticmethod
-    def from_sentences_data(entities, sentences_data, skip_entity_func=None):
-        assert(isinstance(entities, EntityCollection))
-        sentence_entities = BratDocumentSentencesReader._parse_entities(
-            sentences_data=sentences_data,
-            entities=entities,
-            skip_entity_func=skip_entity_func)
-        # Convert all the content to brat sentences.
-        brat_sentences = []
-        for s_ind, s_dict in enumerate(sentences_data):
-            brat_sentence = BratSentence(text=s_dict["text"],
-                                         index_begin=s_dict["ind_begin"],
-                                         entities=sentence_entities[s_ind])
-            brat_sentences.append(brat_sentence)
-        return brat_sentences
-    @staticmethod
-    def __is_sentence_contains(sentence_data, entity):
-        assert(isinstance(sentence_data, dict))
-        assert(isinstance(entity, BratEntity))
-        return entity.IndexBegin >= sentence_data["ind_begin"] and \
-               entity.IndexEnd <= sentence_data["ind_end"]
-    @staticmethod
-    def _parse_entities(sentences_data, entities, skip_entity_func):
-        """ Sentences is a list of json-like data (dictionaries).
-        """
-        assert(isinstance(sentences_data, list))
-        assert(isinstance(entities, EntityCollection))
-        entities_in_sentences = [[] for _ in range(len(sentences_data))]
-        s_ind = 0
-        e_ind = 0
-        while s_ind < len(sentences_data) and e_ind < len(entities):
-            e = entities.get_entity_by_index(e_ind)
-            assert (isinstance(e, BratEntity))
-            s = sentences_data[s_ind]
-            entities_in_sentence = entities_in_sentences[s_ind]
-            # If entity goes after the current sentence.
-            if e.IndexBegin > s["ind_end"]:
-                s_ind += 1
-                continue
-            if skip_entity_func is not None and skip_entity_func(e):
-                e_ind += 1
-                continue
-            if BratDocumentSentencesReader.__is_sentence_contains(sentence_data=s, entity=e):
-                entities_in_sentence.append(e)
-                e_ind += 1
-                continue
-            if e.IndexEnd > s["ind_end"]:
-                # Intersects with the right border of sentence
-                s_ind += 1
-                continue
-            if e.IndexBegin < s["ind_begin"]:
-                # Intersects with the left border of sentence
-                e_ind += 1
-                continue
-            raise Exception("e_i:{} e:('{}',{},{}), s_i:{}, s_b: [{} {}]".format(
-                e_ind,
-                e.Value, e.IndexBegin, e.IndexEnd,
-                s_ind,
-                s["ind_begin"], s["ind_end"]))
-        return entities_in_sentences
-    @staticmethod
-    def _parse_sentences(input_file, line_handler):
-        assert(callable(line_handler) or line_handler is None)
-        sentences = []
-        line_start = 0
-        for line in input_file.readlines():
-            line = line.decode('utf-8')
-            handled_line = line_handler(line) if line_handler is not None else line
-            assert(len(line) == len(handled_line))
-            line_end = line_start + len(handled_line) - 1
-            if handled_line != str('\r\n'):
-                sentences.append({"text": handled_line, "ind_begin": line_start, "ind_end": line_end})
-            line_start = line_end + 1
-        return sentences

arekit/contrib/source/download.py DELETED Viewed

@@ -1,41 +0,0 @@
-from os.path import join
-from arekit.common import utils
-def download():
-    root_dir = utils.get_default_download_dir()
-    data = {
-        # RuSentiLex
-        "rusentilex.zip": "https://www.dropbox.com/s/bdsl3kney30y45z/rusentilex.zip?dl=1",
-        # RuSentRel-v1.1
-        "rusentrel-v1_1.zip": "https://www.dropbox.com/s/6aw5jv84jf5hrl2/rusentrel-v1_1.zip?dl=1",
-        # RuSentiFrames
-        "rusentiframes-v1_0.zip": "https://www.dropbox.com/s/zvkis77li3f40bm/rusentiframes-v1_0.zip?dl=1",
-        "rusentiframes-v2_0.zip": "https://www.dropbox.com/s/slbyma7eudmmugp/rusentiframes-v2_0.zip?dl=1",
-        # RuAttitudes-v1.0 (Many variations)
-        "ruattitudes-dbg.zip": "https://www.dropbox.com/s/5lmqw9kyb4tfm94/ruattitudes-dbg.zip?dl=1",
-        "ruattitudes-v1_0.zip": "https://www.dropbox.com/s/wg6oa447msdytj3/ruattitudes-v1_0.zip?dl=1",
-        "ruattitudes-v1_1.zip": "https://www.dropbox.com/s/e3menx5iqyush19/ruattitudes-v1_1.zip?dl=1",
-        # RuAttitudes-v2.0 Base
-        "ruattitudes-v2_0_base.zip": "https://www.dropbox.com/s/y39vqzzjumqhce1/ruattitudes_20_base.zip?dl=1",
-        "ruattitudes-v2_0_base_neut.zip": "https://www.dropbox.com/s/3xh7gd004oyuwx5/ruattitudes_20_base_neut.zip?dl=1",
-        # RuAttitudes-v2.0 Large
-        "ruattitudes-v2_0_large.zip": "https://www.dropbox.com/s/43iqoxlyh38qk8u/ruattitudes_20_large.zip?dl=1",
-        "ruattitudes-v2_0_large_neut.zip": "https://www.dropbox.com/s/6edqsxehtus4c61/ruattitudes_20_large_neut.zip?dl=1",
-        # SentiNEREL
-        "sentinerel-v1_0.zip": "https://www.dropbox.com/s/<HIDDEN>/sentinerel-v1_0.zip?dl=1",
-        "sentinerel-v2_0.zip": "https://www.dropbox.com/s/<HIDDEN>/sentinerel-v2_0.zip?dl=1",
-        "sentinerel-v2_1.zip": "https://www.dropbox.com/s/<HIDDEN>/sentinerel-v2_1.zip?dl=1",
-        # NEREL
-        "nerel-v1_0.zip": "https://www.dropbox.com/scl/fi/vegk0aczjdm9km410loqv/nerel-v1_0.zip?rlkey=wv0ut86n3x5ao6xabsaxd7lh7&dl=1",
-        "nerel-v1_1.zip": "https://www.dropbox.com/scl/fi/oaytj0rvx7vhdxjk98x7g/nerel-v1_1.zip?rlkey=klrq0l5rpn10cf7e2swkay6r4&dl=1",
-        # NEREL-BIO
-        "nerel-bio-v1_0.zip": "https://www.dropbox.com/scl/fi/nltuulfixbkhg3raczash/nerel-bio-v1_0.zip?rlkey=86uizq1hbkgkx302c5p5znpp6&dl=1"
-    }
-    # Perform downloading ...
-    for local_name, url_link in data.items():
-        utils.download(dest_file_path=join(root_dir, local_name),
-                       source_url=url_link)

arekit/contrib/source/nerel/__init__.py DELETED Viewed

File without changes

arekit/contrib/source/nerel/entities.py DELETED Viewed

@@ -1,55 +0,0 @@
-from arekit.common.entities.collection import EntityCollection
-from arekit.common.synonyms.grouping import SynonymsCollectionValuesGroupingProviders
-from arekit.contrib.source.brat.annot import BratAnnotationParser
-from arekit.contrib.source.brat.entities.entity import BratEntity
-from arekit.contrib.source.nerel.io_utils import NerelIOUtils
-from arekit.contrib.utils.processing.lemmatization.mystem import MystemWrapper
-from arekit.contrib.utils.synonyms.stemmer_based import StemmerBasedSynonymCollection
-class NerelEntityCollection(EntityCollection):
-    def __init__(self, contents, value_to_group_id_func, entities_to_ignore=None):
-        """
-            entities_to_ignore: list or None
-                this parameter is required because of the simplified implementation of
-                the nested objects of the BRAT annotation.
-        """
-        assert(isinstance(contents, dict))
-        assert(BratAnnotationParser.ENTITIES in contents)
-        assert(isinstance(entities_to_ignore, list) or entities_to_ignore is None)
-        self.__discard_entities = set([] if entities_to_ignore is None else entities_to_ignore)
-        contents[BratAnnotationParser.ENTITIES] = [e for e in contents[BratAnnotationParser.ENTITIES]
-                                                   if self.__keep_entity(e)]
-        super(NerelEntityCollection, self).__init__(
-            entities=contents[BratAnnotationParser.ENTITIES],
-            value_to_group_id_func=value_to_group_id_func)
-        self._sort_entities(key=lambda entity: entity.IndexBegin)
-    def __keep_entity(self, entity):
-        assert(isinstance(entity, BratEntity))
-        return entity.Type not in self.__discard_entities
-    @classmethod
-    def read_collection(cls, filename, version, io_utils, entities_to_ignore=None):
-        assert(isinstance(io_utils, NerelIOUtils))
-        assert(isinstance(filename, str))
-        # Since this dataset does not provide the synonyms collection by default,
-        # it is necessary to declare an empty collection to populate so in further.
-        synonyms = StemmerBasedSynonymCollection(stemmer=MystemWrapper(), is_read_only=False)
-        doc_fold = io_utils.map_doc_to_fold_type(version)
-        return io_utils.read_from_zip(
-            inner_path=io_utils.get_annotation_innerpath(folding_data_type=doc_fold[filename], filename=filename),
-            process_func=lambda input_file: cls(
-                contents=BratAnnotationParser.parse_annotations(input_file=input_file, encoding='utf-8-sig'),
-                entities_to_ignore=entities_to_ignore,
-                value_to_group_id_func=lambda value:
-                SynonymsCollectionValuesGroupingProviders.provide_existed_or_register_missed_value(
-                    synonyms, value)),
-            version=version)

arekit/contrib/source/nerel/folding/__init__.py DELETED Viewed

File without changes

arekit/contrib/source/nerel/folding/fixed.py DELETED Viewed

@@ -1,75 +0,0 @@
-from collections import OrderedDict
-from arekit.common.experiment.data_type import DataType
-from arekit.common.folding.fixed import FixedFolding
-def create_fixed_folding(train_filenames, dev_filenames, test_filenames, limit=None):
-    """ Create fixed data-folding based on the predefined list of filenames,
-        written in file.
-    """
-    assert(isinstance(train_filenames, list))
-    assert(isinstance(dev_filenames, list))
-    assert(isinstance(test_filenames, list))
-    filenames_by_ids = create_filenames_by_ids(filenames=train_filenames + dev_filenames + test_filenames)
-    ids_by_filenames = {}
-    for doc_id, filename in filenames_by_ids.items():
-        ids_by_filenames[filename] = doc_id
-    train_filenames = train_filenames if limit is None else train_filenames[:limit]
-    test_filenames = test_filenames if limit is None else test_filenames[:limit]
-    dev_filenames = dev_filenames if limit is None else dev_filenames[:limit]
-    fixed_folding = FixedFolding.from_parts({
-        DataType.Train: [ids_by_filenames[filename] for filename in train_filenames],
-        DataType.Test: [ids_by_filenames[filename] for filename in test_filenames],
-        DataType.Dev: [ids_by_filenames[filename] for filename in dev_filenames]
-    })
-    return filenames_by_ids, fixed_folding
-def create_filenames_by_ids(filenames):
-    """ Indexing filenames
-    """
-    def __create_new_id(default_id):
-        new_id = default_id
-        while new_id in filenames_by_ids:
-            new_id += 1
-        return new_id
-    default_id = 0
-    filenames_by_ids = OrderedDict()
-    for fname in filenames:
-        doc_id = number_from_string(fname)
-        if doc_id is None:
-            doc_id = __create_new_id(default_id)
-            default_id = doc_id
-        assert(doc_id not in filenames_by_ids)
-        filenames_by_ids[doc_id] = fname
-    return filenames_by_ids
-def number_from_string(s):
-    assert(isinstance(s, str))
-    digit_chars_prefix = []
-    for chr in s:
-        if chr.isdigit():
-            digit_chars_prefix.append(chr)
-        else:
-            break
-    if len(digit_chars_prefix) == 0:
-        return None
-    return int("".join(digit_chars_prefix))

arekit/contrib/source/nerel/io_utils.py DELETED Viewed

@@ -1,62 +0,0 @@
-from os import path
-from arekit.common.experiment.data_type import DataType
-from arekit.contrib.source.nerel.folding.fixed import create_fixed_folding
-from arekit.contrib.source.nerel.utils import iter_filename_and_splittype
-from arekit.contrib.source.zip_utils import ZipArchiveUtils
-class NerelIOUtils(ZipArchiveUtils):
-    splits = {
-        DataType.Train: "train",
-        DataType.Dev: "dev",
-        DataType.Test: "test"
-    }
-    @staticmethod
-    def get_archive_filepath(version):
-        return path.join(NerelIOUtils.get_data_root(), "nerel-{}.zip".format(version))
-    @staticmethod
-    def get_annotation_innerpath(folding_data_type, filename):
-        assert(isinstance(filename, str))
-        return path.join(NerelIOUtils.splits[folding_data_type], "{}.ann".format(filename))
-    @staticmethod
-    def get_news_innerpath(folding_data_type, filename):
-        assert(isinstance(filename, str))
-        return path.join(NerelIOUtils.splits[folding_data_type], "{}.txt".format(filename))
-    @staticmethod
-    def map_doc_to_fold_type(version):
-        it = iter_filename_and_splittype(
-            filenames_it=NerelIOUtils.iter_filenames_from_zip(version),
-            splits=NerelIOUtils.splits.items())
-        d2f = {}
-        for filename, split_type in it:
-            d2f[filename] = split_type
-        return d2f
-    @staticmethod
-    def read_dataset_split(version, docs_limit=None):
-        it = iter_filename_and_splittype(
-            filenames_it=NerelIOUtils.iter_filenames_from_zip(version),
-            splits=NerelIOUtils.splits.items())
-        f2d = {}
-        for filename, split_type in it:
-            if split_type not in f2d:
-                f2d[split_type] = []
-            f2d[split_type].append(filename)
-        filenames_by_ids, data_folding = create_fixed_folding(train_filenames=f2d[DataType.Train],
-                                                              test_filenames=f2d[DataType.Test],
-                                                              dev_filenames=f2d[DataType.Dev],
-                                                              limit=docs_limit)
-        return filenames_by_ids, data_folding

arekit 0.23.1__py3-none-any.whl → 0.25.0__py3-none-any.whl

arekit 0.23.1py3-none-any.whl → 0.25.0py3-none-any.whl