PyPI - mawo-razdel - Versions diffs - 1.0.1__py3-none-any.whl → 1.0.3__py3-none-any.whl - Mend

mawo-razdel 1.0.1py3-none-any.whl → 1.0.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

mawo_razdel/__init__.py CHANGED Viewed

@@ -69,21 +69,47 @@ class Substring:
 def tokenize(text: str, use_enhanced: bool = True) -> list[Substring]:
-    """Tokenize Russian text into tokens.
+    """Токенизация русского текста.
+    Улучшенная токенизация с правильной обработкой:
+    - Десятичных чисел (3.14, 3,14)
+    - Процентов (95.5%)
+    - Диапазонов (1995-1999, 10:30-11:00)
+    - Дробей (1/2, 3/4)
+    - Телефонов, ID и т.д.
     Args:
-        text: Text to tokenize
-        use_enhanced: Use enhanced patterns if available
+        text: Текст для токенизации
+        use_enhanced: Использовать улучшенные паттерны
     Returns:
-        List of Substring objects (tokens)
+        Список объектов Substring (токенов)
+    """
+    # Улучшенный паттерн на основе современных практик NLP (2024-2025)
+    # Сохраняет целостность чисел при обработке русского текста
+    pattern = r"""
+        # Десятичные числа с точкой или запятой (3.14159 или 3,14159)
+        \d+[.,]\d+
+        # Диапазоны и временные интервалы (1995-1999, 10:30-11:00)
+        |\d+[-:]\d+(?:[-:]\d+)*
+        # Дроби (1/2, 3/4)
+        |\d+/\d+
+        # Проценты (с числом)
+        |\d+\s*%
+        # Обычные числа
+        |\d+
+        # Русские и латинские слова (включая ё)
+        |[\w\u0400-\u04FF]+
+        # Любой другой непробельный символ
+        |\S
     """
-    # Simple but effective tokenization with Russian support
-    pattern = r"\b[\w\u0400-\u04FF]+\b|\S"
     tokens: list[Substring] = []
-    for match in re.finditer(pattern, text):
-        tokens.append(Substring(match.start(), match.end(), match.group()))
+    for match in re.finditer(pattern, text, re.VERBOSE | re.UNICODE):
+        token_text = match.group()
+        # Пропускаем чистые пробелы (не должно совпадать, но проверяем)
+        if token_text.strip():
+            tokens.append(Substring(match.start(), match.end(), token_text))
     return tokens

mawo_razdel/syntagrus_patterns.py CHANGED Viewed

@@ -33,109 +33,126 @@ class SegmentationRule:
 class SynTagRusPatterns:
     """SynTagRus-based patterns для сегментации предложений."""
-    # Аббревиатуры, которые НЕ завершают предложение
-    ABBREVIATIONS = {
-        # Географические
-        "г",
-        "гг",
-        "г-н",
-        "г-жа",  # Год, годы, господин, госпожа
+    # Головные аббревиатуры (HEAD) - идут ПЕРЕД именами/названиями
+    # После них может быть заглавная буква, но это не начало предложения
+    HEAD_ABBREVIATIONS = {
+        # Географические (перед названиями)
         "ул",
         "пр",
         "пл",
         "пер",
         "просп",
-        "наб",  # Улица, проспект, площадь...
-        "д",
-        "дом",
-        "корп",
-        "стр",
-        "кв",  # Дом, корпус, строение, квартира
+        "наб",  # улица Тверская
+        "г",
+        "гор",  # г. Москва (город, не год!)
         "обл",
         "р-н",
         "п",
         "с",
         "дер",
-        "пос",  # Область, район, посёлок...
-        # Научные степени и звания
-        "акад",
+        "пос",  # область, район...
+        "им",  # им. Пушкина
+        # Титулы и звания (перед именами)
+        "г-н",
+        "г-жа",
+        "гн",
+        "госп",  # господин Иванов
         "проф",
-        "доц",
-        "к",
-        "канд",
-        "докт",  # Академик, профессор...
-        "м",
-        "н",
-        "мл",
-        "ст",  # Младший, старший научный сотрудник
-        # Титулы
-        "им",
+        "акад",
+        "доц",  # профессор Петров
+        "св",  # св. Иоанн
         "ген",
         "полк",
         "подп",
         "лейт",
-        "кап",  # Имени, генерал...
-        # Временные
+        "кап",  # генерал Иванов
+    }
+    # Хвостовые аббревиатуры (TAIL) - идут ПОСЛЕ чисел/слов
+    # После них НЕ должно быть заглавной буквы (иначе новое предложение)
+    TAIL_ABBREVIATIONS = {
+        # Года и века (после чисел)
+        "г",
+        "гг",
         "в",
         "вв",
-        "р",
-        "руб",
-        "коп",  # Век, рубль, копейка
+        "р",  # 1799 г., XXI в., 250 г. до Р. Х.
+        # Адресные (после чисел)
+        "д",
+        "дом",
+        "корп",
+        "стр",
+        "кв",  # д. 1, стр. 5
+        # Временные
         "ч",
         "час",
         "мин",
-        "сек",  # Час, минута, секунда
-        # Общие сокращения
+        "сек",  # 10 ч. 30 мин.
+        # Деньги и измерения (после чисел)
+        "руб",
+        "коп",
+        "тыс",
+        "млн",
+        "млрд",
+        "трлн",
+        "кг",
+        "мг",
+        "ц",
+        "л",
+        "мм",
+        "км",
+        "га",
+        "м",
+        # Страницы, тома (после чисел)
         "т",
         "тт",
+        "с",
         "пп",
         "рис",
         "илл",
-        "табл",  # Том, пункт, рисунок...
+        "табл",  # стр уже в адресных
+        # Научные степени (инициалы перед)
+        "к",
+        "канд",
+        "докт",
+        "н",  # к.т.н., д.ф.н.
+        # Общие (обычно внутри текста или в конце)
         "см",
         "ср",
         "напр",
-        "в т.ч",
-        "и т.д",
-        "и т.п",
-        "и др",  # Смотри, сравни...
         "др",
         "проч",
         "прим",
-        "примеч",  # Другое, прочее, примечание
-        # Измерения
-        "кг",
-        "мг",
-        "ц",
-        "л",  # Килограмм, грамм...
-        "мм",
-        "км",
-        "га",  # Метр, сантиметр...
-        "млн",
-        "млрд",
-        "тыс",
-        "трлн",  # Миллион, миллиард...
+        "примеч",
+        "т.е",
+        "т.д",
+        "т.п",
+        "т.к",  # и т.д., и т.п.
         # Организационные
         "о-во",
         "о-ва",
         "о-ние",
-        "о-ния",  # Общество, общества...
+        "о-ния",
         "зам",
         "пом",
         "зав",
-        "нач",  # Министр, заместитель...
+        "нач",
         # Прочие
         "etc",
         "et al",
         "ibid",
-        "op cit",  # Латинские
+        "op cit",
         "англ",
         "нем",
         "франц",
         "итал",
-        "исп",  # Языки
+        "исп",
+        "лат",  # Языки
     }
+    # Объединенный список всех аббревиатур
+    ABBREVIATIONS = HEAD_ABBREVIATIONS | TAIL_ABBREVIATIONS
     # Почетные звания и должности (часто перед ФИО)
     TITLES = {
         "президент",
@@ -224,43 +241,106 @@ class SynTagRusPatterns:
         self.sentence_end_pattern = re.compile(r"[.!?]+\s+[А-ЯЁ«\"\'(]")
     def is_abbreviation(self, text: str, pos: int) -> bool:
-        """Проверяет, является ли точка в позиции pos частью аббревиатуры.
+        """Проверяет, является ли точка перед позицией pos частью аббревиатуры.
+        Улучшено с проверкой контекста - на основе современных практик NLP (2024-2025).
+        Проверяет ПЕРЕД и ПОСЛЕ точки, чтобы определить, действительно ли это аббревиатура,
+        которая должна блокировать границу предложения.
         Args:
-            text: Text to check
-            pos: Position of the dot
+            text: Текст для проверки
+            pos: Позиция ПОСЛЕ точки (граница)
         Returns:
-            True if dot is part of abbreviation
+            True если точка - часть аббревиатуры, блокирующей границу предложения
         """
-        if pos <= 0 or pos >= len(text):
+        if pos <= 1 or pos > len(text):
             return False
-        # Look back for abbreviation
-        # Check 1-10 characters before the dot
-        for look_back in range(1, min(11, pos + 1)):
-            preceding = text[pos - look_back : pos].lower().strip()
-            if preceding in self.ABBREVIATIONS:
-                return True
+        # Проверяем, что перед pos действительно точка
+        if text[pos - 1] != ".":
+            return False
-        return False
+        # Ищем токен аббревиатуры ПЕРЕД точкой
+        # Извлекаем слово/токен перед точкой
+        before_match = re.search(r"(\w+)\.?$", text[: pos - 1])
+        if not before_match:
+            return False
+        preceding = before_match.group(1).lower()
+        # Проверяем, есть ли в нашем списке аббревиатур
+        if preceding not in self.ABBREVIATIONS:
+            return False
+        # КРИТИЧНО: Проверяем что идет ПОСЛЕ точки
+        # Это ключевое улучшение на основе современных практик NLP
+        remaining = text[pos:].lstrip()
+        if not remaining:
+            # Конец текста - аббревиатура в конце
+            return True
+        # Проверяем первый символ после пробелов
+        next_char = remaining[0]
+        # УЛУЧШЕНИЕ: Различаем HEAD и TAIL аббревиатуры
+        is_head = preceding in self.HEAD_ABBREVIATIONS
+        is_tail = preceding in self.TAIL_ABBREVIATIONS
+        # Если следующий символ - заглавная буква (не цифра)
+        if next_char.isupper() and next_char.isalpha():
+            # HEAD аббревиатуры (ул., г., проф.) могут идти перед заглавной буквой
+            # Например: "ул. Тверская", "г. Москва", "проф. Иванов"
+            if is_head:
+                return True  # Не разбиваем
+            # TAIL аббревиатуры (г., в., д.) НЕ должны идти перед заглавной буквой
+            # Исключение: инициалы (А. С. Пушкин)
+            if is_tail:
+                # Проверяем инициалы: один символ + точка
+                if len(remaining) > 2 and remaining[1] == ".":
+                    return True  # Часть последовательности инициалов
+                # Иначе это начало нового предложения
+                return False
+        # Строчная буква, цифра или пунктуация после аббревиатуры - оставляем соединенными
+        return True
     def is_initials_context(self, text: str, pos: int) -> bool:
-        """Проверяет, находится ли точка в контексте инициалов.
+        """Проверяет, находится ли точка непосредственно в контексте инициалов.
+        Улучшено: проверяем только если инициалы находятся РЯДОМ с границей,
+        а не в радиусе 20 символов.
         Args:
-            text: Text to check
-            pos: Position of the dot
+            text: Текст для проверки
+            pos: Позиция после точки
         Returns:
-            True if in initials context
+            True если в непосредственном контексте инициалов
         """
-        # Check surrounding context (±20 chars)
-        start = max(0, pos - 20)
-        end = min(len(text), pos + 20)
+        # Проверяем небольшой контекст: 5 символов до и 10 после
+        # Это достаточно для "А. С. Пушкин" но не захватывает далекие инициалы
+        start = max(0, pos - 5)
+        end = min(len(text), pos + 10)
         context = text[start:end]
-        return bool(self.initials_pattern.search(context))
+        # Дополнительно: точка должна быть ВНУТРИ найденного паттерна инициалов
+        match = self.initials_pattern.search(context)
+        if not match:
+            return False
+        # Проверяем, что граница (pos) находится внутри найденного паттерна инициалов
+        # или сразу после него (с учетом смещения start)
+        match_start = start + match.start()
+        match_end = start + match.end()
+        # Граница должна быть внутри паттерна или максимум на 2 символа после
+        if match_start <= pos <= match_end + 2:
+            return True
+        return False
     def find_sentence_boundaries(self, text: str) -> list[int]:
         """Находит границы предложений в тексте.
@@ -287,8 +367,9 @@ class SynTagRusPatterns:
             # Check if this is a valid boundary
             is_valid_boundary = False
-            # Case 1: Followed by whitespace and capital letter
-            if re.match(r"\s+[А-ЯЁ«\"\'(]", remaining):
+            # Case 1: Followed by whitespace and capital letter (русская ИЛИ латинская)
+            # УЛУЧШЕНИЕ: добавлена поддержка латинских заглавных (для XXI, IV, и т.д.)
+            if re.match(r"\s+[А-ЯЁA-Z«\"\'(]", remaining):
                 is_valid_boundary = True
             # Case 2: Followed by paragraph break
@@ -313,18 +394,20 @@ class SynTagRusPatterns:
         """Проверяет, блокируется ли граница высокоприоритетным правилом.
         Args:
-            text: Text
-            pos: Boundary position
+            text: Текст
+            pos: Позиция границы (после точки/знака)
         Returns:
-            True if boundary is blocked
+            True если граница блокирована
         """
-        # Check for abbreviation (точка после аббревиатуры)
+        # Проверка на аббревиатуру (точка после аббревиатуры)
+        # ВАЖНО: is_abbreviation уже проверяет контекст до И после точки
         if pos > 0 and text[pos - 1] == ".":
-            if self.is_abbreviation(text, pos - 1):
+            # Передаем позицию ПОСЛЕ точки (pos), а не позицию точки
+            if self.is_abbreviation(text, pos):
                 return True
-        # Check for initials (А. С. Пушкин)
+        # Проверка на инициалы (А. С. Пушкин)
         if self.is_initials_context(text, pos):
             return True

{mawo_razdel-1.0.1.dist-info → mawo_razdel-1.0.3.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: mawo-razdel
-Version: 1.0.1
+Version: 1.0.3
 Summary: Продвинутая токенизация для русского языка с SynTagRus паттернами и +25% точностью
 Author-email: MAWO Team <team@mawo.ru>
 Maintainer-email: MAWO Team <team@mawo.ru>

{mawo_razdel-1.0.1.dist-info → mawo_razdel-1.0.3.dist-info}/RECORD RENAMED Viewed

@@ -1,5 +1,5 @@
-mawo_razdel/__init__.py,sha256=F7OwT5NofxOWBOlzMggo9veVm2AexAXeZwxdnetqKvM,7120
-mawo_razdel/syntagrus_patterns.py,sha256=Ng0DqzeH6Hw8eJWP3QpDgzb_f5HN5qTjAQLRnXbys0A,13166
+mawo_razdel/__init__.py,sha256=TDGqj1RnRWYHtTv14a__lwD_ke2l4a2XxprXjE2-QP0,8481
+mawo_razdel/syntagrus_patterns.py,sha256=na90JObwtakS59qjzBJgmFLxh_rlhNok-JgkiVQpeM0,18363
 mawo_razdel/data/corpora_sents.txt.lzma,sha256=9g3tHoVAVWxZRBao3S9jSvDREK88tTHcW_HdIsUqOmo,3558884
 mawo_razdel/data/corpora_tokens.txt.lzma,sha256=32JAHq7qtQgX2EA88DelBDiAuCG8Q8vNVqCRakrcSXY,3785332
 mawo_razdel/data/gicrya_sents.txt.lzma,sha256=puRJ23GkU554Ed81yn8B7B35Zqjeqa4RKEtIEL56d6I,2189240
@@ -8,8 +8,8 @@ mawo_razdel/data/rnc_sents.txt.lzma,sha256=In5BVwCvotaWA-BZy446qLjhBAht4iLE2lv5v
 mawo_razdel/data/rnc_tokens.txt.lzma,sha256=7keKlZaZxHmw7D8ZtFLnCPiCS2hXPtxjt1vBeum2E54,2491824
 mawo_razdel/data/syntag_sents.txt.lzma,sha256=TrdCYsTWu9lG04cUGPDrEaOh4h-yLgAg3pOpMqsRWSk,2190388
 mawo_razdel/data/syntag_tokens.txt.lzma,sha256=KjVkGlrQBOItYa7lSZ4b5hCtoKNtvUuxv5RaZHDPg6Y,2212888
-mawo_razdel-1.0.1.dist-info/licenses/LICENSE,sha256=HxcBccBgl94zsrO98Iv1FqnG5cp8fSsnxfq3YDSi7Mg,1066
-mawo_razdel-1.0.1.dist-info/METADATA,sha256=v9dsNs8IxIkID9SzWgWjPRbCx__gqUFxt-q-taFXCEs,13039
-mawo_razdel-1.0.1.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-mawo_razdel-1.0.1.dist-info/top_level.txt,sha256=zjx6jdks6KA3fcXqFLPR_XQeF7-3anYoqlHs9kpiojA,12
-mawo_razdel-1.0.1.dist-info/RECORD,,
+mawo_razdel-1.0.3.dist-info/licenses/LICENSE,sha256=HxcBccBgl94zsrO98Iv1FqnG5cp8fSsnxfq3YDSi7Mg,1066
+mawo_razdel-1.0.3.dist-info/METADATA,sha256=1oL9HpjIB1sW8nmYvU2ZX0JGUT6RnxytNulmBJnj4nU,13039
+mawo_razdel-1.0.3.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+mawo_razdel-1.0.3.dist-info/top_level.txt,sha256=zjx6jdks6KA3fcXqFLPR_XQeF7-3anYoqlHs9kpiojA,12
+mawo_razdel-1.0.3.dist-info/RECORD,,

{mawo_razdel-1.0.1.dist-info → mawo_razdel-1.0.3.dist-info}/WHEEL RENAMED Viewed

File without changes

{mawo_razdel-1.0.1.dist-info → mawo_razdel-1.0.3.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{mawo_razdel-1.0.1.dist-info → mawo_razdel-1.0.3.dist-info}/top_level.txt RENAMED Viewed

File without changes

mawo-razdel 1.0.1__py3-none-any.whl → 1.0.3__py3-none-any.whl

mawo-razdel 1.0.1py3-none-any.whl → 1.0.3py3-none-any.whl