PyPI - credsweeper - Versions diffs - 1.11.5__py3-none-any.whl → 1.13.3__py3-none-any.whl - Mend

credsweeper 1.11.5py3-none-any.whl → 1.13.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of credsweeper might be problematic. Click here for more details.

Files changed (145) hide show

credsweeper/__init__.py +21 -15
credsweeper/__main__.py +158 -42
credsweeper/app.py +18 -13
credsweeper/common/keyword_pattern.py +19 -18
credsweeper/common/morpheme_checklist.txt +28 -6
credsweeper/config/__init__.py +0 -1
credsweeper/config/config.py +4 -3
credsweeper/credentials/__init__.py +0 -5
credsweeper/credentials/augment_candidates.py +1 -1
credsweeper/credentials/candidate.py +1 -1
credsweeper/credentials/credential_manager.py +1 -1
credsweeper/credentials/line_data.py +43 -8
credsweeper/deep_scanner/__init__.py +0 -1
credsweeper/deep_scanner/abstract_scanner.py +4 -3
credsweeper/deep_scanner/byte_scanner.py +1 -1
credsweeper/deep_scanner/bzip2_scanner.py +2 -2
credsweeper/deep_scanner/csv_scanner.py +71 -0
credsweeper/deep_scanner/deb_scanner.py +1 -1
credsweeper/deep_scanner/deep_scanner.py +22 -12
credsweeper/deep_scanner/docx_scanner.py +1 -1
credsweeper/deep_scanner/eml_scanner.py +1 -1
credsweeper/deep_scanner/encoder_scanner.py +1 -1
credsweeper/deep_scanner/gzip_scanner.py +2 -2
credsweeper/deep_scanner/html_scanner.py +1 -1
credsweeper/deep_scanner/jclass_scanner.py +1 -1
credsweeper/deep_scanner/jks_scanner.py +12 -3
credsweeper/deep_scanner/lang_scanner.py +1 -1
credsweeper/deep_scanner/lzma_scanner.py +2 -2
credsweeper/deep_scanner/mxfile_scanner.py +1 -1
credsweeper/deep_scanner/pdf_scanner.py +1 -1
credsweeper/deep_scanner/pkcs_scanner.py +6 -2
credsweeper/deep_scanner/pptx_scanner.py +1 -1
credsweeper/deep_scanner/rpm_scanner.py +1 -1
credsweeper/deep_scanner/rtf_scanner.py +41 -0
credsweeper/deep_scanner/strings_scanner.py +52 -0
credsweeper/deep_scanner/tar_scanner.py +2 -2
credsweeper/deep_scanner/tmx_scanner.py +2 -2
credsweeper/deep_scanner/xlsx_scanner.py +2 -2
credsweeper/deep_scanner/xml_scanner.py +1 -1
credsweeper/deep_scanner/zip_scanner.py +2 -2
credsweeper/file_handler/__init__.py +0 -15
credsweeper/file_handler/abstract_provider.py +3 -4
credsweeper/file_handler/byte_content_provider.py +11 -2
credsweeper/file_handler/content_provider.py +1 -1
credsweeper/file_handler/data_content_provider.py +1 -1
credsweeper/file_handler/diff_content_provider.py +133 -3
credsweeper/file_handler/file_path_extractor.py +4 -2
credsweeper/file_handler/files_provider.py +4 -4
credsweeper/file_handler/patches_provider.py +7 -8
credsweeper/file_handler/text_content_provider.py +8 -2
credsweeper/filters/__init__.py +3 -4
credsweeper/filters/filter.py +5 -3
credsweeper/filters/group/__init__.py +0 -2
credsweeper/filters/group/general_keyword.py +2 -2
credsweeper/filters/group/general_pattern.py +2 -2
credsweeper/filters/group/group.py +38 -36
credsweeper/filters/group/password_keyword.py +9 -8
credsweeper/filters/group/token_pattern.py +5 -5
credsweeper/filters/group/url_credentials_group.py +8 -8
credsweeper/filters/group/weird_base36_token.py +6 -6
credsweeper/filters/group/weird_base64_token.py +5 -5
credsweeper/filters/line_git_binary_check.py +5 -4
credsweeper/filters/line_specific_key_check.py +6 -5
credsweeper/filters/line_uue_part_check.py +5 -4
credsweeper/filters/value_allowlist_check.py +6 -5
credsweeper/filters/value_array_dictionary_check.py +8 -6
credsweeper/filters/value_atlassian_token_check.py +6 -5
credsweeper/filters/value_azure_token_check.py +6 -5
credsweeper/filters/value_base32_data_check.py +8 -5
credsweeper/filters/value_base64_data_check.py +6 -5
credsweeper/filters/value_base64_encoded_pem_check.py +6 -5
credsweeper/filters/value_base64_key_check.py +6 -5
credsweeper/filters/value_base64_part_check.py +6 -5
credsweeper/filters/value_basic_auth_check.py +37 -0
credsweeper/filters/value_blocklist_check.py +6 -4
credsweeper/filters/value_camel_case_check.py +8 -7
credsweeper/filters/value_dictionary_keyword_check.py +6 -4
credsweeper/filters/value_discord_bot_check.py +6 -5
credsweeper/filters/value_entropy_base_check.py +6 -5
credsweeper/filters/value_file_path_check.py +13 -8
credsweeper/filters/value_github_check.py +8 -6
credsweeper/filters/value_grafana_check.py +6 -5
credsweeper/filters/value_grafana_service_check.py +5 -4
credsweeper/filters/value_hex_number_check.py +5 -4
credsweeper/filters/value_jfrog_token_check.py +6 -5
credsweeper/filters/value_json_web_key_check.py +6 -5
credsweeper/filters/value_json_web_token_check.py +6 -5
credsweeper/filters/value_last_word_check.py +6 -4
credsweeper/filters/{value_dictionary_value_length_check.py → value_length_check.py} +12 -6
credsweeper/filters/value_method_check.py +5 -4
credsweeper/filters/value_morphemes_check.py +43 -0
credsweeper/filters/value_not_allowed_pattern_check.py +6 -5
credsweeper/filters/value_not_part_encoded_check.py +4 -4
credsweeper/filters/value_number_check.py +5 -4
credsweeper/filters/value_pattern_check.py +61 -41
credsweeper/filters/value_similarity_check.py +6 -4
credsweeper/filters/value_split_keyword_check.py +5 -4
credsweeper/filters/value_string_type_check.py +10 -7
credsweeper/filters/value_token_base_check.py +5 -4
credsweeper/filters/value_token_check.py +6 -5
credsweeper/logger/__init__.py +0 -1
credsweeper/logger/logger.py +1 -1
credsweeper/ml_model/__init__.py +0 -1
credsweeper/ml_model/features/__init__.py +1 -0
credsweeper/ml_model/features/entropy_evaluation.py +1 -1
credsweeper/ml_model/features/feature.py +2 -19
credsweeper/ml_model/features/file_extension.py +2 -2
credsweeper/ml_model/features/has_html_tag.py +12 -10
credsweeper/ml_model/features/is_secret_numeric.py +5 -4
credsweeper/ml_model/features/length_of_attribute.py +1 -1
credsweeper/ml_model/features/morpheme_dense.py +15 -8
credsweeper/ml_model/features/rule_name.py +2 -2
credsweeper/ml_model/features/rule_severity.py +21 -0
credsweeper/ml_model/features/search_in_attribute.py +1 -1
credsweeper/ml_model/features/word_in.py +10 -33
credsweeper/ml_model/features/word_in_path.py +6 -4
credsweeper/ml_model/features/word_in_postamble.py +2 -5
credsweeper/ml_model/features/word_in_preamble.py +2 -5
credsweeper/ml_model/features/word_in_transition.py +2 -5
credsweeper/ml_model/features/word_in_value.py +3 -4
credsweeper/ml_model/features/word_in_variable.py +3 -4
credsweeper/ml_model/ml_config.json +140 -27
credsweeper/ml_model/ml_model.onnx +0 -0
credsweeper/ml_model/ml_validator.py +4 -3
credsweeper/rules/__init__.py +0 -1
credsweeper/rules/config.yaml +329 -239
credsweeper/rules/rule.py +4 -3
credsweeper/scanner/__init__.py +0 -1
credsweeper/scanner/scan_type/__init__.py +0 -5
credsweeper/scanner/scan_type/multi_pattern.py +4 -4
credsweeper/scanner/scan_type/pem_key_pattern.py +4 -4
credsweeper/scanner/scan_type/scan_type.py +4 -4
credsweeper/scanner/scan_type/single_pattern.py +4 -4
credsweeper/scanner/scanner.py +24 -15
credsweeper/secret/config.json +19 -6
credsweeper/utils/__init__.py +0 -1
credsweeper/utils/pem_key_detector.py +3 -3
credsweeper/utils/util.py +24 -150
{credsweeper-1.11.5.dist-info → credsweeper-1.13.3.dist-info}/METADATA +7 -7
credsweeper-1.13.3.dist-info/RECORD +164 -0
credsweeper/filters/value_couple_keyword_check.py +0 -26
credsweeper-1.11.5.dist-info/RECORD +0 -159
{credsweeper-1.11.5.dist-info → credsweeper-1.13.3.dist-info}/WHEEL +0 -0
{credsweeper-1.11.5.dist-info → credsweeper-1.13.3.dist-info}/entry_points.txt +0 -0
{credsweeper-1.11.5.dist-info → credsweeper-1.13.3.dist-info}/licenses/LICENSE +0 -0

credsweeper/rules/rule.py CHANGED Viewed

@@ -7,9 +7,10 @@ from typing import Dict, List, Optional, Union, Set
 from credsweeper import filters
 from credsweeper.common.constants import RuleType, Severity, MAX_LINE_LENGTH, Confidence
 from credsweeper.common.keyword_pattern import KeywordPattern
-from credsweeper.config import Config
-from credsweeper.filters import Filter, group
-from credsweeper.filters.group import Group
+from credsweeper.config.config import Config
+from credsweeper.filters import group
+from credsweeper.filters.filter import Filter
+from credsweeper.filters.group.group import Group
 logger = logging.getLogger(__name__)

credsweeper/scanner/__init__.py CHANGED Viewed

	@@ -1 +0,0 @@
1	- from credsweeper.scanner.scanner import Scanner

credsweeper/scanner/scan_type/__init__.py CHANGED Viewed

@@ -1,5 +0,0 @@
-from credsweeper.scanner.scan_type.scan_type import ScanType  # isort:skip
-from credsweeper.scanner.scan_type.multi_pattern import MultiPattern
-from credsweeper.scanner.scan_type.pem_key_pattern import PemKeyPattern
-from credsweeper.scanner.scan_type.single_pattern import SinglePattern

credsweeper/scanner/scan_type/multi_pattern.py CHANGED Viewed

@@ -1,11 +1,11 @@
 from typing import List
 from credsweeper.common.constants import RuleType
-from credsweeper.config import Config
-from credsweeper.credentials import Candidate
+from credsweeper.config.config import Config
+from credsweeper.credentials.candidate import Candidate
 from credsweeper.file_handler.analysis_target import AnalysisTarget
-from credsweeper.rules import Rule
-from credsweeper.scanner.scan_type import ScanType
+from credsweeper.rules.rule import Rule
+from credsweeper.scanner.scan_type.scan_type import ScanType
 class MultiPattern(ScanType):

credsweeper/scanner/scan_type/pem_key_pattern.py CHANGED Viewed

@@ -2,11 +2,11 @@ import logging
 from typing import List
 from credsweeper.common.constants import RuleType
-from credsweeper.config import Config
-from credsweeper.credentials import Candidate
+from credsweeper.config.config import Config
+from credsweeper.credentials.candidate import Candidate
 from credsweeper.file_handler.analysis_target import AnalysisTarget
-from credsweeper.rules import Rule
-from credsweeper.scanner.scan_type import ScanType
+from credsweeper.rules.rule import Rule
+from credsweeper.scanner.scan_type.scan_type import ScanType
 from credsweeper.utils.pem_key_detector import PemKeyDetector
 logger = logging.getLogger(__name__)

credsweeper/scanner/scan_type/scan_type.py CHANGED Viewed

@@ -4,11 +4,11 @@ from abc import ABC, abstractmethod
 from typing import List
 from credsweeper.common.constants import RuleType, MIN_DATA_LEN
-from credsweeper.config import Config
-from credsweeper.credentials import Candidate, LineData
+from credsweeper.config.config import Config
+from credsweeper.credentials.candidate import Candidate, LineData
 from credsweeper.file_handler.analysis_target import AnalysisTarget
-from credsweeper.filters import Filter
-from credsweeper.rules import Rule
+from credsweeper.filters.filter import Filter
+from credsweeper.rules.rule import Rule
 logger = logging.getLogger(__name__)

credsweeper/scanner/scan_type/single_pattern.py CHANGED Viewed

@@ -1,10 +1,10 @@
 from typing import List
-from credsweeper.config import Config
-from credsweeper.credentials import Candidate
+from credsweeper.config.config import Config
+from credsweeper.credentials.candidate import Candidate
 from credsweeper.file_handler.analysis_target import AnalysisTarget
-from credsweeper.rules import Rule
-from credsweeper.scanner.scan_type import ScanType
+from credsweeper.rules.rule import Rule
+from credsweeper.scanner.scan_type.scan_type import ScanType
 class SinglePattern(ScanType):

credsweeper/scanner/scanner.py CHANGED Viewed

@@ -6,16 +6,21 @@ from typing import List, Type, Tuple, Union, Dict, Generator, Set
 from credsweeper.app import APP_PATH
 from credsweeper.common.constants import RuleType, MIN_VARIABLE_LENGTH, MIN_SEPARATOR_LENGTH, MIN_VALUE_LENGTH, \
     MAX_LINE_LENGTH, PEM_BEGIN_PATTERN
-from credsweeper.config import Config
-from credsweeper.credentials import Candidate
+from credsweeper.config.config import Config
+from credsweeper.credentials.candidate import Candidate
 from credsweeper.file_handler.analysis_target import AnalysisTarget
 from credsweeper.file_handler.content_provider import ContentProvider
-from credsweeper.rules import Rule
-from credsweeper.scanner.scan_type import PemKeyPattern, ScanType, SinglePattern, MultiPattern
-from credsweeper.utils import Util
+from credsweeper.rules.rule import Rule
+from credsweeper.scanner.scan_type.multi_pattern import MultiPattern
+from credsweeper.scanner.scan_type.pem_key_pattern import PemKeyPattern
+from credsweeper.scanner.scan_type.scan_type import ScanType
+from credsweeper.scanner.scan_type.single_pattern import SinglePattern
+from credsweeper.utils.util import Util
 logger = logging.getLogger(__name__)
+RULES_PATH = APP_PATH / "rules" / "config.yaml"
 class Scanner:
     """Advanced Credential Scanner base class.
@@ -63,11 +68,11 @@ class Scanner:
                 return True
         return False
-    def _set_rules_scanners(self, rule_path: Union[None, str, Path]) -> None:
+    def _set_rules_scanners(self, rules_path: Union[None, str, Path]) -> None:
         """Auxiliary method to fill rules, determine min_pattern_len and set scanners"""
-        if rule_path is None:
-            rule_path = APP_PATH / "rules" / "config.yaml"
-        rule_templates = Util.yaml_load(rule_path)
+        if rules_path is None:
+            rules_path = RULES_PATH
+        rule_templates = Util.yaml_load(rules_path)
         if rule_templates and isinstance(rule_templates, list):
             rule_names = set()
             for rule_template in rule_templates:
@@ -95,7 +100,7 @@ class Scanner:
                         logger.warning(f"Unknown rule type:{rule.rule_type}")
                 self.rules_scanners.append((rule, self.get_scanner(rule)))
         else:
-            raise RuntimeError(f"Wrong rules '{rule_templates}' were read from '{rule_path}'")
+            raise RuntimeError(f"Wrong rules '{rule_templates}' were read from '{rules_path}'")
     def _is_available(self, rule: Rule) -> bool:
         """separate the method to reduce complexity"""
@@ -142,16 +147,22 @@ class Scanner:
             # Trim string from outer spaces to make future `x in str` checks faster
             target_line_stripped = target.line_strip
             target_line_stripped_len = target.line_strip_len
+            # use lower case for required substring
+            target_line_stripped_lower = target.line_lower_strip
             # "cache" - YAPF and pycharm formatters ...
             matched_keyword = \
                 target_line_stripped_len >= self.min_keyword_len and (  #
                         '=' in target_line_stripped
                         or ':' in target_line_stripped
-                        or "set" in target_line_stripped
-                        or "#define" in target_line_stripped
-                        or "%define" in target_line_stripped
+                        or ("define" in target_line_stripped
+                            and ('(' in target_line_stripped and ',' in target_line_stripped
+                                 or "#define" in target_line_stripped
+                                 or "%define" in target_line_stripped)
+                            )
                         or "%global" in target_line_stripped
+                        or "set" in target_line_stripped_lower
+                        or "%3d" in target_line_stripped_lower
                 )  #
             matched_pem_key = \
                 target_line_stripped_len >= self.min_pem_key_len \
@@ -165,8 +176,6 @@ class Scanner:
                              target.line_num)
                 continue
-            # use lower case for required substring
-            target_line_stripped_lower = target.line_lower_strip
             # cached value to skip the same regex verifying
             matched_regex: Dict[re.Pattern, bool] = {}

credsweeper/secret/config.json CHANGED Viewed

@@ -12,18 +12,21 @@
             ".rpm",
             ".tar",
             ".war",
+            ".whl",
             ".xz",
             ".zip"
         ],
         "documents": [
-            ".xlsx",
+            ".doc",
             ".docx",
-            ".pptx",
-            ".xls",
             ".odp",
             ".ods",
             ".odt",
-            ".pdf"
+            ".pdf",
+            ".ppt",
+            ".pptx",
+            ".xls",
+            ".xlsx"
         ],
         "extension": [
             ".7z",
@@ -45,16 +48,23 @@
             ".info",
             ".jpeg",
             ".jpg",
+            ".lib",
             ".map",
             ".m4a",
             ".mat",
             ".mo",
+            ".mov",
             ".mp3",
             ".mp4",
+            ".mpg",
+            ".mkv",
             ".npy",
             ".npz",
             ".obj",
+            ".oga",
             ".ogg",
+            ".ogv",
+            ".ops",
             ".pak",
             ".png",
             ".psd",
@@ -71,8 +81,10 @@
             ".so",
             ".sum",
             ".svg",
+            ".swf",
             ".tif",
             ".tiff",
+            ".tlb",
             ".ttf",
             ".vcxproj",
             ".vdproj",
@@ -81,6 +93,7 @@
             ".webp",
             ".wma",
             ".woff",
+            ".woff2",
             ".yuv"
         ],
         "path": [
@@ -164,8 +177,8 @@
         "tizen"
     ],
     "check_for_literals": true,
-    "min_pattern_value_length": 12,
-    "min_keyword_value_length": 4,
+    "max_password_value_length": 64,
+    "max_url_cred_value_length": 80,
     "line_data_output": [
         "line",
         "line_num",

credsweeper/utils/__init__.py CHANGED Viewed

	@@ -1 +0,0 @@
1	- from credsweeper.utils.util import DiffRowData, Util, DiffDict

credsweeper/utils/pem_key_detector.py CHANGED Viewed

@@ -5,10 +5,10 @@ import string
 from typing import List
 from credsweeper.common.constants import PEM_BEGIN_PATTERN, PEM_END_PATTERN, Chars
-from credsweeper.config import Config
-from credsweeper.credentials import LineData
+from credsweeper.config.config import Config
+from credsweeper.credentials.line_data import LineData
 from credsweeper.file_handler.analysis_target import AnalysisTarget
-from credsweeper.utils import Util
+from credsweeper.utils.util import Util
 logger = logging.getLogger(__name__)

credsweeper/utils/util.py CHANGED Viewed

@@ -9,12 +9,10 @@ import random
 import re
 import string
 import tarfile
-from dataclasses import dataclass
 from pathlib import Path
 from typing import Any, Dict, List, Tuple, Optional, Union
 import numpy as np
-import whatthepatch
 import yaml
 from cryptography.hazmat.primitives import hashes
 from cryptography.hazmat.primitives.asymmetric import padding
@@ -29,31 +27,12 @@ from cryptography.hazmat.primitives.asymmetric.x448 import X448PublicKey, X448Pr
 from cryptography.hazmat.primitives.serialization import load_der_private_key
 from cryptography.hazmat.primitives.serialization.pkcs12 import load_key_and_certificates
 from lxml import etree
-from typing_extensions import TypedDict
-from credsweeper.common.constants import DiffRowType, AVAILABLE_ENCODINGS, \
+from credsweeper.common.constants import AVAILABLE_ENCODINGS, \
     DEFAULT_ENCODING, LATIN_1, CHUNK_SIZE, MAX_LINE_LENGTH, CHUNK_STEP_SIZE, ASCII
 logger = logging.getLogger(__name__)
-DiffDict = TypedDict(
-    "DiffDict",
-    {
-        "old": Optional[int],  #
-        "new": Optional[int],  #
-        "line": Union[str, bytes],  # bytes are possibly since whatthepatch v1.0.4
-        "hunk": Any  # not used
-    })
-@dataclass(frozen=True)
-class DiffRowData:
-    """Class for keeping data of diff row."""
-    line_type: DiffRowType
-    line_numb: int
-    line: str
 class Util:
     """Class that contains different useful methods."""
@@ -82,11 +61,11 @@ class Util:
     def get_shannon_entropy(data: Union[str, bytes]) -> float:
         """Borrowed from http://blog.dkbza.org/2007/05/scanning-data-for-entropy-anomalies.html."""
         if not data:
-            return 0.
+            return 0.0
         size = len(data)
         _uniq, counts = np.unique(list(data), return_counts=True)
         probabilities = counts / size
-        entropy = float(-np.sum(probabilities * np.log2(probabilities)))
+        entropy = -float(np.sum(probabilities * np.log2(probabilities)))
         return entropy
     # Precalculated data for speedup
@@ -162,15 +141,6 @@ class Util:
         min_entropy = Util.get_min_data_entropy(data_len)
         return entropy < min_entropy
-    @staticmethod
-    def is_known(data: Union[bytes, bytearray]) -> bool:
-        """Returns True if any known binary format is found to prevent extra scan a file without an extension."""
-        if isinstance(data, (bytes, bytearray)) and data.startswith(b"\x7f\x45\x4c\x46") and 127 <= len(data):
-            # https://en.wikipedia.org/wiki/Executable_and_Linkable_Format
-            # minimal ELF is 127 bytes https://github.com/tchajed/minimal-elf
-            return True
-        return False
     @staticmethod
     def is_binary(data: Union[bytes, bytearray]) -> bool:
         """
@@ -239,13 +209,12 @@ class Util:
             try:
                 if binary_suggest and LATIN_1 == encoding and (Util.is_binary(content) or not Util.is_latin1(content)):
                     # LATIN_1 may convert data (bytes in range 0x80:0xFF are transformed)
-                    # so skip this encoding when checking binaries
-                    logger.warning("Binary file detected %s", repr(content[:8]))
                     break
-                text = content.decode(encoding, errors="strict")
-                if content != text.encode(encoding, errors="strict"):
+                _text = content.decode(encoding=encoding, errors="strict")
+                if content != _text.encode(encoding=encoding, errors="strict"):
                     # the check helps to detect a real encoding
                     raise UnicodeError
+                text = _text
                 break
             except UnicodeError:
                 binary_suggest = True
@@ -254,6 +223,11 @@ class Util:
                 logger.error(f"Unexpected Error: Can't read content as {encoding}. Error message: {exc}")
         return text
+    @staticmethod
+    def split_text(text: str) -> List[str]:
+        """Splits a text into lines, handling all common line endings (e.g., LF, CRLF, CR)."""
+        return text.replace("\r\n", '\n').replace('\r', '\n').split('\n')
     @staticmethod
     def decode_bytes(content: bytes, encodings: Optional[List[str]] = None) -> List[str]:
         """Decode content using different encodings.
@@ -272,121 +246,11 @@ class Util:
         """
         if text := Util.decode_text(content, encodings):
-            lines = text.replace('\r\n', '\n').replace('\r', '\n').split('\n')
+            lines = Util.split_text(text)
         else:
             lines = []
         return lines
-    @staticmethod
-    def patch2files_diff(raw_patch: List[str], change_type: DiffRowType) -> Dict[str, List[DiffDict]]:
-        """Generate files changes from patch for added or deleted filepaths.
-        Args:
-            raw_patch: git patch file content
-            change_type: change type to select, DiffRowType.ADDED or DiffRowType.DELETED
-        Return:
-            return dict with ``{file paths: list of file row changes}``, where
-            elements of list of file row changes represented as::
-                {
-                    "old": line number before diff,
-                    "new": line number after diff,
-                    "line": line text,
-                    "hunk": diff hunk number
-                }
-        """
-        if not raw_patch:
-            return {}
-        added_files, deleted_files = {}, {}
-        try:
-            for patch in whatthepatch.parse_patch(raw_patch):
-                if patch.changes is None:
-                    logger.warning(f"Patch '{str(patch.header)}' cannot be scanned")
-                    continue
-                changes = []
-                for change in patch.changes:
-                    change_dict = change._asdict()
-                    changes.append(change_dict)
-                added_files[patch.header.new_path] = changes
-                deleted_files[patch.header.old_path] = changes
-            if change_type == DiffRowType.ADDED:
-                return added_files
-            elif change_type == DiffRowType.DELETED:
-                return deleted_files
-            else:
-                logger.error(f"Change type should be one of: '{DiffRowType.ADDED}', '{DiffRowType.DELETED}';"
-                             f" but received {change_type}")
-        except Exception as exc:
-            logger.exception(exc)
-        return {}
-    @staticmethod
-    def preprocess_diff_rows(
-            added_line_number: Optional[int],  #
-            deleted_line_number: Optional[int],  #
-            line: str) -> List[DiffRowData]:
-        """Auxiliary function to extend diff changes.
-        Args:
-            added_line_number: number of added line or None
-            deleted_line_number: number of deleted line or None
-            line: the text line
-        Return:
-            diff rows data with as list of row change type, line number, row content
-        """
-        rows_data: List[DiffRowData] = []
-        if isinstance(added_line_number, int):
-            # indicates line was inserted
-            rows_data.append(DiffRowData(DiffRowType.ADDED, added_line_number, line))
-        if isinstance(deleted_line_number, int):
-            # indicates line was removed
-            rows_data.append(DiffRowData(DiffRowType.DELETED, deleted_line_number, line))
-        return rows_data
-    @staticmethod
-    def wrong_change(change: DiffDict) -> bool:
-        """Returns True if the change is wrong"""
-        for i in ["line", "new", "old"]:
-            if i not in change:
-                logger.error(f"Skipping wrong change {change}")
-                return True
-        return False
-    @staticmethod
-    def preprocess_file_diff(changes: List[DiffDict]) -> List[DiffRowData]:
-        """Generate changed file rows from diff data with changed lines (e.g. marked + or - in diff).
-        Args:
-            changes: git diff by file rows data
-        Return:
-            diff rows data with as list of row change type, line number, row content
-        """
-        if not changes:
-            return []
-        rows_data = []
-        # process diff to restore lines and their positions
-        for change in changes:
-            if Util.wrong_change(change):
-                continue
-            line = change["line"]
-            if isinstance(line, str):
-                rows_data.extend(Util.preprocess_diff_rows(change.get("new"), change.get("old"), line))
-            elif isinstance(line, (bytes, bytearray)):
-                logger.warning("The feature is available with the deep scan option")
-            else:
-                logger.error(f"Unknown type of line {type(line)}")
-        return rows_data
     @staticmethod
     def is_zip(data: Union[bytes, bytearray]) -> bool:
         """According https://en.wikipedia.org/wiki/List_of_file_signatures"""
@@ -486,13 +350,20 @@ class Util:
             return True
         return False
-    @classmethod
-    def is_sqlite3(cls, data):
+    @staticmethod
+    def is_sqlite3(data: Union[bytes, bytearray]):
         """According https://en.wikipedia.org/wiki/List_of_file_signatures - SQLite Database"""
         if isinstance(data, (bytes, bytearray)) and data.startswith(b"SQLite format 3\0"):
             return True
         return False
+    @staticmethod
+    def is_rtf(data: Union[bytes, bytearray]):
+        """According https://en.wikipedia.org/wiki/List_of_file_signatures - Rich Text Format"""
+        if isinstance(data, (bytes, bytearray)) and data.startswith(b"{\\rtf1") and data.endswith(b"}"):
+            return True
+        return False
     @staticmethod
     def is_asn1(data: Union[bytes, bytearray]) -> int:
         """Only sequence type 0x30 and size correctness are checked
@@ -706,6 +577,7 @@ class Util:
         """decode text to bytes with / without padding detect and urlsafe symbols"""
         value = text.translate(Util.WHITESPACE_TRANS_TABLE)
         if padding_safe:
+            value = value.rstrip('=')  # python 3.10 workaround
             pad_num = 0x3 & len(value)
             if pad_num:
                 value += '=' * (4 - pad_num)
@@ -769,6 +641,8 @@ class Util:
     @staticmethod
     def subtext(text: str, pos: int, hunk_size: int) -> str:
         """cut text symmetrically for given position or use remained quota to be fitted in 2x hunk_size"""
+        # cut trailed whitespaces to obtain more informative data
+        text = text.rstrip()
         if hunk_size <= pos:
             left_quota = 0
             left_pos = pos - hunk_size

{credsweeper-1.11.5.dist-info → credsweeper-1.13.3.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: credsweeper
-Version: 1.11.5
+Version: 1.13.3
 Summary: Credential Sweeper
 Project-URL: Homepage, https://github.com/Samsung/CredSweeper
 Project-URL: Bug Tracker, https://github.com/Samsung/CredSweeper/issues
@@ -10,13 +10,12 @@ Classifier: License :: OSI Approved :: MIT License
 Classifier: Operating System :: OS Independent
 Classifier: Programming Language :: Python :: 3
 Classifier: Programming Language :: Python :: 3 :: Only
-Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Classifier: Topic :: Security
 Classifier: Topic :: Software Development :: Quality Assurance
-Requires-Python: >=3.9
+Requires-Python: >=3.10
 Requires-Dist: base58
 Requires-Dist: beautifulsoup4>=4.11.0
 Requires-Dist: colorama
@@ -24,10 +23,10 @@ Requires-Dist: cryptography
 Requires-Dist: gitpython
 Requires-Dist: humanfriendly
 Requires-Dist: lxml
-Requires-Dist: numpy<2.0.0
+Requires-Dist: numpy
 Requires-Dist: odfpy
-Requires-Dist: onnxruntime; platform_system != 'Windows'
-Requires-Dist: onnxruntime==1.19.2; platform_system == 'Windows'
+Requires-Dist: onnxruntime; platform_system != 'Windows' or python_version != '3.12'
+Requires-Dist: onnxruntime==1.19.2; platform_system == 'Windows' and python_version == '3.12'
 Requires-Dist: openpyxl
 Requires-Dist: pandas
 Requires-Dist: pdfminer-six
@@ -38,6 +37,7 @@ Requires-Dist: python-docx
 Requires-Dist: python-pptx
 Requires-Dist: pyyaml
 Requires-Dist: rpmfile
+Requires-Dist: striprtf
 Requires-Dist: whatthepatch
 Requires-Dist: xlrd
 Description-Content-Type: text/markdown
@@ -90,7 +90,7 @@ Full documentation can be found here: <https://credsweeper.readthedocs.io/>
 ### Main Requirements
-- Python 3.9, 3.10, 3.11, 3.12
+- Python 3.10, 3.11, 3.12
 ### Installation

credsweeper 1.11.5__py3-none-any.whl → 1.13.3__py3-none-any.whl

Potentially problematic release.

credsweeper 1.11.5py3-none-any.whl → 1.13.3py3-none-any.whl