PyPI - epstein-files - Versions diffs - 1.2.5__py3-none-any.whl → 1.5.0__py3-none-any.whl - Mend

epstein-files 1.2.5py3-none-any.whl → 1.5.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

epstein_files/__init__.py +55 -23
epstein_files/documents/communication.py +9 -5
epstein_files/documents/document.py +231 -135
epstein_files/documents/doj_file.py +242 -0
epstein_files/documents/doj_files/full_text.py +166 -0
epstein_files/documents/email.py +289 -232
epstein_files/documents/emails/email_header.py +35 -16
epstein_files/documents/emails/emailers.py +223 -0
epstein_files/documents/imessage/text_message.py +2 -3
epstein_files/documents/json_file.py +18 -14
epstein_files/documents/messenger_log.py +23 -39
epstein_files/documents/other_file.py +54 -48
epstein_files/epstein_files.py +65 -29
epstein_files/person.py +151 -94
epstein_files/util/constant/names.py +37 -10
epstein_files/util/constant/output_files.py +2 -0
epstein_files/util/constant/strings.py +14 -7
epstein_files/util/constant/urls.py +17 -0
epstein_files/util/constants.py +556 -391
epstein_files/util/data.py +2 -0
epstein_files/util/doc_cfg.py +44 -33
epstein_files/util/env.py +34 -19
epstein_files/util/file_helper.py +30 -6
epstein_files/util/helpers/debugging_helper.py +13 -0
epstein_files/util/helpers/env_helpers.py +21 -0
epstein_files/util/highlighted_group.py +121 -37
epstein_files/util/layout/left_bar_panel.py +26 -0
epstein_files/util/logging.py +28 -13
epstein_files/util/output.py +49 -40
epstein_files/util/rich.py +30 -3
epstein_files/util/word_count.py +7 -7
{epstein_files-1.2.5.dist-info → epstein_files-1.5.0.dist-info}/METADATA +16 -3
epstein_files-1.5.0.dist-info/RECORD +40 -0
{epstein_files-1.2.5.dist-info → epstein_files-1.5.0.dist-info}/entry_points.txt +1 -1
epstein_files-1.2.5.dist-info/RECORD +0 -34
{epstein_files-1.2.5.dist-info → epstein_files-1.5.0.dist-info}/LICENSE +0 -0
{epstein_files-1.2.5.dist-info → epstein_files-1.5.0.dist-info}/WHEEL +0 -0

epstein_files/documents/emails/email_header.py CHANGED Viewed

@@ -2,7 +2,8 @@ import json
 import re
 from dataclasses import asdict, dataclass, field
-from epstein_files.util.constant.strings import AUTHOR, REDACTED
+from epstein_files.documents.emails.emailers import BAD_EMAILER_REGEX, TIME_REGEX
+from epstein_files.util.constant.strings import AUTHOR, indented
 from epstein_files.util.constants import ALL_CONFIGS
 from epstein_files.util.doc_cfg import EmailCfg
 from epstein_files.util.logging import logger
@@ -13,14 +14,29 @@ ON_BEHALF_OF = 'on behalf of'
 TO_FIELDS = ['bcc', 'cc', 'to']
 EMAILER_FIELDS = [AUTHOR] + TO_FIELDS
-HEADER_REGEX_STR = r'(((?:(?:Date|From|Sent|To|C[cC]|Importance|Subject|Bee|B[cC]{2}|Attachments|Classification|Flag):|on behalf of ?)(?! +(by |from my|via )).*\n){3,})'
+FIELD_PATTERNS = [
+    'Date',
+    'From',
+    'Sent',
+    'To',
+    r"C[cC]",
+    r"B[cC][cC]",
+    'Importance',
+    'Subject',
+    'Attachments',
+    'Classification',
+    'Flag',
+    'Reply-To',
+    'Inline-Images'
+]
+DETECT_EMAIL_REGEX = re.compile(r'^(.*\n){0,2}(From|Subject):')  # IDed 140 emails out of 3777 DOJ files with just 'From:' match
+FIELDS_PATTERN = '|'.join(FIELD_PATTERNS)
+FIELDS_COLON_PATTERN = fr"^({FIELDS_PATTERN}):"
+HEADER_REGEX_STR = fr"(((?:(?:{FIELDS_PATTERN}|Bee):|on behalf of ?)(?! +(by |from my|via )).*\n){{3,}})"
 EMAIL_SIMPLE_HEADER_REGEX = re.compile(rf'^{HEADER_REGEX_STR}')
 EMAIL_SIMPLE_HEADER_LINE_BREAK_REGEX = re.compile(HEADER_REGEX_STR)
 EMAIL_PRE_FORWARD_REGEX = re.compile(r"(.{3,2000}?)" + HEADER_REGEX_STR, re.DOTALL)  # Match up to the next email header section
-TIME_REGEX = re.compile(r'^(\d{1,2}/\d{1,2}/\d{2,4}|Thursday|Monday|Tuesday|Wednesday|Friday|Saturday|Sunday).*')
-BAD_NAME_CHARS_REGEX = re.compile(r"[\"'\[\]*><•]")
-BAD_EMAILER_REGEX = re.compile(r'^(>|11111111)|agreed|ok|sexy|re:|fwd:|Multiple Senders|((sent|attachments|subject|importance).*|.*(january|201\d|hysterical|i have|image0|so that people|article 1.?|momminnemummin|These conspiracy theories|your state|undisclosed|www\.theguardian|talk in|it was a|what do|cc:|call (back|me)).*)$', re.IGNORECASE)
 CONFIGURED_ACTUAL_TEXTS = [
     cfg.actual_text for cfg in ALL_CONFIGS
@@ -51,8 +67,10 @@ class EmailHeader:
     classification: str | None = None
     flag: str | None = None
     importance: str | None = None
+    inline_images: str | None = None
     attachments: str | None = None
     to: list[str] | None = None
+    reply_to: str | None = None
     def __post_init__(self):
         self.num_header_rows = len(self.field_names)
@@ -95,13 +113,10 @@ class EmailHeader:
                     logger.info(f"{log_prefix}, trying next line...")
                     num_headers += 1
                     value = email_lines[i + num_headers]
-                elif BAD_EMAILER_REGEX.match(value):
+                elif BAD_EMAILER_REGEX.match(value) or value.startswith('http'):
                     logger.info(f"{log_prefix}, decrementing num_headers and skipping...")
                     num_headers -= 1
                     continue
-                elif value.startswith('http'):
-                    logger.info(f"{log_prefix}, using empty string instead...")
-                    value = ''
                 value = [v.strip() for v in value.split(';') if len(v.strip()) > 0]
@@ -110,7 +125,12 @@ class EmailHeader:
         self.num_header_rows = len(self.field_names) + num_headers
         self.header_chars = '\n'.join(email_lines[0:self.num_header_rows])
         log_msg = f"Corrected empty header using {self.num_header_rows} lines to:\n"
-        logger.debug(f"{log_msg}{self}\n\nTop lines:\n\n%s", '\n'.join(email_lines[0:(num_headers + 1) * 2]))
+        logger.info(
+            f"{log_msg}{self}\n\n[top lines]:\n\n%s\n\n[body_lines]:\n\n%s\n\n",
+            indented('\n'.join(email_lines[0:(num_headers + 1) * 2]), prefix='> '),
+            indented('\n'.join(email_lines[self.num_header_rows:self.num_header_rows + 5]), prefix='> '),
+        )
     def rewrite_header(self) -> str:
         header_fields = {}
@@ -151,7 +171,7 @@ class EmailHeader:
             #logger.debug(f"extracting header line: '{line}'")
             key, value = [element.strip() for element in line.split(':', 1)]
             value = value.rstrip('_')
-            key = AUTHOR if key == 'From' else ('sent_at' if key in ['Date', 'Sent'] else key.lower())
+            key = AUTHOR if key == 'From' else ('sent_at' if key in ['Date', 'Sent'] else key.lower().replace('-', '_'))
             key = 'bcc' if key == 'bee' else key
             if kw_args.get(key):
@@ -161,6 +181,9 @@ class EmailHeader:
             field_names.append(key)
+            if key == 'reply_to':
+                logger.warning(f"Found value for Reply-To field: '{value}'")
             if key in TO_FIELDS:
                 recipients = [element.strip() for element in value.split(';')]
                 recipients = [r for r in recipients if len(r) > 0]
@@ -172,7 +195,3 @@ class EmailHeader:
             logger.debug(f"Header being parsed was this:\n\n{header}\n")
         return cls(field_names=field_names, header_chars=header, **kw_args)
-    @staticmethod
-    def cleanup_str(_str: str) -> str:
-        return BAD_NAME_CHARS_REGEX.sub('', _str.replace(REDACTED, '')).strip().strip('_').strip()

epstein_files/documents/emails/emailers.py ADDED Viewed

@@ -0,0 +1,223 @@
+"""
+Regexes and patterns for identifying people in email headers.
+"""
+import re
+from copy import deepcopy
+from epstein_files.util.constant.names import *
+from epstein_files.util.constant.strings import REDACTED
+from epstein_files.util.data import escape_single_quotes
+from epstein_files.util.logging import logger
+BAD_EMAILER_REGEX = re.compile(r'^(>|11111111)|agreed|ok|sexy|re:|fwd:|Multiple Senders|((sent|attachments|subject|importance).*|.*(january|201\d|hysterical|i have|image0|so that people|article 1.?|momminnemummin|These conspiracy theories|your state|undisclosed|www\.theguardian|talk in|it was a|what do|cc:|call (back|me)|afiaata|[IM]{4,}).*)$', re.IGNORECASE)
+BAD_NAME_CHARS_REGEX = re.compile(r"[\"'\[\]*><•=()]")
+TIME_REGEX = re.compile(r'^((\d{1,2}/\d{1,2}/\d{2,4}|Thursday|Monday|Tuesday|Wednesday|Friday|Saturday|Sunday)|\d{4} ).*')
+EMAILER_ID_PATTERNS: dict[str, str] = {
+    ALAN_DERSHOWITZ: r'(alan.{1,7})?dershowi(lz?|t?z)|AlanDersh',
+    ALIREZA_ITTIHADIEH: r'Alireza.[Il]ttihadieh',
+    ALISON_J_NATHAN: r"Alison(\s*J\.?)?\s*Nathan|Nathan NYSD Chambers?",
+    AMANDA_ENS: r'ens, amanda?|Amanda.Ens',
+    AMIR_TAAKI: r'Amir\s*Taaki|genjix',
+    ANAS_ALRASHEED: r'anas\s*al\s*rashee[cd]',
+    ANIL_AMBANI: r'Anil.Ambani',
+    ANN_MARIE_VILLAFANA: r'Villafana, Ann Marie|(A(\.|nn) Marie )?Villafa(c|n|ri)a',
+    ANTHONY_SCARAMUCCI: r"mooch|(Anthony ('The Mooch' )?)?Scaramucci",
+    ARIANE_DE_ROTHSCHILD: r'AdeR|((Ariane|Edmond) (de )?)?Rothsh?ch?ild|Ariane(?!\s+Dwyer)',
+    BARBRO_C_EHNBOM: r'behnbom@aol.com|(Barbro\s.*)?Ehnbom',
+    BARRY_J_COHEN: r'barry\s*((j.?|james)\s*)?cohen?',
+    BENNET_MOSKOWITZ: r'Moskowitz.*Bennet|Bennet.*Moskowitz',
+    BOB_CROWE: r"[BR]ob Crowe",
+    BORIS_NIKOLIC: r'(boris )?nikolic?',
+    BRAD_EDWARDS: r'Brad(ley)?(\s*J(.?|ames))?\s*Edwards',
+    BRAD_KARP: r'Brad (S.? )?Karp|Karp, Brad',
+    CHRISTIAN_EVERDELL: r"C(hristian\s*)?Everdell?",
+    CHRISTOPHER_DILORIO: r"Chris\s*Di[lI]o[nr](io)?",
+    DANGENE_AND_JENNIE_ENTERPRISE: r'Dangene and Jennie Enterprise?',
+    DANNY_FROST: r'Frost, Danny|frostd@dany.nyc.gov|Danny\s*Frost',
+    DARREN_INDYKE: r'darren$|Darren\s*(K\.?\s*)?[il]n[dq]_?yke?|dkiesq',
+    DAVID_FISZEL: r'David\s*Fis?zel',
+    DAVID_HAIG: fr'{DAVID_HAIG}|Haig, David',
+    DAVID_STERN: r'David Stern?',
+    DOUGLAS_WIGDOR: r'Doug(las)?\s*(H\.?)?\s*Wigdor',
+    EDUARDO_ROBLES: r'Ed(uardo)?\s*Robles',
+    EDWARD_JAY_EPSTEIN: r'(?<!Jeffrey )Edward (Jay )?Epstein',
+    EHUD_BARAK: r'(ehud|e?h)\s*barak|\behud',
+    FAITH_KATES: r'faith kates?',
+    GERALD_BARTON: r'Gerald.*Barton',
+    GERALD_LEFCOURT: r'Gerald\s*(B\.?\s*)?Lefcourt',
+    GHISLAINE_MAXWELL: r'g ?max(well)?|Ghislaine|Maxwell',
+    HEATHER_MANN: r'Heather Mann?',
+    INTELLIGENCE_SQUARED: r'intelligence\s*squared',
+    JACKIE_PERCZEK: r'jackie percze[kl]?',
+    JABOR_Y: r'[ji]abor\s*y?',
+    JAMES_HILL: r"hill, james e.|james.e.hill@abc.com",
+    JANUSZ_BANASIAK: r"Janu[is]z Banasiak",
+    JEAN_HUGUEN: r"Jean[\s.]Huguen",
+    JEAN_LUC_BRUNEL: r'Jean[- ]Luc Brunel?|JeanLuc',
+    JEFF_FULLER: r"jeff@mc2mm.com|Jeff Fuller",
+    JEFFREY_EPSTEIN: r'[djl]\s?ee[vy]acation[©@]?g?(mail.com)?|Epstine|\bJEE?\b|Jeff(rey)? (Edward )?E((sp|ps)tein?)?( VI Foundation)?|jeeproject@yahoo.com|J Jep|Jeffery Edwards|(?<!(Mark L.|ard Jay) )Epstein',
+    JESSICA_CADWELL: r'Jessica Cadwell?',
+    JOHNNY_EL_HACHEM: r'el hachem johnny|johnny el hachem',
+    JOI_ITO: r'ji@media.mit.?edu|(joichi|joi)( Ito)?',
+    JONATHAN_FARKAS: r'Jonathan Fark(a|u)(s|il)',
+    KARYNA_SHULIAK: r"Karyna\s*Shuliak?",
+    KATHRYN_RUEMMLER: r'Kathr?yn? Ruemmler?',
+    KEN_STARR: r'starr, ken|Ken(neth\s*(W.\s*)?)?\s+starr?|starr',
+    LANDON_THOMAS: r'lando[nr] thomas( jr)?|thomas jr.?, lando[nr]',
+    LARRY_SUMMERS: r'(La(wrence|rry).{1,5})?Summers?|^LH$|LHS|[Il]hsofficel?',
+    LAWRANCE_VISOSKI: r'La(rry|wrance) Visoski?|Lvjet',
+    LAWRENCE_KRAUSS: r'Lawrence Kraus[es]?|[jl]awkrauss|kruase',
+    LEON_BLACK: r'Leon\s*Black?|(?<!Marc )Leon(?! (Botstein|Jaworski|Wieseltier))',
+    LILLY_SANCHEZ: r'Lilly.*Sanchez',
+    LISA_NEW: r'E?Lisa New?\b',
+    MANUELA_MARTINEZ: fr'Manuela (- Mega Partners|Martinez)',
+    MARIANA_IDZKOWSKA: r'Mariana [Il]d[źi]kowska?',
+    MARK_EPSTEIN: r'Mark (L\. )?(Epstein|Lloyd)',
+    MARC_LEON: r'Marc[.\s]+(Kensington|Leon)|Kensington2',
+    MARTIN_NOWAK: r'(Martin.*?)?No[vw]ak|Nowak, Martin',
+    MARTIN_WEINBERG: r'martin.*?weinberg',
+    "Matthew Schafer": r"matthew\.?schafer?",
+    MELANIE_SPINELLA: r'M?elanie Spine[Il]{2}a',
+    MICHAEL_BUCHHOLTZ: r'Michael.*Buchholtz',
+    MICHAEL_MILLER: r'Micha(el)? Miller|Miller, Micha(el)?',
+    MICHAEL_SITRICK: r'(Mi(chael|ke).{0,5})?[CS]itrick',
+    MICHAEL_WOLFF: r'Michael\s*Wol(f[ef]e?|i)|Wolff',
+    MIROSLAV_LAJCAK: r"Miro(slav)?(\s+Laj[cč][aá]k)?",
+    MOHAMED_WAHEED_HASSAN: r'Mohamed Waheed(\s+Hassan)?',
+    NADIA_MARCINKO: r"Na[dď]i?a\s+Marcinko(v[aá])?",
+    NEAL_KASSELL: r'Neal\s*Kassell?',
+    NICHOLAS_RIBIS: r'Nic(holas|k)[\s._]Ribi?s?|Ribbis',
+    OLIVIER_COLOM: fr'Colom, Olivier|{OLIVIER_COLOM}',
+    PAUL_BARRETT: r'Paul Barre(d|tt)',
+    PAUL_KRASSNER: r'Pa\s?ul Krassner',
+    PAUL_MORRIS: r'morris, paul|Paul Morris',
+    PAULA: r'^Paula( Heil Fisher)?$',
+    PEGGY_SIEGAL: r'Peggy Siegal?',
+    PETER_ATTIA: r'Peter Attia?',
+    PETER_MANDELSON: r"((Lord|Peter) )?Mandelson",
+    'pink@mc2mm.com': r"^Pink$|pink@mc2mm\.com",
+    PRINCE_ANDREW: r'Prince Andrew|The Duke',
+    REID_WEINGARTEN: r'Weingarten, Rei[cdi]|Rei[cdi] Weingarten',
+    RICHARD_KAHN: r'rich(ard)? kahn?',
+    ROBERT_D_CRITTON_JR: r'Robert D.? Critton,? Jr.?',
+    ROBERT_LAWRENCE_KUHN: r'Robert\s*(Lawrence)?\s*Kuhn',
+    ROBERT_TRIVERS: r'tri[vy]ersr@gmail|Robert\s*Trivers?',
+    ROSS_GOW: fr"Ross(acuity)? Gow|(ross@)?acuity\s*reputation(\.com)?",
+    SAMUEL_LEFF: r"Sam(uel)?(/Walli)? Leff",
+    SCOTT_J_LINK: r'scott j. link?',
+    SEAN_BANNON: r'sean bannon?',
+    SHAHER_ABDULHAK_BESHER: r'\bShaher( Abdulhak Besher)?\b',
+    SOON_YI_PREVIN: r'Soon[- ]Yi Previn?',
+    STACEY_RICHMAN: r"srichmanlaw|Stacey\s*Richman",
+    STEPHEN_HANSON: r'ste(phen|ve) hanson?|Shanson900',
+    STEVE_BANNON: r'steve banno[nr]?',
+    STEVEN_SINOFSKY: r'Steven Sinofsky?',
+    SULTAN_BIN_SULAYEM: r'Sultan (Ahmed )?bin Sulaye?m?',
+    TERJE_ROD_LARSEN: r"Terje(( (R[øo]e?d[- ])?)?Lars[eo]n)?",
+    TERRY_KAFKA: r'Terry Kafka?',
+    THANU_BOONYAWATANA: r"Thanu (BOONYAWATANA|Cnx)",
+    THORBJORN_JAGLAND: r'(Thor.{3,8})?Jag[il]and?',
+    TONJA_HADDAD_COLEMAN: r"To(nj|rl)a Haddad Coleman|haddadfm@aol.com",
+    VINCENZO_IOZZO: r"Vincenzo [IL]ozzo",
+}
+# If found as substring consider them the author
+EMAILERS = [
+    'Anne Boyles',
+    AL_SECKEL,
+    'Ariane Dwyer',
+    AZIZA_ALAHMADI,
+    BILL_GATES,
+    BILL_SIEGEL,
+    'Bobbi C Sternheim',
+    BRAD_WECHSLER,
+    BROCK_PIERCE,
+    CHRISTINA_GALBRAITH,
+    DANIEL_SABBA,
+    'Danny Goldberg',
+    DAVID_SCHOEN,
+    DEBBIE_FEIN,
+    DEEPAK_CHOPRA,
+    GLENN_DUBIN,
+    GORDON_GETTY,
+    'Jeff Pagliuca',
+    'Kevin Bright',
+    'Jack Lang',
+    JACK_SCAROLA,
+    JAY_LEFKOWITZ,
+    JES_STALEY,
+    JOHN_PAGE,
+    'Jokeland',
+    JOSCHA_BACH,
+    'Kathleen Ruderman',
+    KENNETH_E_MAPP,
+    'Larry Cohen',
+    LESLEY_GROFF,
+    'lorraine@mc2mm.com',
+    LINDA_STONE,
+    'Lyn Fontanilla',
+    MARK_TRAMO,
+    MELANIE_WALKER,
+    MERWIN_DELA_CRUZ,
+    'Michael Simmons',   # Not the only "To:"
+    'middle.east.update@hotmail.com',
+    'Nancy Cain',
+    'Nancy Dahl',
+    'Nancy Portland',
+    'Nathan NYSD Chambers',
+    'Oliver Goodenough',
+    'Paula Speer',
+    'Peter Aldhous',
+    'Peter Green',
+    ROGER_SCHANK,
+    'Roy Black',
+    STEVEN_PFEIFFER,
+    'Steven Victor MD',
+    'Susan Edelman',
+    TOM_BARRACK,
+    'USANYS',
+    'Vahe Stepanian',
+    'Vladimir Yudashkin',
+]
+EMAILER_ID_REGEXES = {name: re.compile(pattern, re.IGNORECASE) for name, pattern in EMAILER_ID_PATTERNS.items()}
+EMAILER_REGEXES = deepcopy(EMAILER_ID_REGEXES)  # Keep a copy without the simple EMAILERS regexes
+# Add simple matching regexes for EMAILERS entries to EMAILER_REGEXES
+for emailer in EMAILERS:
+    if emailer in EMAILER_REGEXES:
+        raise RuntimeError(f"Can't overwrite emailer regex for '{emailer}'")
+    EMAILER_REGEXES[emailer] = re.compile(emailer + '?', re.IGNORECASE)  # Last char optional bc OCR sucks
+SUPPRESS_LOGS_FOR_AUTHORS = [
+    'Multiple Senders Multiple Senders',
+    'Undisclosed recipients:',
+    'undisclosed-recipients:',
+]
+def cleanup_str(_str: str) -> str:
+    return BAD_NAME_CHARS_REGEX.sub('', _str.replace(REDACTED, '')).strip().strip('_').strip()
+def extract_emailer_names(emailer_str: str) -> list[str]:
+    """Return a list of people's names found in `emailer_str` (email author or recipients field)."""
+    emailer_str = cleanup_str(emailer_str)
+    if len(emailer_str) == 0:
+        return []
+    names_found = [name for name, regex in EMAILER_REGEXES.items() if regex.search(emailer_str)]
+    if len(emailer_str) <= 2 or BAD_EMAILER_REGEX.match(emailer_str) or TIME_REGEX.match(emailer_str):
+        if len(names_found) == 0 and emailer_str not in SUPPRESS_LOGS_FOR_AUTHORS:
+            logger.warning(f"No emailer found in '{escape_single_quotes(emailer_str)}'")
+        else:
+            logger.info(f"Extracted {len(names_found)} names from semi-invalid '{emailer_str}': {names_found}...")
+        return names_found
+    names_found = names_found or [emailer_str]
+    return [reverse_first_and_last_names(name) for name in names_found]

epstein_files/documents/imessage/text_message.py CHANGED Viewed

@@ -6,13 +6,12 @@ from rich.text import Text
 from epstein_files.util.constant.names import ANTHONY_SCARAMUCCI, JEFFREY_EPSTEIN, STEVE_BANNON, UNKNOWN, Name, extract_last_name
 from epstein_files.util.constant.strings import TIMESTAMP_DIM
-from epstein_files.util.data import iso_timestamp
+from epstein_files.util.data import AMERICAN_DATE_FORMAT, iso_timestamp
 from epstein_files.util.highlighted_group import get_style_for_name
 from epstein_files.util.logging import logger
 from epstein_files.util.rich import TEXT_LINK, highlighter
 EPSTEIN_TEXTERS = ['e:', 'e:jeeitunes@gmail.com']
-MSG_DATE_FORMAT = r"%m/%d/%y %I:%M:%S %p"
 PHONE_NUMBER_REGEX = re.compile(r'^[\d+]+.*')
 UNCERTAIN_SUFFIX = ' (?)'
@@ -54,7 +53,7 @@ class TextMessage:
         return self.text.startswith('http')
     def parse_timestamp(self) -> datetime:
-        return datetime.strptime(self.timestamp_str, MSG_DATE_FORMAT)
+        return datetime.strptime(self.timestamp_str, AMERICAN_DATE_FORMAT)
     def timestamp_txt(self) -> Text:
         try:

epstein_files/documents/json_file.py CHANGED Viewed

@@ -28,6 +28,24 @@ class JsonFile(OtherFile):
     include_description_in_summary_panel: ClassVar[bool] = False
     strip_whitespace: ClassVar[bool] = False
+    @property
+    def category(self) -> str:
+        return JSON
+    @property
+    def is_interesting(self):
+        return False
+    @property
+    def info_txt(self) -> Text | None:
+        return Text(DESCRIPTION, style=INFO_STYLE)
+    @property
+    def metadata(self) -> Metadata:
+        metadata = super().metadata
+        metadata['description'] = DESCRIPTION
+        return metadata
     def __post_init__(self):
         super().__post_init__()
@@ -36,23 +54,9 @@ class JsonFile(OtherFile):
         self._set_computed_fields(text=self.json_str())
-    def category(self) -> str:
-        return JSON
-    def info_txt(self) -> Text | None:
-        return Text(DESCRIPTION, style=INFO_STYLE)
-    def is_interesting(self):
-        return False
     def json_data(self) -> object:
         with open(self.file_path, encoding='utf-8-sig') as f:
             return json.load(f)
-    def metadata(self) -> Metadata:
-        metadata = super().metadata()
-        metadata['description'] = DESCRIPTION
-        return metadata
     def json_str(self) -> str:
         return json.dumps(self.json_data(), indent=4)

epstein_files/documents/messenger_log.py CHANGED Viewed

@@ -31,38 +31,30 @@ class MessengerLog(Communication):
     messages: list[TextMessage] = field(default_factory=list)
     phone_number: str | None = None
-    def __post_init__(self):
-        super().__post_init__()
-        self.messages = [self._build_message(match) for match in MSG_REGEX.finditer(self.text)]
-    def first_message_at(self, name: Name) -> datetime:
-        return self.messages_by(name)[0].parse_timestamp()
+    @property
+    def border_style(self) -> str:
+        return self.author_style
+    @property
     def info_txt(self) -> Text | None:
         num_days_str = days_between_str(self.timestamp, self.messages[-1].parse_timestamp())
         txt = Text(f"(Covers {num_days_str} starting ", style='dim')
-        txt.append(self.date_str(), style=TIMESTAMP_STYLE).append(' ')
+        txt.append(self.date_str, style=TIMESTAMP_STYLE).append(' ')
         if not self.author:
             txt.append('with unknown counterparty')
         else:
-            txt.append(GUESSED_MSG if self.is_attribution_uncertain() else CONFIRMED_MSG).append(' ')
-            txt.append(Text(self.author, style=self.author_style() + ' bold'))
+            txt.append(GUESSED_MSG if self.is_attribution_uncertain else CONFIRMED_MSG).append(' ')
+            txt.append(Text(self.author, style=self.author_style + ' bold'))
         if self.phone_number:
             txt.append(highlighter(f" using the phone number {self.phone_number}"))
         return txt.append(')')
-    def last_message_at(self, name: Name) -> datetime:
-        return self.messages_by(name)[-1].parse_timestamp()
-    def messages_by(self, name: Name) -> list[TextMessage]:
-        """Return all messages by 'name'."""
-        return [m for m in self.messages if m.author == name]
+    @property
     def metadata(self) -> Metadata:
-        metadata = super().metadata()
+        metadata = super().metadata
         metadata.update({'num_messages': len(self.messages)})
         if self.phone_number:
@@ -70,8 +62,19 @@ class MessengerLog(Communication):
         return metadata
-    def _border_style(self) -> str:
-        return self.author_style()
+    def __post_init__(self):
+        super().__post_init__()
+        self.messages = [self._build_message(match) for match in MSG_REGEX.finditer(self.text)]
+    def first_message_at(self, name: Name) -> datetime:
+        return self.messages_by(name)[0].parse_timestamp()
+    def last_message_at(self, name: Name) -> datetime:
+        return self.messages_by(name)[-1].parse_timestamp()
+    def messages_by(self, name: Name) -> list[TextMessage]:
+        """Return all messages by 'name'."""
+        return [m for m in self.messages if m.author == name]
     def _build_message(self, match: re.Match) -> TextMessage:
         """Turn a regex match into a TextMessage."""
@@ -86,7 +89,7 @@ class MessengerLog(Communication):
         return TextMessage(
             author=self.author if (is_phone_number or not author_str) else author_str,
             author_str=author_str if is_phone_number else '',  # Preserve phone numbers
-            is_id_confirmed=not self.is_attribution_uncertain(),
+            is_id_confirmed=not self.is_attribution_uncertain,
             text=match.group(4).strip(),
             timestamp_str=match.group(2).strip(),
         )
@@ -102,25 +105,6 @@ class MessengerLog(Communication):
         raise RuntimeError(f"{self}: No timestamp found!")
-    def _set_message_timestamps(self) -> None:
-        raise NotImplementedError(f"TextMessage.timestamp no longer exists")
-        last_message: TextMessage | None = None
-        for i, message in enumerate(self.messages):
-            try:
-                message.timestamp = message.parse_timestamp()
-            except Exception as e:
-                msg = f"Failed to parse timestamp for TextMessage {i + 1}, {message}: {e}"
-                if i == 0:
-                    message.timestamp = self.timestamp
-                    self.warn(f"{msg}\nit's the first message so using the MessengerLog timestamp property {self.timestamp}")
-                else:
-                    message.timestamp = last_message.timestamp + timedelta(milliseconds=1)
-                    self.warn(f"{msg}\nadding 1 millisecond to last timestamp {last_message.timestamp}")
-            last_message = message
     def __rich_console__(self, console: Console, options: ConsoleOptions) -> RenderResult:
         yield self.file_info_panel()
         yield Text('')

epstein-files 1.2.5__py3-none-any.whl → 1.5.0__py3-none-any.whl

epstein-files 1.2.5py3-none-any.whl → 1.5.0py3-none-any.whl