PyPI - csc-cia-stne - Versions diffs - 0.1.28__py3-none-any.whl → 0.1.30__py3-none-any.whl - Mend

csc-cia-stne 0.1.28py3-none-any.whl → 0.1.30py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

csc_cia_stne/__init__.py CHANGED Viewed

@@ -16,6 +16,7 @@ from .web import web_screen
 from .wacess import Waccess
 from .gcp_bucket import GCPBucket
 from .ftp import FTP
+from .gcp_document_ai import GCPDocumentAIClient
 # Define os itens disponíveis para importação
 __all__ = [
@@ -30,6 +31,7 @@ __all__ = [
     "Provio",
     "Email",
     "GoogleDrive",
+    "GCPDocumentAIClient"
     "Slack",
     "web_screen",
     "Waccess",

csc_cia_stne/gcp_document_ai.py ADDED Viewed

@@ -0,0 +1,100 @@
+from typing import Optional, Dict, Union
+from google.cloud import documentai_v1beta3 as documentai
+from google.oauth2 import service_account
+class GCPDocumentAIClient:
+    def __init__(self, credential_json: Optional[dict] = None, processor_id: Optional[str] = None) -> None:
+        """
+        Inicializa o cliente do Google Cloud Document AI.
+        Args:
+            credential_json (Optional[dict]): Dicionário contendo as credenciais do Google Cloud.
+            processor_id (Optional[str]): ID do processador do Document AI.
+        Attributes:
+            credential_json (dict): Credenciais do Google Cloud
+            project_id (str): ID do projeto extraído das credenciais
+            location (str): Localização do processador (fixo: "us")
+            processor_id (str): ID do processador do Document AI
+            client (documentai.DocumentProcessorServiceClient): Cliente do Document AI
+            is_connected (bool): Status da conexão
+            error (str|None): Mensagem de erro se houver falha na inicialização
+        """
+        self.credential_json: dict = credential_json
+        self.project_id: str = self.credential_json.get("project_id")
+        self.location: str = "us"
+        self.processor_id: str = processor_id
+        try:
+            self.client: documentai.DocumentProcessorServiceClient = self._get_document_ai_client(self.credential_json)
+            self.is_connected: bool = True
+            self.error = None
+        except Exception as e:
+            error_msg = f"Erro ao inicializar o cliente do Document AI: {e}"
+            self.is_connected = False
+            self.error = error_msg
+    def _get_document_ai_client(self, credential_json: dict) -> documentai.DocumentProcessorServiceClient:
+        """
+        Cria e retorna o cliente do Document AI.
+        Args:
+            credential_json (dict): Dicionário contendo as credenciais do Google Cloud.
+        Returns:
+            documentai.DocumentProcessorServiceClient: Cliente autenticado do Document AI.
+        Raises:
+            Exception: Se houver erro na autenticação ou inicialização do cliente.
+        """
+        try:
+            credential = service_account.Credentials.from_service_account_info(credential_json)
+        except Exception as e:
+            error_msg = f"Erro ao criar credenciais do Document AI: {e}"
+            raise Exception(error_msg)
+        return documentai.DocumentProcessorServiceClient(credentials=credential)
+    def ler_documento(self, file_bytes: bytes, mime_type: str) -> Dict[str, Union[bool, str, documentai.Document, None]]:
+        """
+        Processa um documento PDF usando o Google Cloud Document AI para extrair texto.
+        Args:
+            file_bytes (bytes): Bytes do arquivo PDF a ser processado.
+            mime_type (str): Tipo MIME do arquivo (ex.: "application/pdf").
+        Returns:
+            Dict[str, Union[bool, str, documentai.Document, None]]: Resultado do processamento
+                - success (bool): True se o processamento foi bem-sucedido
+                - error (str|None): Mensagem de erro se houver falha
+                - data (documentai.Document|None): Documento processado pelo Document AI
+        Example:
+            >>> client = GCPDocumentAIClient(creds, processor_id)
+            >>> with open("documento.pdf", "rb") as f:
+            ...     resultado = client.ler_documento(f.read(), "application/pdf")
+            >>> if resultado["success"]:
+            ...     texto = resultado["data"].text
+            ...     print(f"Texto extraído: {texto[:100]}...")
+        Note:
+            - Utiliza o processador configurado no __init__
+            - Processa o documento completo enviado em file_bytes
+            - Para limitar páginas, use extrair_x_paginas_pdf antes desta função
+        """
+        try:
+            name = self.client.processor_path(self.project_id, self.location, self.processor_id)
+            request = documentai.ProcessRequest(
+                name=name,
+                raw_document=documentai.RawDocument(content=file_bytes, mime_type=mime_type)
+            )
+            result = self.client.process_document(request=request)
+            return {"success": True, "error": None, "data": result.document}
+        except Exception as e:
+            error_msg = f"Erro ao processar o documento com o Document AI: {str(e)}"
+            return {"success": False, "error": error_msg, "data": None}

csc_cia_stne/utilitarios/functions/__init__.py CHANGED Viewed

@@ -7,6 +7,7 @@ from .func_get_secret import get_secret
 from .func_datetime import now_sp
 from .func_delete import delete_file, delete_folder
 from .func_validate_json import validate_json
+from .func_pdf_extract import extrair_x_paginas_pdf, extrair_paginas_intervalo_pdf
 __all__ = [
     "titulo",
@@ -19,5 +20,7 @@ __all__ = [
     "now_sp",
     "delete_file",
     "delete_folder",
+    "extrair_x_paginas_pdf",
+    "extrair_paginas_intervalo_pdf",
     "validate_json"
     ]

csc_cia_stne/utilitarios/functions/func_pdf_extract.py ADDED Viewed

@@ -0,0 +1,104 @@
+from PyPDF2 import PdfReader, PdfWriter
+from io import BytesIO
+from typing import Optional
+def extrair_x_paginas_pdf(file_path: str, pages_limit: int = 15) -> Optional[bytes]:
+    """
+    Extrai as primeiras X páginas de um arquivo PDF e retorna os bytes dessas páginas.
+    Args:
+        file_path (str): Caminho completo do arquivo PDF original.
+        pages_limit (int, optional): Número máximo de páginas a serem extraídas.
+                                    Defaults to 15.
+    Returns:
+        Optional[bytes]: Bytes do novo PDF contendo as primeiras X páginas,
+                        ou None em caso de erro.
+    Note:
+        - Se o PDF tiver menos páginas que pages_limit, todas serão extraídas
+        - Utiliza PyPDF2 para manipulação do arquivo PDF
+        - Retorna None em caso de erro no processamento
+    Example:
+        >>> pdf_bytes = extrair_x_paginas_pdf("documento.pdf", 10)
+        >>> if pdf_bytes["success"]:
+        ...     print(f"PDF extraído com {len(pdf_bytes["data"])} bytes")
+    """
+    try:
+        # Lê o arquivo PDF original
+        reader = PdfReader(file_path)
+        writer = PdfWriter()
+        # Extrai as primeiras 'pages_limit' páginas ou menos, caso o PDF tenha menos de 'pages_limit' páginas
+        for page_num in range(min(pages_limit, len(reader.pages))):
+            writer.add_page(reader.pages[page_num])
+        # Salva o novo PDF em um objeto BytesIO
+        pdf_bytes = BytesIO()
+        writer.write(pdf_bytes)
+        pdf_bytes.seek(0)  # Move o cursor para o início do buffer
+        resposta = {"success": True, "error": None, "data": pdf_bytes.read()}
+        return resposta
+    except Exception as e:
+        resposta = {"success": False, "error": f"Erro ao extrair as primeiras {pages_limit} páginas do PDF: {str(e)}", "data": None}
+        return resposta
+def extrair_paginas_intervalo_pdf(file_path: str, page_start: int = 1, pages_limit: int = 15) -> Optional[bytes]:
+    """
+    Extrai um número específico de páginas de um arquivo PDF a partir de uma página inicial.
+    Args:
+        file_path (str): Caminho completo do arquivo PDF original.
+        page_start (int, optional): Página inicial para começar a extração (1-indexed).
+                                Defaults to 1.
+        pages_limit (int, optional): Número máximo de páginas a serem extraídas a partir
+                                    da página inicial. Defaults to 15.
+    Returns:
+        Optional[bytes]: Bytes do novo PDF contendo as páginas do intervalo especificado,
+                    ou None em caso de erro.
+    Note:
+        - Se page_start for maior que o número total de páginas, retorna None
+        - Se o número de páginas restantes for menor que pages_limit, extrai apenas as disponíveis
+        - Utiliza PyPDF2 para manipulação do arquivo PDF
+        - Páginas são indexadas começando em 1 (não 0)
+    Example:
+        >>> # Extrai 5 páginas começando da página 3
+        >>> pdf_bytes = extrair_paginas_intervalo_pdf("documento.pdf", 3, 5)
+        >>> if pdf_bytes["success"]:
+        ...     print(f"PDF extraído com {len(pdf_bytes["data"])} bytes")
+    """
+    try:
+        # Lê o arquivo PDF original
+        reader = PdfReader(file_path)
+        writer = PdfWriter()
+        # Converte page_start para índice 0-based
+        start_index = page_start - 1
+        # Verifica se a página inicial é válida
+        if start_index >= len(reader.pages) or start_index < 0:
+            resposta = {"success": False, "error": f"Página inicial {page_start} inválida. O PDF tem {len(reader.pages)} páginas.", "data": None}
+            return resposta
+        # Calcula o índice final baseado no limite de páginas
+        end_index = min(start_index + pages_limit, len(reader.pages))
+        # Extrai as páginas do intervalo especificado
+        for page_num in range(start_index, end_index):
+            writer.add_page(reader.pages[page_num])
+        # Salva o novo PDF em um objeto BytesIO
+        pdf_bytes = BytesIO()
+        writer.write(pdf_bytes)
+        pdf_bytes.seek(0)  # Move o cursor para o início do buffer
+        resposta = {"success": True, "error": None, "data": pdf_bytes.read()}
+        return resposta
+    except Exception as e:
+        resposta = {"success": False, "error": f"Erro ao extrair páginas {page_start}-{page_start + pages_limit - 1} do PDF: {str(e)}", "data": None}
+        return resposta

{csc_cia_stne-0.1.28.dist-info → csc_cia_stne-0.1.30.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: csc_cia_stne
-Version: 0.1.28
+Version: 0.1.30
 Summary: Biblioteca do time CSC-CIA utilizada no desenvolvimento de RPAs
 License: MIT
 Keywords: karavela,csc,cia,stone,rpa,botcity,stne
@@ -17,9 +17,11 @@ Requires-Dist: zeep
 Requires-Dist: google-cloud-bigquery
 Requires-Dist: google-cloud-storage
 Requires-Dist: google-cloud-bigquery-storage
+Requires-Dist: google-auth
 Requires-Dist: google-auth-oauthlib
 Requires-Dist: google-auth-httplib2
 Requires-Dist: google-api-python-client
+Requires-Dist: google-cloud-documentai
 Requires-Dist: pyjwt
 Requires-Dist: PyYAML
 Requires-Dist: python-dotenv
@@ -31,6 +33,7 @@ Requires-Dist: email-validator
 Requires-Dist: botcity-maestro-sdk
 Requires-Dist: psutil
 Requires-Dist: cryptography
+Requires-Dist: PyPDF2
 Requires-Dist: pycurl
 Dynamic: license-file

{csc_cia_stne-0.1.28.dist-info → csc_cia_stne-0.1.30.dist-info}/RECORD RENAMED Viewed

@@ -1,10 +1,11 @@
-csc_cia_stne/__init__.py,sha256=jwLhGpOwFCow_6cqzwLn31WcIrMzutMZtEQpLL4bQtM,2638
+csc_cia_stne/__init__.py,sha256=LITCLPqafF-VUV85wUvJ047ozLnfd82vw5AuuKXYi2s,2713
 csc_cia_stne/bc_correios.py,sha256=s2XjJ0iokMlcUv0mAy9saU3pc_G-6X8wltb_lFHIL6o,24717
 csc_cia_stne/bc_sta.py,sha256=S4EtkSEHP-wTMWRjmmSBH9XY5SnVQ1TwwZFSOE6tI2Q,29551
 csc_cia_stne/email.py,sha256=y4xyPAe6_Mga5Wf6qAsDzYgn0f-zf2KshfItlWe58z8,8481
 csc_cia_stne/ftp.py,sha256=eNkOUEXdw-9NYfuZjNo6Oh7EduD54g8N0cfD0LuOiTU,11516
 csc_cia_stne/gcp_bigquery.py,sha256=foq8azvvv_f7uikMDslX9RcUIrx7RAS-Sn0AGW0QFQc,7231
 csc_cia_stne/gcp_bucket.py,sha256=vMALWiW7IoBCuJAR8bUCpOV6BuBzI9AhRRk3b72OdMk,11515
+csc_cia_stne/gcp_document_ai.py,sha256=Dzlk7YR3M_LxE0sHn-Lxz-PA1NsUZN2hgY5PyUfs0IQ,4506
 csc_cia_stne/google_drive.py,sha256=7qwx4_RPEoSJgeVI02aLYNXA7o69_Z3qONvX5bfA4V0,44500
 csc_cia_stne/karavela.py,sha256=jJCYX43D49gGuzmwwK6bN9XVnv2dXdp9iHnnV5H1LMQ,4794
 csc_cia_stne/logger_json.py,sha256=CXxSCOFGMymDi8XE9SKnPKjW4D0wJLqDLnxqePS26i8,3187
@@ -16,12 +17,13 @@ csc_cia_stne/stne_admin.py,sha256=tbRN_l3y---GHlQoAAjlZP92wnVA73hUmk9hQxKavH8,28
 csc_cia_stne/wacess.py,sha256=g-bWZNpm_tU7UsW1G_rqh_2fW2KShvxZHGOerX8DuQw,26768
 csc_cia_stne/web.py,sha256=TBXUJ5eS36fytU3oFDuJsogi0sgw_qKgK-uphx4Nvxo,2506
 csc_cia_stne/utilitarios/__init__.py,sha256=ul7p-4XduFOQW2ldKSIbTQb3eq7h5O1l8IwSP7b5KgY,410
-csc_cia_stne/utilitarios/functions/__init__.py,sha256=1jKf5CbiBe5wRKu-npBe9AYqY8KybGbQXfHjZ8JR5wM,629
+csc_cia_stne/utilitarios/functions/__init__.py,sha256=KPzb4b48YxWkn-9Pg4L3XHTWO3UqDiRXmTu1IyOJXMY,778
 csc_cia_stne/utilitarios/functions/func_b64.py,sha256=XGU34BIQQXWXBS0yM2B4A2wDlcrMl1unIJXjq4lpLnk,1254
 csc_cia_stne/utilitarios/functions/func_converters.py,sha256=EY1zvlBaRX7G1MceVSiRXwwKDQDZwUO9iECBL0fe5iU,481
 csc_cia_stne/utilitarios/functions/func_datetime.py,sha256=UA7ch4sQWTiYcz8r6LtGujIdpTU-Sht8qmTYvm9vhh0,257
 csc_cia_stne/utilitarios/functions/func_delete.py,sha256=o2h4leucTq5Cs0XxJ5aBzbRyuxusKXIoedn2tmxNp1E,2449
 csc_cia_stne/utilitarios/functions/func_get_secret.py,sha256=XFsAd9GnKnf9WLnARqNG2fFg5h_JEOxbVvt_78VFYh4,2959
+csc_cia_stne/utilitarios/functions/func_pdf_extract.py,sha256=uuGecPx4gh6uVyCvrqstK97G11FP7Sz0iwr52MUgD48,4508
 csc_cia_stne/utilitarios/functions/func_recriar_pastas.py,sha256=4whZpB3aJQaCPJ3osMAQpKrzEhqYtJbljGWlx_OvKIM,826
 csc_cia_stne/utilitarios/functions/func_settings.py,sha256=XwlfqdcfocXQ8kTsDKZ6GsAtpzr0_u44AOTIMtdem7U,2059
 csc_cia_stne/utilitarios/functions/func_titulo.py,sha256=bH4tYxovTARF-g2kWUK_GIzzXt8egbVdp6mWD6fc_3I,5345
@@ -38,8 +40,8 @@ csc_cia_stne/utilitarios/web_screen/__init__.py,sha256=5QcOPXKd95SvP2DoZiHS0gaU6
 csc_cia_stne/utilitarios/web_screen/web_screen_abstract.py,sha256=PjL8Vgfj_JdKidia7RFyCkro3avYLQu4RZRos41sh3w,3241
 csc_cia_stne/utilitarios/web_screen/web_screen_botcity.py,sha256=Xi5YJjl2pcxlX3OimqcBWRNXZEpAE7asyUjDJ4Oho5U,12297
 csc_cia_stne/utilitarios/web_screen/web_screen_selenium.py,sha256=JLIcPJE9ZX3Pd6zG6oTRMqqUAY063UzLY3ReRlxmiSM,15581
-csc_cia_stne-0.1.28.dist-info/licenses/LICENCE,sha256=LPGMtgKki2C3KEZP7hDhA1HBrlq5JCHkIeStUCLEMx4,1073
-csc_cia_stne-0.1.28.dist-info/METADATA,sha256=oJCQ8Ju7pZE-gvLod5Oon0ZgYrz6Z9rgAeJfXUXNrq4,1464
-csc_cia_stne-0.1.28.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-csc_cia_stne-0.1.28.dist-info/top_level.txt,sha256=ldo7GVv3tQx5KJvwBzdZzzQmjPys2NDVVn1rv0BOF2Q,13
-csc_cia_stne-0.1.28.dist-info/RECORD,,
+csc_cia_stne-0.1.30.dist-info/licenses/LICENCE,sha256=LPGMtgKki2C3KEZP7hDhA1HBrlq5JCHkIeStUCLEMx4,1073
+csc_cia_stne-0.1.30.dist-info/METADATA,sha256=VzrUhcUhi1RZ2i2aBwBczNzvOfPFmGtwA3wfQSyAvYc,1552
+csc_cia_stne-0.1.30.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+csc_cia_stne-0.1.30.dist-info/top_level.txt,sha256=ldo7GVv3tQx5KJvwBzdZzzQmjPys2NDVVn1rv0BOF2Q,13
+csc_cia_stne-0.1.30.dist-info/RECORD,,

{csc_cia_stne-0.1.28.dist-info → csc_cia_stne-0.1.30.dist-info}/WHEEL RENAMED Viewed

File without changes

{csc_cia_stne-0.1.28.dist-info → csc_cia_stne-0.1.30.dist-info}/licenses/LICENCE RENAMED Viewed

File without changes

{csc_cia_stne-0.1.28.dist-info → csc_cia_stne-0.1.30.dist-info}/top_level.txt RENAMED Viewed

File without changes

csc-cia-stne 0.1.28__py3-none-any.whl → 0.1.30__py3-none-any.whl

csc-cia-stne 0.1.28py3-none-any.whl → 0.1.30py3-none-any.whl