PyPI - virgo-modules - Versions diffs - 0.0.3__tar.gz → 0.0.6__tar.gz - Mend

virgo-modules 0.0.3tar.gz → 0.0.6tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of virgo-modules might be problematic. Click here for more details.

Files changed (18) hide show

{virgo_modules-0.0.3 → virgo_modules-0.0.6}/PKG-INFO RENAMED Viewed

@@ -1,36 +1,19 @@
 Metadata-Version: 2.1
 Name: virgo_modules
-Version: 0.0.3
+Version: 0.0.6
 Summary: data processing and statistical modeling using stock market data
 Home-page: https://github.com/miguelmayhem92/virgo_module
 Author: Miguel Mayhuire
 Author-email: miguelmayhem92@gmail.com
 License: MIT
+Platform: UNKNOWN
 Classifier: License :: OSI Approved :: MIT License
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Operating System :: OS Independent
 Requires-Python: >=3.9, <3.10
 Description-Content-Type: text/markdown
-License-File: LICENSE
-Requires-Dist: feature-engine==1.6.1
-Requires-Dist: matplotlib==3.6.3
-Requires-Dist: mlflow==2.1.1
-Requires-Dist: numpy==1.23.5
-Requires-Dist: optuna==3.1.0
-Requires-Dist: pandas==1.5.3
-Requires-Dist: plotly==5.15.0
-Requires-Dist: rsa==4.9
-Requires-Dist: scikit-learn==1.2.1
-Requires-Dist: scipy==1.10.0
-Requires-Dist: seaborn==0.12.2
-Requires-Dist: starlette==0.22.0
-Requires-Dist: statsmodels==0.13.5
-Requires-Dist: ta==0.10.2
-Requires-Dist: yfinance==0.2.9
-Requires-Dist: hmmlearn==0.3.0
-Requires-Dist: boto3
 Provides-Extra: dev
-Requires-Dist: pytest>=7.0; extra == "dev"
+License-File: LICENSE
 # Virgo Package
@@ -51,3 +34,4 @@ obj = stock_eda_panel(stock_code = 'PEP', n_days = 20)
 obj.get_data()
 print(obj.df.shape)
 ```

{virgo_modules-0.0.3 → virgo_modules-0.0.6}/setup.py RENAMED Viewed

@@ -5,7 +5,7 @@ with open("virgo_app/README.md", "r") as f:
 setup(
     name="virgo_modules",
-    version="0.0.3",
+    version="0.0.6",
     description="data processing and statistical modeling using stock market data",
     package_dir={"": "virgo_app"},
     packages=find_packages(where="virgo_app"),

virgo_modules-0.0.6/virgo_app/virgo_modules/src/aws_utils.py ADDED Viewed

@@ -0,0 +1,38 @@
+import yaml
+import boto3
+from pathlib import Path
+from io import StringIO, BytesIO
+import pandas as pd
+def upload_file_to_aws(bucket,key,input_path, secret_path = 'secrets.yaml'):
+    credentials = yaml.safe_load(Path(secret_path).read_text())
+    session = boto3.Session(aws_access_key_id=credentials['AWS_ACCESS_KEY_ID'],aws_secret_access_key=credentials['AWS_SECRET_ACCESS_KEY'])
+    bucket = credentials[bucket]
+    s3 = session.resource('s3')
+    s3.meta.client.upload_file(Filename=input_path , Bucket=bucket, Key=key)
+def upload_pandas_to_s3(data_frame,bucket,key, secret_path = 'secrets.yaml'):
+    csv_buffer = StringIO()
+    data_frame.to_csv(csv_buffer)
+    csv_buffer.seek(0)
+    credentials = yaml.safe_load(Path(secret_path).read_text())
+    s3 = boto3.client("s3",region_name=credentials['AWS_DEFAULT_REGION'],aws_access_key_id=credentials['AWS_ACCESS_KEY_ID'],aws_secret_access_key=credentials['AWS_SECRET_ACCESS_KEY'])
+    bucket = credentials[bucket]
+    s3.put_object(Bucket=bucket, Body=csv_buffer.getvalue(), Key= key)
+def download_file_to_aws(bucket,key, secret_path = 'secrets.yaml'):
+    credentials = yaml.safe_load(Path(secret_path).read_text())
+    s3c = boto3.client(
+            's3',
+            region_name = credentials['AWS_DEFAULT_REGION'],
+            aws_access_key_id = credentials['AWS_ACCESS_KEY_ID'],
+            aws_secret_access_key = credentials['AWS_SECRET_ACCESS_KEY']
+        )
+    obj = s3c.get_object(Bucket= bucket , Key = key)
+    df = pd.read_csv(BytesIO(obj['Body'].read()), encoding='utf8')
+    return df

virgo_modules-0.0.6/virgo_app/virgo_modules/src/edge_utils.py ADDED Viewed

@@ -0,0 +1,181 @@
+import numpy as np
+import itertools
+from sklearn.metrics import roc_auc_score, precision_score, recall_score
+from sklearn.pipeline import Pipeline
+from feature_engine.selection import DropFeatures, DropCorrelatedFeatures
+from feature_engine.imputation import  MeanMedianImputer
+from virgo_modules.src.ticketer_source import FeatureSelector
+from feature_engine.discretisation import EqualWidthDiscretiser
+from .ticketer_source import VirgoWinsorizerFeature
+class produce_model_wrapper:
+    def __init__(self,data):
+        self.data = data.copy()
+    def preprocess(self, validation_size, target):
+        val_date = self.data.groupby('Date', as_index = False).agg(target_down = (target[0],'count')).sort_values('Date').iloc[-validation_size:,].head(1)['Date'].values[0]
+        train_data = self.data[self.data['Date'] < val_date].dropna()
+        val_data = self.data[self.data['Date'] >= val_date].dropna()
+        columns = [ x for x in train_data.columns if x not in target ]
+        X_train, y_train = train_data[columns], train_data[target]
+        X_val, y_val = val_data[columns], val_data[target]
+        self.X_train = X_train
+        self.y_train = y_train
+        self.X_val = X_val
+        self.y_val = y_val
+    def train_model(self, pipe, model, cv_ = False):
+        self.model = model
+        self.pipe_transform = pipe
+        self.pipeline = Pipeline([('pipe_transform',self.pipe_transform), ('model',self.model)])
+        self.features_to_model = self.pipe_transform.fit_transform(self.X_train).columns
+        self.pipeline.fit(self.X_train, self.y_train)
+class register_results():
+    def __init__(self, model_name):
+        self.model_name = model_name
+        self.metric_logger = dict()
+    def eval_metrics(self, pipeline, X, y, type_data, phase):
+        preds_proba = pipeline.predict_proba(X)
+        preds = pipeline.predict(X)
+        if type(preds_proba) == list:
+            preds_proba = np.array([ x[:,1]  for x in preds_proba]).T
+        roc = roc_auc_score(y,preds_proba, average=None)
+        precision = precision_score(y,preds, average=None)
+        recall = recall_score(y,preds, average=None)
+        self.metric_logger[f'{phase}//{self.model_name}//{type_data}'] = {'roc':roc, 'precision':precision, 'recall':recall}
+    def print_metric_logger(self):
+        parts = list(self.metric_logger.keys())
+        phase_parts = [ x.split('//')[0] for x in parts]
+        parts = list(self.metric_logger)
+        phase_parts = [ x.split('//')[0] for x in parts]
+        init_phase = phase_parts[0]
+        print(f'---{init_phase}--')
+        for phase,val in zip(phase_parts,self.metric_logger):
+            stage = val.split('//')[2]
+            if init_phase != phase:
+                print(f'---{phase}--')
+                init_phase = phase
+            for metric in self.metric_logger[val]:
+                print(stage, metric,self.metric_logger[val][metric])
+def eval_metrics(pipeline, X, y, type_data, model_name):
+    preds_proba = pipeline.predict_proba(X)
+    preds = pipeline.predict(X)
+    if type(preds_proba) == list:
+        preds_proba = np.array([ x[:,1]  for x in preds_proba]).T
+    print(f'--{type_data} - {model_name}--')
+    print('--target: down, up--')
+    print('--roc-auc--')
+    print(roc_auc_score(y,preds_proba, average=None))
+    print('--precision--')
+    print(precision_score(y,preds, average=None))
+    print('--recall--')
+    print(recall_score(y,preds, average=None))
+def data_processing_pipeline_classifier(features_base,features_to_drop = False, winsorizer_conf = False, discretize_columns = False,
+                                         bins_discretize = 10, correlation = 0.85, fillna = True,
+                                        pipeline_order = 'selector//winzorizer//discretizer//median_inputer//drop//correlation'):
+    select_pipe = [('selector', FeatureSelector(features_base))] if features_base else []
+    winzorizer_pipe = [('winzorized_features', VirgoWinsorizerFeature(winsorizer_conf))] if winsorizer_conf else []
+    drop_pipe = [('drop_features' , DropFeatures(features_to_drop=features_to_drop))] if features_to_drop else []
+    discretize = [('discretize',EqualWidthDiscretiser(discretize_columns, bins = bins_discretize ))] if discretize_columns else []
+    drop_corr = [('drop_corr', DropCorrelatedFeatures(threshold=correlation, method = 'spearman'))] if correlation else []
+    median_imputer_pipe = [('median_imputer', MeanMedianImputer())] if fillna else []
+    pipe_dictionary = {
+        'selector': select_pipe,
+        'winzorizer':winzorizer_pipe,
+        'drop':drop_pipe,
+        'discretizer': discretize,
+        'correlation': drop_corr,
+        'median_inputer':median_imputer_pipe,
+    }
+    pipeline_steps = pipeline_order.split('//')
+    ## validation
+    for step in pipeline_steps:
+        if step not in pipe_dictionary.keys():
+            raise Exception(f'{step} step not in list of steps, the list is: {list(pipe_dictionary.keys())}')
+    pipeline_args = [ pipe_dictionary[step] for step in pipeline_steps]
+    pipeline_args = list(itertools.chain.from_iterable(pipeline_args))
+    pipe = Pipeline(pipeline_args)
+    # pipe = Pipeline(
+    #     select_pipe + \
+    #     winzorizer_pipe + \
+    #     discretize + \
+    #     median_imputer_pipe + \
+    #     drop_pipe + \
+    #     drop_corr
+    # )
+    return pipe
+class ExpandingMultipleTimeSeriesKFold:
+    """increasing training window where the test can be overlap"""
+    def __init__(self, df, window_size = 100, number_window=3, overlap_size = 0):
+        self.df = df
+        self.number_window = number_window
+        self.window_size = window_size
+        self.overlap_size = overlap_size
+    def split(self, X, y, groups=None):
+        if 'Date_i' not in self.df.index.names or 'i' not in self.df.index.names:
+            raise Exception('no date and/or index in the index dataframe')
+        if self.overlap_size > self.window_size:
+            raise Exception('overlap can not be higher than the window size')
+        unique_dates = list(self.df.index.get_level_values('Date_i').unique())
+        unique_dates.sort()
+        total_test_size = self.window_size * self.number_window
+        total_test_size = total_test_size - (self.number_window - 1)*self.overlap_size
+        if total_test_size > len(unique_dates):
+            raise Exception('test size is higher than the data length')
+        cut = total_test_size
+        for fold in range(self.number_window):
+            topcut = cut-self.window_size
+            train_dates = unique_dates[:-cut]
+            test_dates = unique_dates[-cut:-topcut]
+            if topcut == 0:
+                test_dates = unique_dates[-cut:]
+            max_train_date = max(train_dates)
+            min_test_date, max_test_date = min(test_dates), max(test_dates)
+            cut = cut - (self.window_size - self.overlap_size)
+            train_index = self.df[self.df.index.get_level_values('Date_i') <= max_train_date].index.get_level_values('i')
+            test_index = self.df[(self.df.index.get_level_values('Date_i') >= min_test_date) & (self.df.index.get_level_values('Date_i') <= max_test_date)].index.get_level_values('i')
+            yield train_index, test_index
+    def get_n_splits(self, X, y, groups=None):
+        return self.number_window

{virgo_modules-0.0.3 → virgo_modules-0.0.6}/virgo_app/virgo_modules/src/re_utils.py RENAMED Viewed

@@ -2,6 +2,7 @@ import matplotlib.pyplot as plt
 import matplotlib.gridspec as gridspec
 import seaborn as sns; sns.set()
 import matplotlib.patheffects as path_effects
+from  matplotlib.dates import DateFormatter
 import plotly.express as px
 from plotly.subplots import make_subplots
@@ -403,7 +404,7 @@ def rank_by_return(data, lag_days, top_n = 5):
     return result
-def get_data(ticker_name:str, ticket_settings:dict, n_days:int = False, hmm_available: object = False) -> object:
+def get_data(ticker_name:str, ticket_settings:dict, n_days:int = False, hmm_available: object = False, data_window:str = '5y') -> object:
     """
     this functions runs the stock_eda_panel
     it is shared between train model and predictions
@@ -416,103 +417,84 @@ def get_data(ticker_name:str, ticket_settings:dict, n_days:int = False, hmm_avai
     returns: stock eda panel
     """
-    object_stock = stock_eda_panel(ticker_name , n_days )
+    object_stock = stock_eda_panel(ticker_name , n_days, data_window)
     object_stock.get_data()
     # computing features if they exists in the ticketr settings
     if 'volatility' in ticket_settings['settings']:
-        object_stock.volatility_analysis(
-            lags = ticket_settings['settings']['volatility']['lags'],
-            trad_days =  ticket_settings['settings']['volatility']['trad_days'],
-            window_log_return =  ticket_settings['settings']['volatility']['window_log_return']
-        )
+        parameters = ticket_settings['settings']['volatility']
+        object_stock.volatility_analysis(**parameters)
     if 'outlier' in ticket_settings['settings']:
-        object_stock.outlier_plot(ticket_settings['settings']['outlier']['zlim'])
-    if 'spread_ma' in ticket_settings['settings']:
-        object_stock.spread_MA(
-            ma1 = ticket_settings['settings']['spread_ma']['ma1'],
-            ma2 = ticket_settings['settings']['spread_ma']['ma2'],
-            limit = ticket_settings['settings']['spread_ma']['limit']
-        )
-    if 'relative_spread_ma' in ticket_settings['settings']:
-        object_stock.relative_spread_MA(
-            ma1=ticket_settings['settings']['relative_spread_ma']['ma1'],
-            ma2=ticket_settings['settings']['relative_spread_ma']['ma2'],
-            threshold = ticket_settings['settings']['relative_spread_ma']['threshold'],
-        )
+        parameters = ticket_settings['settings']['outlier']
+        object_stock.outlier_plot(**parameters)
+    ## for now this is hard coded
+    feature_map = {
+        'spread_ma':'spread_MA', # deprecated
+        'relative_spread_ma':'relative_spread_MA',
+        'pair_feature':'pair_feature',
+        'count_features':'get_count_feature', # deprecated
+        'bidirect_count_features':'bidirect_count_feature',
+        'price_range':'get_range_feature', # deprecated
+        'relative_price_range':'get_relative_range_feature',
+        'rsi_feature':'rsi_feature', # deprecated
+        'rsi_feature_v2':'rsi_feature_improved',
+        'days_features':'days_features', # deprecated
+        'days_features_v2':'days_features_bands',
+        'volume_feature':'analysis_volume',  ## this may crash but deprecated
+        'smooth_volume':'analysis_smooth_volume',
+        'roc_feature':'roc_feature',
+        'stoch_feature':'stoch_feature',
+        'stochastic_feature':'stochastic_feature',
+        'william_feature':'william_feature',
+        'vortex_feature':'vortex_feature',
+        'pair_index_feature':'pair_index_feature' # this has a diff structure!
+    }
+    exceptions = ['pair_feature','pair_index_feature']
+    ### standar feature
+    for feature in feature_map.keys():
+        if (feature in ticket_settings['settings']) and (feature not in exceptions):
+            parameters = ticket_settings['settings'][feature]
+            method_to_use = feature_map.get(feature)
+            getattr(object_stock, method_to_use)(**parameters)
+    ## special features
     if 'pair_feature' in ticket_settings['settings']:
         object_stock.pair_feature(pair_symbol = ticket_settings['settings']['pair_feature']['pair_symbol'])
         object_stock.produce_pair_score_plot(
             window = ticket_settings['settings']['pair_feature']['window'],
             z_threshold = ticket_settings['settings']['pair_feature']['z_threshold']
-        )
-    if 'count_features' in ticket_settings['settings']:
-        object_stock.get_count_feature(
-            rolling_window = ticket_settings['settings']['count_features']['rolling_window'],
-            threshold = ticket_settings['settings']['count_features']['threshold']
-        )
-    if 'bidirect_count_features' in ticket_settings['settings']:
-        object_stock.bidirect_count_feature(
-            rolling_window = ticket_settings['settings']['bidirect_count_features']['rolling_window'],
-            threshold = ticket_settings['settings']['bidirect_count_features']['threshold']
-        )
+        )
-    if 'price_range' in ticket_settings['settings']:
-        object_stock.get_range_feature(
-            window = ticket_settings['settings']['price_range']['window'],
-            up_threshold = ticket_settings['settings']['price_range']['up_threshold'],
-            low_threshold = ticket_settings['settings']['price_range']['low_threshold']
-            )
-    if 'relative_price_range' in ticket_settings['settings']:
-        object_stock.get_relative_range_feature(
-            window = ticket_settings['settings']['relative_price_range']['window'],
-            threshold = ticket_settings['settings']['relative_price_range']['threshold']
-        )
-    if 'rsi_feature' in ticket_settings['settings']:
-        object_stock.rsi_feature(
-            window = ticket_settings['settings']['rsi_feature']['window'],
-            lag_rsi_ret = ticket_settings['settings']['rsi_feature']['lag_rsi_ret'],
-            threshold = ticket_settings['settings']['rsi_feature']['threshold']
-        )
+    if 'pair_index_feature' in ticket_settings['settings']:
+        for group_feature in ticket_settings['settings']['pair_index_feature']:
+            key = list(group_feature.keys())[0]
+            parameters = group_feature[key]
+            method_to_use = feature_map.get('pair_index_feature')
+            getattr(object_stock, method_to_use)(**parameters)
-    if 'rsi_feature_v2' in ticket_settings['settings']:
-        object_stock.rsi_feature_improved(
-            window = ticket_settings['settings']['rsi_feature_v2']['window'],
-            threshold = ticket_settings['settings']['rsi_feature_v2']['threshold']
-        )
+    if 'target_lasts' in ticket_settings['settings']:
-    if 'days_features' in ticket_settings['settings']:
-        object_stock.days_features(
-            window_day = ticket_settings['settings']['days_features']['window_day'],
-            limit = ticket_settings['settings']['days_features']['limit']
-        )
-    if 'days_features_v2' in ticket_settings['settings']:
-        object_stock.days_features_bands(
-            window = ticket_settings['settings']['days_features_v2']['window'],
-            threshold = ticket_settings['settings']['days_features_v2']['threshold']
-        )
-    if 'volume_features' in ticket_settings['settings']:
-        object_stock.analysis_volume(
-            lag_volume = ticket_settings['settings']['volume_features']['lag_volume'],
-            threshold  = ticket_settings['settings']['volume_features']['threshold'],
-            window = ticket_settings['settings']['volume_features']['window']
-        )
-    if 'smooth_volume' in ticket_settings['settings']:
-        object_stock.analysis_smooth_volume(
-            window = ticket_settings['settings']['smooth_volume']['window'],
-            threshold = ticket_settings['settings']['smooth_volume']['threshold']
-        )
+        type_target = ticket_settings['settings']['target_lasts']['type']
+        params = {k:v for k,v in ticket_settings['settings']['target_lasts'].items() if k != 'type'}
+        if 'classification' == type_target:
+            object_stock.get_categorical_targets(**params)
+        elif 'regression' == type_target:
+            object_stock.get_targets(**params)
+        del params
+        del type_target
+    ## searching discrete signals and orders
+    discrete_signals = [x for x in ticket_settings['signals'] if 'discrete' in x]
+    discrete_features = [x.replace('discrete_signal_', '')  for x in discrete_signals]
+    if len(discrete_features) > 0:
+        for feature_name in discrete_features:
+            object_stock.produce_order_features(feature_name)
     if hmm_available:
         object_stock.cluster_hmm_analysis( n_clusters = None,
@@ -520,10 +502,11 @@ def get_data(ticker_name:str, ticket_settings:dict, n_days:int = False, hmm_avai
                                     test_data_size = None,
                                     seed = None, model = hmm_available)
     else:
-        object_stock.cluster_hmm_analysis( n_clusters = ticket_settings['settings']['hmm']['n_clusters'],
-                                        features_hmm = ticket_settings['settings']['hmm']['features_hmm'],
-                                        test_data_size = ticket_settings['settings']['hmm']['test_data_size'],
-                                        seed = ticket_settings['settings']['hmm']['seed'])
+        if 'hmm' in ticket_settings['settings']:
+            object_stock.cluster_hmm_analysis( n_clusters = ticket_settings['settings']['hmm']['n_clusters'],
+                                            features_hmm = ticket_settings['settings']['hmm']['features_hmm'],
+                                            test_data_size = ticket_settings['settings']['hmm']['test_data_size'],
+                                            seed = ticket_settings['settings']['hmm']['seed'])
     return object_stock
@@ -577,6 +560,7 @@ def call_ml_objects(stock_code, client, call_models = False):
                 ticker_name= stock_code,
                 ticket_settings = ticket_settings,
                 n_days = ticket_settings['settings']['general']['n_days'],
+                data_window = ticket_settings['settings']['general'].get('data_window','5y'),
                 hmm_available = hmm_model
             )
     ### applying kalman
@@ -898,4 +882,45 @@ class produce_plotly_plots:
         if self.show_plot:
             fig.show()
         if self.save_path and self.save_aws:
-            upload_file_to_aws(bucket = 'VIRGO_BUCKET', key = f'market_plots/{self.ticket_name}/'+result_json_name ,input_path = self.save_path+result_json_name)
+            upload_file_to_aws(bucket = 'VIRGO_BUCKET', key = f'market_plots/{self.ticket_name}/'+result_json_name ,input_path = self.save_path+result_json_name)
+def plot_hmm_analysis_logger(data_frame,test_data_size, save_path = False, show_plot = True):
+    df = data_frame
+    df_ = df[['Date','hmm_feature','Close',"chain_return"]].sort_values('Date')
+    fig, axs = plt.subplots(1,2,figsize=(10,4))
+    df__ = df_.iloc[:-test_data_size,]
+    sns.boxplot(data=df__, x="hmm_feature", y="chain_return",ax = axs[0]).set_title('train dist')
+    df__ = df_.iloc[-test_data_size:,]
+    sns.boxplot(data=df__ , x="hmm_feature", y="chain_return",ax = axs[1]).set_title('test dist')
+    if save_path:
+        plt.savefig(save_path)
+    if not show_plot:
+        plt.close()
+def plot_hmm_tsanalysis_logger(data_frame, test_data_size,save_path = False, show_plot = True):
+    df = data_frame
+    df_ = df[['Date','hmm_feature','Close',"chain_return"]].sort_values('Date')
+    states = list(df_['hmm_feature'].unique())
+    states.sort()
+    if test_data_size:
+        df__ = df_.iloc[-test_data_size:,]
+        date_limit = pd.Timestamp(str(df__.Date.min().strftime('%Y-%m-%d')))
+    fig, ax1 = plt.subplots(figsize=(10,4))
+    ax1.plot(df_['Date'],df_["Close"])
+    for state in states:
+        df__ = df_[df_.hmm_feature == state]
+        ax1.scatter(df__['Date'],df__["Close"], label = state)
+    formatter = DateFormatter('%Y-%m-%d')
+    if test_data_size:
+        plt.axvline(x=date_limit, color = 'r')
+    fig.legend()
+    fig.autofmt_xdate()
+    if save_path:
+        plt.savefig(save_path)
+    if not show_plot:
+        plt.close()

{virgo_modules-0.0.3 → virgo_modules-0.0.6}/virgo_app/virgo_modules/src/ticketer_source.py RENAMED Viewed

@@ -26,7 +26,8 @@ import statsmodels.api as sm
 import scipy.stats as stats
-from ta.momentum import RSIIndicator
+from ta.momentum import RSIIndicator, ROCIndicator, StochRSIIndicator,StochasticOscillator, WilliamsRIndicator
+from ta.trend import VortexIndicator
 import warnings
 warnings.filterwarnings('ignore')
@@ -44,14 +45,27 @@ from itertools import combinations, chain
 from feature_engine.encoding import OneHotEncoder
 from feature_engine.selection import DropFeatures, DropCorrelatedFeatures
 from feature_engine.timeseries.forecasting import LagFeatures
-from feature_engine.imputation import DropMissingData, MeanMedianImputer
-from feature_engine.discretisation import EqualFrequencyDiscretiser, EqualWidthDiscretiser
+from feature_engine.imputation import MeanMedianImputer
+from feature_engine.discretisation import EqualWidthDiscretiser
 from .aws_utils import upload_file_to_aws
-import pickle
 import logging
+class VirgoWinsorizerFeature(BaseEstimator, TransformerMixin):
+    def __init__(self, feature_configs):
+        self.feature_configs = feature_configs
+    def fit(self, X, y=None):
+        return self
+    def transform(self, X, y=None):
+        for feature in self.feature_configs:
+            lower = self.feature_configs[feature]['min']
+            upper = self.feature_configs[feature]['max']
+            X[feature] = np.where( lower > X[feature], lower, X[feature])
+            X[feature] = np.where( upper < X[feature], upper, X[feature])
+        return X
 class FeatureSelector(BaseEstimator, TransformerMixin):
     def __init__(self, columns):
         self.columns = columns
@@ -152,12 +166,13 @@ def states_relevance_score(data, default_benchmark_sd = 0.00003, t_threshold = 2
 class stock_eda_panel(object):
-    def __init__(self, stock_code, n_days):
+    def __init__(self, stock_code, n_days, data_window = '5y'):
         self.stock_code = stock_code
         self.n_days = n_days
         self.today = datetime.date.today()
         self.features = list()
         self.signals = list()
+        self.data_window = data_window
     def augmented_dickey_fuller_statistics(self,time_series, label):
         result = adfuller(time_series.dropna().values)
@@ -168,8 +183,7 @@ class stock_eda_panel(object):
         begin_date_str = begin_date.strftime('%Y-%m-%d')
         stock = yf.Ticker(self.stock_code)
-        #df = stock.history(period="max")
-        df = stock.history(period='5y')
+        df = stock.history(period=self.data_window)
         df = df.sort_values('Date')
         df.reset_index(inplace=True)
@@ -177,7 +191,12 @@ class stock_eda_panel(object):
         df['Date'] = pd.to_datetime(df['Date'])
         df = df[df.Date >= begin_date_str ]
-        self.settings_general = {'n_days':self.n_days, 'begin_date':begin_date_str}
+        self.settings_general = {
+            'n_days':self.n_days,
+            'begin_date':begin_date_str,
+            'data_window': self.data_window,
+            'execution_date': self.today.strftime('%Y-%m-%d')
+        }
         self.df = df
         ### cleaning volume
@@ -226,8 +245,6 @@ class stock_eda_panel(object):
         df["lower"] = df['Close_roll_mean'] - df["Close_roll_std"]*2
         df = df[df.Date >= begin_date_str ]
-        self.settings_general = {'n_days':self.n_days, 'begin_date':begin_date_str}
-        self.df = df
         fig = make_subplots(rows=1, cols=1,vertical_spacing = 0.1,shared_xaxes=True,
                            subplot_titles=(
@@ -453,6 +470,26 @@ class stock_eda_panel(object):
         self.df[f'signal_low_{feature_name}'] = np.where( (self.df[f'norm_{feature_name}'] < self.df[f'lower_{feature_name}'] ), 1, 0)
         self.df[f'signal_up_{feature_name}'] = np.where( (self.df[f'norm_{feature_name}'] > self.df[f'upper_{feature_name}'] ), 1, 0)
+    def signal_plotter(self, feature_name):
+        fig, axs = plt.subplots(1, 3,figsize=(17,5))
+        axs[0].plot(self.df[f'upper_{feature_name}'],color = 'grey', linestyle='--')
+        axs[0].plot(self.df[f'lower_{feature_name}'],color = 'grey', linestyle='--')
+        axs[0].plot(self.df[f'norm_{feature_name}'])
+        plot_acf(self.df[feature_name].dropna(),lags=25,ax = axs[1])
+        axs[1].set_title(f'acf {feature_name}')
+        plot_pacf(self.df[feature_name].dropna(),lags=25,ax = axs[2])
+        axs[2].set_title(f'pacf {feature_name}')
+        fig.show()
+    def log_features_standard(self, feature_name):
+        self.features.append(feature_name)
+        self.signals.append(f'signal_up_{feature_name}')
+        self.signals.append(f'signal_low_{feature_name}')
     #######################
     #### to be deprecated ####
@@ -535,26 +572,12 @@ class stock_eda_panel(object):
         print('--------------------------------------------------------------------')
         if save_features:
-            self.features.append(feature_name)
-            self.signals.append(f'signal_low_{feature_name}')
-            self.signals.append(f'signal_up_{feature_name}')
+            self.log_features_standard(feature_name)
             self.settings_relative_spread_ma = {'ma1':ma1, 'ma2':ma2, 'threshold':threshold}
         if plot:
-            fig, axs = plt.subplots(1, 3,figsize=(21,4))
-            axs[0].plot(self.df['Date'],self.df[f'norm_{feature_name}'])
-            axs[0].plot(self.df['Date'],self.df[f'upper_{feature_name}'], linestyle='--')
-            axs[0].plot(self.df['Date'],self.df[f'lower_{feature_name}'], linestyle='--')
-            axs[0].set_title('rel_MA_spread series')
-            plot_acf(self.df[feature_name].dropna(),lags=25, ax=axs[1])
-            axs[1].set_title('acf rel_MA_spread series')
-            plot_pacf(self.df[feature_name].dropna(),lags=25, ax=axs[2])
-            axs[2].set_title('acf rel_MA_spread series')
-            plt.show()
+            self.signal_plotter(feature_name)
     def pair_feature(self, pair_symbol, plot = False):
         self.pair_symbol = pair_symbol
@@ -562,8 +585,7 @@ class stock_eda_panel(object):
         begin_date_str = begin_date.strftime('%Y-%m-%d')
         stock = yf.Ticker(self.pair_symbol)
-        #df = stock.history(period="max")
-        df = stock.history(period='5y')
+        df = stock.history(period=self.data_window)
         df = df.sort_values('Date')
         df.reset_index(inplace=True)
         df['Date'] = pd.to_datetime(df['Date'], format='mixed',utc=True).dt.date
@@ -622,9 +644,7 @@ class stock_eda_panel(object):
         self.df['signal_up_pair_z_score'] = np.where(self.df['pair_z_score'] > z_threshold, 1, 0)
         if save_features:
-            self.features.append('pair_z_score')
-            self.signals.append('signal_low_pair_z_score')
-            self.signals.append('signal_up_pair_z_score')
+            self.log_features_standard('pair_z_score')
             self.settings_pair_feature = {'pair_symbol':self.pair_symbol,'window':window, 'z_threshold':z_threshold}
         if plot:
@@ -701,9 +721,7 @@ class stock_eda_panel(object):
         self.compute_clip_bands(feature_name,threshold)
         if save_features:
-            self.features.append(feature_name)
-            self.signals.append(f'signal_up_{feature_name}')
-            self.signals.append(f'signal_low_{feature_name}')
+            self.log_features_standard(feature_name)
             self.settings_bidirect_count_features = {'rolling_window':rolling_window, 'threshold':threshold}
         if plot:
@@ -768,9 +786,7 @@ class stock_eda_panel(object):
         self.df[f'signal_low_{feature_name}'] = np.where(self.df[f'norm_{feature_name}'] < self.df[f'low_bound_norm_{feature_name}'],1,0 )
         if save_features:
-            self.features.append(feature_name)
-            self.signals.append(f'signal_up_{feature_name}')
-            self.signals.append(f'signal_low_{feature_name}')
+            self.log_features_standard(feature_name)
             self.settings_relative_price_range = {'window':window, 'threshold':threshold}
         if plot:
@@ -827,25 +843,11 @@ class stock_eda_panel(object):
         self.compute_clip_bands(feature_name,threshold)
         if save_features:
-            self.features.append(feature_name)
-            self.signals.append(f'signal_up_{feature_name}')
-            self.signals.append(f'signal_low_{feature_name}')
+            self.log_features_standard(feature_name)
             self.settings_rsi_feature_v2 = {'window':window, 'threshold':threshold}
         if plot:
-            fig, axs = plt.subplots(1, 3,figsize=(17,5))
-            axs[0].plot(self.df[f'upper_{feature_name}'],color = 'grey', linestyle='--')
-            axs[0].plot(self.df[f'lower_{feature_name}'],color = 'grey', linestyle='--')
-            axs[0].plot(self.df[f'norm_{feature_name}'])
-            plot_acf(self.df['RSI'].dropna(),lags=25,ax = axs[1])
-            axs[1].set_title('acf RSI')
-            plot_pacf(self.df['RSI'].dropna(),lags=25,ax = axs[2])
-            axs[2].set_title('pacf RSI')
-            fig.show()
+            self.signal_plotter(feature_name)
     #######################
     #### to be deprecated ####
@@ -905,25 +907,11 @@ class stock_eda_panel(object):
         if save_features:
-            self.features.append(feature_name)
-            self.signals.append(f'signal_up_{feature_name}')
-            self.signals.append(f'signal_low_{feature_name}')
+            self.log_features_standard(feature_name)
             self.settings_days_features_v2 = {'window':window, 'threshold':threshold}
         if plot:
-            fig, axs = plt.subplots(1, 3,figsize=(17,5))
-            axs[0].plot(self.df[f'norm_{feature_name}'])
-            axs[0].plot(self.df[f'upper_{feature_name}'], linestyle='--')
-            axs[0].plot(self.df[f'lower_{feature_name}'], linestyle='--')
-            plot_acf(self.df[f'norm_{feature_name}'].dropna(),lags=25,ax = axs[1])
-            axs[1].set_title('acf day feature')
-            plot_pacf(self.df[f'norm_{feature_name}'].dropna(),lags=25,ax = axs[2])
-            axs[2].set_title('pacf day feature')
-            fig.show()
+            self.signal_plotter(feature_name)
     #######################
     #### to be deprecated ####
@@ -996,9 +984,7 @@ class stock_eda_panel(object):
         self.df[f'signal_up_{feature_name}'] = np.where( (self.df[f'z_{feature_name}'] > threshold ), 1, 0)
         if save_features:
-            self.features.append(feature_name)
-            self.signals.append(f'signal_up_{feature_name}')
-            self.signals.append(f'signal_low_{feature_name}')
+            self.log_features_standard(feature_name)
             self.settings_smooth_volume = {'window':window, 'threshold':threshold}
         if plot:
             fig, axs = plt.subplots(2, 2,figsize=(11,6))
@@ -1025,6 +1011,138 @@ class stock_eda_panel(object):
             axs[1].set_title(f'z_{feature_name}')
             plt.show()
+    def roc_feature(self, window, threshold, plot = False, save_features = False):
+        feature_name = 'ROC'
+        roc = ROCIndicator(close = self.df['Close'], window = window).roc()
+        self.df[feature_name] = roc
+        self.compute_clip_bands(feature_name,threshold)
+        if save_features:
+            self.log_features_standard(feature_name)
+            self.settings_roc_feature = {'window':window, 'threshold':threshold}
+        if plot:
+            self.signal_plotter(feature_name)
+    def stoch_feature(self, window, smooth1, smooth2, threshold, plot = False, save_features = False):
+        feature_name = 'STOCH'
+        stoch = StochRSIIndicator(close = self.df['Close'], window = window, smooth1=smooth1, smooth2=smooth2).stochrsi()
+        self.df[feature_name] = stoch
+        self.compute_clip_bands(feature_name,threshold)
+        if save_features:
+            self.log_features_standard(feature_name)
+            self.settings_stoch_feature = {'window':window, 'smooth1':smooth1, 'smooth2':smooth2, 'threshold':threshold}
+        if plot:
+            self.signal_plotter(feature_name)
+    def stochastic_feature(self, window, smooth, threshold, plot = False, save_features = False):
+        feature_name = 'STOCHOSC'
+        stochast = StochasticOscillator(close = self.df['Close'], high = self.df['High'], low = self.df['Low'], window = window,smooth_window=smooth).stoch()
+        self.df[feature_name] = stochast
+        self.compute_clip_bands(feature_name,threshold)
+        if save_features:
+            self.log_features_standard(feature_name)
+            self.settings_stochastic_feature = {'window':window, 'smooth':smooth,'threshold':threshold}
+        if plot:
+            self.signal_plotter(feature_name)
+    def william_feature(self, lbp, threshold, plot = False, save_features = False):
+        feature_name = 'WILL'
+        will = WilliamsRIndicator(close = self.df['Close'], high = self.df['High'], low = self.df['Low'], lbp = lbp).williams_r()
+        self.df[feature_name] = will
+        self.compute_clip_bands(feature_name,threshold)
+        if save_features:
+            self.log_features_standard(feature_name)
+            self.settings_william_feature = {'lbp':lbp,'threshold':threshold}
+        if plot:
+            self.signal_plotter(feature_name)
+    def vortex_feature(self, window, threshold, plot = False, save_features = False):
+        feature_name = 'VORTEX'
+        vortex = VortexIndicator(close = self.df['Close'], high = self.df['High'], low = self.df['Low'], window = window).vortex_indicator_diff()
+        self.df[feature_name] = vortex
+        self.compute_clip_bands(feature_name,threshold)
+        if save_features:
+            self.log_features_standard(feature_name)
+            self.settings_vortex_feature = {'window':window, 'threshold':threshold}
+        if plot:
+            self.signal_plotter(feature_name)
+    def pair_index_feature(self, pair_symbol, feature_label, window, threshold, plot = False, save_features = False):
+        self.pair_index = pair_symbol
+        begin_date = self.today - relativedelta(days = self.n_days)
+        begin_date_str = begin_date.strftime('%Y-%m-%d')
+        if feature_label in self.df.columns:
+            self.df = self.df.drop(columns = [feature_label])
+        stock = yf.Ticker(self.pair_index)
+        df = stock.history(period=self.data_window)
+        df = df.sort_values('Date')
+        df.reset_index(inplace=True)
+        df['Date'] = pd.to_datetime(df['Date'], format='mixed',utc=True).dt.date
+        df['Date'] = pd.to_datetime(df['Date'])
+        df = df[df.Date >= begin_date_str ]
+        self.pair_index_df = df
+        #### converting the same index ####
+        dates_vector = self.df.Date.to_frame()
+        self.pair_index_df = dates_vector.merge(self.pair_index_df, on ='Date',how = 'left')
+        self.pair_index_df = self.pair_index_df.fillna(method = 'bfill')
+        self.pair_index_df = self.pair_index_df.fillna(method = 'ffill')
+        self.pair_index_df[feature_label] = ROCIndicator(close = self.pair_index_df['Close'], window = window).roc()
+        df_to_merge = self.pair_index_df[['Date',feature_label]]
+        self.df = self.df.merge(df_to_merge, on ='Date',how = 'left')
+        ########
+        self.compute_clip_bands(feature_label,threshold)
+        if save_features:
+            self.log_features_standard(feature_label)
+            parameters = {feature_label:{'pair_symbol':pair_symbol, 'feature_label':feature_label, 'window':window,'threshold':threshold}}
+            try:
+                len(self.settings_pair_index_feature)
+                print('existing')
+                self.settings_pair_index_feature.append(parameters)
+            except:
+                print('creation')
+                self.settings_pair_index_feature = list()
+                self.settings_pair_index_feature.append(parameters)
+        if plot:
+            self.signal_plotter(feature_label)
+    def produce_order_features(self, feature_name, save_features = False):
+        signal_feature_name = f'discrete_signal_{feature_name}'
+        order_feature_name = f'order_signal_{feature_name}'
+        self.df[signal_feature_name] = np.where(
+            self.df[f'signal_up_{feature_name}'] == 1,1,
+            np.where(
+                self.df[f'signal_low_{feature_name}'] == 1,-1,0
+            )
+        )
+        ## indexing chains
+        self.df[f'lag_{signal_feature_name}'] = self.df[signal_feature_name].shift(1)
+        self.df['breack'] = np.where(self.df[f'lag_{signal_feature_name}'] != self.df[signal_feature_name],1,0)
+        self.df["chain_id"] = self.df.groupby("breack")["Date"].rank(method="first", ascending=True)
+        self.df["chain_id"] = np.where(self.df['breack'] == 1,self.df["chain_id"],np.nan)
+        self.df["chain_id"] = self.df["chain_id"].fillna(method='ffill')
+        self.df[order_feature_name] = self.df.groupby('chain_id')["Date"].rank(method="first", ascending=True)
+        self.df[order_feature_name] = self.df[order_feature_name]*self.df[signal_feature_name]
+        self.df = self.df.drop(columns = [f'lag_{signal_feature_name}', 'breack', "chain_id"])
+        ## saving features
+        if save_features:
+            self.signals.append(signal_feature_name)
+            self.signals.append(order_feature_name)
     def create_hmm_derived_features(self, lag_returns):
@@ -1345,7 +1463,7 @@ class stock_eda_panel(object):
         self.df[f'mean_target'] = self.df[columns].mean(axis=1)
         self.target.append(f'mean_target')
-        self.settings_target_lasts = {'steps':steps}
+        self.settings_target_lasts = {'steps':steps, 'type':'regression'}
     def get_categorical_targets(self, horizon, flor_loss, top_gain):
@@ -1377,7 +1495,7 @@ class stock_eda_panel(object):
         self.targets.append('target_up')
         self.targets.append('target_down')
-        self.settings_target_lasts = {'horizon':horizon, 'flor_loss':flor_loss, 'top_gain':top_gain}
+        self.settings_target_lasts = {'horizon':horizon, 'flor_loss':flor_loss, 'top_gain':top_gain, 'type': 'classification'}
     def get_configurations(self,test_data_size =250, val_data_size = 250, model_type = False):
@@ -1400,69 +1518,22 @@ class stock_eda_panel(object):
             self.settings['model_type'] = model_type
             self.settings['target'] = list(set(self.target))
             self.settings['targets'] = target_list
-        try:
-            self.settings['settings']['spread_ma'] = self.settings_spread_ma ##to be deprecated
-        except:
-            pass
-        try:
-            self.settings['settings']['relative_spread_ma'] = self.settings_relative_spread_ma
-        except:
-            pass
-        try:
-            self.settings['settings']['pair_feature'] = self.settings_pair_feature
-        except:
-            pass
-        try:
-            self.settings['settings']['count_features'] = self.settings_count_features  ##to be deprecated
-        except:
-            pass
-        try:
-            self.settings['settings']['bidirect_count_features'] = self.settings_bidirect_count_features
-        except:
-            pass
-        try:
-            self.settings['settings']['price_range'] = self.settings_price_range  ##to be deprecated
-        except:
-            pass
-        try:
-            self.settings['settings']['relative_price_range'] = self.settings_relative_price_range
-        except:
-            pass
-        try:
-            self.settings['settings']['rsi_feature'] = self.settings_rsi_feature   ##to be deprecated
-        except:
-            pass
-        try:
-            self.settings['settings']['rsi_feature_v2'] = self.settings_rsi_feature_v2
-        except:
-            pass
-        try:
-            self.settings['settings']['days_features'] = self.settings_days_features  ##to be deprecated
-        except:
-            pass
-        try:
-            self.settings['settings']['days_features_v2'] = self.settings_days_features_v2
-        except:
-            pass
-        try:
-            self.settings['settings']['volume_features'] = self.settings_volume_feature  ##to be deprecated
-        except:
-            pass
-        ##here
-        try:
-            self.settings['settings']['smooth_volume'] = self.settings_smooth_volume  ##to be deprecated
-        except:
-            pass
-        try:
-            self.settings['settings']['hmm'] = self.settings_hmm
-        except:
-            pass
+        ## for now this is hard coded
+        feature_list = ['spread_ma','relative_spread_ma','pair_feature','count_features','bidirect_count_features','price_range','relative_price_range','rsi_feature',
+                        'rsi_feature_v2', 'days_features','days_features_v2', 'volume_feature','smooth_volume', 'roc_feature', 'stoch_feature', 'stochastic_feature',
+                        'william_feature', 'vortex_feature', 'pair_index_feature','hmm']
+        for feature in feature_list:
+            try:
+                self.settings['settings'][feature] = getattr(self, f'settings_{feature}')
+            except:
+                pass
         try:
             self.settings['settings']['target_lasts'] = self.settings_target_lasts
         except:
             pass
         try:
             self.settings['settings']['strategies'] = {
                 'best_strategy':self.best_strategy,
@@ -1853,10 +1924,11 @@ def iterate_signal_analyser(test_data_size,feature_name, days_list, arguments_to
     return best_result
 class analyse_index(stock_eda_panel):
-    def __init__(self, index, asset, n_obs, lag, show_plot = True, save_path = False, save_aws = False):
+    def __init__(self, index, asset, n_obs, lag, data_window = '5y', show_plot = True, save_path = False, save_aws = False):
         self.index = index
         self.asset = asset
         self.n_obs = n_obs
+        self.data_window = data_window
         self.lag = lag
         self.show_plot = show_plot
@@ -1865,12 +1937,12 @@ class analyse_index(stock_eda_panel):
     def process_data(self):
-        index = stock_eda_panel(self.index, self.n_obs)
+        index = stock_eda_panel(self.index, self.n_obs, self.data_window)
         index.get_data()
         index.df['shift'] = index.df.Close.shift(self.lag)
         index.df['index_return'] = index.df.Close/index.df['shift'] - 1
-        asset =  stock_eda_panel(self.asset, self.n_obs)
+        asset =  stock_eda_panel(self.asset, self.n_obs, self.data_window)
         asset.get_data()
         asset.df['shift'] = asset.df.Close.shift(self.lag)
         asset.df['asset_return'] = asset.df.Close/asset.df['shift'] - 1

{virgo_modules-0.0.3 → virgo_modules-0.0.6}/virgo_app/virgo_modules.egg-info/PKG-INFO RENAMED Viewed

@@ -1,36 +1,19 @@
 Metadata-Version: 2.1
 Name: virgo-modules
-Version: 0.0.3
+Version: 0.0.6
 Summary: data processing and statistical modeling using stock market data
 Home-page: https://github.com/miguelmayhem92/virgo_module
 Author: Miguel Mayhuire
 Author-email: miguelmayhem92@gmail.com
 License: MIT
+Platform: UNKNOWN
 Classifier: License :: OSI Approved :: MIT License
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Operating System :: OS Independent
 Requires-Python: >=3.9, <3.10
 Description-Content-Type: text/markdown
-License-File: LICENSE
-Requires-Dist: feature-engine==1.6.1
-Requires-Dist: matplotlib==3.6.3
-Requires-Dist: mlflow==2.1.1
-Requires-Dist: numpy==1.23.5
-Requires-Dist: optuna==3.1.0
-Requires-Dist: pandas==1.5.3
-Requires-Dist: plotly==5.15.0
-Requires-Dist: rsa==4.9
-Requires-Dist: scikit-learn==1.2.1
-Requires-Dist: scipy==1.10.0
-Requires-Dist: seaborn==0.12.2
-Requires-Dist: starlette==0.22.0
-Requires-Dist: statsmodels==0.13.5
-Requires-Dist: ta==0.10.2
-Requires-Dist: yfinance==0.2.9
-Requires-Dist: hmmlearn==0.3.0
-Requires-Dist: boto3
 Provides-Extra: dev
-Requires-Dist: pytest>=7.0; extra == "dev"
+License-File: LICENSE
 # Virgo Package
@@ -51,3 +34,4 @@ obj = stock_eda_panel(stock_code = 'PEP', n_days = 20)
 obj.get_data()
 print(obj.df.shape)
 ```

{virgo_modules-0.0.3 → virgo_modules-0.0.6}/virgo_app/virgo_modules.egg-info/SOURCES.txt RENAMED Viewed

@@ -9,6 +9,7 @@ virgo_app/virgo_modules.egg-info/requires.txt
 virgo_app/virgo_modules.egg-info/top_level.txt
 virgo_app/virgo_modules/src/__init__.py
 virgo_app/virgo_modules/src/aws_utils.py
+virgo_app/virgo_modules/src/edge_utils.py
 virgo_app/virgo_modules/src/pull_artifacts.py
 virgo_app/virgo_modules/src/re_utils.py
 virgo_app/virgo_modules/src/ticketer_source.py

virgo_modules-0.0.3/virgo_app/virgo_modules/src/aws_utils.py DELETED Viewed

@@ -1,23 +0,0 @@
-import yaml
-import boto3
-from pathlib import Path
-from io import StringIO
-def upload_file_to_aws(bucket,key,input_path):
-    credentials = yaml.safe_load(Path('secrets.yaml').read_text())
-    session = boto3.Session(aws_access_key_id=credentials['AWS_ACCESS_KEY_ID'],aws_secret_access_key=credentials['AWS_SECRET_ACCESS_KEY'])
-    bucket = credentials[bucket]
-    s3 = session.resource('s3')
-    s3.meta.client.upload_file(Filename=input_path , Bucket=bucket, Key=key)
-def upload_pandas_to_s3(data_frame,bucket,key):
-    csv_buffer = StringIO()
-    data_frame.to_csv(csv_buffer)
-    csv_buffer.seek(0)
-    credentials = yaml.safe_load(Path('secrets.yaml').read_text())
-    s3 = boto3.client("s3",region_name=credentials['AWS_DEFAULT_REGION'],aws_access_key_id=credentials['AWS_ACCESS_KEY_ID'],aws_secret_access_key=credentials['AWS_SECRET_ACCESS_KEY'])
-    bucket = credentials[bucket]
-    s3.put_object(Bucket=bucket, Body=csv_buffer.getvalue(), Key= key)