PyPI - SinaTools - Versions diffs - 0.1.40__py2.py3-none-any.whl → 1.0.1__py2.py3-none-any.whl - Mend

SinaTools 0.1.40py2.py3-none-any.whl → 1.0.1py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (64) hide show

{SinaTools-0.1.40.dist-info → SinaTools-1.0.1.dist-info}/METADATA +1 -1
SinaTools-1.0.1.dist-info/RECORD +73 -0
sinatools/VERSION +1 -1
sinatools/ner/__init__.py +5 -7
sinatools/ner/trainers/BertNestedTrainer.py +203 -203
sinatools/ner/trainers/BertTrainer.py +163 -163
sinatools/ner/trainers/__init__.py +2 -2
SinaTools-0.1.40.dist-info/RECORD +0 -123
sinatools/arabert/arabert/__init__.py +0 -14
sinatools/arabert/arabert/create_classification_data.py +0 -260
sinatools/arabert/arabert/create_pretraining_data.py +0 -534
sinatools/arabert/arabert/extract_features.py +0 -444
sinatools/arabert/arabert/lamb_optimizer.py +0 -158
sinatools/arabert/arabert/modeling.py +0 -1027
sinatools/arabert/arabert/optimization.py +0 -202
sinatools/arabert/arabert/run_classifier.py +0 -1078
sinatools/arabert/arabert/run_pretraining.py +0 -593
sinatools/arabert/arabert/run_squad.py +0 -1440
sinatools/arabert/arabert/tokenization.py +0 -414
sinatools/arabert/araelectra/__init__.py +0 -1
sinatools/arabert/araelectra/build_openwebtext_pretraining_dataset.py +0 -103
sinatools/arabert/araelectra/build_pretraining_dataset.py +0 -230
sinatools/arabert/araelectra/build_pretraining_dataset_single_file.py +0 -90
sinatools/arabert/araelectra/configure_finetuning.py +0 -172
sinatools/arabert/araelectra/configure_pretraining.py +0 -143
sinatools/arabert/araelectra/finetune/__init__.py +0 -14
sinatools/arabert/araelectra/finetune/feature_spec.py +0 -56
sinatools/arabert/araelectra/finetune/preprocessing.py +0 -173
sinatools/arabert/araelectra/finetune/scorer.py +0 -54
sinatools/arabert/araelectra/finetune/task.py +0 -74
sinatools/arabert/araelectra/finetune/task_builder.py +0 -70
sinatools/arabert/araelectra/flops_computation.py +0 -215
sinatools/arabert/araelectra/model/__init__.py +0 -14
sinatools/arabert/araelectra/model/modeling.py +0 -1029
sinatools/arabert/araelectra/model/optimization.py +0 -193
sinatools/arabert/araelectra/model/tokenization.py +0 -355
sinatools/arabert/araelectra/pretrain/__init__.py +0 -14
sinatools/arabert/araelectra/pretrain/pretrain_data.py +0 -160
sinatools/arabert/araelectra/pretrain/pretrain_helpers.py +0 -229
sinatools/arabert/araelectra/run_finetuning.py +0 -323
sinatools/arabert/araelectra/run_pretraining.py +0 -469
sinatools/arabert/araelectra/util/__init__.py +0 -14
sinatools/arabert/araelectra/util/training_utils.py +0 -112
sinatools/arabert/araelectra/util/utils.py +0 -109
sinatools/arabert/aragpt2/__init__.py +0 -2
sinatools/arabert/aragpt2/create_pretraining_data.py +0 -95
sinatools/arabert/aragpt2/gpt2/__init__.py +0 -2
sinatools/arabert/aragpt2/gpt2/lamb_optimizer.py +0 -158
sinatools/arabert/aragpt2/gpt2/optimization.py +0 -225
sinatools/arabert/aragpt2/gpt2/run_pretraining.py +0 -397
sinatools/arabert/aragpt2/grover/__init__.py +0 -0
sinatools/arabert/aragpt2/grover/dataloader.py +0 -161
sinatools/arabert/aragpt2/grover/modeling.py +0 -803
sinatools/arabert/aragpt2/grover/modeling_gpt2.py +0 -1196
sinatools/arabert/aragpt2/grover/optimization_adafactor.py +0 -234
sinatools/arabert/aragpt2/grover/train_tpu.py +0 -187
sinatools/arabert/aragpt2/grover/utils.py +0 -234
sinatools/arabert/aragpt2/train_bpe_tokenizer.py +0 -59
{SinaTools-0.1.40.data → SinaTools-1.0.1.data}/data/sinatools/environment.yml +0 -0
{SinaTools-0.1.40.dist-info → SinaTools-1.0.1.dist-info}/AUTHORS.rst +0 -0
{SinaTools-0.1.40.dist-info → SinaTools-1.0.1.dist-info}/LICENSE +0 -0
{SinaTools-0.1.40.dist-info → SinaTools-1.0.1.dist-info}/WHEEL +0 -0
{SinaTools-0.1.40.dist-info → SinaTools-1.0.1.dist-info}/entry_points.txt +0 -0
{SinaTools-0.1.40.dist-info → SinaTools-1.0.1.dist-info}/top_level.txt +0 -0

sinatools/arabert/arabert/create_classification_data.py DELETED Viewed

@@ -1,260 +0,0 @@
-# Scripts used to pre_process and create the data for classifier evaluation
-#%%
-import pandas as pd
-from sklearn.model_selection import train_test_split
-import sys
-sys.path.append("..")
-from arabert.preprocess import ArabertPreprocessor
-from tqdm import tqdm
-tqdm.pandas()
-from tokenization import FullTokenizer
-from run_classifier import input_fn_builder, model_fn_builder
-model_name = "bert-base-arabert"
-arabert_prep = ArabertPreprocessor(model_name=model_name, keep_emojis=False)
-class Dataset:
-    def __init__(
-        self,
-        name,
-        train,
-        test,
-        label_list,
-        train_InputExamples=None,
-        test_InputExamples=None,
-        train_features=None,
-        test_features=None,
-    ):
-        self.name = name
-        self.train = train
-        self.test = test
-        self.label_list = label_list
-        self.train_InputExamples = train_InputExamples
-        self.test_InputExamples = test_InputExamples
-        self.train_features = train_features
-        self.test_features = test_features
-all_datasets = []
-#%%
-# *************HARD************
-df_HARD = pd.read_csv("Datasets\\HARD\\balanced-reviews-utf8.tsv", sep="\t", header=0)
-df_HARD = df_HARD[["rating", "review"]]  # we are interested in rating and review only
-# code rating as +ve if > 3, -ve if less, no 3s in dataset
-df_HARD["rating"] = df_HARD["rating"].apply(lambda x: 0 if x < 3 else 1)
-# rename columns to fit default constructor in fastai
-df_HARD.columns = ["label", "text"]
-df_HARD["text"] = df_HARD["text"].progress_apply(
-    lambda x: arabert_prep.preprocess(
-        x
-    )
-)
-train_HARD, test_HARD = train_test_split(df_HARD, test_size=0.2, random_state=42)
-label_list_HARD = [0, 1]
-data_Hard = Dataset("HARD", train_HARD, test_HARD, label_list_HARD)
-all_datasets.append(data_Hard)
-#%%
-# *************ASTD-Unbalanced************
-df_ASTD_UN = pd.read_csv(
-    "Datasets\\ASTD-master\\data\\Tweets.txt", sep="\t", header=None
-)
-DATA_COLUMN = "text"
-LABEL_COLUMN = "label"
-df_ASTD_UN.columns = [DATA_COLUMN, LABEL_COLUMN]
-df_ASTD_UN[LABEL_COLUMN] = df_ASTD_UN[LABEL_COLUMN].apply(
-    lambda x: 0 if (x == "NEG") else x
-)
-df_ASTD_UN[LABEL_COLUMN] = df_ASTD_UN[LABEL_COLUMN].apply(
-    lambda x: 1 if (x == "POS") else x
-)
-df_ASTD_UN[LABEL_COLUMN] = df_ASTD_UN[LABEL_COLUMN].apply(
-    lambda x: 2 if (x == "NEUTRAL") else x
-)
-df_ASTD_UN[LABEL_COLUMN] = df_ASTD_UN[LABEL_COLUMN].apply(
-    lambda x: 3 if (x == "OBJ") else x
-)
-df_ASTD_UN["text"] = df_ASTD_UN["text"].progress_apply(
-    lambda x: arabert_prep.preprocess(
-        x
-    )
-)
-train_ASTD_UN, test_ASTD_UN = train_test_split(
-    df_ASTD_UN, test_size=0.2, random_state=42
-)
-label_list_ASTD_UN = [0, 1, 2, 3]
-data_ASTD_UN = Dataset(
-    "ASTD-Unbalanced", train_ASTD_UN, test_ASTD_UN, label_list_ASTD_UN
-)
-all_datasets.append(data_ASTD_UN)
-#%%
-# *************ASTD-Dahou-Balanced************
-df_ASTD_B = pd.read_csv(
-    "Datasets\\Dahou\\data_csv_balanced\\ASTD-balanced-not-linked.csv",
-    sep=",",
-    header=0,
-)
-df_ASTD_B.columns = [DATA_COLUMN, LABEL_COLUMN]
-df_ASTD_B[LABEL_COLUMN] = df_ASTD_B[LABEL_COLUMN].apply(lambda x: 0 if (x == -1) else x)
-df_ASTD_B["text"] = df_ASTD_B["text"].progress_apply(
-    lambda x: arabert_prep.preprocess(
-        x
-    )
-)
-train_ASTD_B, test_ASTD_B = train_test_split(df_ASTD_B, test_size=0.2, random_state=42)
-label_list_ASTD_B = [0, 1]
-data_ASTD_B = Dataset(
-    "ASTD-Dahou-Balanced", train_ASTD_B, test_ASTD_B, label_list_ASTD_B
-)
-all_datasets.append(data_ASTD_B)
-#%%
-# *************ArSenTD-LEV************
-df_ArSenTD = pd.read_csv(
-    "Datasets\\ArSenTD-LEV\\ArSenTD-LEV-processed-no-emojis2.csv", sep=",", header=0
-)
-df_ArSenTD.columns = [DATA_COLUMN, LABEL_COLUMN]
-df_ArSenTD[LABEL_COLUMN] = df_ArSenTD[LABEL_COLUMN].apply(
-    lambda x: 0 if (x == "very_negative") else x
-)
-df_ArSenTD[LABEL_COLUMN] = df_ArSenTD[LABEL_COLUMN].apply(
-    lambda x: 1 if (x == "negative") else x
-)
-df_ArSenTD[LABEL_COLUMN] = df_ArSenTD[LABEL_COLUMN].apply(
-    lambda x: 2 if (x == "neutral") else x
-)
-df_ArSenTD[LABEL_COLUMN] = df_ArSenTD[LABEL_COLUMN].apply(
-    lambda x: 3 if (x == "positive") else x
-)
-df_ArSenTD[LABEL_COLUMN] = df_ArSenTD[LABEL_COLUMN].apply(
-    lambda x: 4 if (x == "very_positive") else x
-)
-df_ArSenTD["text"] = df_ArSenTD["text"].progress_apply(
-    lambda x: arabert_prep.preprocess(
-        x
-    )
-)
-label_list_ArSenTD = [0, 1, 2, 3, 4]
-train_ArSenTD, test_ArSenTD = train_test_split(
-    df_ArSenTD, test_size=0.2, random_state=42
-)
-data_ArSenTD = Dataset("ArSenTD-LEV", train_ArSenTD, test_ArSenTD, label_list_ArSenTD)
-all_datasets.append(data_ArSenTD)
-#%%
-# *************AJGT************
-df_AJGT = pd.read_excel("Datasets\\Ajgt\\AJGT.xlsx", header=0)
-df_AJGT = df_AJGT[["Feed", "Sentiment"]]
-df_AJGT.columns = [DATA_COLUMN, LABEL_COLUMN]
-df_AJGT[LABEL_COLUMN] = df_AJGT[LABEL_COLUMN].apply(
-    lambda x: 0 if (x == "Negative") else x
-)
-df_AJGT[LABEL_COLUMN] = df_AJGT[LABEL_COLUMN].apply(
-    lambda x: 1 if (x == "Positive") else x
-)
-df_AJGT["text"] = df_AJGT["text"].progress_apply(
-    lambda x: arabert_prep.preprocess(
-        x
-    )
-)
-train_AJGT, test_AJGT = train_test_split(df_AJGT, test_size=0.2, random_state=42)
-label_list_AJGT = [0, 1]
-data_AJGT = Dataset("AJGT", train_AJGT, test_AJGT, label_list_AJGT)
-all_datasets.append(data_AJGT)
-#%%
-# *************LABR-UN-Binary************
-from labr import LABR
-labr_helper = LABR()
-(d_train, y_train, d_test, y_test) = labr_helper.get_train_test(
-    klass="2", balanced="unbalanced"
-)
-train_LABR_B_U = pd.DataFrame({"text": d_train, "label": y_train})
-test_LABR_B_U = pd.DataFrame({"text": d_test, "label": y_test})
-train_LABR_B_U["text"] = train_LABR_B_U["text"].progress_apply(
-    lambda x: arabert_prep.preprocess(
-        x
-    )
-)
-test_LABR_B_U["text"] = test_LABR_B_U["text"].progress_apply(
-    lambda x: arabert_prep.preprocess(
-        x
-    )
-)
-label_list_LABR_B_U = [0, 1]
-data_LABR_B_U = Dataset(
-    "LABR-UN-Binary", train_LABR_B_U, test_LABR_B_U, label_list_LABR_B_U
-)
-# all_datasets.append(data_LABR_B_U)
-#%%
-for data in tqdm(all_datasets):
-    # Use the InputExample class from BERT's run_classifier code to create examples from the data
-    data.train_InputExamples = data.train.apply(
-        lambda x: run_classifier.InputExample(
-            guid=None,  # Globally unique ID for bookkeeping, unused in this example
-            text_a=x[DATA_COLUMN],
-            text_b=None,
-            label=x[LABEL_COLUMN],
-        ),
-        axis=1,
-    )
-    data.test_InputExamples = data.test.apply(
-        lambda x: run_classifier.InputExample(
-            guid=None, text_a=x[DATA_COLUMN], text_b=None, label=x[LABEL_COLUMN]
-        ),
-        axis=1,
-    )
-#%%
-# We'll set sequences to be at most 128 tokens long.
-MAX_SEQ_LENGTH = 256
-VOC_FNAME = "./64000_vocab_sp_70m.txt"
-tokenizer = FullTokenizer(VOC_FNAME)
-for data in tqdm(all_datasets):
-    # Convert our train and test features to InputFeatures that BERT understands.
-    data.train_features = run_classifier.convert_examples_to_features(
-        data.train_InputExamples, data.label_list, MAX_SEQ_LENGTH, tokenizer
-    )
-    data.test_features = run_classifier.convert_examples_to_features(
-        data.test_InputExamples, data.label_list, MAX_SEQ_LENGTH, tokenizer
-    )
-# %%
-import pickle
-with open("all_datasets_64k_farasa_256.pickle", "wb") as fp:  # Pickling
-    pickle.dump(all_datasets, fp)
-# %%

SinaTools 0.1.40__py2.py3-none-any.whl → 1.0.1__py2.py3-none-any.whl

SinaTools 0.1.40py2.py3-none-any.whl → 1.0.1py2.py3-none-any.whl