PyPI - SinaTools - Versions diffs - 0.1.1__py2.py3-none-any.whl - Mend

SinaTools 0.1.1__py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (122) hide show

SinaTools-0.1.1.data/data/nlptools/environment.yml +227 -0
SinaTools-0.1.1.dist-info/AUTHORS.rst +13 -0
SinaTools-0.1.1.dist-info/LICENSE +22 -0
SinaTools-0.1.1.dist-info/METADATA +72 -0
SinaTools-0.1.1.dist-info/RECORD +122 -0
SinaTools-0.1.1.dist-info/WHEEL +6 -0
SinaTools-0.1.1.dist-info/entry_points.txt +18 -0
SinaTools-0.1.1.dist-info/top_level.txt +1 -0
nlptools/CLI/DataDownload/download_files.py +71 -0
nlptools/CLI/arabiner/bin/infer.py +117 -0
nlptools/CLI/arabiner/bin/infer2.py +81 -0
nlptools/CLI/morphology/ALMA_multi_word.py +75 -0
nlptools/CLI/morphology/morph_analyzer.py +91 -0
nlptools/CLI/salma/salma_tools.py +68 -0
nlptools/CLI/utils/__init__.py +0 -0
nlptools/CLI/utils/arStrip.py +99 -0
nlptools/CLI/utils/corpus_tokenizer.py +74 -0
nlptools/CLI/utils/implication.py +92 -0
nlptools/CLI/utils/jaccard.py +96 -0
nlptools/CLI/utils/latin_remove.py +51 -0
nlptools/CLI/utils/remove_Punc.py +53 -0
nlptools/CLI/utils/sentence_tokenizer.py +90 -0
nlptools/CLI/utils/text_transliteration.py +77 -0
nlptools/DataDownload/__init__.py +0 -0
nlptools/DataDownload/downloader.py +185 -0
nlptools/VERSION +1 -0
nlptools/__init__.py +5 -0
nlptools/arabert/__init__.py +1 -0
nlptools/arabert/arabert/__init__.py +14 -0
nlptools/arabert/arabert/create_classification_data.py +260 -0
nlptools/arabert/arabert/create_pretraining_data.py +534 -0
nlptools/arabert/arabert/extract_features.py +444 -0
nlptools/arabert/arabert/lamb_optimizer.py +158 -0
nlptools/arabert/arabert/modeling.py +1027 -0
nlptools/arabert/arabert/optimization.py +202 -0
nlptools/arabert/arabert/run_classifier.py +1078 -0
nlptools/arabert/arabert/run_pretraining.py +593 -0
nlptools/arabert/arabert/run_squad.py +1440 -0
nlptools/arabert/arabert/tokenization.py +414 -0
nlptools/arabert/araelectra/__init__.py +1 -0
nlptools/arabert/araelectra/build_openwebtext_pretraining_dataset.py +103 -0
nlptools/arabert/araelectra/build_pretraining_dataset.py +230 -0
nlptools/arabert/araelectra/build_pretraining_dataset_single_file.py +90 -0
nlptools/arabert/araelectra/configure_finetuning.py +172 -0
nlptools/arabert/araelectra/configure_pretraining.py +143 -0
nlptools/arabert/araelectra/finetune/__init__.py +14 -0
nlptools/arabert/araelectra/finetune/feature_spec.py +56 -0
nlptools/arabert/araelectra/finetune/preprocessing.py +173 -0
nlptools/arabert/araelectra/finetune/scorer.py +54 -0
nlptools/arabert/araelectra/finetune/task.py +74 -0
nlptools/arabert/araelectra/finetune/task_builder.py +70 -0
nlptools/arabert/araelectra/flops_computation.py +215 -0
nlptools/arabert/araelectra/model/__init__.py +14 -0
nlptools/arabert/araelectra/model/modeling.py +1029 -0
nlptools/arabert/araelectra/model/optimization.py +193 -0
nlptools/arabert/araelectra/model/tokenization.py +355 -0
nlptools/arabert/araelectra/pretrain/__init__.py +14 -0
nlptools/arabert/araelectra/pretrain/pretrain_data.py +160 -0
nlptools/arabert/araelectra/pretrain/pretrain_helpers.py +229 -0
nlptools/arabert/araelectra/run_finetuning.py +323 -0
nlptools/arabert/araelectra/run_pretraining.py +469 -0
nlptools/arabert/araelectra/util/__init__.py +14 -0
nlptools/arabert/araelectra/util/training_utils.py +112 -0
nlptools/arabert/araelectra/util/utils.py +109 -0
nlptools/arabert/aragpt2/__init__.py +2 -0
nlptools/arabert/aragpt2/create_pretraining_data.py +95 -0
nlptools/arabert/aragpt2/gpt2/__init__.py +2 -0
nlptools/arabert/aragpt2/gpt2/lamb_optimizer.py +158 -0
nlptools/arabert/aragpt2/gpt2/optimization.py +225 -0
nlptools/arabert/aragpt2/gpt2/run_pretraining.py +397 -0
nlptools/arabert/aragpt2/grover/__init__.py +0 -0
nlptools/arabert/aragpt2/grover/dataloader.py +161 -0
nlptools/arabert/aragpt2/grover/modeling.py +803 -0
nlptools/arabert/aragpt2/grover/modeling_gpt2.py +1196 -0
nlptools/arabert/aragpt2/grover/optimization_adafactor.py +234 -0
nlptools/arabert/aragpt2/grover/train_tpu.py +187 -0
nlptools/arabert/aragpt2/grover/utils.py +234 -0
nlptools/arabert/aragpt2/train_bpe_tokenizer.py +59 -0
nlptools/arabert/preprocess.py +818 -0
nlptools/arabiner/__init__.py +0 -0
nlptools/arabiner/bin/__init__.py +14 -0
nlptools/arabiner/bin/eval.py +87 -0
nlptools/arabiner/bin/infer.py +91 -0
nlptools/arabiner/bin/process.py +140 -0
nlptools/arabiner/bin/train.py +221 -0
nlptools/arabiner/data/__init__.py +1 -0
nlptools/arabiner/data/datasets.py +146 -0
nlptools/arabiner/data/transforms.py +118 -0
nlptools/arabiner/nn/BaseModel.py +22 -0
nlptools/arabiner/nn/BertNestedTagger.py +34 -0
nlptools/arabiner/nn/BertSeqTagger.py +17 -0
nlptools/arabiner/nn/__init__.py +3 -0
nlptools/arabiner/trainers/BaseTrainer.py +117 -0
nlptools/arabiner/trainers/BertNestedTrainer.py +203 -0
nlptools/arabiner/trainers/BertTrainer.py +163 -0
nlptools/arabiner/trainers/__init__.py +3 -0
nlptools/arabiner/utils/__init__.py +0 -0
nlptools/arabiner/utils/data.py +124 -0
nlptools/arabiner/utils/helpers.py +151 -0
nlptools/arabiner/utils/metrics.py +69 -0
nlptools/environment.yml +227 -0
nlptools/install_env.py +13 -0
nlptools/morphology/ALMA_multi_word.py +34 -0
nlptools/morphology/__init__.py +52 -0
nlptools/morphology/charsets.py +60 -0
nlptools/morphology/morph_analyzer.py +170 -0
nlptools/morphology/settings.py +8 -0
nlptools/morphology/tokenizers_words.py +19 -0
nlptools/nlptools.py +1 -0
nlptools/salma/__init__.py +12 -0
nlptools/salma/settings.py +31 -0
nlptools/salma/views.py +459 -0
nlptools/salma/wsd.py +126 -0
nlptools/utils/__init__.py +0 -0
nlptools/utils/corpus_tokenizer.py +73 -0
nlptools/utils/implication.py +662 -0
nlptools/utils/jaccard.py +247 -0
nlptools/utils/parser.py +147 -0
nlptools/utils/readfile.py +3 -0
nlptools/utils/sentence_tokenizer.py +53 -0
nlptools/utils/text_transliteration.py +232 -0
nlptools/utils/utils.py +2 -0

nlptools/arabert/aragpt2/train_bpe_tokenizer.py ADDED Viewed

@@ -0,0 +1,59 @@
+import argparse
+import glob
+import os
+from tokenizers import ByteLevelBPETokenizer
+from transformers import GPT2TokenizerFast
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--data-files", type=str, required=True)
+    parser.add_argument("--vocab-size", type=int, required=True)
+    parser.add_argument("--output-dir", type=str, required=True)
+    parser.add_argument("--output-file-name", type=str, required=True)
+    args = parser.parse_args()
+    gpt2_tok = ByteLevelBPETokenizer(add_prefix_space=True)
+    files = glob.glob(args.data_files)
+    if len(files) > 10:
+        print(files[0:10])
+    else:
+        print(files)
+    gpt2_tok.train(
+        files=files,
+        vocab_size=args.vocab_size,
+        show_progress=True,
+        special_tokens=["<|endoftext|>", "<s>", "<pad>", "</s>"],
+    )
+    if not os.path.exists(args.output_dir):
+        os.makedirs(args.output_dir)
+    gpt2_tok.save(
+            os.path.join(args.output_dir,"tokenizer.json"), pretty=True
+        )  # FIX Access is denied. (os error 5)
+    gpt2_tok.save_model(args.output_dir, args.output_file_name)
+    # tokenizer = GPT2TokenizerFast(
+    #     vocab_file=os.path.join(args.output_dir, args.output_file_name) + "-vocab.json",
+    #     merges_file=os.path.join(args.output_dir, args.output_file_name)
+    #     + "-merges.txt",
+    #     add_prefix_space=True,
+    # )
+    # tokenizer.add_special_tokens(
+    #     {
+    #         "eos_token": "<|endoftext|>",
+    #         "bos_token": "<|endoftext|>",
+    #         "unk_token": "<|endoftext|>",
+    #         "pad_token": "<|endoftext|>",
+    #         "mask_token": "<|endoftext|>",
+    #     }
+    # )
+    # tokenizer.save_pretrained(
+    #     args.output_dir, legacy_format=False, filename_prefix=args.output_file_name
+    # )