PyPI - megadetector - Versions diffs - 5.0.9__py3-none-any.whl → 5.0.11__py3-none-any.whl - Mend

megadetector 5.0.9py3-none-any.whl → 5.0.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of megadetector might be problematic. Click here for more details.

Files changed (226) hide show

{megadetector-5.0.9.dist-info → megadetector-5.0.11.dist-info}/LICENSE +0 -0
{megadetector-5.0.9.dist-info → megadetector-5.0.11.dist-info}/METADATA +12 -11
megadetector-5.0.11.dist-info/RECORD +5 -0
megadetector-5.0.11.dist-info/top_level.txt +1 -0
api/__init__.py +0 -0
api/batch_processing/__init__.py +0 -0
api/batch_processing/api_core/__init__.py +0 -0
api/batch_processing/api_core/batch_service/__init__.py +0 -0
api/batch_processing/api_core/batch_service/score.py +0 -439
api/batch_processing/api_core/server.py +0 -294
api/batch_processing/api_core/server_api_config.py +0 -98
api/batch_processing/api_core/server_app_config.py +0 -55
api/batch_processing/api_core/server_batch_job_manager.py +0 -220
api/batch_processing/api_core/server_job_status_table.py +0 -152
api/batch_processing/api_core/server_orchestration.py +0 -360
api/batch_processing/api_core/server_utils.py +0 -92
api/batch_processing/api_core_support/__init__.py +0 -0
api/batch_processing/api_core_support/aggregate_results_manually.py +0 -46
api/batch_processing/api_support/__init__.py +0 -0
api/batch_processing/api_support/summarize_daily_activity.py +0 -152
api/batch_processing/data_preparation/__init__.py +0 -0
api/batch_processing/data_preparation/manage_local_batch.py +0 -2391
api/batch_processing/data_preparation/manage_video_batch.py +0 -327
api/batch_processing/integration/digiKam/setup.py +0 -6
api/batch_processing/integration/digiKam/xmp_integration.py +0 -465
api/batch_processing/integration/eMammal/test_scripts/config_template.py +0 -5
api/batch_processing/integration/eMammal/test_scripts/push_annotations_to_emammal.py +0 -126
api/batch_processing/integration/eMammal/test_scripts/select_images_for_testing.py +0 -55
api/batch_processing/postprocessing/__init__.py +0 -0
api/batch_processing/postprocessing/add_max_conf.py +0 -64
api/batch_processing/postprocessing/categorize_detections_by_size.py +0 -163
api/batch_processing/postprocessing/combine_api_outputs.py +0 -249
api/batch_processing/postprocessing/compare_batch_results.py +0 -958
api/batch_processing/postprocessing/convert_output_format.py +0 -397
api/batch_processing/postprocessing/load_api_results.py +0 -195
api/batch_processing/postprocessing/md_to_coco.py +0 -310
api/batch_processing/postprocessing/md_to_labelme.py +0 -330
api/batch_processing/postprocessing/merge_detections.py +0 -401
api/batch_processing/postprocessing/postprocess_batch_results.py +0 -1904
api/batch_processing/postprocessing/remap_detection_categories.py +0 -170
api/batch_processing/postprocessing/render_detection_confusion_matrix.py +0 -661
api/batch_processing/postprocessing/repeat_detection_elimination/find_repeat_detections.py +0 -211
api/batch_processing/postprocessing/repeat_detection_elimination/remove_repeat_detections.py +0 -82
api/batch_processing/postprocessing/repeat_detection_elimination/repeat_detections_core.py +0 -1631
api/batch_processing/postprocessing/separate_detections_into_folders.py +0 -731
api/batch_processing/postprocessing/subset_json_detector_output.py +0 -696
api/batch_processing/postprocessing/top_folders_to_bottom.py +0 -223
api/synchronous/__init__.py +0 -0
api/synchronous/api_core/animal_detection_api/__init__.py +0 -0
api/synchronous/api_core/animal_detection_api/api_backend.py +0 -152
api/synchronous/api_core/animal_detection_api/api_frontend.py +0 -266
api/synchronous/api_core/animal_detection_api/config.py +0 -35
api/synchronous/api_core/animal_detection_api/data_management/annotations/annotation_constants.py +0 -47
api/synchronous/api_core/animal_detection_api/detection/detector_training/copy_checkpoints.py +0 -43
api/synchronous/api_core/animal_detection_api/detection/detector_training/model_main_tf2.py +0 -114
api/synchronous/api_core/animal_detection_api/detection/process_video.py +0 -543
api/synchronous/api_core/animal_detection_api/detection/pytorch_detector.py +0 -304
api/synchronous/api_core/animal_detection_api/detection/run_detector.py +0 -627
api/synchronous/api_core/animal_detection_api/detection/run_detector_batch.py +0 -1029
api/synchronous/api_core/animal_detection_api/detection/run_inference_with_yolov5_val.py +0 -581
api/synchronous/api_core/animal_detection_api/detection/run_tiled_inference.py +0 -754
api/synchronous/api_core/animal_detection_api/detection/tf_detector.py +0 -165
api/synchronous/api_core/animal_detection_api/detection/video_utils.py +0 -495
api/synchronous/api_core/animal_detection_api/md_utils/azure_utils.py +0 -174
api/synchronous/api_core/animal_detection_api/md_utils/ct_utils.py +0 -262
api/synchronous/api_core/animal_detection_api/md_utils/directory_listing.py +0 -251
api/synchronous/api_core/animal_detection_api/md_utils/matlab_porting_tools.py +0 -97
api/synchronous/api_core/animal_detection_api/md_utils/path_utils.py +0 -416
api/synchronous/api_core/animal_detection_api/md_utils/process_utils.py +0 -110
api/synchronous/api_core/animal_detection_api/md_utils/sas_blob_utils.py +0 -509
api/synchronous/api_core/animal_detection_api/md_utils/string_utils.py +0 -59
api/synchronous/api_core/animal_detection_api/md_utils/url_utils.py +0 -144
api/synchronous/api_core/animal_detection_api/md_utils/write_html_image_list.py +0 -226
api/synchronous/api_core/animal_detection_api/md_visualization/visualization_utils.py +0 -841
api/synchronous/api_core/tests/__init__.py +0 -0
api/synchronous/api_core/tests/load_test.py +0 -110
classification/__init__.py +0 -0
classification/aggregate_classifier_probs.py +0 -108
classification/analyze_failed_images.py +0 -227
classification/cache_batchapi_outputs.py +0 -198
classification/create_classification_dataset.py +0 -627
classification/crop_detections.py +0 -516
classification/csv_to_json.py +0 -226
classification/detect_and_crop.py +0 -855
classification/efficientnet/__init__.py +0 -9
classification/efficientnet/model.py +0 -415
classification/efficientnet/utils.py +0 -610
classification/evaluate_model.py +0 -520
classification/identify_mislabeled_candidates.py +0 -152
classification/json_to_azcopy_list.py +0 -63
classification/json_validator.py +0 -695
classification/map_classification_categories.py +0 -276
classification/merge_classification_detection_output.py +0 -506
classification/prepare_classification_script.py +0 -194
classification/prepare_classification_script_mc.py +0 -228
classification/run_classifier.py +0 -286
classification/save_mislabeled.py +0 -110
classification/train_classifier.py +0 -825
classification/train_classifier_tf.py +0 -724
classification/train_utils.py +0 -322
data_management/__init__.py +0 -0
data_management/annotations/__init__.py +0 -0
data_management/annotations/annotation_constants.py +0 -34
data_management/camtrap_dp_to_coco.py +0 -238
data_management/cct_json_utils.py +0 -395
data_management/cct_to_md.py +0 -176
data_management/cct_to_wi.py +0 -289
data_management/coco_to_labelme.py +0 -272
data_management/coco_to_yolo.py +0 -662
data_management/databases/__init__.py +0 -0
data_management/databases/add_width_and_height_to_db.py +0 -33
data_management/databases/combine_coco_camera_traps_files.py +0 -206
data_management/databases/integrity_check_json_db.py +0 -477
data_management/databases/subset_json_db.py +0 -115
data_management/generate_crops_from_cct.py +0 -149
data_management/get_image_sizes.py +0 -188
data_management/importers/add_nacti_sizes.py +0 -52
data_management/importers/add_timestamps_to_icct.py +0 -79
data_management/importers/animl_results_to_md_results.py +0 -158
data_management/importers/auckland_doc_test_to_json.py +0 -372
data_management/importers/auckland_doc_to_json.py +0 -200
data_management/importers/awc_to_json.py +0 -189
data_management/importers/bellevue_to_json.py +0 -273
data_management/importers/cacophony-thermal-importer.py +0 -796
data_management/importers/carrizo_shrubfree_2018.py +0 -268
data_management/importers/carrizo_trail_cam_2017.py +0 -287
data_management/importers/cct_field_adjustments.py +0 -57
data_management/importers/channel_islands_to_cct.py +0 -913
data_management/importers/eMammal/copy_and_unzip_emammal.py +0 -180
data_management/importers/eMammal/eMammal_helpers.py +0 -249
data_management/importers/eMammal/make_eMammal_json.py +0 -223
data_management/importers/ena24_to_json.py +0 -275
data_management/importers/filenames_to_json.py +0 -385
data_management/importers/helena_to_cct.py +0 -282
data_management/importers/idaho-camera-traps.py +0 -1407
data_management/importers/idfg_iwildcam_lila_prep.py +0 -294
data_management/importers/jb_csv_to_json.py +0 -150
data_management/importers/mcgill_to_json.py +0 -250
data_management/importers/missouri_to_json.py +0 -489
data_management/importers/nacti_fieldname_adjustments.py +0 -79
data_management/importers/noaa_seals_2019.py +0 -181
data_management/importers/pc_to_json.py +0 -365
data_management/importers/plot_wni_giraffes.py +0 -123
data_management/importers/prepare-noaa-fish-data-for-lila.py +0 -359
data_management/importers/prepare_zsl_imerit.py +0 -131
data_management/importers/rspb_to_json.py +0 -356
data_management/importers/save_the_elephants_survey_A.py +0 -320
data_management/importers/save_the_elephants_survey_B.py +0 -332
data_management/importers/snapshot_safari_importer.py +0 -758
data_management/importers/snapshot_safari_importer_reprise.py +0 -665
data_management/importers/snapshot_serengeti_lila.py +0 -1067
data_management/importers/snapshotserengeti/make_full_SS_json.py +0 -150
data_management/importers/snapshotserengeti/make_per_season_SS_json.py +0 -153
data_management/importers/sulross_get_exif.py +0 -65
data_management/importers/timelapse_csv_set_to_json.py +0 -490
data_management/importers/ubc_to_json.py +0 -399
data_management/importers/umn_to_json.py +0 -507
data_management/importers/wellington_to_json.py +0 -263
data_management/importers/wi_to_json.py +0 -441
data_management/importers/zamba_results_to_md_results.py +0 -181
data_management/labelme_to_coco.py +0 -548
data_management/labelme_to_yolo.py +0 -272
data_management/lila/__init__.py +0 -0
data_management/lila/add_locations_to_island_camera_traps.py +0 -97
data_management/lila/add_locations_to_nacti.py +0 -147
data_management/lila/create_lila_blank_set.py +0 -557
data_management/lila/create_lila_test_set.py +0 -151
data_management/lila/create_links_to_md_results_files.py +0 -106
data_management/lila/download_lila_subset.py +0 -177
data_management/lila/generate_lila_per_image_labels.py +0 -515
data_management/lila/get_lila_annotation_counts.py +0 -170
data_management/lila/get_lila_image_counts.py +0 -111
data_management/lila/lila_common.py +0 -300
data_management/lila/test_lila_metadata_urls.py +0 -132
data_management/ocr_tools.py +0 -874
data_management/read_exif.py +0 -681
data_management/remap_coco_categories.py +0 -84
data_management/remove_exif.py +0 -66
data_management/resize_coco_dataset.py +0 -189
data_management/wi_download_csv_to_coco.py +0 -246
data_management/yolo_output_to_md_output.py +0 -441
data_management/yolo_to_coco.py +0 -676
detection/__init__.py +0 -0
detection/detector_training/__init__.py +0 -0
detection/detector_training/model_main_tf2.py +0 -114
detection/process_video.py +0 -703
detection/pytorch_detector.py +0 -337
detection/run_detector.py +0 -779
detection/run_detector_batch.py +0 -1219
detection/run_inference_with_yolov5_val.py +0 -917
detection/run_tiled_inference.py +0 -935
detection/tf_detector.py +0 -188
detection/video_utils.py +0 -606
docs/source/conf.py +0 -43
md_utils/__init__.py +0 -0
md_utils/azure_utils.py +0 -174
md_utils/ct_utils.py +0 -612
md_utils/directory_listing.py +0 -246
md_utils/md_tests.py +0 -968
md_utils/path_utils.py +0 -1044
md_utils/process_utils.py +0 -157
md_utils/sas_blob_utils.py +0 -509
md_utils/split_locations_into_train_val.py +0 -228
md_utils/string_utils.py +0 -92
md_utils/url_utils.py +0 -323
md_utils/write_html_image_list.py +0 -225
md_visualization/__init__.py +0 -0
md_visualization/plot_utils.py +0 -293
md_visualization/render_images_with_thumbnails.py +0 -275
md_visualization/visualization_utils.py +0 -1537
md_visualization/visualize_db.py +0 -551
md_visualization/visualize_detector_output.py +0 -406
megadetector-5.0.9.dist-info/RECORD +0 -224
megadetector-5.0.9.dist-info/top_level.txt +0 -8
taxonomy_mapping/__init__.py +0 -0
taxonomy_mapping/map_lila_taxonomy_to_wi_taxonomy.py +0 -491
taxonomy_mapping/map_new_lila_datasets.py +0 -154
taxonomy_mapping/prepare_lila_taxonomy_release.py +0 -142
taxonomy_mapping/preview_lila_taxonomy.py +0 -591
taxonomy_mapping/retrieve_sample_image.py +0 -71
taxonomy_mapping/simple_image_download.py +0 -218
taxonomy_mapping/species_lookup.py +0 -834
taxonomy_mapping/taxonomy_csv_checker.py +0 -159
taxonomy_mapping/taxonomy_graph.py +0 -346
taxonomy_mapping/validate_lila_category_mappings.py +0 -83
{megadetector-5.0.9.dist-info → megadetector-5.0.11.dist-info}/WHEEL +0 -0

data_management/lila/get_lila_image_counts.py DELETED Viewed

@@ -1,111 +0,0 @@
-"""
-get_lila_image_counts.py
-Count the number of images and bounding boxes with each label in one or more LILA datasets.
-This script doesn't write these counts out anywhere other than the console, it's just intended
-as a template for doing operations like this on LILA data.  get_lila_annotation_counts.py writes
-information out to a .json file, but it counts *annotations*, not *images*, for each category.
-"""
-#%% Constants and imports
-import json
-import os
-from collections import defaultdict
-from data_management.lila.lila_common import read_lila_metadata, read_metadata_file_for_dataset
-# If None, will use all datasets
-datasets_of_interest = None
-# We'll write images, metadata downloads, and temporary files here
-lila_local_base = os.path.expanduser('~/lila')
-metadata_dir = os.path.join(lila_local_base,'metadata')
-os.makedirs(metadata_dir,exist_ok=True)
-#%% Download and parse the metadata file
-metadata_table = read_lila_metadata(metadata_dir)
-#%% Download and extract metadata for the datasets we're interested in
-if datasets_of_interest is None:
-    datasets_of_interest = list(metadata_table.keys())
-for ds_name in datasets_of_interest:
-    metadata_table[ds_name]['json_filename'] = read_metadata_file_for_dataset(ds_name=ds_name,
-                                                                         metadata_dir=metadata_dir,
-                                                                         metadata_table=metadata_table)
-#%% Count categories
-ds_name_to_category_counts = {}
-# ds_name = datasets_of_interest[0]
-for ds_name in datasets_of_interest:
-    category_to_image_count = {}
-    category_to_bbox_count = {}
-    print('Counting categories in: ' + ds_name)
-    json_filename = metadata_table[ds_name]['json_filename']
-    with open(json_filename, 'r') as f:
-        data = json.load(f)
-    categories = data['categories']
-    category_ids = [c['id'] for c in categories]
-    for c in categories:
-        category_id_to_name = {c['id']:c['name'] for c in categories}
-    annotations = data['annotations']
-    images = data['images']
-    for category_id in category_ids:
-        category_name = category_id_to_name[category_id]
-        category_to_image_count[category_name] = 0
-        category_to_bbox_count[category_name] = 0
-    image_id_to_category_names = defaultdict(set)
-    # Go through annotations, marking each image with the categories that are present
-    #
-    # ann = annotations[0]
-    for ann in annotations:
-        category_name = category_id_to_name[ann['category_id']]
-        image_id_to_category_names[ann['image_id']].add(category_name)
-    # Now go through images and count categories
-    category_to_count = defaultdict(int)
-    # im = images[0]
-    for im in images:
-        categories_this_image = image_id_to_category_names[im['id']]
-        for category_name in categories_this_image:
-            category_to_count[category_name] += 1
-    ds_name_to_category_counts[ds_name] = category_to_count
-# ...for each dataset
-#%% Print the results
-for ds_name in ds_name_to_category_counts:
-    print('\n** Category counts for {} **\n'.format(ds_name))
-    category_to_count = ds_name_to_category_counts[ds_name]
-    category_to_count = {k: v for k, v in sorted(category_to_count.items(), reverse=True,
-                                                 key=lambda item: item[1])}
-    for category_name in category_to_count.keys():
-        print('{}: {}'.format(category_name,category_to_count[category_name]))

data_management/lila/lila_common.py DELETED Viewed

@@ -1,300 +0,0 @@
-"""
-lila_common.py
-Common constants and functions related to LILA data management/retrieval.
-"""
-#%% Imports and constants
-import os
-import json
-import zipfile
-import pandas as pd
-from urllib.parse import urlparse
-from md_utils.url_utils import download_url
-from md_utils.path_utils import unzip_file
-from md_utils.ct_utils import is_empty
-# LILA camera trap primary metadata file
-lila_metadata_url = 'http://lila.science/wp-content/uploads/2023/06/lila_camera_trap_datasets.csv'
-lila_taxonomy_mapping_url = 'https://lila.science/public/lila-taxonomy-mapping_release.csv'
-lila_all_images_url = 'https://lila.science/public/lila_image_urls_and_labels.csv.zip'
-wildlife_insights_page_size = 30000
-wildlife_insights_taxonomy_url = 'https://api.wildlifeinsights.org/api/v1/taxonomy/taxonomies-all?fields=class,order,family,genus,species,authority,taxonomyType,uniqueIdentifier,commonNameEnglish&page[size]={}'.format(
-    wildlife_insights_page_size)
-wildlife_insights_taxonomy_local_json_filename = 'wi_taxonomy.json'
-wildlife_insights_taxonomy_local_csv_filename = \
-    wildlife_insights_taxonomy_local_json_filename.replace('.json','.csv')
-# Filenames are consistent across clouds relative to these URLs
-lila_base_urls = {
-    'azure':'https://lilawildlife.blob.core.windows.net/lila-wildlife/',
-    'gcp':'https://storage.googleapis.com/public-datasets-lila/',
-    'aws':'http://us-west-2.opendata.source.coop.s3.amazonaws.com/agentmorris/lila-wildlife/'
-}
-lila_cloud_urls = {
-    'azure':'https://lilawildlife.blob.core.windows.net/lila-wildlife/',
-    'gcp':'gs://public-datasets-lila/',
-    'aws':'s3://us-west-2.opendata.source.coop/agentmorris/lila-wildlife/'
-}
-for url in lila_base_urls.values():
-    assert url.endswith('/')
-#%% Common functions
-def read_wildlife_insights_taxonomy_mapping(metadata_dir):
-    """
-    Reads the WI taxonomy mapping file, downloading the .json data (and writing to .csv) if necessary.
-    Args:
-        metadata_dir (str): folder to use for temporary LILA metadata files
-    Returns:
-        pd.dataframe: A DataFrame with taxonomy information
-    """
-    wi_taxonomy_csv_path = os.path.join(metadata_dir,wildlife_insights_taxonomy_local_csv_filename)
-    if os.path.exists(wi_taxonomy_csv_path):
-        df = pd.read_csv(wi_taxonomy_csv_path)
-    else:
-        wi_taxonomy_json_path = os.path.join(metadata_dir,wildlife_insights_taxonomy_local_json_filename)
-        download_url(wildlife_insights_taxonomy_url, wi_taxonomy_json_path)
-        with open(wi_taxonomy_json_path,'r') as f:
-            d = json.load(f)
-        # We haven't implemented paging, make sure that's not an issue
-        assert d['meta']['totalItems'] < wildlife_insights_page_size
-        # d['data'] is a list of items that look like:
-        """
-         {'id': 2000003,
-         'class': 'Mammalia',
-         'order': 'Rodentia',
-         'family': 'Abrocomidae',
-         'genus': 'Abrocoma',
-         'species': 'bennettii',
-         'authority': 'Waterhouse, 1837',
-         'commonNameEnglish': "Bennett's Chinchilla Rat",
-         'taxonomyType': 'biological',
-         'uniqueIdentifier': '7a6c93a5-bdf7-4182-82f9-7a67d23f7fe1'}
-        """
-        df = pd.DataFrame(d['data'])
-        df.to_csv(wi_taxonomy_csv_path,index=False)
-    return df
-def read_lila_taxonomy_mapping(metadata_dir):
-    """
-    Reads the LILA taxonomy mapping file, downloading the .csv file if necessary.
-    Args:
-        metadata_dir (str): folder to use for temporary LILA metadata files
-    Returns:
-        pd.DataFrame: a DataFrame with one row per identification
-    """
-    p = urlparse(lila_taxonomy_mapping_url)
-    taxonomy_filename = os.path.join(metadata_dir,os.path.basename(p.path))
-    download_url(lila_taxonomy_mapping_url, taxonomy_filename)
-    df = pd.read_csv(lila_taxonomy_mapping_url)
-    return df
-def read_lila_metadata(metadata_dir):
-    """
-    Reads LILA metadata (URLs to each dataset), downloading the .csv file if necessary.
-    Args:
-        metadata_dir (str): folder to use for temporary LILA metadata files
-    Returns:
-        dict: a dict mapping dataset names (e.g. "Caltech Camera Traps") to dicts
-        with keys corresponding to the headers in the .csv file, currently:
-        - name
-        - short_name
-        - continent
-        - country
-        - region
-        - image_base_url_relative
-        - metadata_url_relative
-        - bbox_url_relative
-        - image_base_url_gcp
-        - metadata_url_gcp
-        - bbox_url_gcp
-        - image_base_url_aws
-        - metadata_url_aws
-        - bbox_url_aws
-        - image_base_url_azure
-        - metadata_url_azure
-        - box_url_azure
-        - mdv4_results_raw
-        - mdv5b_results_raw
-        - md_results_with_rde
-        - json_filename
-    """
-    # Put the master metadata file in the same folder where we're putting images
-    p = urlparse(lila_metadata_url)
-    metadata_filename = os.path.join(metadata_dir,os.path.basename(p.path))
-    download_url(lila_metadata_url, metadata_filename)
-    df = pd.read_csv(metadata_filename)
-    records = df.to_dict('records')
-    # Parse into a table keyed by dataset name
-    metadata_table = {}
-    # r = records[0]
-    for r in records:
-        if is_empty(r['name']):
-            continue
-        # Convert NaN's to None
-        for k in r.keys():
-            if is_empty(r[k]):
-                r[k] = None
-        metadata_table[r['name']] = r
-    return metadata_table
-def read_lila_all_images_file(metadata_dir):
-    """
-    Downloads if necessary - then unzips if necessary - the .csv file with label mappings for
-    all LILA files, and opens the resulting .csv file as a Pandas DataFrame.
-    Args:
-        metadata_dir (str): folder to use for temporary LILA metadata files
-    Returns:
-        pd.DataFrame: a DataFrame containing one row per identification in a LILA camera trap image
-    """
-    p = urlparse(lila_all_images_url)
-    lila_all_images_zip_filename = os.path.join(metadata_dir,os.path.basename(p.path))
-    download_url(lila_all_images_url, lila_all_images_zip_filename)
-    with zipfile.ZipFile(lila_all_images_zip_filename,'r') as z:
-        files = z.namelist()
-    assert len(files) == 1
-    unzipped_csv_filename = os.path.join(metadata_dir,files[0])
-    if not os.path.isfile(unzipped_csv_filename):
-        unzip_file(lila_all_images_zip_filename,metadata_dir)
-    else:
-        print('{} already unzipped'.format(unzipped_csv_filename))
-    df = pd.read_csv(unzipped_csv_filename)
-    return df
-def read_metadata_file_for_dataset(ds_name,
-                                   metadata_dir,
-                                   metadata_table=None,
-                                   json_url=None,
-                                   preferred_cloud='gcp'):
-    """
-    Downloads if necessary - then unzips if necessary - the .json file for a specific dataset.
-    Args:
-        ds_name (str): the name of the dataset for which you want to retrieve metadata (e.g.
-            "Caltech Camera Traps")
-        metadata_dir (str): folder to use for temporary LILA metadata files
-        metadata_table (dict, optional): an optional dictionary already loaded via
-            read_lila_metadata()
-        json_url (str, optional): the URL of the metadata file, if None will be retrieved
-            via read_lila_metadata()
-        preferred_cloud (str, optional): 'gcp' (default), 'azure', or 'aws'
-    Returns:
-        str: the .json filename on the local disk
-    """
-    assert preferred_cloud in lila_base_urls.keys()
-    if json_url is None:
-        if metadata_table is None:
-            metadata_table = read_lila_metadata(metadata_dir)
-        json_url = metadata_table[ds_name]['metadata_url_' + preferred_cloud]
-    p = urlparse(json_url)
-    json_filename = os.path.join(metadata_dir,os.path.basename(p.path))
-    download_url(json_url, json_filename)
-    # Unzip if necessary
-    if json_filename.endswith('.zip'):
-        with zipfile.ZipFile(json_filename,'r') as z:
-            files = z.namelist()
-        assert len(files) == 1
-        unzipped_json_filename = os.path.join(metadata_dir,files[0])
-        if not os.path.isfile(unzipped_json_filename):
-            unzip_file(json_filename,metadata_dir)
-        else:
-            print('{} already unzipped'.format(unzipped_json_filename))
-        json_filename = unzipped_json_filename
-    return json_filename
-#%% Interactive test driver
-if False:
-    pass
-    #%% Verify that all base URLs exist
-    # LILA camera trap primary metadata file
-    urls = (lila_metadata_url,lila_taxonomy_mapping_url,lila_all_images_url,wildlife_insights_taxonomy_url)
-    from md_utils import url_utils
-    status_codes = url_utils.test_urls(urls,timeout=2.0)
-    assert all([code == 200 for code in status_codes])
-    #%% Verify that the metadata URLs exist for individual datasets
-    metadata_dir = os.path.expanduser('~/lila/metadata')
-    dataset_metadata = read_lila_metadata(metadata_dir)
-    urls_to_test = []
-    # ds_name = next(iter(dataset_metadata.keys()))
-    for ds_name in dataset_metadata.keys():
-        ds_info = dataset_metadata[ds_name]
-        for cloud_name in lila_base_urls.keys():
-            urls_to_test.append(ds_info['metadata_url_' + cloud_name])
-            if ds_info['bbox_url_relative'] != None:
-                urls_to_test.append(ds_info['bbox_url_' + cloud_name])
-    status_codes = url_utils.test_urls(urls_to_test,
-                                       error_on_failure=True,
-                                       n_workers=10,
-                                       pool_type='process',
-                                       timeout=2.0)
-    assert all([code == 200 for code in status_codes])

data_management/lila/test_lila_metadata_urls.py DELETED Viewed

@@ -1,132 +0,0 @@
-"""
-test_lila_metadata_urls.py
-Test that all the metadata URLs for LILA camera trap datasets are valid, including MegaDetector
-results files.
-Also pick an arbitrary image from each dataset and make sure that URL is valid.
-Also picks an arbitrary image from each dataset's MD results and make sure the corresponding URL is valid.
-"""
-#%% Constants and imports
-import json
-import os
-from data_management.lila.lila_common import read_lila_metadata,\
-    read_metadata_file_for_dataset, read_lila_taxonomy_mapping
-# We'll write images, metadata downloads, and temporary files here
-lila_local_base = os.path.expanduser('~/lila')
-output_dir = os.path.join(lila_local_base,'lila_metadata_tests')
-os.makedirs(output_dir,exist_ok=True)
-metadata_dir = os.path.join(lila_local_base,'metadata')
-os.makedirs(metadata_dir,exist_ok=True)
-md_results_dir = os.path.join(lila_local_base,'md_results')
-os.makedirs(md_results_dir,exist_ok=True)
-md_results_keys = ['mdv4_results_raw','mdv5a_results_raw','mdv5b_results_raw','md_results_with_rde']
-preferred_cloud = 'gcp' # 'azure', 'aws'
-#%% Load category and taxonomy files
-taxonomy_df = read_lila_taxonomy_mapping(metadata_dir)
-#%% Download and parse the metadata file
-metadata_table = read_lila_metadata(metadata_dir)
-print('Loaded metadata URLs for {} datasets'.format(len(metadata_table)))
-#%% Download and extract metadata and MD results for each dataset
-for ds_name in metadata_table.keys():
-    metadata_table[ds_name]['json_filename'] = read_metadata_file_for_dataset(ds_name=ds_name,
-                                                                         metadata_dir=metadata_dir,
-                                                                         metadata_table=metadata_table)
-    for k in md_results_keys:
-        md_results_url = metadata_table[ds_name][k]
-        if md_results_url is None:
-            metadata_table[ds_name][k + '_filename'] = None
-        else:
-            metadata_table[ds_name][k + '_filename'] = read_metadata_file_for_dataset(ds_name=ds_name,
-                                                                        metadata_dir=md_results_dir,
-                                                                        json_url=md_results_url)
-#%% Build up a list of URLs to test
-# Takes ~15 mins, since it has to open all the giant .json files
-url_to_source = {}
-# The first image in a dataset is disproportionately likely to be human (and thus 404),
-# so we pick a semi-arbitrary image that isn't the first.  How about the 1000th?
-image_index = 1000
-# ds_name = list(metadata_table.keys())[0]
-for ds_name in metadata_table.keys():
-    if 'bbox' in ds_name:
-        print('Skipping bbox dataset {}'.format(ds_name))
-        continue
-    print('Processing dataset {}'.format(ds_name))
-    json_filename = metadata_table[ds_name]['json_filename']
-    with open(json_filename, 'r') as f:
-        data = json.load(f)
-    image_base_url = metadata_table[ds_name]['image_base_url_' + preferred_cloud]
-    assert not image_base_url.endswith('/')
-    # Download a test image
-    test_image_relative_path = data['images'][image_index]['file_name']
-    test_image_url = image_base_url + '/' + test_image_relative_path
-    url_to_source[test_image_url] = ds_name + ' metadata'
-    # Grab an image from the MegaDetector results
-    # k = md_results_keys[2]
-    for k in md_results_keys:
-        k_fn = k + '_filename'
-        if metadata_table[ds_name][k_fn] is not None:
-            with open(metadata_table[ds_name][k_fn],'r') as f:
-                md_results = json.load(f)
-                im = md_results['images'][image_index]
-                md_image_url = image_base_url + '/' + im['file']
-                url_to_source[md_image_url] = ds_name + ' ' + k
-            del md_results
-    del data
-# ...for each dataset
-#%% Test URLs
-from md_utils.url_utils import test_urls
-urls_to_test = sorted(url_to_source.keys())
-urls_to_test = [fn.replace('\\','/') for fn in urls_to_test]
-status_codes = test_urls(urls_to_test,
-                         error_on_failure=False,
-                         pool_type='thread',
-                         n_workers=10,
-                         timeout=2.0)
-for i_url,url in enumerate(urls_to_test):
-    if status_codes[i_url] != 200:
-        print('Status {} for {} ({})'.format(
-            status_codes[i_url],url,url_to_source[url]))

megadetector 5.0.9__py3-none-any.whl → 5.0.11__py3-none-any.whl

Potentially problematic release.

megadetector 5.0.9py3-none-any.whl → 5.0.11py3-none-any.whl