RubyGems - kaggle - Versions diffs - 0.0.1 → 0.0.3 - Mend

kaggle 0.0.1 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 3ad655835decf29a7a46e8b9c1d62a91bf05975bb8a694e3fac92b9f5f141eb7
-  data.tar.gz: '0803369672874a9a8f275a53fca15baeb66b1f2a121b2d5bdf91b39349a3bab1'
+  metadata.gz: 56c5fd9c27bd8cdc20423167b912f171ee07d37e0413cfbbbcba2ea38140b7c6
+  data.tar.gz: 3f37e295dc32362f7606803790225af6a707021ba78b239d4f2a29567102fee6
 SHA512:
-  metadata.gz: 947d6474751ade9122c0ec9fcb7d7f533a1b23dc9903ba6f59d3e88f20c4b1ec38ff70c53bb242d3a9cafca7f374bee0b307c2fb74ccc52add31fa7555906864
-  data.tar.gz: ced4244587280c337dbab8455ffb133db8181631afed0de72bb2b0c773ea7f32b8eff6f30c0d7a6037d5d5ee59cd245e975f7c5f9bdf436da6c9ed9a490707cb
+  metadata.gz: 41b60fa4d87d5a78778247acdbf620bbbcb2a23add74b07c76ff25fa2a02ed5675e8fd3aa27dce6352c2c49c0dfcfb90f54d55cbd1219cb81b04c6a2b371d086
+  data.tar.gz: c3b887147a1e0aeb38fdf1440b63f3c722e8375feaab45bbc0a5e4e434b0a8f7cb06ea71437fe08d888704c732d60629c7e3f18443c40e339abb72c88a56e667

data/README.md CHANGED Viewed

@@ -78,19 +78,6 @@ client = Kaggle::Client.new(
 )
 ```
-### List Datasets
-```ruby
-# List all datasets
-datasets = client.list_datasets
-# Search datasets
-datasets = client.list_datasets(search: 'housing')
-# Paginate results
-datasets = client.list_datasets(page: 2, page_size: 10)
-```
 ### Download Datasets
 ```ruby
@@ -131,12 +118,6 @@ data = client.parse_csv_to_json('/path/to/file.csv')
 The gem includes a command-line interface:
 ```bash
-# List datasets
-kaggle list
-# Search datasets
-kaggle list "housing"
 # Download dataset
 kaggle download zillow zecon

data/Rakefile CHANGED Viewed

@@ -7,4 +7,4 @@ Rake::TestTask.new(:test) do |t|
   t.test_files = FileList['test/**/*_test.rb']
 end
-task default: :test
+task default: :test

data/kaggle.gemspec CHANGED Viewed

@@ -28,19 +28,19 @@ Gem::Specification.new do |spec|
   spec.executables = spec.files.grep(%r{\Aexe/}) { |f| File.basename(f) }
   spec.require_paths = ['lib']
-  spec.add_dependency 'httparty', '>= 0.23'
   spec.add_dependency 'csv', '>= 3.3'
-  spec.add_dependency 'oj', '3.16.11'
   spec.add_dependency 'fileutils', '>= 1.7'
+  spec.add_dependency 'httparty', '>= 0.23'
+  spec.add_dependency 'oj', '3.16.11'
   spec.add_dependency 'rubyzip', '>= 2.0'
-  spec.add_development_dependency 'rake', '~> 13.3.0'
   spec.add_development_dependency 'minitest', '~> 5.25.5'
   spec.add_development_dependency 'minitest-focus', '~> 1.4.0'
   spec.add_development_dependency 'minitest-reporters', '~> 1.7.1'
-  spec.add_development_dependency 'webmock', '~> 3.24.0'
   spec.add_development_dependency 'mocha', '~> 2.4.5'
   spec.add_development_dependency 'pry', '~> 0.15.2'
+  spec.add_development_dependency 'rake', '~> 13.3.0'
   spec.add_development_dependency 'simplecov', '~> 0.22.0'
   spec.add_development_dependency 'timecop', '~> 0.9.10'
+  spec.add_development_dependency 'webmock', '~> 3.24.0'
 end

data/lib/kaggle/client.rb CHANGED Viewed

@@ -1,102 +1,109 @@
 module Kaggle
   class Client
     include HTTParty
     base_uri Constants::BASE_URL
-    attr_reader :username, :api_key, :download_path, :cache_path, :timeout
-    def initialize(username: nil, api_key: nil, credentials_file: nil, download_path: nil, cache_path: nil, timeout: nil)
+    attr_reader :username, :api_key, :download_path, :cache_path, :timeout, :cache_only
+    def initialize(username: nil, api_key: nil, credentials_file: nil, download_path: nil, cache_path: nil,
+                   timeout: nil, cache_only: false)
       load_credentials(username, api_key, credentials_file)
       @download_path = download_path || Constants::DEFAULT_DOWNLOAD_PATH
       @cache_path = cache_path || Constants::DEFAULT_CACHE_PATH
       @timeout = timeout || Constants::DEFAULT_TIMEOUT
-      raise AuthenticationError, 'Username and API key are required' unless valid_credential?(@username) && valid_credential?(@api_key)
+      @cache_only = cache_only
+      unless cache_only || (valid_credential?(@username) && valid_credential?(@api_key))
+        raise AuthenticationError,
+              'Username and API key are required (or set cache_only: true for cache-only access)'
+      end
       ensure_directories_exist
-      setup_httparty_options
+      setup_httparty_options unless cache_only
     end
     def download_dataset(dataset_owner, dataset_name, options = {})
       dataset_path = "#{dataset_owner}/#{dataset_name}"
       # Check cache first for parsed data
       if options[:use_cache] && options[:parse_csv]
         cache_key = generate_cache_key(dataset_path)
-        if cached_file_exists?(cache_key)
-          return load_from_cache(cache_key)
-        end
+        return load_from_cache(cache_key) if cached_file_exists?(cache_key)
       end
       # Check if we already have extracted files for this dataset
       extracted_dir = get_extracted_dir(dataset_path)
       if options[:use_cache] && Dir.exist?(extracted_dir) && !Dir.empty?(extracted_dir)
         return handle_existing_dataset(extracted_dir, options)
       end
+      # If cache_only mode and no cached data found, return nil or raise based on force_cache option
+      if @cache_only
+        if options[:force_cache]
+          raise CacheNotFoundError, "Dataset '#{dataset_path}' not found in cache and force_cache is enabled"
+        else
+          return nil # Gracefully return nil when cache_only but not forced
+        end
+      end
       # Download the zip file
       response = authenticated_request(:get, "#{Constants::DATASET_ENDPOINTS[:download]}/#{dataset_path}")
-      unless response.success?
-        raise DownloadError, "Failed to download dataset: #{response.message}"
-      end
+      raise DownloadError, "Failed to download dataset: #{response.message}" unless response.success?
       # Save zip file
       zip_file = save_zip_file(dataset_path, response.body)
       # Extract zip file
       extract_zip_file(zip_file, extracted_dir)
       # Clean up zip file
       File.delete(zip_file) if File.exist?(zip_file)
       # Handle the extracted files
       result = handle_extracted_dataset(extracted_dir, options)
       # Cache parsed CSV data if requested
       if options[:use_cache] && options[:parse_csv] && (result.is_a?(Hash) || result.is_a?(Array))
         cache_key = generate_cache_key(dataset_path)
         cache_parsed_data(cache_key, result)
       end
       result
     end
     def dataset_files(dataset_owner, dataset_name)
       dataset_path = "#{dataset_owner}/#{dataset_name}"
       response = authenticated_request(:get, "#{Constants::DATASET_ENDPOINTS[:files]}/#{dataset_path}")
-      unless response.success?
-        raise DatasetNotFoundError, "Dataset not found or accessible: #{dataset_path}"
-      end
+      raise DatasetNotFoundError, "Dataset not found or accessible: #{dataset_path}" unless response.success?
       Oj.load(response.body)
     rescue Oj::ParseError => e
       raise ParseError, "Failed to parse dataset files response: #{e.message}"
     end
     def parse_csv_to_json(file_path)
       raise Error, "File does not exist: #{file_path}" unless File.exist?(file_path)
       raise Error, "File is not a CSV: #{file_path}" unless csv_file?(file_path)
       data = []
       CSV.foreach(file_path, headers: true) do |row|
         data << row.to_hash
       end
       data
     rescue CSV::MalformedCSVError => e
       raise ParseError, "Failed to parse CSV file: #{e.message}"
     end
     private
     def valid_credential?(credential)
       credential && !credential.to_s.strip.empty?
     end
     def load_credentials(username, api_key, credentials_file)
       # Try provided credentials file first
       if credentials_file && File.exist?(credentials_file)
@@ -114,63 +121,63 @@ module Kaggle
         @api_key = api_key || ENV['KAGGLE_KEY']
       end
     end
     def load_credentials_from_file(file_path)
       content = File.read(file_path)
       Oj.load(content)
     rescue Oj::ParseError => e
       raise AuthenticationError, "Invalid credentials file format: #{e.message}"
-    rescue => e
+    rescue StandardError => e
       raise AuthenticationError, "Failed to read credentials file: #{e.message}"
     end
     def ensure_directories_exist
       FileUtils.mkdir_p(@download_path) unless Dir.exist?(@download_path)
       FileUtils.mkdir_p(@cache_path) unless Dir.exist?(@cache_path)
     end
     def setup_httparty_options
       self.class.default_options.merge!({
-        headers: Constants::REQUIRED_HEADERS,
-        timeout: @timeout,
-        basic_auth: {
-          username: @username,
-          password: @api_key
-        }
-      })
-    end
+                                          headers: Constants::REQUIRED_HEADERS,
+                                          timeout: @timeout,
+                                          basic_auth: {
+                                            username: @username,
+                                            password: @api_key
+                                          }
+                                        })
+    end
     def authenticated_request(method, endpoint, options = {})
       self.class.send(method, endpoint, options)
     rescue Timeout::Error, Net::ReadTimeout, Net::OpenTimeout
       raise Error, 'Request timed out'
-    rescue => e
+    rescue StandardError => e
       raise Error, "Request failed: #{e.message}"
     end
     def get_extracted_dir(dataset_path)
       dir_name = dataset_path.gsub('/', '_')
       File.join(@download_path, dir_name)
     end
     def save_zip_file(dataset_path, content)
       filename = "#{dataset_path.gsub('/', '_')}.zip"
       file_path = File.join(@download_path, filename)
       File.open(file_path, 'wb') do |file|
         file.write(content)
       end
       file_path
     end
     def extract_zip_file(zip_file_path, extract_to_dir)
       FileUtils.mkdir_p(extract_to_dir)
       Zip::File.open(zip_file_path) do |zip_file|
         zip_file.each do |entry|
           extract_path = File.join(extract_to_dir, entry.name)
           if entry.directory?
             # Create directory
             FileUtils.mkdir_p(extract_path)
@@ -178,7 +185,7 @@ module Kaggle
             # Create parent directory if it doesn't exist
             parent_dir = File.dirname(extract_path)
             FileUtils.mkdir_p(parent_dir) unless Dir.exist?(parent_dir)
             # Extract file manually to avoid path issues
             File.open(extract_path, 'wb') do |f|
               f.write entry.get_input_stream.read
@@ -189,16 +196,16 @@ module Kaggle
     rescue Zip::Error => e
       raise DownloadError, "Failed to extract zip file: #{e.message}"
     end
     def handle_existing_dataset(extracted_dir, options)
       if options[:parse_csv]
         csv_files = find_csv_files(extracted_dir)
         return parse_csv_files_to_json(csv_files) unless csv_files.empty?
       end
       extracted_dir
     end
     def handle_extracted_dataset(extracted_dir, options)
       if options[:parse_csv]
         csv_files = find_csv_files(extracted_dir)
@@ -207,49 +214,48 @@ module Kaggle
           return parsed_data
         end
       end
       extracted_dir
     end
     def find_csv_files(directory)
       Dir.glob(File.join(directory, '**', '*.csv'))
     end
     def parse_csv_files_to_json(csv_files)
       result = {}
       csv_files.each do |csv_file|
         file_name = File.basename(csv_file, '.csv')
         result[file_name] = parse_csv_to_json(csv_file)
       end
       # If there's only one CSV file, return its data directly
       result.length == 1 ? result.values.first : result
     end
     def generate_cache_key(dataset_path)
       "#{dataset_path.gsub('/', '_')}_parsed.json"
     end
     def cached_file_exists?(cache_key)
       File.exist?(File.join(@cache_path, cache_key))
     end
     def load_from_cache(cache_key)
       cache_file_path = File.join(@cache_path, cache_key)
       Oj.load(File.read(cache_file_path))
     rescue Oj::ParseError => e
       raise ParseError, "Failed to parse cached data: #{e.message}"
     end
     def cache_parsed_data(cache_key, data)
       cache_file_path = File.join(@cache_path, cache_key)
       File.write(cache_file_path, Oj.dump(data, mode: :compat, indent: 2))
     end
     def csv_file?(file_path)
       File.extname(file_path).downcase == '.csv'
     end
   end
-end
+end

data/lib/kaggle/constants.rb CHANGED Viewed

@@ -1,23 +1,23 @@
 module Kaggle
   module Constants
     BASE_URL = 'https://www.kaggle.com/api/v1'
     DEFAULT_DOWNLOAD_PATH = './downloads'
     DEFAULT_CACHE_PATH = './cache'
     DEFAULT_CREDENTIALS_FILE = './kaggle.json'
     DEFAULT_TIMEOUT = 30
     SUPPORTED_FORMATS = %w[csv json].freeze
     DATASET_ENDPOINTS = {
       view: '/datasets/view',
       download: '/datasets/download',
       files: '/datasets/data'
     }.freeze
     REQUIRED_HEADERS = {
       'User-Agent' => 'Kaggle Ruby Client/0.0.1',
       'Accept' => 'application/json'
     }.freeze
   end
-end
+end

data/lib/kaggle/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Kaggle
-  VERSION = '0.0.1'
-end
+  VERSION = '0.0.3'
+end

data/lib/kaggle.rb CHANGED Viewed

@@ -16,4 +16,5 @@ module Kaggle
   class DatasetNotFoundError < Error; end
   class DownloadError < Error; end
   class ParseError < Error; end
-end
+  class CacheNotFoundError < Error; end
+end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: kaggle
 version: !ruby/object:Gem::Version
-  version: 0.0.1
+  version: 0.0.3
 platform: ruby
 authors:
 - Your Name
@@ -10,61 +10,61 @@ cert_chain: []
 date: 1980-01-02 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
-  name: httparty
+  name: csv
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: '0.23'
+        version: '3.3'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: '0.23'
+        version: '3.3'
 - !ruby/object:Gem::Dependency
-  name: csv
+  name: fileutils
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: '3.3'
+        version: '1.7'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: '3.3'
+        version: '1.7'
 - !ruby/object:Gem::Dependency
-  name: oj
+  name: httparty
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - '='
+    - - ">="
       - !ruby/object:Gem::Version
-        version: 3.16.11
+        version: '0.23'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - '='
+    - - ">="
       - !ruby/object:Gem::Version
-        version: 3.16.11
+        version: '0.23'
 - !ruby/object:Gem::Dependency
-  name: fileutils
+  name: oj
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
+    - - '='
       - !ruby/object:Gem::Version
-        version: '1.7'
+        version: 3.16.11
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
+    - - '='
       - !ruby/object:Gem::Version
-        version: '1.7'
+        version: 3.16.11
 - !ruby/object:Gem::Dependency
   name: rubyzip
   requirement: !ruby/object:Gem::Requirement
@@ -79,20 +79,6 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '2.0'
-- !ruby/object:Gem::Dependency
-  name: rake
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - "~>"
-      - !ruby/object:Gem::Version
-        version: 13.3.0
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - "~>"
-      - !ruby/object:Gem::Version
-        version: 13.3.0
 - !ruby/object:Gem::Dependency
   name: minitest
   requirement: !ruby/object:Gem::Requirement
@@ -136,47 +122,47 @@ dependencies:
       - !ruby/object:Gem::Version
         version: 1.7.1
 - !ruby/object:Gem::Dependency
-  name: webmock
+  name: mocha
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 3.24.0
+        version: 2.4.5
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 3.24.0
+        version: 2.4.5
 - !ruby/object:Gem::Dependency
-  name: mocha
+  name: pry
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 2.4.5
+        version: 0.15.2
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 2.4.5
+        version: 0.15.2
 - !ruby/object:Gem::Dependency
-  name: pry
+  name: rake
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.15.2
+        version: 13.3.0
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.15.2
+        version: 13.3.0
 - !ruby/object:Gem::Dependency
   name: simplecov
   requirement: !ruby/object:Gem::Requirement
@@ -205,6 +191,20 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: 0.9.10
+- !ruby/object:Gem::Dependency
+  name: webmock
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 3.24.0
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 3.24.0
 description: A Ruby gem for interacting with the Kaggle API, including dataset downloads
   with caching support
 email:
@@ -228,7 +228,6 @@ files:
 - plans/benchmarks.md
 - plans/cli_tool.md
 - plans/initial_prompt.md
-- plans/lists.md
 - plans/models.md
 - plans/roadmap.md
 homepage: https://github.com/yourusername/kaggle

data/plans/lists.md DELETED Viewed

@@ -1,77 +0,0 @@
-# Lists Enhancement Plan
-## Overview
-Expand the current listing functionality to provide comprehensive discovery and filtering capabilities for Kaggle resources.
-## Current State
-- Basic dataset listing with search and pagination
-- Simple dataset file listing
-## Planned Enhancements
-### Phase 1: Enhanced Dataset Lists
-- [ ] **Advanced Filtering**: Filter by license, file formats, size, update date
-- [ ] **Sorting Options**: Sort by popularity, date, size, downloads
-- [ ] **Category Browsing**: Browse datasets by category/topic
-- [ ] **User/Organization Datasets**: List datasets by specific users or organizations
-- [ ] **Featured Datasets**: Highlight trending or featured datasets
-### Phase 2: Competition Lists
-- [ ] **Competition Discovery**: List active, completed, and upcoming competitions
-- [ ] **Competition Filtering**: Filter by category, prize pool, participant count
-- [ ] **Competition Search**: Search competitions by title, description, tags
-- [ ] **Personal Competitions**: List user's participated competitions
-- [ ] **Competition Metrics**: Show participation stats, deadlines, prizes
-### Phase 3: Model Lists
-- [ ] **Model Discovery**: List available models and frameworks
-- [ ] **Model Filtering**: Filter by framework, task type, performance metrics
-- [ ] **Model Versions**: Track different versions of models
-- [ ] **Popular Models**: Highlight trending and highly-rated models
-- [ ] **User Models**: List models by specific users
-### Phase 4: Kernel/Notebook Lists
-- [ ] **Code Discovery**: List public kernels and notebooks
-- [ ] **Language Filtering**: Filter by programming language (R, Python, etc.)
-- [ ] **Topic Browsing**: Browse by dataset or competition
-- [ ] **Popular Code**: Highlight most-voted and most-forked notebooks
-- [ ] **Recent Activity**: Show recently updated kernels
-## Technical Implementation
-### API Endpoints
-- Implement consistent pagination across all list types
-- Add caching layer for frequently accessed lists
-- Support bulk operations for multiple list requests
-### CLI Enhancements
-- Interactive filtering and sorting in CLI
-- Export capabilities (CSV, JSON, XML)
-- Bookmarking and favorites functionality
-- Watchlist for monitoring specific items
-### Data Structures
-```ruby
-# Enhanced listing response format
-{
-  items: [],           # List of resources
-  pagination: {        # Pagination metadata
-    page: 1,
-    per_page: 20,
-    total_pages: 50,
-    total_count: 1000
-  },
-  filters: {           # Applied filters
-    category: 'finance',
-    license: 'cc-by',
-    updated_since: '2023-01-01'
-  },
-  sort: {              # Current sorting
-    field: 'popularity',
-    direction: 'desc'
-  }
-}
-```
-## Priority: High
-Target completion: Version 0.3.0