RubyGems - red-candle - Versions diffs - 1.0.0.pre.1 → 1.0.0.pre.3 - Mend

red-candle 1.0.0.pre.1 → 1.0.0.pre.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

checksums.yaml +4 -4
data/Gemfile +12 -0
data/LICENSE +22 -0
data/Rakefile +95 -0
data/bin/console +11 -0
data/bin/setup +17 -0
data/ext/candle/rustfmt.toml +63 -0
data/ext/candle/src/lib.rs +6 -96
data/ext/candle/src/llm/generation_config.rs +49 -0
data/ext/candle/src/llm/mistral.rs +325 -0
data/ext/candle/src/llm/mod.rs +68 -0
data/ext/candle/src/llm/text_generation.rs +141 -0
data/ext/candle/src/reranker.rs +267 -0
data/ext/candle/src/ruby/device.rs +197 -0
data/ext/candle/src/ruby/dtype.rs +37 -0
data/ext/candle/src/ruby/embedding_model.rs +410 -0
data/ext/candle/src/ruby/errors.rs +13 -0
data/ext/candle/src/ruby/llm.rs +295 -0
data/ext/candle/src/ruby/mod.rs +21 -0
data/ext/candle/src/ruby/qtensor.rs +69 -0
data/ext/candle/src/ruby/result.rs +3 -0
data/ext/candle/src/ruby/tensor.rs +654 -0
data/ext/candle/src/ruby/utils.rs +88 -0
data/lib/candle/version.rb +1 -1
metadata +22 -1

data/ext/candle/src/llm/mistral.rs ADDED Viewed

@@ -0,0 +1,325 @@
+use candle_core::{DType, Device, Result as CandleResult, Tensor};
+use candle_nn::VarBuilder;
+use candle_transformers::models::mistral::{Config, Model as MistralModel};
+use hf_hub::{api::tokio::Api, Repo};
+use tokenizers::Tokenizer;
+use super::{GenerationConfig, TextGeneration, TextGenerator, TokenizerWrapper};
+#[derive(Debug)]
+pub struct Mistral {
+    model: MistralModel,
+    tokenizer: TokenizerWrapper,
+    device: Device,
+    model_id: String,
+    eos_token_id: u32,
+}
+impl Mistral {
+    /// Clear the KV cache between generations
+    pub fn clear_kv_cache(&mut self) {
+        self.model.clear_kv_cache();
+    }
+    /// Load a Mistral model from HuggingFace Hub
+    pub async fn from_pretrained(model_id: &str, device: Device) -> CandleResult<Self> {
+        let api = Api::new()
+            .map_err(|e| candle_core::Error::Msg(format!("Failed to create HF API: {}", e)))?;
+        let repo = api.repo(Repo::model(model_id.to_string()));
+        // Download model files
+        let config_filename = repo
+            .get("config.json")
+            .await
+            .map_err(|e| candle_core::Error::Msg(format!("Failed to download config: {}", e)))?;
+        let tokenizer_filename = repo
+            .get("tokenizer.json")
+            .await
+            .map_err(|e| candle_core::Error::Msg(format!("Failed to download tokenizer: {}", e)))?;
+        // Try different file patterns for model weights
+        let weights_filenames = if let Ok(single_file) = repo.get("model.safetensors").await {
+            vec![single_file]
+        } else if let Ok(consolidated_file) = repo.get("consolidated.safetensors").await {
+            // Some Mistral models use consolidated.safetensors
+            vec![consolidated_file]
+        } else {
+            // Try to find sharded model files
+            let mut sharded_files = Vec::new();
+            let mut index = 1;
+            loop {
+                // Try common shard counts
+                let mut found = false;
+                for total in [2, 3, 4, 5, 6, 7, 8] {
+                    let filename = format!("model-{:05}-of-{:05}.safetensors", index, total);
+                    if let Ok(file) = repo.get(&filename).await {
+                        sharded_files.push(file);
+                        found = true;
+                        break;
+                    }
+                }
+                if !found {
+                    break;
+                }
+                index += 1;
+            }
+            if sharded_files.is_empty() {
+                // Try single pytorch_model.bin as last resort (though we prefer safetensors)
+                if let Ok(_pytorch_file) = repo.get("pytorch_model.bin").await {
+                    return Err(candle_core::Error::Msg(
+                        "Only safetensors format is supported. This model uses pytorch_model.bin format.".to_string()
+                    ));
+                } else {
+                    return Err(candle_core::Error::Msg(
+                        "Could not find model weights. Tried: model.safetensors, consolidated.safetensors, model-*-of-*.safetensors".to_string()
+                    ));
+                }
+            }
+            sharded_files
+        };
+        // Load config
+        let config: Config = serde_json::from_reader(std::fs::File::open(config_filename)?)
+            .map_err(|e| candle_core::Error::Msg(format!("Failed to parse config: {}", e)))?;
+        // Load tokenizer
+        let tokenizer = Tokenizer::from_file(tokenizer_filename)
+            .map_err(|e| candle_core::Error::Msg(format!("Failed to load tokenizer: {}", e)))?;
+        let eos_token_id = tokenizer
+            .get_vocab(true)
+            .get("</s>")
+            .copied()
+            .unwrap_or(2);
+        // Load model weights
+        let vb = unsafe {
+            VarBuilder::from_mmaped_safetensors(&weights_filenames, DType::F32, &device)?
+        };
+        let model = MistralModel::new(&config, vb)?;
+        Ok(Self {
+            model,
+            tokenizer: TokenizerWrapper::new(tokenizer),
+            device,
+            model_id: model_id.to_string(),
+            eos_token_id,
+        })
+    }
+    /// Create from existing components (useful for testing)
+    pub fn new(
+        model: MistralModel,
+        tokenizer: Tokenizer,
+        device: Device,
+        model_id: String,
+    ) -> Self {
+        let eos_token_id = tokenizer
+            .get_vocab(true)
+            .get("</s>")
+            .copied()
+            .unwrap_or(2);
+        Self {
+            model,
+            tokenizer: TokenizerWrapper::new(tokenizer),
+            device,
+            model_id,
+            eos_token_id,
+        }
+    }
+    fn generate_tokens(
+        &mut self,
+        prompt_tokens: Vec<u32>,
+        config: &GenerationConfig,
+        mut callback: Option<impl FnMut(&str)>,
+    ) -> CandleResult<Vec<u32>> {
+        let mut text_gen = TextGeneration::from_config(config);
+        text_gen.set_eos_token_id(self.eos_token_id);
+        text_gen.set_tokens(prompt_tokens.clone());
+        let mut all_tokens = prompt_tokens.clone();
+        let start_gen = all_tokens.len();
+        for index in 0..config.max_length {
+            let context_size = if index > 0 { 1 } else { all_tokens.len() };
+            let start_pos = all_tokens.len().saturating_sub(context_size);
+            let ctxt = &all_tokens[start_pos..];
+            let input = Tensor::new(ctxt, &self.device)?.unsqueeze(0)?;
+            // Ensure input tensor is contiguous for Metal backend
+            let input = input.contiguous()?;
+            let logits = self.model.forward(&input, start_pos)?;
+            // The model returns logits of shape [batch_size, seq_len, vocab_size]
+            // We need to get the logits for the last token only
+            let logits = logits.squeeze(0)?; // Remove batch dimension
+            let logits = if logits.dims().len() == 2 {
+                // If we still have [seq_len, vocab_size], take the last token
+                let seq_len = logits.dim(0)?;
+                logits.narrow(0, seq_len - 1, 1)?.squeeze(0)?
+            } else {
+                // Already [vocab_size]
+                logits
+            };
+            // Convert to F32 for sampling if needed
+            let logits = logits.to_dtype(DType::F32)?;
+            let next_token = text_gen.sample_next_token(
+                &logits,
+                Some((config.repetition_penalty, config.repetition_penalty_last_n)),
+            )?;
+            all_tokens.push(next_token);
+            // Stream callback
+            if let Some(ref mut cb) = callback {
+                let token_text = self.tokenizer.token_to_piece(next_token)?;
+                cb(&token_text);
+            }
+            // Check stop conditions
+            if text_gen.should_stop(next_token, config.max_length) {
+                break;
+            }
+            // Check stop sequences
+            let generated_text = self.tokenizer.decode(&all_tokens[start_gen..], true)?;
+            if text_gen.check_stop_sequences(&generated_text, &config.stop_sequences) {
+                break;
+            }
+        }
+        Ok(if config.include_prompt {
+            all_tokens
+        } else {
+            all_tokens[start_gen..].to_vec()
+        })
+    }
+    fn generate_tokens_decoded(
+        &mut self,
+        prompt_tokens: Vec<u32>,
+        config: &GenerationConfig,
+        mut callback: Option<impl FnMut(&str)>,
+    ) -> CandleResult<Vec<u32>> {
+        let mut text_gen = TextGeneration::from_config(config);
+        text_gen.set_eos_token_id(self.eos_token_id);
+        text_gen.set_tokens(prompt_tokens.clone());
+        let mut all_tokens = prompt_tokens.clone();
+        let start_gen = all_tokens.len();
+        // For incremental decoding
+        let mut previously_decoded = String::new();
+        for index in 0..config.max_length {
+            let context_size = if index > 0 { 1 } else { all_tokens.len() };
+            let start_pos = all_tokens.len().saturating_sub(context_size);
+            let ctxt = &all_tokens[start_pos..];
+            let input = Tensor::new(ctxt, &self.device)?.unsqueeze(0)?;
+            // Ensure input tensor is contiguous for Metal backend
+            let input = input.contiguous()?;
+            let logits = self.model.forward(&input, start_pos)?;
+            // The model returns logits of shape [batch_size, seq_len, vocab_size]
+            // We need to get the logits for the last token only
+            let logits = logits.squeeze(0)?; // Remove batch dimension
+            let logits = if logits.dims().len() == 2 {
+                // If we still have [seq_len, vocab_size], take the last token
+                let seq_len = logits.dim(0)?;
+                logits.narrow(0, seq_len - 1, 1)?.squeeze(0)?
+            } else {
+                // Already [vocab_size]
+                logits
+            };
+            // Convert to F32 for sampling if needed
+            let logits = logits.to_dtype(DType::F32)?;
+            let next_token = text_gen.sample_next_token(
+                &logits,
+                Some((config.repetition_penalty, config.repetition_penalty_last_n)),
+            )?;
+            all_tokens.push(next_token);
+            // Stream callback with incremental decoding
+            if let Some(ref mut cb) = callback {
+                // Decode all generated tokens so far
+                let current_decoded = self.tokenizer.decode(&all_tokens[start_gen..], true)?;
+                // Only emit the new text since last callback
+                if current_decoded.len() > previously_decoded.len() {
+                    let new_text = &current_decoded[previously_decoded.len()..];
+                    cb(new_text);
+                    previously_decoded = current_decoded;
+                }
+            }
+            // Check stop conditions
+            if text_gen.should_stop(next_token, config.max_length) {
+                break;
+            }
+            // Check stop sequences
+            let generated_text = if callback.is_some() {
+                previously_decoded.clone()
+            } else {
+                self.tokenizer.decode(&all_tokens[start_gen..], true)?
+            };
+            if text_gen.check_stop_sequences(&generated_text, &config.stop_sequences) {
+                break;
+            }
+        }
+        Ok(if config.include_prompt {
+            all_tokens
+        } else {
+            all_tokens[start_gen..].to_vec()
+        })
+    }
+}
+impl TextGenerator for Mistral {
+    fn generate(
+        &mut self,
+        prompt: &str,
+        config: &GenerationConfig,
+    ) -> CandleResult<String> {
+        let prompt_tokens = self.tokenizer.encode(prompt, true)?;
+        let output_tokens = self.generate_tokens(prompt_tokens, config, None::<fn(&str)>)?;
+        self.tokenizer.decode(&output_tokens, true)
+    }
+    fn generate_stream(
+        &mut self,
+        prompt: &str,
+        config: &GenerationConfig,
+        mut callback: impl FnMut(&str),
+    ) -> CandleResult<String> {
+        let prompt_tokens = self.tokenizer.encode(prompt, true)?;
+        let output_tokens = self.generate_tokens_decoded(prompt_tokens, config, Some(&mut callback))?;
+        self.tokenizer.decode(&output_tokens, true)
+    }
+    fn model_name(&self) -> &str {
+        &self.model_id
+    }
+    fn device(&self) -> &Device {
+        &self.device
+    }
+    fn clear_cache(&mut self) {
+        self.clear_kv_cache();
+    }
+}

data/ext/candle/src/llm/mod.rs ADDED Viewed

@@ -0,0 +1,68 @@
+use candle_core::{Device, Result as CandleResult};
+use tokenizers::Tokenizer;
+pub mod mistral;
+pub mod generation_config;
+pub mod text_generation;
+pub use generation_config::GenerationConfig;
+pub use text_generation::TextGeneration;
+/// Trait for text generation models
+pub trait TextGenerator: Send + Sync {
+    /// Generate text from a prompt
+    fn generate(
+        &mut self,
+        prompt: &str,
+        config: &GenerationConfig,
+    ) -> CandleResult<String>;
+    /// Generate text with streaming callback
+    fn generate_stream(
+        &mut self,
+        prompt: &str,
+        config: &GenerationConfig,
+        callback: impl FnMut(&str),
+    ) -> CandleResult<String>;
+    /// Get the model's name
+    fn model_name(&self) -> &str;
+    /// Get the device the model is running on
+    fn device(&self) -> &Device;
+    /// Clear any cached state (like KV cache)
+    fn clear_cache(&mut self);
+}
+/// Common structure for managing tokenizer
+#[derive(Debug)]
+pub struct TokenizerWrapper {
+    tokenizer: Tokenizer,
+}
+impl TokenizerWrapper {
+    pub fn new(tokenizer: Tokenizer) -> Self {
+        Self { tokenizer }
+    }
+    pub fn encode(&self, text: &str, add_special_tokens: bool) -> CandleResult<Vec<u32>> {
+        let encoding = self.tokenizer
+            .encode(text, add_special_tokens)
+            .map_err(|e| candle_core::Error::Msg(format!("Tokenizer error: {}", e)))?;
+        Ok(encoding.get_ids().to_vec())
+    }
+    pub fn decode(&self, tokens: &[u32], skip_special_tokens: bool) -> CandleResult<String> {
+        self.tokenizer
+            .decode(tokens, skip_special_tokens)
+            .map_err(|e| candle_core::Error::Msg(format!("Tokenizer decode error: {}", e)))
+    }
+    pub fn token_to_piece(&self, token: u32) -> CandleResult<String> {
+        self.tokenizer
+            .id_to_token(token)
+            .map(|s| s.to_string())
+            .ok_or_else(|| candle_core::Error::Msg(format!("Unknown token id: {}", token)))
+    }
+}

data/ext/candle/src/llm/text_generation.rs ADDED Viewed

@@ -0,0 +1,141 @@
+use candle_core::{Result as CandleResult, Tensor};
+use candle_transformers::generation::LogitsProcessor;
+use rand::{rngs::StdRng, SeedableRng};
+use super::GenerationConfig;
+/// Helper struct for text generation process
+pub struct TextGeneration {
+    #[allow(dead_code)]
+    rng: StdRng,
+    logits_processor: LogitsProcessor,
+    tokens: Vec<u32>,
+    eos_token_id: Option<u32>,
+}
+impl TextGeneration {
+    pub fn new(
+        seed: u64,
+        temperature: Option<f64>,
+        top_p: Option<f64>,
+        _top_k: Option<usize>,
+        _repetition_penalty: f32,
+        _repetition_penalty_last_n: usize,
+    ) -> Self {
+        let logits_processor = LogitsProcessor::new(seed, temperature, top_p);
+        Self {
+            rng: StdRng::seed_from_u64(seed),
+            logits_processor,
+            tokens: Vec::new(),
+            eos_token_id: None,
+        }
+    }
+    pub fn from_config(config: &GenerationConfig) -> Self {
+        Self::new(
+            config.seed,
+            Some(config.temperature),
+            config.top_p,
+            config.top_k,
+            config.repetition_penalty,
+            config.repetition_penalty_last_n,
+        )
+    }
+    pub fn set_eos_token_id(&mut self, eos_token_id: u32) {
+        self.eos_token_id = Some(eos_token_id);
+    }
+    pub fn set_tokens(&mut self, tokens: Vec<u32>) {
+        self.tokens = tokens;
+    }
+    pub fn get_tokens(&self) -> &[u32] {
+        &self.tokens
+    }
+    pub fn push_token(&mut self, token: u32) {
+        self.tokens.push(token);
+    }
+    /// Apply repetition penalty to logits
+    pub fn apply_repetition_penalty(
+        &self,
+        logits: &mut Tensor,
+        penalty: f32,
+        context_size: usize,
+    ) -> CandleResult<()> {
+        if penalty == 1.0 {
+            return Ok(());
+        }
+        let device = logits.device();
+        let vocab_size = logits.dims1()?;
+        // Get the context tokens to apply penalty to
+        let start = self.tokens.len().saturating_sub(context_size);
+        let context_tokens = &self.tokens[start..];
+        // Apply penalty to tokens that appear in the context
+        let mut logits_vec = logits.to_vec1::<f32>()?;
+        for &token in context_tokens {
+            if (token as usize) < vocab_size {
+                let idx = token as usize;
+                if logits_vec[idx] > 0.0 {
+                    logits_vec[idx] /= penalty;
+                } else {
+                    logits_vec[idx] *= penalty;
+                }
+            }
+        }
+        *logits = Tensor::from_vec(logits_vec, vocab_size, device)?;
+        Ok(())
+    }
+    /// Sample next token from logits
+    pub fn sample_next_token(
+        &mut self,
+        logits: &Tensor,
+        repetition_penalty: Option<(f32, usize)>,
+    ) -> CandleResult<u32> {
+        let mut logits = logits.clone();
+        // Apply repetition penalty if specified
+        if let Some((penalty, last_n)) = repetition_penalty {
+            self.apply_repetition_penalty(&mut logits, penalty, last_n)?;
+        }
+        // Sample token
+        let next_token = self.logits_processor.sample(&logits)?;
+        self.tokens.push(next_token);
+        Ok(next_token)
+    }
+    /// Check if we should stop generation
+    pub fn should_stop(&self, token: u32, max_length: usize) -> bool {
+        if self.tokens.len() >= max_length {
+            return true;
+        }
+        if let Some(eos) = self.eos_token_id {
+            if token == eos {
+                return true;
+            }
+        }
+        false
+    }
+    /// Check if the generated text ends with any stop sequence
+    pub fn check_stop_sequences(&self, text: &str, stop_sequences: &[String]) -> bool {
+        for seq in stop_sequences {
+            if text.ends_with(seq) {
+                return true;
+            }
+        }
+        false
+    }
+}