RubyGems - langchainrb - Versions diffs - 0.3.7 → 0.3.8 - Mend

langchainrb 0.3.7 → 0.3.8

Files changed (19) hide show

checksums.yaml +4 -4
data/.env.example +1 -0
data/CHANGELOG.md +16 -13
data/Gemfile.lock +11 -1
data/README.md +8 -4
data/examples/pdf_store_and_query_with_chroma.rb +36 -0
data/lib/langchain.rb +1 -0
data/lib/llm/cohere.rb +0 -2
data/lib/llm/openai.rb +0 -2
data/lib/loaders/text.rb +1 -1
data/lib/vectorsearch/base.rb +0 -1
data/lib/vectorsearch/chroma.rb +105 -0
data/lib/vectorsearch/milvus.rb +4 -4
data/lib/vectorsearch/pinecone.rb +2 -2
data/lib/vectorsearch/qdrant.rb +3 -3
data/lib/vectorsearch/weaviate.rb +1 -1
data/lib/version.rb +1 -1
metadata +18 -3
data/examples/.keep +0 -0

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 93a3fcc195fbdf55ec52402c1db2f11c929069c03afa90477259e6bf2f542957
-  data.tar.gz: 737e456d831e40e8c388a1986f2483f9dff3934c8b4e05a9456529e017075637
+  metadata.gz: 6b208f5fc51ce342bd7ffcfb776487452a40fb0505e4fa6a6b371e0db1d2a278
+  data.tar.gz: 8551edf0406827f92026c8fde54b3b27f32727dec6381f5a33cd58c9c39d40a5
 SHA512:
-  metadata.gz: 23619f8e256a9856eb113afce8eef94f759beb84644a87d9b67cac4fac9d5aedfc06978b3baedad1d988308b3cdb72d32e19a0f5e21d8b8431e8c9ff04eda548
-  data.tar.gz: 6cd0fcc55553a5472e2ac6c69a6e49dbd4b52fe8bcc899c04710ae40397c39947a3418649737c0d21a99086f85736d52f5968b0cc8af761f186eedf790ba85db
+  metadata.gz: 0d0d10e84dd47b768979e4f004e9026aac48c45ed5e15ffe499dc0fc9679e806408cc5688cdbd06931e7f63e8840dbb33b5ad7f58ca311eb05a4528757fc9581
+  data.tar.gz: 8723656cefc802cdd4464d24f452a858a1315e654d64d1c256cab9e1de5297c1de0950a4a625278fe33aa8f149db698878bfe608cd06051bc0f8eb8c5abb22f3

data/.env.example CHANGED Viewed

@@ -1,3 +1,4 @@
+CHROMA_URL=
 COHERE_API_KEY=
 HUGGING_FACE_API_KEY=
 MILVUS_URL=

data/CHANGELOG.md CHANGED Viewed

@@ -1,19 +1,26 @@
 ## [Unreleased]
+## [0.3.8] - 2023-05-19
+- 🔍 Vectorsearch
+  - Introduce support for Chroma DB
+- 🚚 Loaders
+  - Bug fix `Loaders::Text` to only parse .txt files
 ## [0.3.7] - 2023-05-19
-- Loaders
+- 🚚 Loaders
   - Introduce `Loaders::Text` to parse .txt files
-  - Introduec `Loaders::PDF` to parse .pdf files
+  - Introduce `Loaders::PDF` to parse .pdf files
 ## [0.3.6] - 2023-05-17
-- LLMs
+- 🗣️ LLMs
   - Bump `hugging-face` gem version
 ## [0.3.5] - 2023-05-16
 - Bug fixes
 ## [0.3.4] - 2023-05-16
-- LLMs
+- 🗣️ LLMs
   - Introducing support for HuggingFace
 ## [0.3.3] - 2023-05-16
@@ -22,32 +29,28 @@
 - Use the Ruby logger
 ## [0.3.2] - 2023-05-15
-- Agents
+- 🤖 Agents
   - Fix Chain of Thought prompt loader
 ## [0.3.1] - 2023-05-12
-- Tools
+- 🛠️ Tools
   - Introducing `Tool::Wikipedia`, a tool that looks up Wikipedia entries
 ## [0.3.0] - 2023-05-12
-- Agents
+- 🤖 Agents
   - Introducing `Agent::ChainOfThoughtAgent`, a semi-autonomous bot that uses Tools to retrieve additional information in order to make best-effort informed replies to user's questions.
-- Tools
+- 🛠️ Tools
   - Introducing `Tool::Calculator` tool that solves mathematical expressions.
   - Introducing `Tool::Search` tool that executes Google Searches.
 ## [0.2.0] - 2023-05-09
-- Prompt Templating
+- 📋 Prompt Templating
   - Ability to create prompt templates and save them to JSON files
   - Default `Prompt::FewShotPromptTemplate`
   - New examples added to `examples/`
 ## [0.1.4] - 2023-05-02
 - Backfilling missing specs
 ## [0.1.3] - 2023-05-01
 - Initial release

data/Gemfile.lock CHANGED Viewed

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    langchainrb (0.3.7)
+    langchainrb (0.3.8)
 GEM
   remote: https://rubygems.org/
@@ -31,6 +31,9 @@ GEM
     ast (2.4.2)
     builder (3.2.4)
     byebug (11.1.3)
+    chroma-db (0.3.0)
+      dry-monads (~> 1.6)
+      ruby-next-core (>= 0.15.0)
     coderay (1.1.3)
     cohere-ruby (0.9.3)
       faraday (~> 1)
@@ -54,6 +57,10 @@ GEM
       concurrent-ruby (~> 1.0)
       dry-core (~> 1.0, < 2)
       zeitwerk (~> 2.6)
+    dry-monads (1.6.0)
+      concurrent-ruby (~> 1.0)
+      dry-core (~> 1.0, < 2)
+      zeitwerk (~> 2.6)
     dry-schema (1.13.1)
       concurrent-ruby (~> 1.0)
       dry-configurable (~> 1.0, >= 1.0.1)
@@ -216,6 +223,7 @@ GEM
     rubocop-performance (1.16.0)
       rubocop (>= 1.7.0, < 2.0)
       rubocop-ast (>= 0.4.0)
+    ruby-next-core (0.15.3)
     ruby-openai (4.0.0)
       faraday (>= 1)
       faraday-multipart (>= 1)
@@ -253,9 +261,11 @@ GEM
 PLATFORMS
   arm64-darwin-22
   x86_64-darwin-19
+  x86_64-darwin-22
   x86_64-linux
 DEPENDENCIES
+  chroma-db (~> 0.3.0)
   cohere-ruby (~> 0.9.3)
   dotenv-rails (~> 2.7.6)
   eqn (~> 1.6.5)

data/README.md CHANGED Viewed

@@ -30,10 +30,11 @@ require "langchain"
 | Database | Querying           | Storage | Schema Management | Backups | Rails Integration | ??? |
 | -------- |:------------------:| -------:| -----------------:| -------:| -----------------:| ---:|
-| Weaviate | :white_check_mark: | WIP     | WIP               | WIP     |                   |     |
-| Qdrant   | :white_check_mark: | WIP     | WIP               | WIP     |                   |     |
-| Milvus   | :white_check_mark: | WIP     | WIP               | WIP     |                   |     |
-| Pinecone | :white_check_mark: | WIP     | WIP               | WIP     |                   |     |
+| Chroma   | :white_check_mark: | WIP     | WIP               | WIP     | WIP               |     |
+| Milvus   | :white_check_mark: | WIP     | WIP               | WIP     | WIP               |     |
+| Pinecone | :white_check_mark: | WIP     | WIP               | WIP     | WIP               |     |
+| Qdrant   | :white_check_mark: | WIP     | WIP               | WIP     | WIP               |     |
+| Weaviate | :white_check_mark: | WIP     | WIP               | WIP     | WIP               |     |
 ### Using Vector Search Databases 🔍
@@ -54,6 +55,7 @@ client = Vectorsearch::Weaviate.new(
 client = Vectorsearch::Milvus.new(...) # `gem "milvus", "~> 0.9.0"`
 client = Vectorsearch::Qdrant.new(...) # `gem"qdrant-ruby", "~> 0.9.0"`
 client = Vectorsearch::Pinecone.new(...) # `gem "pinecone", "~> 0.1.6"`
+client = Vectorsearch::Chroma.new(...) # `gem "chroma-db", "~> 0.3.0"`
 ```
 ```ruby
@@ -255,6 +257,8 @@ Need to read data from various sources? Load it up.
 | pdf  | Loaders::PDF  | `gem "pdf-reader", "~> 1.4"` |
 | text | Loaders::Text |                              |
+## Examples
+Additional examples available: [/examples](https://github.com/andreibondarev/langchainrb/tree/main/examples)
 ## Logging

data/examples/pdf_store_and_query_with_chroma.rb ADDED Viewed

@@ -0,0 +1,36 @@
+require "langchain"
+# gem install chroma-db
+# or add `gem "chroma-db", "~> 0.3.0"` to your Gemfile
+# Instantiate the Chroma client
+chroma = Vectorsearch::Chroma.new(
+  url: ENV["CHROMA_URL"],
+  index_name: "documents",
+  llm: :openai,
+  llm_api_key: ENV["OPENAI_API_KEY"]
+)
+# Create the default schema.
+chroma.create_default_schema
+# Set up an array of PDF and TXT documents
+docs = [
+  Langchain.root.join("/docs/document.pdf"),
+  Langchain.root.join("/docs/document.txt")
+]
+# Add data to the index. Weaviate will use OpenAI to generate embeddings behind the scene.
+chroma.add_texts(
+  texts: docs
+)
+# Query your data
+chroma.similarity_search(
+  query: "..."
+)
+# Interact with your index through Q&A
+chroma.ask(
+  question: "..."
+)

data/lib/langchain.rb CHANGED Viewed

@@ -24,6 +24,7 @@ end
 module Vectorsearch
   autoload :Base, "vectorsearch/base"
+  autoload :Chroma, "vectorsearch/chroma"
   autoload :Milvus, "vectorsearch/milvus"
   autoload :Pinecone, "vectorsearch/pinecone"
   autoload :Qdrant, "vectorsearch/qdrant"

data/lib/llm/cohere.rb CHANGED Viewed

@@ -51,7 +51,5 @@ module LLM
     def chat(...)
       complete(...)
     end
-    alias_method :generate_embedding, :embed
   end
 end

data/lib/llm/openai.rb CHANGED Viewed

@@ -71,7 +71,5 @@ module LLM
       response = client.chat(parameters: default_params)
       response.dig("choices", 0, "message", "content")
     end
-    alias_method :generate_embedding, :embed
   end
 end

data/lib/loaders/text.rb CHANGED Viewed

@@ -12,7 +12,7 @@ module Loaders
     #
     def loadable?
-      true
+      @path.to_s.end_with?(".txt")
     end
     def load

data/lib/vectorsearch/base.rb CHANGED Viewed

@@ -50,7 +50,6 @@ module Vectorsearch
     end
     def_delegators :llm_client,
-      :generate_embedding,
       :default_dimension
     def generate_prompt(question:, context:)

data/lib/vectorsearch/chroma.rb ADDED Viewed

@@ -0,0 +1,105 @@
+# frozen_string_literal: true
+module Vectorsearch
+  class Chroma < Base
+    # Initialize the Chroma client
+    # @param url [String] The URL of the Qdrant server
+    # @param api_key [String] The API key to use
+    # @param index_name [String] The name of the index to use
+    # @param llm [Symbol] The LLM to use
+    # @param llm_api_key [String] The API key for the LLM
+    def initialize(url:, index_name:, llm:, llm_api_key:, api_key: nil)
+      depends_on "chroma-db"
+      require "chroma-db"
+      ::Chroma.connect_host = url
+      ::Chroma.logger = Langchain.logger
+      ::Chroma.log_level = Langchain.logger.level
+      @index_name = index_name
+      super(llm: llm, llm_api_key: llm_api_key)
+    end
+    # Add a list of texts to the index
+    # @param texts [Array] The list of texts to add
+    # @return [Hash] The response from the server
+    def add_texts(texts:)
+      embeddings = Array(texts).map do |text|
+        ::Chroma::Resources::Embedding.new(
+          # TODO: Add support for passing your own IDs
+          id: SecureRandom.uuid,
+          embedding: llm_client.embed(text: text),
+          # TODO: Add support for passing metadata
+          metadata: [], # metadatas[index],
+          document: text # Do we actually need to store the whole original document?
+        )
+      end
+      collection = ::Chroma::Resources::Collection.get(index_name)
+      collection.add(embeddings)
+    end
+    # Create the collection with the default schema
+    # @return [Hash] The response from the server
+    def create_default_schema
+      ::Chroma::Resources::Collection.create(index_name)
+    end
+    # Search for similar texts
+    # @param query [String] The text to search for
+    # @param k [Integer] The number of results to return
+    # @return [Chroma::Resources::Embedding] The response from the server
+    def similarity_search(
+      query:,
+      k: 4
+    )
+      embedding = llm_client.embed(text: query)
+      similarity_search_by_vector(
+        embedding: embedding,
+        k: k
+      )
+    end
+    # Search for similar texts by embedding
+    # @param embedding [Array] The embedding to search for
+    # @param k [Integer] The number of results to return
+    # @return [Chroma::Resources::Embedding] The response from the server
+    def similarity_search_by_vector(
+      embedding:,
+      k: 4
+    )
+      # Requesting more results than the number of documents in the collection currently throws an error in Chroma DB
+      # Temporary fix inspired by this comment: https://github.com/chroma-core/chroma/issues/301#issuecomment-1520494512
+      count = collection.count
+      n_results = [count, k].min
+      collection.query(query_embeddings: [embedding], results: n_results)
+    end
+    # Ask a question and return the answer
+    # @param question [String] The question to ask
+    # @return [String] The answer to the question
+    def ask(question:)
+      search_results = similarity_search(query: question)
+      context = search_results.map do |result|
+        result.document
+      end
+      context = context.join("\n---\n")
+      prompt = generate_prompt(question: question, context: context)
+      llm_client.chat(prompt: prompt)
+    end
+    private
+    # @return [Chroma::Resources::Collection] The collection
+    def collection
+      @collection ||= ::Chroma::Resources::Collection.get(index_name)
+    end
+  end
+end

data/lib/vectorsearch/milvus.rb CHANGED Viewed

@@ -15,16 +15,16 @@ module Vectorsearch
     def add_texts(texts:)
       client.entities.insert(
         collection_name: index_name,
-        num_rows: texts.count,
+        num_rows: Array(texts).size,
         fields_data: [
           {
             field_name: "content",
             type: ::Milvus::DATA_TYPES["varchar"],
-            field: texts
+            field: Array(texts)
           }, {
             field_name: "vectors",
             type: ::Milvus::DATA_TYPES["binary_vector"],
-            field: texts.map { |text| generate_embedding(text: text) }
+            field: Array(texts).map { |text| llm_client.embed(text: text) }
           }
         ]
       )
@@ -69,7 +69,7 @@ module Vectorsearch
     end
     def similarity_search(query:, k: 4)
-      embedding = generate_embedding(text: query)
+      embedding = llm_client.embed(text: query)
       similarity_search_by_vector(
         embedding: embedding,

data/lib/vectorsearch/pinecone.rb CHANGED Viewed

@@ -32,7 +32,7 @@ module Vectorsearch
           # TODO: Allows passing in your own IDs
           id: SecureRandom.uuid,
           metadata: {content: text},
-          values: generate_embedding(text: text)
+          values: llm_client.embed(text: text)
         }
       end
@@ -59,7 +59,7 @@ module Vectorsearch
       query:,
       k: 4
     )
-      embedding = generate_embedding(text: query)
+      embedding = llm_client.embed(text: query)
       similarity_search_by_vector(
         embedding: embedding,

data/lib/vectorsearch/qdrant.rb CHANGED Viewed

@@ -27,9 +27,9 @@ module Vectorsearch
     def add_texts(texts:)
       batch = {ids: [], vectors: [], payloads: []}
-      texts.each do |text|
+      Array(texts).each do |text|
         batch[:ids].push(SecureRandom.uuid)
-        batch[:vectors].push(generate_embedding(text: text))
+        batch[:vectors].push(llm_client.embed(text: text))
         batch[:payloads].push({content: text})
       end
@@ -59,7 +59,7 @@ module Vectorsearch
       query:,
       k: 4
     )
-      embedding = generate_embedding(text: query)
+      embedding = llm_client.embed(text: query)
       similarity_search_by_vector(
         embedding: embedding,

data/lib/vectorsearch/weaviate.rb CHANGED Viewed

@@ -27,7 +27,7 @@ module Vectorsearch
     # @param texts [Array] The list of texts to add
     # @return [Hash] The response from the server
     def add_texts(texts:)
-      objects = texts.map do |text|
+      objects = Array(texts).map do |text|
         {
           class: index_name,
           properties: {content: text}

data/lib/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module Langchain
-  VERSION = "0.3.7"
+  VERSION = "0.3.8"
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: langchainrb
 version: !ruby/object:Gem::Version
-  version: 0.3.7
+  version: 0.3.8
 platform: ruby
 authors:
 - Andrei Bondarev
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2023-05-19 00:00:00.000000000 Z
+date: 2023-05-20 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: dotenv-rails
@@ -52,6 +52,20 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: 0.9.3
+- !ruby/object:Gem::Dependency
+  name: chroma-db
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.3.0
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.3.0
 - !ruby/object:Gem::Dependency
   name: eqn
   requirement: !ruby/object:Gem::Requirement
@@ -207,9 +221,9 @@ files:
 - LICENSE.txt
 - README.md
 - Rakefile
-- examples/.keep
 - examples/create_and_manage_few_shot_prompt_templates.rb
 - examples/create_and_manage_prompt_templates.rb
+- examples/pdf_store_and_query_with_chroma.rb
 - examples/store_and_query_with_pinecone.rb
 - examples/store_and_query_with_qdrant.rb
 - examples/store_and_query_with_weaviate.rb
@@ -235,6 +249,7 @@ files:
 - lib/tool/serp_api.rb
 - lib/tool/wikipedia.rb
 - lib/vectorsearch/base.rb
+- lib/vectorsearch/chroma.rb
 - lib/vectorsearch/milvus.rb
 - lib/vectorsearch/pinecone.rb
 - lib/vectorsearch/qdrant.rb

data/examples/.keep DELETED Viewed

File without changes