RubyGems - cld3 - Versions diffs - 3.4.2 → 3.4.3 - Mend

cld3 3.4.2 → 3.4.3

Files changed (41) hide show

checksums.yaml +4 -4
data/cld3.gemspec +5 -3
data/ext/cld3/Makefile +6 -5
data/ext/cld3/base.o +0 -0
data/ext/cld3/embedding_feature_extractor.o +0 -0
data/ext/cld3/embedding_network.cc +1 -0
data/ext/cld3/embedding_network.o +0 -0
data/ext/cld3/feature_extractor.o +0 -0
data/ext/cld3/feature_extractor.pb.o +0 -0
data/ext/cld3/feature_types.o +0 -0
data/ext/cld3/fixunicodevalue.o +0 -0
data/ext/cld3/fml_parser.o +0 -0
data/ext/cld3/generated_entities.o +0 -0
data/ext/cld3/generated_ulscript.o +0 -0
data/ext/cld3/getonescriptspan.h +2 -2
data/ext/cld3/getonescriptspan.o +0 -0
data/ext/cld3/lang_id_nn_params.o +0 -0
data/ext/cld3/language_identifier_features.o +0 -0
data/ext/cld3/libcld3.so +0 -0
data/ext/cld3/nnet_language_identifier.cc +3 -5
data/ext/cld3/nnet_language_identifier.o +0 -0
data/ext/cld3/nnet_language_identifier_c.o +0 -0
data/ext/cld3/offsetmap.o +0 -0
data/ext/cld3/registry.o +0 -0
data/ext/cld3/relevant_script_feature.o +0 -0
data/ext/cld3/sentence.pb.o +0 -0
data/ext/cld3/sentence_features.cc +4 -4
data/ext/cld3/sentence_features.h +13 -3
data/ext/cld3/sentence_features.o +0 -0
data/ext/cld3/task_context.o +0 -0
data/ext/cld3/task_context_params.o +0 -0
data/ext/cld3/task_spec.pb.o +0 -0
data/ext/cld3/text_processing.o +0 -0
data/ext/cld3/unicodetext.o +0 -0
data/ext/cld3/utf8statetable.o +0 -0
data/ext/cld3/utils.o +0 -0
data/ext/cld3/workspace.o +0 -0
data/lib/cld3/unstable.rb +58 -0
data/lib/cld3.rb +9 -41
data/sig/cld3.rbs +65 -0
metadata +46 -4

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: f5b3cc203abda97cb85d5dee0983b7f63c626397b8af8b90e2110bb5fedbbdec
-  data.tar.gz: 197f66798925404ded7af722d0194a705018d6953b11f4576c4e180ea093675d
+  metadata.gz: 2c161cbf12d260074efd2e9db3981b6615af20ee04c234d6b2710bd52a283a4e
+  data.tar.gz: c388ae6b529d95e015ecdb7d21cdd7f1ceaca72d167d0f8008b5477d5bce5b3c
 SHA512:
-  metadata.gz: 855e8ee464a2842906bfef211e2afb21820fe9a7449b58d91b9ab1908c997966b9dd4c2d5d51f82ceb84b65b5a118736a5aa4eff6ea9548b9a9abc61b297a9d0
-  data.tar.gz: e38ddfd81489aeb83bccc7b509dd17ea79c56ba641de37cac2d800d3428ed31e5ac57066016bd118e9e71c30c78d31b4c38a266abe012065495558adf07e68f5
+  metadata.gz: 8e3c1c07283730e722c450acc308a497756fd501595a02a7fc066d0b3e59b96e1ab1e7941549293b02e41274b176772bdae3779a041eb28f8ae53f5c44308cc0
+  data.tar.gz: 52e95027de7a595b2eabc49745a11f664e305c18f9926bc9d649642a92fea9846efdd23da699529795d80609b8871b00e77f9379449d2e4f6cb79ecbcf2785db

data/cld3.gemspec CHANGED Viewed

@@ -16,19 +16,21 @@
 Gem::Specification.new do |gem|
   gem.name = "cld3"
-  gem.version = "3.4.2"
+  gem.version = "3.4.3"
   gem.summary = "Compact Language Detector v3 (CLD3)"
   gem.description = "Compact Language Detector v3 (CLD3) is a neural network model for language identification."
   gem.license = "Apache-2.0"
   gem.homepage = "https://github.com/akihikodaki/cld3-ruby"
   gem.author = "Akihiko Odaki"
   gem.email = "akihiko.odaki@gmail.com"
-  gem.required_ruby_version = [ ">= 2.6.0", "< 3.1.0" ]
+  gem.required_ruby_version = [ ">= 2.6.0", "< 3.2.0" ]
   gem.add_dependency "ffi", [ ">= 1.1.0", "< 1.16.0" ]
+  gem.add_development_dependency "rbs", [ ">= 1.7.0", "< 1.8.0" ]
   gem.add_development_dependency "rspec", [ ">=3.0.0", "< 3.11.0" ]
+  gem.add_development_dependency "steep", [ ">= 0.46.0", "< 0.47.0" ]
   gem.files = Dir[
     "Gemfile", "LICENSE", "LICENSE_CLD3", "README.md",
-    "cld3.gemspec", "ext/**/*", "lib/**/*"
+    "cld3.gemspec", "ext/**/*", "lib/**/*", "sig/**/*"
   ]
   gem.require_paths = [ "lib" ]
   gem.extensions = [ "ext/cld3/extconf.rb" ]

data/ext/cld3/Makefile CHANGED Viewed

@@ -53,6 +53,7 @@ infodir = $(DESTDIR)/usr/share/info
 docdir = $(datarootdir)/doc/$(PACKAGE)
 oldincludedir = $(DESTDIR)/usr/include
 includedir = $(DESTDIR)/usr/include
+runstatedir = $(localstatedir)/run
 localstatedir = $(DESTDIR)/var
 sharedstatedir = $(DESTDIR)/var/lib
 sysconfdir = $(DESTDIR)/etc
@@ -95,7 +96,7 @@ ARCH_FLAG =
 DLDFLAGS = $(ldflags) $(dldflags) $(ARCH_FLAG)
 LDSHARED = $(CC) -shared
 LDSHAREDXX = $(CXX) -shared
-AR = ar
+AR = gcc-ar
 EXEEXT =
 RUBY_INSTALL_NAME = $(RUBY_BASE_NAME)
@@ -107,7 +108,7 @@ RUBY_BASE_NAME = ruby
 arch = aarch64-linux
 sitearch = $(arch)
-ruby_version = 2.7.0
+ruby_version = 3.0.0
 ruby = $(bindir)/$(RUBY_BASE_NAME)
 RUBY = $(ruby)
 ruby_headers = $(hdrdir)/ruby.h $(hdrdir)/ruby/backward.h $(hdrdir)/ruby/ruby.h $(hdrdir)/ruby/defines.h $(hdrdir)/ruby/missing.h $(hdrdir)/ruby/intern.h $(hdrdir)/ruby/st.h $(hdrdir)/ruby/subst.h $(arch_hdrdir)/ruby/config.h
@@ -141,7 +142,7 @@ LIBS =   -lprotobuf -lpthread -lm   -lc
 ORIG_SRCS = base.cc embedding_feature_extractor.cc embedding_network.cc feature_extractor.cc feature_extractor.pb.cc feature_types.cc fixunicodevalue.cc fml_parser.cc generated_entities.cc generated_ulscript.cc getonescriptspan.cc lang_id_nn_params.cc language_identifier_features.cc nnet_language_identifier.cc nnet_language_identifier_c.cc offsetmap.cc registry.cc relevant_script_feature.cc sentence.pb.cc sentence_features.cc task_context.cc task_context_params.cc task_spec.pb.cc text_processing.cc unicodetext.cc utf8statetable.cc utils.cc workspace.cc
 SRCS = $(ORIG_SRCS)
 OBJS = base.o embedding_feature_extractor.o embedding_network.o feature_extractor.o feature_extractor.pb.o feature_types.o fixunicodevalue.o fml_parser.o generated_entities.o generated_ulscript.o getonescriptspan.o lang_id_nn_params.o language_identifier_features.o nnet_language_identifier.o nnet_language_identifier_c.o offsetmap.o registry.o relevant_script_feature.o sentence.pb.o sentence_features.o task_context.o task_context_params.o task_spec.pb.o text_processing.o unicodetext.o utf8statetable.o utils.o workspace.o
-HDRS = $(srcdir)/base.h $(srcdir)/casts.h $(srcdir)/embedding_feature_extractor.h $(srcdir)/embedding_network.h $(srcdir)/embedding_network_params.h $(srcdir)/feature_extractor.h $(srcdir)/feature_types.h $(srcdir)/float16.h $(srcdir)/fml_parser.h $(srcdir)/language_identifier_features.h $(srcdir)/lang_id_nn_params.h $(srcdir)/nnet_language_identifier.h $(srcdir)/registry.h $(srcdir)/relevant_script_feature.h $(srcdir)/script_detector.h $(srcdir)/sentence_features.h $(srcdir)/simple_adder.h $(srcdir)/fixunicodevalue.h $(srcdir)/generated_ulscript.h $(srcdir)/getonescriptspan.h $(srcdir)/integral_types.h $(srcdir)/offsetmap.h $(srcdir)/port.h $(srcdir)/stringpiece.h $(srcdir)/text_processing.h $(srcdir)/utf8acceptinterchange.h $(srcdir)/utf8prop_lettermarkscriptnum.h $(srcdir)/utf8repl_lettermarklower.h $(srcdir)/utf8scannot_lettermarkspecial.h $(srcdir)/utf8statetable.h $(srcdir)/task_context.h $(srcdir)/task_context_params.h $(srcdir)/unicodetext.h $(srcdir)/utils.h $(srcdir)/workspace.h $(srcdir)/feature_extractor.pb.h $(srcdir)/sentence.pb.h $(srcdir)/task_spec.pb.h
+HDRS = $(srcdir)/base.h $(srcdir)/casts.h $(srcdir)/embedding_feature_extractor.h $(srcdir)/embedding_network.h $(srcdir)/embedding_network_params.h $(srcdir)/feature_extractor.h $(srcdir)/feature_extractor.pb.h $(srcdir)/feature_types.h $(srcdir)/fixunicodevalue.h $(srcdir)/float16.h $(srcdir)/fml_parser.h $(srcdir)/generated_ulscript.h $(srcdir)/getonescriptspan.h $(srcdir)/integral_types.h $(srcdir)/lang_id_nn_params.h $(srcdir)/language_identifier_features.h $(srcdir)/nnet_language_identifier.h $(srcdir)/offsetmap.h $(srcdir)/port.h $(srcdir)/registry.h $(srcdir)/relevant_script_feature.h $(srcdir)/script_detector.h $(srcdir)/sentence.pb.h $(srcdir)/sentence_features.h $(srcdir)/simple_adder.h $(srcdir)/stringpiece.h $(srcdir)/task_context.h $(srcdir)/task_context_params.h $(srcdir)/task_spec.pb.h $(srcdir)/text_processing.h $(srcdir)/unicodetext.h $(srcdir)/utf8acceptinterchange.h $(srcdir)/utf8prop_lettermarkscriptnum.h $(srcdir)/utf8repl_lettermarklower.h $(srcdir)/utf8scannot_lettermarkspecial.h $(srcdir)/utf8statetable.h $(srcdir)/utils.h $(srcdir)/workspace.h
 LOCAL_HDRS =
 TARGET = libcld3
 TARGET_NAME = libcld3
@@ -155,8 +156,8 @@ BINDIR        = $(bindir)
 RUBYCOMMONDIR = $(sitedir)$(target_prefix)
 RUBYLIBDIR    = $(sitelibdir)$(target_prefix)
 RUBYARCHDIR   = $(sitearchdir)$(target_prefix)
-HDRDIR        = $(rubyhdrdir)/ruby$(target_prefix)
-ARCHHDRDIR    = $(rubyhdrdir)/$(arch)/ruby$(target_prefix)
+HDRDIR        = $(sitehdrdir)$(target_prefix)
+ARCHHDRDIR    = $(sitearchhdrdir)$(target_prefix)
 TARGET_SO_DIR =
 TARGET_SO     = $(TARGET_SO_DIR)$(DLLIB)
 CLEANLIBS     = $(TARGET_SO)

data/ext/cld3/base.o CHANGED Viewed

Binary file

data/ext/cld3/embedding_feature_extractor.o CHANGED Viewed

Binary file

data/ext/cld3/embedding_network.cc CHANGED Viewed

@@ -167,6 +167,7 @@ EmbeddingNetwork::EmbeddingNetwork(const EmbeddingNetworkParams *model)
   for (int i = 0; i < model_->embedding_dim_size(); ++i) {
     CLD3_DCHECK(offset_sum == model_->concat_offset(i));
     offset_sum += model_->embedding_dim(i) * model_->embedding_num_features(i);
+    (void)offset_sum;  // Avoid compiler warning for "unused" variable.
     embedding_matrices_.emplace_back(model_->GetEmbeddingMatrix(i));
   }

data/ext/cld3/embedding_network.o CHANGED Viewed

Binary file

data/ext/cld3/feature_extractor.o CHANGED Viewed

Binary file

data/ext/cld3/feature_extractor.pb.o CHANGED Viewed

Binary file

data/ext/cld3/feature_types.o CHANGED Viewed

Binary file

data/ext/cld3/fixunicodevalue.o CHANGED Viewed

Binary file

data/ext/cld3/fml_parser.o CHANGED Viewed

Binary file

data/ext/cld3/generated_entities.o CHANGED Viewed

Binary file

data/ext/cld3/generated_ulscript.o CHANGED Viewed

Binary file

data/ext/cld3/getonescriptspan.h CHANGED Viewed

@@ -33,14 +33,14 @@ static const int kMaxScriptBytes = kMaxScriptBuffer - 32;   // Leave some room
 static const int kWithinScriptTail = 32;    // Stop at word space in last
                                             // N bytes of script buffer
-typedef struct {
+struct LangSpan {
   char* text = nullptr;   // Pointer to the span, somewhere
   int text_bytes = 0;     // Number of bytes of text in the span
   int offset = 0;         // Offset of start of span in original input buffer
   ULScript ulscript = UNKNOWN_ULSCRIPT; // Unicode Letters Script of this span
   bool truncated = false; // true if buffer filled up before a
                           // different script or EOF was found
-} LangSpan;
+};
 static inline bool IsContinuationByte(char c) {
   return static_cast<signed char>(c) < -64;

data/ext/cld3/getonescriptspan.o CHANGED Viewed

Binary file

data/ext/cld3/lang_id_nn_params.o CHANGED Viewed

Binary file

data/ext/cld3/language_identifier_features.o CHANGED Viewed

Binary file

data/ext/cld3/libcld3.so CHANGED Viewed

Binary file

data/ext/cld3/nnet_language_identifier.cc CHANGED Viewed

@@ -284,8 +284,6 @@ NNetLanguageIdentifier::FindTopNMostFreqLangs(const string &text,
   CLD2::LangSpan script_span;
   std::unordered_map<string, LangChunksStats> lang_stats;
   int total_num_bytes = 0;
-  Result result;
-  string language;
   int chunk_size = 0;  // Use the default.
   while (ss.GetOneScriptSpanLower(&script_span)) {
     const int num_original_span_bytes = script_span.text_bytes;
@@ -302,8 +300,8 @@ NNetLanguageIdentifier::FindTopNMostFreqLangs(const string &text,
     const string selected_text = SelectTextGivenScriptSpan(script_span);
-    result = FindLanguageOfValidUTF8(selected_text);
-    language = result.language;
+    Result result = FindLanguageOfValidUTF8(selected_text);
+    string language = result.language;
     lang_stats[language].byte_sum += num_original_span_bytes;
     lang_stats[language].prob_sum +=
         result.probability * num_original_span_bytes;
@@ -356,7 +354,7 @@ string NNetLanguageIdentifier::SelectTextGivenBeginAndSize(
     const char *text_begin, int text_size) {
   string output_text;
-  // If the size of the input is greater than the maxium number of bytes needed
+  // If the size of the input is greater than the maximum number of bytes needed
   // for a prediction, then concatenate snippets that are equally spread out
   // throughout the input.
   if (text_size > max_num_bytes_) {

data/ext/cld3/nnet_language_identifier.o CHANGED Viewed

Binary file

data/ext/cld3/nnet_language_identifier_c.o CHANGED Viewed

Binary file

data/ext/cld3/offsetmap.o CHANGED Viewed

Binary file

data/ext/cld3/registry.o CHANGED Viewed

Binary file

data/ext/cld3/relevant_script_feature.o CHANGED Viewed

Binary file

data/ext/cld3/sentence.pb.o CHANGED Viewed

Binary file

data/ext/cld3/sentence_features.cc CHANGED Viewed

@@ -19,11 +19,11 @@ limitations under the License.
 namespace chrome_lang_id {
-// Declare registry for the whole Sentence feature functions.  NOTE: this is not
+// Define registry for the whole Sentence feature functions.  NOTE: this is not
 // yet set to anything meaningful.  It will be set so in NNetLanguageIdentifier
 // constructor, *before* we use any feature.
 template <>
-WholeSentenceFeature::Registry
-    *RegisterableClass<WholeSentenceFeature>::registry_ = nullptr;
+WholeSentenceFeature::Registry*
+    RegisterableClass<WholeSentenceFeature>::registry_ = nullptr;
-}  // namespace chrome_lang_id
+}  // namespace chrome_lang_id

data/ext/cld3/sentence_features.h CHANGED Viewed

@@ -26,9 +26,19 @@ limitations under the License.
 namespace chrome_lang_id {
 // Feature function that extracts features for the full Sentence.
-typedef FeatureFunction<Sentence> WholeSentenceFeature;
-typedef FeatureExtractor<Sentence> WholeSentenceExtractor;
+using WholeSentenceFeature = FeatureFunction<Sentence>;
+using WholeSentenceExtractor = FeatureExtractor<Sentence>;
+// Declare registry for the whole Sentence feature functions.  This is required
+// for clang's -Wundefined-var-template.  However, MSVC has a bug which treats
+// this declaration as a definition, leading to multiple definition errors, so
+// omit this on MSVC.
+#if !defined(COMPILER_MSVC)
+template <>
+WholeSentenceFeature::Registry
+    *RegisterableClass<WholeSentenceFeature>::registry_;
+#endif
 }  // namespace chrome_lang_id

data/ext/cld3/sentence_features.o CHANGED Viewed

Binary file

data/ext/cld3/task_context.o CHANGED Viewed

Binary file

data/ext/cld3/task_context_params.o CHANGED Viewed

Binary file

data/ext/cld3/task_spec.pb.o CHANGED Viewed

Binary file

data/ext/cld3/text_processing.o CHANGED Viewed

Binary file

data/ext/cld3/unicodetext.o CHANGED Viewed

Binary file

data/ext/cld3/utf8statetable.o CHANGED Viewed

Binary file

data/ext/cld3/utils.o CHANGED Viewed

Binary file

data/ext/cld3/workspace.o CHANGED Viewed

Binary file

data/lib/cld3/unstable.rb ADDED Viewed

@@ -0,0 +1,58 @@
+# Copyright 2021 Akihiko Odaki <akihiko.odaki@gmail.com>
+# All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+module CLD3
+  module Unstable
+    extend FFI::Library
+    ffi_lib File.join(__dir__, "..", "..", "ext", "cld3", "libcld3." + RbConfig::CONFIG["DLEXT"])
+    module NNetLanguageIdentifier
+      class Pointer < FFI::AutoPointer
+        def self.release(pointer)
+          Unstable.delete_NNetLanguageIdentifier(pointer)
+        end
+      end
+      class SpanInfo < FFI::Struct
+        layout :start_index, :int, :end_index, :int, :probability, :float
+      end
+      class Result < FFI::Struct
+        layout :language_data, :pointer, :language_size, :size_t, :byte_ranges_data, :pointer, :byte_ranges_size, :size_t, :probability, :float, :proportion, :float, :reliable?, :bool
+      end
+    end
+    attach_function :delete_NNetLanguageIdentifier, [ :pointer ], :void
+    attach_function :delete_result, [ :pointer ], :void
+    attach_function :delete_results, [ :pointer ], :void
+    attach_function :new_NNetLanguageIdentifier, [ :int, :int ], :pointer
+    attach_function :refer_to_nth_result, [ :pointer, :size_t ], NNetLanguageIdentifier::Result.by_value
+    attach_function :NNetLanguageIdentifier_find_language,
+        [ :pointer, :buffer_in, :size_t ], :pointer
+    attach_function :NNetLanguageIdentifier_find_top_n_most_freq_langs,
+        [ :pointer, :buffer_in, :size_t, :int ], :pointer
+  end
+  private_constant :Unstable
+end

data/lib/cld3.rb CHANGED Viewed

@@ -19,6 +19,7 @@
 require "ffi"
 require "rbconfig"
+require "cld3/unstable"
 # Module providing an interface for Compact Language Detector v3 (CLD3)
 module CLD3
@@ -52,6 +53,7 @@ module CLD3
     # Holds probability that Span, specified by start/end indices, is a given
     # language. The langauge is not stored here; it can be found in Result, which
     # holds an Array of SpanInfo.
+    # @type const SpanInfo: untyped
     SpanInfo = Struct.new(:start_index, :end_index, :probability)
     # Information about a predicted language.
@@ -69,6 +71,7 @@ module CLD3
     #
     # [byte_ranges] Specifies the byte ranges in UTF-8 that |language| applies to.
     #               This is an Array of SpanInfo.
+    # @type const Result: untyped
     Result = Struct.new(:language, :probability, :reliable?, :proportion, :byte_ranges)
     # The arguments are two String objects.
@@ -115,6 +118,8 @@ module CLD3
     # The second argument is Numeric object.
     # The returned value of this functions is an Array of Result instances.
     def find_top_n_most_freq_langs(text, num_langs)
+      # @type var a: untyped
       text_utf8 = text.encode(Encoding::UTF_8)
       pointer = FFI::MemoryPointer.new(:char, text_utf8.bytesize)
@@ -123,11 +128,13 @@ module CLD3
         results = Unstable.NNetLanguageIdentifier_find_top_n_most_freq_langs(@cc, pointer, text_utf8.bytesize, num_langs)
         begin
-          num_langs.times
+          a = num_langs.times
             .lazy
             .map { |index| convert_result Unstable.refer_to_nth_result(results, index) }
             .take_while { |result| !result.nil? }
             .to_a
+          a
         ensure
           Unstable.delete_results results
         end
@@ -162,6 +169,7 @@ module CLD3
   # The model weights are loaded statically.
   module TaskContextParams
     # This is an frozen Array object containing symbols.
+    # @type const LANGUAGE_NAMES: untyped
     LANGUAGE_NAMES = [
       :eo, :co, :eu, :ta, :de, :mt, :ps, :te, :su, :uz, :'zh-Latn', :ne,
       :nl, :sw, :sq, :hmn, :ja, :no, :mn, :so, :ko, :kk, :sl, :ig,
@@ -175,44 +183,4 @@ module CLD3
       :sn, :yo, :pa, :ku,
     ].freeze
   end
-  module Unstable
-    extend FFI::Library
-    ffi_lib File.join(__dir__, "..", "ext", "cld3", "libcld3." + RbConfig::CONFIG["DLEXT"])
-    module NNetLanguageIdentifier
-      class Pointer < FFI::AutoPointer
-        def self.release(pointer)
-          Unstable.delete_NNetLanguageIdentifier(pointer)
-        end
-      end
-      class SpanInfo < FFI::Struct
-        layout :start_index, :int, :end_index, :int, :probability, :float
-      end
-      class Result < FFI::Struct
-        layout :language_data, :pointer, :language_size, :size_t, :byte_ranges_data, :pointer, :byte_ranges_size, :size_t, :probability, :float, :proportion, :float, :reliable?, :bool
-      end
-    end
-    attach_function :delete_NNetLanguageIdentifier, [ :pointer ], :void
-    attach_function :delete_result, [ :pointer ], :void
-    attach_function :delete_results, [ :pointer ], :void
-    attach_function :new_NNetLanguageIdentifier, [ :int, :int ], :pointer
-    attach_function :refer_to_nth_result, [ :pointer, :size_t ], NNetLanguageIdentifier::Result.by_value
-    attach_function :NNetLanguageIdentifier_find_language,
-        [ :pointer, :buffer_in, :size_t ], :pointer
-    attach_function :NNetLanguageIdentifier_find_top_n_most_freq_langs,
-        [ :pointer, :buffer_in, :size_t, :int ], :pointer
-  end
-  private_constant :Unstable
 end

data/sig/cld3.rbs ADDED Viewed

@@ -0,0 +1,65 @@
+# Copyright 2021 Akihiko Odaki <akihiko.odaki@gmail.com>
+# All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+module CLD3
+  class NNetLanguageIdentifier
+    MIN_NUM_BYTES_TO_CONSIDER: Integer
+    MAX_NUM_BYTES_TO_CONSIDER: Integer
+    MAX_NUM_INPUT_BYTES_TO_CONSIDER: Integer
+    RELIABILITY_THRESHOLD: Float
+    RELIABILITY_HR_BS_THRESHOLD: Float
+    class SpanInfo < Struct[Float | Integer]
+      attr_accessor start_index(): Integer
+      attr_accessor end_index(): Integer
+      attr_accessor probability(): Float
+    end
+    class Result < Struct[Array[SpanInfo] | Float | TaskContextParams::language_names | bool]
+      attr_accessor language(): TaskContextParams::language_names
+      attr_accessor probability(): Float
+      attr_accessor reliable?(): bool
+      attr_accessor proportion(): Float
+      attr_accessor byte_ranges(): Array[SpanInfo]
+    end
+    def initialize: (?Integer, ?Integer) -> void
+    def find_language: (String) -> Result?
+    def find_top_n_most_freq_langs: (String, Integer) -> Array[Result]
+    private
+    def convert_result: (untyped) -> Result?
+  end
+  module TaskContextParams
+    type language_names =
+      :eo | :co | :eu | :ta | :de | :mt | :ps | :te | :su | :uz | :'zh-Latn' | :ne |
+      :nl | :sw | :sq | :hmn | :ja | :no | :mn | :so | :ko | :kk | :sl | :ig |
+      :mr | :th | :zu | :ml | :hr | :bs | :lo | :sd | :cy | :hy | :uk | :pt |
+      :lv | :iw | :cs | :vi | :jv | :be | :km | :mk | :tr | :fy | :am | :zh |
+      :da | :sv | :fi | :ht | :af | :la | :id | :fil | :sm | :ca | :el | :ka |
+      :sr | :it | :sk | :ru | :'ru-Latn' | :bg | :ny | :fa | :haw | :gl | :et |
+      :ms | :gd | :'bg-Latn' | :ha | :is | :ur | :mi | :hi | :bn | :'hi-Latn' | :fr |
+      :yi | :hu | :xh | :my | :tg | :ro | :ar | :lb | :'el-Latn' | :st | :ceb |
+      :kn | :az | :si | :ky | :mg | :en | :gu | :es | :pl | :'ja-Latn' | :ga | :lt |
+      :sn | :yo | :pa | :ku
+    LANGUAGE_NAMES: Array[language_names]
+  end
+  Unstable: untyped
+end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: cld3
 version: !ruby/object:Gem::Version
-  version: 3.4.2
+  version: 3.4.3
 platform: ruby
 authors:
 - Akihiko Odaki
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-04-17 00:00:00.000000000 Z
+date: 2021-11-25 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: ffi
@@ -30,6 +30,26 @@ dependencies:
     - - "<"
       - !ruby/object:Gem::Version
         version: 1.16.0
+- !ruby/object:Gem::Dependency
+  name: rbs
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.7.0
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: 1.8.0
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.7.0
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: 1.8.0
 - !ruby/object:Gem::Dependency
   name: rspec
   requirement: !ruby/object:Gem::Requirement
@@ -50,6 +70,26 @@ dependencies:
     - - "<"
       - !ruby/object:Gem::Version
         version: 3.11.0
+- !ruby/object:Gem::Dependency
+  name: steep
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.46.0
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: 0.47.0
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.46.0
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: 0.47.0
 description: Compact Language Detector v3 (CLD3) is a neural network model for language
   identification.
 email: akihiko.odaki@gmail.com
@@ -160,6 +200,8 @@ files:
 - ext/cld3/workspace.h
 - ext/cld3/workspace.o
 - lib/cld3.rb
+- lib/cld3/unstable.rb
+- sig/cld3.rbs
 homepage: https://github.com/akihikodaki/cld3-ruby
 licenses:
 - Apache-2.0
@@ -175,14 +217,14 @@ required_ruby_version: !ruby/object:Gem::Requirement
       version: 2.6.0
   - - "<"
     - !ruby/object:Gem::Version
-      version: 3.1.0
+      version: 3.2.0
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.1.4
+rubygems_version: 3.2.22
 signing_key:
 specification_version: 4
 summary: Compact Language Detector v3 (CLD3)