RubyGems - code-lexer - Versions diffs - 0.1 - Mend

code-lexer 0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

checksums.yaml +7 -0
data/lib/code-lexer/abstractor.rb +110 -0
data/lib/code-lexer/config.rb +38 -0
data/lib/code-lexer/languages/javascript.clex +24 -0
data/lib/code-lexer/lexer.rb +66 -0
data/lib/code-lexer/token.rb +42 -0
data/lib/code-lexer.rb +10 -0
metadata +69 -0

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA256:
+  metadata.gz: d6c98649f07e77d4148fb744db9b79fb0ed714113d6aaee7cf02f249868070c9
+  data.tar.gz: 6c6deb5e8f6778a036dd60cf49d649192620455d0197358b4783e0df0dd91bce
+SHA512:
+  metadata.gz: 60556343e374a1c7ea58a076473fa98e9a15f4b8a89451788675a2415eb7c2da05f9255463abe9a2ae75da239c84a6186f8d5bc7aa570dd16580bdd8e685a7e7
+  data.tar.gz: 974dcf39a0a41c496f61429dd0e5b16557a80be856fef450dddac29a19ca72dc4b4ed0c33a2ff9226a4c683af665b44d1b26c2b36ac49d15cd96d47cc350cd20

data/lib/code-lexer/abstractor.rb ADDED Viewed

@@ -0,0 +1,110 @@
+require_relative 'token'
+module CodeLexer
+    class Abstractor
+        attr_reader     :dictionary
+        def initialize(dictionary=[])
+            @dictionary = ["NOOP"] + dictionary
+        end
+        def abstract_identifiers
+            @abstract_identifiers = true
+            return self
+        end
+        def abstract_numbers
+            @abstract_numbers = true
+            return self
+        end
+        def abstract_comments
+            @abstract_comments = true
+            return self
+        end
+        def abstract_strings
+            @abstract_strings = true
+            return self
+        end
+        def abstract_spaces
+            @abstract_spaces = true
+            return self
+        end
+        def remove_spaces
+            @remove_spaces = true
+            return self
+        end
+        def remove_newlines
+            @remove_newlines = true
+            return self
+        end
+        def remove_comments
+            @remove_comments = true
+            return self
+        end
+        def abstract!(tokens)
+            if @abstract_identifiers
+                identifier_tokens = tokens.select { |t| t.type == :identifier }
+                identifiers = identifier_tokens.map { |id| id.value }.uniq
+                identifiers.each do |id|
+                    if @dictionary.include?(id)
+                        abstracted_id = @dictionary.index(id)
+                    else
+                        abstracted_id = @dictionary.size
+                        @dictionary << id
+                    end
+                    identifier_tokens.select { |t| t.value == id }.each do |matching_token|
+                        matching_token.abstracted_value = Token.special("ID#{abstracted_id}")
+                    end
+                end
+            end
+            if @remove_comments
+                tokens.delete_if { |t| t.type == :comment }
+            elsif @abstract_comments
+                tokens.select { |t| t.type == :comment }.each do |comment_token|
+                    comment_token.abstracted_value = Token.special("COMMENT")
+                end
+            end
+            if @abstract_numbers
+                tokens.select { |t| t.type == :number }.each do |number_token|
+                    number_token.abstracted_value = Token.special("NUMBER")
+                end
+            end
+            if @abstract_strings
+                tokens.select { |t| t.type == :string }.each do |string_token|
+                    string_token.abstracted_value = Token.special("STRING")
+                end
+            end
+            if @remove_newlines
+                tokens.delete_if { |t| t.type == :newline }
+            end
+            if @remove_spaces
+                tokens.delete_if { |t| t.type == :space }
+            elsif @abstract_spaces
+                tokens.select { |t| t.type == :space }.each do |space_token|
+                    previous_index = tokens.index(space_token) - 1
+                    if previous_index < 0 || tokens[previous_index].type == :newline
+                        space_token.abstracted_value = Token.special("INDENTATION")
+                    else
+                        space_token.abstracted_value = Token.special("WHITESPACE")
+                    end
+                end
+            end
+            return self
+        end
+    end
+end

data/lib/code-lexer/config.rb ADDED Viewed

@@ -0,0 +1,38 @@
+module CodeLexer
+    class Config
+        attr_reader     :rules
+        def initialize(path)
+            @config = File.basename(path)
+            @rules = []
+            load_rules(File.read(path))
+        end
+        def matching_rule(text)
+            min_score = 10000
+            min_couple = []
+            @rules.each do |name, regex|
+                if (score = (text =~ regex))
+                    if score < min_score
+                        min_score = score
+                        min_couple = [name, regex]
+                    end
+                end
+            end
+            return *min_couple
+        end
+        private
+        def load_rules(content)
+            content.split("\n").each do |line|
+                name, regex = line.split(":", 2)
+                regex = Regexp.new("^" + regex)
+                @rules << [name.to_sym, regex]
+            end
+            @rules << [:other, /./]
+        end
+    end
+end

data/lib/code-lexer/languages/javascript.clex ADDED Viewed

@@ -0,0 +1,24 @@
+keyword:(?:abstract|arguments|boolean|break|byte|case|catch|char|const|continue|debugger|default|delete|do|double|else|eval|false|final|finally|float|for|function|goto|if|implements|in|instanceof|int|interface|let|long|native|new|null|package|private|protected|public|return|short|static|switch|synchronized|this|throw|throws|transient|true|try|typeof|var|void|volatile|while|with|yield|class|enum|export|extends|import|super|from)
+identifier:[$A-Za-z_][$A-Za-z0-9_]*
+comment:\/\/[^.]*[\n\r]
+comment:\/\/[^.]*$
+comment:\/\*([^*]|[\r\n]|(\*+([^*/]|[\r\n])))*\*+\/
+string:\"([^"]|\\\")*\"
+string:\'[^']*\'
+number:\-?[0-9]
+number:\-?[1-9][0-9]*
+number:\-?[0-9]*\.[0-9]
+number:\-?[0-9]*\.[0-9]e\-?[0-9]+
+number:\-?0[Xx][0-9A-Fa-f]+
+number:\-?0[0-7]+
+operator:(\<\=|\>\=|\=\=|\=\=\=|\!\=\=|\!\=)
+operator:(\&\&|\||\|\||\!)
+operator:(\=|\+\=|\-\=|\/\=|\*\=|\%\=)
+operator:(\&|\||\~|\^|\<\<|\>\>)
+operator:(\+|\-|\/|\*|\%|\+\+|\-\-)
+operator:(\.|\,|\:)
+operator:(\<|\>)
+parenthesis:(\(|\)|\[|\]|\{|\})
+semicolon:\;
+newline:[\n\r]
+space:\s+

data/lib/code-lexer/lexer.rb ADDED Viewed

@@ -0,0 +1,66 @@
+require_relative 'token'
+require_relative 'abstractor'
+require_relative 'config'
+module CodeLexer
+    class Lexer
+        def initialize(config_path_or_config)
+            if config_path_or_config.is_a?(Config)
+                @config = config_path_or_config
+            else
+                @config = Config.new(config_path_or_config)
+            end
+        end
+        def lex(content)
+            content = content.clone
+            tokens = []
+            while content.length > 0
+                token_name, regex = @config.matching_rule(content)
+                content.sub!(regex) do |value|
+                    tokens << Token.new(token_name, value)
+                    ""
+                end
+            end
+            return LexedContent.new(tokens)
+        end
+    end
+    class LexedContent
+        attr_reader     :tokens
+        def initialize(tokens)
+            @tokens = tokens
+        end
+        def token_lines
+            result = []
+            current_line = []
+            @tokens.each do |t|
+                if t.type == :newline
+                    result << current_line
+                    current_line = []
+                else
+                    current_line << t
+                end
+            end
+            result << current_line
+            result.delete_if { |line| line.empty? }
+            return result
+        end
+        def token_stream(abstractor = nil)
+            abstractor.abstract!(@tokens) if abstractor
+            result = []
+            @tokens.each do |token|
+                result << token.abstracted_value
+            end
+            return result.join(" ")
+        end
+    end
+end

data/lib/code-lexer/token.rb ADDED Viewed

@@ -0,0 +1,42 @@
+module CodeLexer
+    class Token
+        SPECIAL_TOKEN_OPEN  = "¬"
+        SPECIAL_TOKEN_CLOSE = "¬"
+        def self.special(token)
+            "#{SPECIAL_TOKEN_OPEN}#{token}#{SPECIAL_TOKEN_CLOSE}"
+        end
+        attr_accessor :type
+        attr_accessor :value
+        attr_accessor :abstracted_value
+        def initialize(type, value)
+            @type = type
+            self.value = value
+        end
+        def value=(v)
+            @value = v
+            if @type == :newline
+                @abstracted_value = Token.special("NEWLINE")
+            elsif v =~ /\s/
+                @abstracted_value = Token.special(v.gsub(/\s/, "·"))
+            else
+                @abstracted_value = v
+            end
+        end
+        def to_s
+            if @abstracted_value != @value
+                return "<#@type:#{@value.inspect}:#{@abstracted_value.inspect}>"
+            else
+                return "<#@type:#{@value.inspect}>"
+            end
+        end
+        def ==(oth)
+            @type == oth.type && @value == oth.value && @abstracted_value == oth.abstracted_value
+        end
+    end
+end

data/lib/code-lexer.rb ADDED Viewed

@@ -0,0 +1,10 @@
+require_relative 'code-lexer/config'
+require_relative 'code-lexer/abstractor'
+require_relative 'code-lexer/lexer'
+require_relative 'code-lexer/token'
+module CodeLexer
+    def self.get(language)
+        return Lexer.new("#{File.dirname(File.expand_path(__FILE__))}/code-lexer/languages/#{language}.clex")
+    end
+end

metadata ADDED Viewed

@@ -0,0 +1,69 @@
+--- !ruby/object:Gem::Specification
+name: code-lexer
+version: !ruby/object:Gem::Version
+  version: '0.1'
+platform: ruby
+authors:
+- Simone Scalabrino
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2021-11-28 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: code-assertions
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 1.1.2
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.1.2
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 1.1.2
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.1.2
+description: Source code lexer configurable for any programming language that allows
+  to tokenize and abstract a given source file
+email: s.scalabrino9@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- lib/code-lexer.rb
+- lib/code-lexer/abstractor.rb
+- lib/code-lexer/config.rb
+- lib/code-lexer/languages/javascript.clex
+- lib/code-lexer/lexer.rb
+- lib/code-lexer/token.rb
+homepage: https://github.com/intersimone999/code-lexer
+licenses:
+- GPL-3.0-only
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubygems_version: 3.2.29
+signing_key:
+specification_version: 4
+summary: Simple source code lexer
+test_files: []