RubyGems - natalie_parser - Versions diffs - 1.0.0 - Mend

natalie_parser 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (142) hide show

checksums.yaml +7 -0
data/CHANGELOG.md +22 -0
data/Dockerfile +26 -0
data/Gemfile +10 -0
data/LICENSE +21 -0
data/README.md +55 -0
data/Rakefile +242 -0
data/ext/natalie_parser/extconf.rb +9 -0
data/ext/natalie_parser/mri_creator.hpp +139 -0
data/ext/natalie_parser/natalie_parser.cpp +144 -0
data/include/natalie_parser/creator/debug_creator.hpp +113 -0
data/include/natalie_parser/creator.hpp +108 -0
data/include/natalie_parser/lexer/interpolated_string_lexer.hpp +64 -0
data/include/natalie_parser/lexer/regexp_lexer.hpp +37 -0
data/include/natalie_parser/lexer/word_array_lexer.hpp +57 -0
data/include/natalie_parser/lexer.hpp +135 -0
data/include/natalie_parser/node/alias_node.hpp +35 -0
data/include/natalie_parser/node/arg_node.hpp +74 -0
data/include/natalie_parser/node/array_node.hpp +34 -0
data/include/natalie_parser/node/array_pattern_node.hpp +28 -0
data/include/natalie_parser/node/assignment_node.hpp +34 -0
data/include/natalie_parser/node/back_ref_node.hpp +28 -0
data/include/natalie_parser/node/begin_block_node.hpp +25 -0
data/include/natalie_parser/node/begin_node.hpp +52 -0
data/include/natalie_parser/node/begin_rescue_node.hpp +47 -0
data/include/natalie_parser/node/bignum_node.hpp +37 -0
data/include/natalie_parser/node/block_node.hpp +55 -0
data/include/natalie_parser/node/block_pass_node.hpp +33 -0
data/include/natalie_parser/node/break_node.hpp +32 -0
data/include/natalie_parser/node/call_node.hpp +85 -0
data/include/natalie_parser/node/case_in_node.hpp +40 -0
data/include/natalie_parser/node/case_node.hpp +52 -0
data/include/natalie_parser/node/case_when_node.hpp +43 -0
data/include/natalie_parser/node/class_node.hpp +39 -0
data/include/natalie_parser/node/colon2_node.hpp +44 -0
data/include/natalie_parser/node/colon3_node.hpp +34 -0
data/include/natalie_parser/node/constant_node.hpp +26 -0
data/include/natalie_parser/node/def_node.hpp +55 -0
data/include/natalie_parser/node/defined_node.hpp +33 -0
data/include/natalie_parser/node/encoding_node.hpp +26 -0
data/include/natalie_parser/node/end_block_node.hpp +25 -0
data/include/natalie_parser/node/evaluate_to_string_node.hpp +37 -0
data/include/natalie_parser/node/false_node.hpp +23 -0
data/include/natalie_parser/node/fixnum_node.hpp +36 -0
data/include/natalie_parser/node/float_node.hpp +36 -0
data/include/natalie_parser/node/hash_node.hpp +34 -0
data/include/natalie_parser/node/hash_pattern_node.hpp +27 -0
data/include/natalie_parser/node/identifier_node.hpp +123 -0
data/include/natalie_parser/node/if_node.hpp +43 -0
data/include/natalie_parser/node/infix_op_node.hpp +46 -0
data/include/natalie_parser/node/interpolated_node.hpp +33 -0
data/include/natalie_parser/node/interpolated_regexp_node.hpp +28 -0
data/include/natalie_parser/node/interpolated_shell_node.hpp +22 -0
data/include/natalie_parser/node/interpolated_string_node.hpp +31 -0
data/include/natalie_parser/node/interpolated_symbol_key_node.hpp +18 -0
data/include/natalie_parser/node/interpolated_symbol_node.hpp +28 -0
data/include/natalie_parser/node/iter_node.hpp +45 -0
data/include/natalie_parser/node/keyword_arg_node.hpp +25 -0
data/include/natalie_parser/node/keyword_splat_node.hpp +38 -0
data/include/natalie_parser/node/logical_and_node.hpp +40 -0
data/include/natalie_parser/node/logical_or_node.hpp +40 -0
data/include/natalie_parser/node/match_node.hpp +38 -0
data/include/natalie_parser/node/module_node.hpp +32 -0
data/include/natalie_parser/node/multiple_assignment_arg_node.hpp +32 -0
data/include/natalie_parser/node/multiple_assignment_node.hpp +37 -0
data/include/natalie_parser/node/next_node.hpp +37 -0
data/include/natalie_parser/node/nil_node.hpp +23 -0
data/include/natalie_parser/node/nil_sexp_node.hpp +23 -0
data/include/natalie_parser/node/node.hpp +155 -0
data/include/natalie_parser/node/node_with_args.hpp +47 -0
data/include/natalie_parser/node/not_match_node.hpp +35 -0
data/include/natalie_parser/node/not_node.hpp +37 -0
data/include/natalie_parser/node/nth_ref_node.hpp +27 -0
data/include/natalie_parser/node/op_assign_accessor_node.hpp +74 -0
data/include/natalie_parser/node/op_assign_and_node.hpp +34 -0
data/include/natalie_parser/node/op_assign_node.hpp +47 -0
data/include/natalie_parser/node/op_assign_or_node.hpp +34 -0
data/include/natalie_parser/node/pin_node.hpp +33 -0
data/include/natalie_parser/node/range_node.hpp +52 -0
data/include/natalie_parser/node/redo_node.hpp +20 -0
data/include/natalie_parser/node/regexp_node.hpp +36 -0
data/include/natalie_parser/node/retry_node.hpp +20 -0
data/include/natalie_parser/node/return_node.hpp +34 -0
data/include/natalie_parser/node/safe_call_node.hpp +31 -0
data/include/natalie_parser/node/sclass_node.hpp +37 -0
data/include/natalie_parser/node/self_node.hpp +23 -0
data/include/natalie_parser/node/shadow_arg_node.hpp +40 -0
data/include/natalie_parser/node/shell_node.hpp +32 -0
data/include/natalie_parser/node/splat_node.hpp +39 -0
data/include/natalie_parser/node/splat_value_node.hpp +32 -0
data/include/natalie_parser/node/stabby_proc_node.hpp +29 -0
data/include/natalie_parser/node/string_node.hpp +42 -0
data/include/natalie_parser/node/super_node.hpp +44 -0
data/include/natalie_parser/node/symbol_key_node.hpp +19 -0
data/include/natalie_parser/node/symbol_node.hpp +30 -0
data/include/natalie_parser/node/to_array_node.hpp +33 -0
data/include/natalie_parser/node/true_node.hpp +23 -0
data/include/natalie_parser/node/unary_op_node.hpp +41 -0
data/include/natalie_parser/node/undef_node.hpp +31 -0
data/include/natalie_parser/node/until_node.hpp +21 -0
data/include/natalie_parser/node/while_node.hpp +52 -0
data/include/natalie_parser/node/yield_node.hpp +29 -0
data/include/natalie_parser/node.hpp +89 -0
data/include/natalie_parser/parser.hpp +218 -0
data/include/natalie_parser/token.hpp +842 -0
data/include/tm/defer.hpp +34 -0
data/include/tm/hashmap.hpp +826 -0
data/include/tm/macros.hpp +16 -0
data/include/tm/optional.hpp +223 -0
data/include/tm/owned_ptr.hpp +186 -0
data/include/tm/recursion_guard.hpp +156 -0
data/include/tm/shared_ptr.hpp +259 -0
data/include/tm/string.hpp +1447 -0
data/include/tm/tests.hpp +78 -0
data/include/tm/vector.hpp +796 -0
data/lib/natalie_parser/sexp.rb +36 -0
data/lib/natalie_parser/version.rb +5 -0
data/lib/natalie_parser.rb +3 -0
data/natalie_parser.gemspec +23 -0
data/src/lexer/interpolated_string_lexer.cpp +88 -0
data/src/lexer/regexp_lexer.cpp +95 -0
data/src/lexer/word_array_lexer.cpp +134 -0
data/src/lexer.cpp +1703 -0
data/src/node/alias_node.cpp +11 -0
data/src/node/assignment_node.cpp +33 -0
data/src/node/begin_node.cpp +29 -0
data/src/node/begin_rescue_node.cpp +33 -0
data/src/node/class_node.cpp +22 -0
data/src/node/interpolated_regexp_node.cpp +19 -0
data/src/node/interpolated_shell_node.cpp +25 -0
data/src/node/interpolated_string_node.cpp +111 -0
data/src/node/interpolated_symbol_node.cpp +25 -0
data/src/node/match_node.cpp +14 -0
data/src/node/module_node.cpp +21 -0
data/src/node/multiple_assignment_node.cpp +37 -0
data/src/node/node.cpp +10 -0
data/src/node/node_with_args.cpp +35 -0
data/src/node/op_assign_node.cpp +36 -0
data/src/node/string_node.cpp +33 -0
data/src/parser.cpp +2972 -0
data/src/token.cpp +27 -0
metadata +186 -0

data/lib/natalie_parser/sexp.rb ADDED Viewed

@@ -0,0 +1,36 @@
+class Sexp < Array
+  def initialize(*items)
+    items.each { |i| self << i }
+  end
+  def self.from_array(ary)
+    Sexp.new(*ary)
+  end
+  attr_accessor :file, :line, :column, :comments
+  def inspect
+    "s(#{map(&:inspect).join(', ')})"
+  end
+  alias sexp_type first
+  def new(*items)
+    s = Sexp.new(*items)
+    s.file = file
+    s.line = line
+    s.column = column
+    s
+  end
+  def pretty_print q
+    nnd = ")"
+    q.group(1, "s(", nnd) do
+      q.seplist(self) { |v| q.pp v }
+    end
+  end
+end
+def s(*items)
+  Sexp.new(*items)
+end

data/lib/natalie_parser/version.rb ADDED Viewed

@@ -0,0 +1,5 @@
+# frozen_string_literal: true
+class NatalieParser
+  VERSION = '1.0.0'
+end

data/lib/natalie_parser.rb ADDED Viewed

@@ -0,0 +1,3 @@
+require_relative './natalie_parser/sexp'
+require_relative './natalie_parser/version'
+require 'natalie_parser/natalie_parser'

data/natalie_parser.gemspec ADDED Viewed

@@ -0,0 +1,23 @@
+lib = File.expand_path('lib', __dir__)
+$LOAD_PATH.unshift(lib) unless $LOAD_PATH.include?(lib)
+require 'natalie_parser/version'
+Gem::Specification.new do |spec|
+  spec.name          = 'natalie_parser'
+  spec.version       = NatalieParser::VERSION
+  spec.authors       = ['Tim Morgan']
+  spec.email         = ['tim@timmorgan.org']
+  spec.summary       = 'A Parser for the Ruby Programming Language'
+  spec.description   = 'NatalieParser is a zero-dependency, from-scratch, hand-written recursive descent parser for the Ruby Programming Language.'
+  spec.homepage      = 'https://github.com/natalie-lang/natalie_parser'
+  spec.license       = 'MIT'
+  spec.files         = Dir.chdir(File.expand_path(__dir__)) do
+    `git ls-files`.split("\n").reject { |f| f.match(%r{^(test|\.)}) }
+  end
+  spec.require_paths = ['lib', 'ext']
+  spec.extensions    = %w[ext/natalie_parser/extconf.rb]
+end

data/src/lexer/interpolated_string_lexer.cpp ADDED Viewed

@@ -0,0 +1,88 @@
+#include "natalie_parser/lexer/interpolated_string_lexer.hpp"
+#include "natalie_parser/token.hpp"
+namespace NatalieParser {
+Token InterpolatedStringLexer::build_next_token() {
+    switch (m_state) {
+    case State::InProgress:
+        return consume_string();
+    case State::EvaluateBegin:
+        return start_evaluation();
+    case State::EvaluateEnd:
+        return stop_evaluation();
+    case State::EndToken:
+        return finish();
+    case State::Done:
+        return Token { Token::Type::Eof, m_file, m_cursor_line, m_cursor_column };
+    }
+    TM_UNREACHABLE();
+}
+Token InterpolatedStringLexer::consume_string() {
+    SharedPtr<String> buf = new String;
+    while (auto c = current_char()) {
+        if (c == '\\') {
+            advance(); // backslash
+            auto result = consume_escaped_byte(*buf);
+            if (!result.first)
+                return Token { result.second, current_char(), m_file, m_cursor_line, m_cursor_column };
+        } else if (c == '#' && peek() == '{') {
+            if (buf->is_empty()) {
+                advance(2);
+                return start_evaluation();
+            }
+            auto token = Token { Token::Type::String, buf, m_file, m_token_line, m_token_column };
+            advance(2);
+            m_state = State::EvaluateBegin;
+            return token;
+        } else if (c == m_start_char && m_start_char != m_stop_char) {
+            m_pair_depth++;
+            advance();
+            buf->append_char(c);
+        } else if (c == m_stop_char) {
+            advance();
+            if (m_pair_depth > 0) {
+                m_pair_depth--;
+                buf->append_char(c);
+            } else if (buf->is_empty()) {
+                return finish();
+            } else {
+                m_state = State::EndToken;
+                return Token { Token::Type::String, buf, m_file, m_token_line, m_token_column };
+            }
+        } else {
+            buf->append_char(c);
+            advance();
+        }
+    }
+    // Heredocs don't use a stop char --
+    // they just give us the whole input and we consume everything.
+    if (m_stop_char == 0) {
+        advance();
+        m_state = State::EndToken;
+        return Token { Token::Type::String, buf, m_file, m_token_line, m_token_column };
+    }
+    return Token { Token::Type::UnterminatedString, buf, m_file, m_token_line, m_token_column };
+}
+Token InterpolatedStringLexer::start_evaluation() {
+    m_nested_lexer = new Lexer { *this, '{', '}' };
+    m_state = State::EvaluateEnd;
+    return Token { Token::Type::EvaluateToStringBegin, m_file, m_token_line, m_token_column };
+}
+Token InterpolatedStringLexer::stop_evaluation() {
+    advance(); // }
+    m_state = State::InProgress;
+    return Token { Token::Type::EvaluateToStringEnd, m_file, m_token_line, m_token_column };
+}
+Token InterpolatedStringLexer::finish() {
+    m_state = State::Done;
+    return Token { m_end_type, m_file, m_cursor_line, m_cursor_column };
+}
+};

data/src/lexer/regexp_lexer.cpp ADDED Viewed

@@ -0,0 +1,95 @@
+#include "natalie_parser/lexer/regexp_lexer.hpp"
+#include "natalie_parser/token.hpp"
+namespace NatalieParser {
+Token RegexpLexer::build_next_token() {
+    switch (m_state) {
+    case State::InProgress:
+        return consume_regexp();
+    case State::EvaluateBegin:
+        m_nested_lexer = new Lexer { *this };
+        m_nested_lexer->set_stop_char('}');
+        m_state = State::EvaluateEnd;
+        return Token { Token::Type::EvaluateToStringBegin, m_file, m_token_line, m_token_column };
+    case State::EvaluateEnd:
+        advance(); // }
+        if (current_char() == m_stop_char) {
+            advance();
+            m_options = consume_options();
+            m_state = State::EndToken;
+        } else {
+            m_state = State::InProgress;
+        }
+        return Token { Token::Type::EvaluateToStringEnd, m_file, m_token_line, m_token_column };
+    case State::EndToken: {
+        m_state = State::Done;
+        auto token = Token { Token::Type::InterpolatedRegexpEnd, m_file, m_cursor_line, m_cursor_column };
+        if (m_options && !m_options->is_empty())
+            token.set_literal(m_options);
+        return token;
+    }
+    case State::Done:
+        return Token { Token::Type::Eof, m_file, m_cursor_line, m_cursor_column };
+    }
+    TM_UNREACHABLE();
+}
+Token RegexpLexer::consume_regexp() {
+    SharedPtr<String> buf = new String;
+    while (auto c = current_char()) {
+        if (c == '\\') {
+            c = next();
+            switch (c) {
+            case '/':
+                buf->append_char(c);
+                break;
+            default:
+                if (c == m_stop_char) {
+                    buf->append_char(c);
+                } else {
+                    buf->append_char('\\');
+                    buf->append_char(c);
+                }
+                break;
+            }
+            advance();
+        } else if (c == '#' && peek() == '{') {
+            auto token = Token { Token::Type::String, buf, m_file, m_token_line, m_token_column };
+            buf = new String;
+            advance(2);
+            m_state = State::EvaluateBegin;
+            return token;
+        } else if (c == m_start_char && m_start_char != m_stop_char) {
+            m_pair_depth++;
+            advance();
+            buf->append_char(c);
+        } else if (c == m_stop_char) {
+            advance();
+            if (m_pair_depth > 0) {
+                m_pair_depth--;
+                buf->append_char(c);
+            } else {
+                m_options = consume_options();
+                m_state = State::EndToken;
+                return Token { Token::Type::String, buf, m_file, m_token_line, m_token_column };
+            }
+        } else {
+            buf->append_char(c);
+            advance();
+        }
+    }
+    return Token { Token::Type::UnterminatedRegexp, buf, m_file, m_token_line, m_token_column };
+}
+String *RegexpLexer::consume_options() {
+    char c = current_char();
+    auto options = new String;
+    while (c == 'i' || c == 'm' || c == 'x' || c == 'o' || c == 'u' || c == 'e' || c == 's' || c == 'n') {
+        options->append_char(c);
+        c = next();
+    }
+    return options;
+}
+};

data/src/lexer/word_array_lexer.cpp ADDED Viewed

@@ -0,0 +1,134 @@
+#include "natalie_parser/lexer/word_array_lexer.hpp"
+#include "natalie_parser/token.hpp"
+namespace NatalieParser {
+Token WordArrayLexer::build_next_token() {
+    switch (m_state) {
+    case State::InProgress:
+        return consume_array();
+    case State::DynamicStringInProgress:
+        return consume_array();
+    case State::DynamicStringBegin:
+        m_state = State::EvaluateBegin;
+        return Token { Token::Type::String, m_buffer, m_file, m_token_line, m_token_column };
+    case State::DynamicStringEnd:
+        if (current_char() == m_stop_char) {
+            advance();
+            m_state = State::EndToken;
+        } else {
+            m_state = State::InProgress;
+        }
+        return Token { Token::Type::InterpolatedStringEnd, m_file, m_token_line, m_token_column };
+    case State::EvaluateBegin:
+        return start_evaluation();
+    case State::EvaluateEnd:
+        advance(); // }
+        m_state = State::DynamicStringInProgress;
+        return Token { Token::Type::EvaluateToStringEnd, m_file, m_token_line, m_token_column };
+    case State::EndToken:
+        m_state = State::Done;
+        return Token { Token::Type::RBracket, m_file, m_cursor_line, m_cursor_column };
+    case State::Done:
+        return Token { Token::Type::Eof, m_file, m_cursor_line, m_cursor_column };
+    }
+    TM_UNREACHABLE();
+}
+Token WordArrayLexer::consume_array() {
+    m_buffer = new String;
+    while (auto c = current_char()) {
+        if (c == '\\') {
+            c = next();
+            advance();
+            if (c == ' ') {
+                m_buffer->append_char(c);
+            } else if (m_interpolated) {
+                // FIXME: need to use logic from InterpolatedStringLexer
+                switch (c) {
+                case 'n':
+                    m_buffer->append_char('\n');
+                    break;
+                case 't':
+                    m_buffer->append_char('\t');
+                    break;
+                default:
+                    m_buffer->append_char(c);
+                    break;
+                }
+            } else {
+                if (isspace(c)) {
+                    m_buffer->append_char(c);
+                } else {
+                    m_buffer->append_char('\\');
+                    m_buffer->append_char(c);
+                }
+            }
+        } else if (isspace(c)) {
+            if (m_state == State::DynamicStringInProgress) {
+                advance();
+                return dynamic_string_finish();
+            }
+            if (!m_buffer->is_empty()) {
+                auto token = Token { Token::Type::String, m_buffer, m_file, m_cursor_line, m_cursor_column };
+                advance();
+                return token;
+            }
+            advance(); // space
+        } else if (m_interpolated && c == '#' && peek() == '{') {
+            return in_progress_start_dynamic_string();
+        } else if (c == m_start_char && m_start_char != m_stop_char) {
+            m_pair_depth++;
+            advance();
+            m_buffer->append_char(c);
+        } else if (c == m_stop_char) {
+            if (m_pair_depth > 0) {
+                m_pair_depth--;
+                m_buffer->append_char(c);
+                advance();
+            } else if (m_state == State::DynamicStringInProgress) {
+                return dynamic_string_finish();
+            } else {
+                return in_progress_finish();
+            }
+        } else {
+            m_buffer->append_char(c);
+            advance();
+        }
+    }
+    return Token { Token::Type::UnterminatedWordArray, m_buffer, m_file, m_token_line, m_token_column };
+}
+Token WordArrayLexer::in_progress_start_dynamic_string() {
+    advance(2); // #{
+    m_state = State::DynamicStringBegin;
+    return Token { Token::Type::InterpolatedStringBegin, m_file, m_cursor_line, m_cursor_column };
+}
+Token WordArrayLexer::start_evaluation() {
+    m_nested_lexer = new Lexer { *this, '{', '}' };
+    m_state = State::EvaluateEnd;
+    return Token { Token::Type::EvaluateToStringBegin, m_file, m_token_line, m_token_column };
+}
+Token WordArrayLexer::dynamic_string_finish() {
+    if (!m_buffer->is_empty()) {
+        m_state = State::DynamicStringEnd;
+        return Token { Token::Type::String, m_buffer, m_file, m_cursor_line, m_cursor_column };
+    }
+    m_state = State::InProgress;
+    return Token { Token::Type::InterpolatedStringEnd, m_file, m_token_line, m_token_column };
+}
+Token WordArrayLexer::in_progress_finish() {
+    advance(); // ) or ] or } or whatever
+    if (!m_buffer->is_empty()) {
+        m_state = State::EndToken;
+        return Token { Token::Type::String, m_buffer, m_file, m_cursor_line, m_cursor_column };
+    }
+    m_state = State::Done;
+    return Token { Token::Type::RBracket, m_file, m_cursor_line, m_cursor_column };
+}
+};