PyPI - machine-dialect - Versions diffs - 0.1.0a1__py3-none-any.whl - Mend

machine-dialect 0.1.0a1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (268) hide show

machine_dialect/__main__.py +667 -0
machine_dialect/agent/__init__.py +5 -0
machine_dialect/agent/agent.py +360 -0
machine_dialect/ast/__init__.py +95 -0
machine_dialect/ast/ast_node.py +35 -0
machine_dialect/ast/call_expression.py +82 -0
machine_dialect/ast/dict_extraction.py +60 -0
machine_dialect/ast/expressions.py +439 -0
machine_dialect/ast/literals.py +309 -0
machine_dialect/ast/program.py +35 -0
machine_dialect/ast/statements.py +1433 -0
machine_dialect/ast/tests/test_ast_string_representation.py +62 -0
machine_dialect/ast/tests/test_boolean_literal.py +29 -0
machine_dialect/ast/tests/test_collection_hir.py +138 -0
machine_dialect/ast/tests/test_define_statement.py +142 -0
machine_dialect/ast/tests/test_desugar.py +541 -0
machine_dialect/ast/tests/test_foreach_desugar.py +245 -0
machine_dialect/cfg/__init__.py +6 -0
machine_dialect/cfg/config.py +156 -0
machine_dialect/cfg/examples.py +221 -0
machine_dialect/cfg/generate_with_ai.py +187 -0
machine_dialect/cfg/openai_generation.py +200 -0
machine_dialect/cfg/parser.py +94 -0
machine_dialect/cfg/tests/__init__.py +1 -0
machine_dialect/cfg/tests/test_cfg_parser.py +252 -0
machine_dialect/cfg/tests/test_config.py +188 -0
machine_dialect/cfg/tests/test_examples.py +391 -0
machine_dialect/cfg/tests/test_generate_with_ai.py +354 -0
machine_dialect/cfg/tests/test_openai_generation.py +256 -0
machine_dialect/codegen/__init__.py +5 -0
machine_dialect/codegen/bytecode_module.py +89 -0
machine_dialect/codegen/bytecode_serializer.py +300 -0
machine_dialect/codegen/opcodes.py +101 -0
machine_dialect/codegen/register_codegen.py +1996 -0
machine_dialect/codegen/symtab.py +208 -0
machine_dialect/codegen/tests/__init__.py +1 -0
machine_dialect/codegen/tests/test_array_operations_codegen.py +295 -0
machine_dialect/codegen/tests/test_bytecode_serializer.py +185 -0
machine_dialect/codegen/tests/test_register_codegen_ssa.py +324 -0
machine_dialect/codegen/tests/test_symtab.py +418 -0
machine_dialect/codegen/vm_serializer.py +621 -0
machine_dialect/compiler/__init__.py +18 -0
machine_dialect/compiler/compiler.py +197 -0
machine_dialect/compiler/config.py +149 -0
machine_dialect/compiler/context.py +149 -0
machine_dialect/compiler/phases/__init__.py +19 -0
machine_dialect/compiler/phases/bytecode_optimization.py +90 -0
machine_dialect/compiler/phases/codegen.py +40 -0
machine_dialect/compiler/phases/hir_generation.py +39 -0
machine_dialect/compiler/phases/mir_generation.py +86 -0
machine_dialect/compiler/phases/optimization.py +110 -0
machine_dialect/compiler/phases/parsing.py +39 -0
machine_dialect/compiler/pipeline.py +143 -0
machine_dialect/compiler/tests/__init__.py +1 -0
machine_dialect/compiler/tests/test_compiler.py +568 -0
machine_dialect/compiler/vm_runner.py +173 -0
machine_dialect/errors/__init__.py +32 -0
machine_dialect/errors/exceptions.py +369 -0
machine_dialect/errors/messages.py +82 -0
machine_dialect/errors/tests/__init__.py +0 -0
machine_dialect/errors/tests/test_expected_token_errors.py +188 -0
machine_dialect/errors/tests/test_name_errors.py +118 -0
machine_dialect/helpers/__init__.py +0 -0
machine_dialect/helpers/stopwords.py +225 -0
machine_dialect/helpers/validators.py +30 -0
machine_dialect/lexer/__init__.py +9 -0
machine_dialect/lexer/constants.py +23 -0
machine_dialect/lexer/lexer.py +907 -0
machine_dialect/lexer/tests/__init__.py +0 -0
machine_dialect/lexer/tests/helpers.py +86 -0
machine_dialect/lexer/tests/test_apostrophe_identifiers.py +122 -0
machine_dialect/lexer/tests/test_backtick_identifiers.py +140 -0
machine_dialect/lexer/tests/test_boolean_literals.py +108 -0
machine_dialect/lexer/tests/test_case_insensitive_keywords.py +188 -0
machine_dialect/lexer/tests/test_comments.py +200 -0
machine_dialect/lexer/tests/test_double_asterisk_keywords.py +127 -0
machine_dialect/lexer/tests/test_lexer_position.py +113 -0
machine_dialect/lexer/tests/test_list_tokens.py +282 -0
machine_dialect/lexer/tests/test_stopwords.py +80 -0
machine_dialect/lexer/tests/test_strict_equality.py +129 -0
machine_dialect/lexer/tests/test_token.py +41 -0
machine_dialect/lexer/tests/test_tokenization.py +294 -0
machine_dialect/lexer/tests/test_underscore_literals.py +343 -0
machine_dialect/lexer/tests/test_url_literals.py +169 -0
machine_dialect/lexer/tokens.py +487 -0
machine_dialect/linter/__init__.py +10 -0
machine_dialect/linter/__main__.py +144 -0
machine_dialect/linter/linter.py +154 -0
machine_dialect/linter/rules/__init__.py +8 -0
machine_dialect/linter/rules/base.py +112 -0
machine_dialect/linter/rules/statement_termination.py +99 -0
machine_dialect/linter/tests/__init__.py +1 -0
machine_dialect/linter/tests/mdrules/__init__.py +0 -0
machine_dialect/linter/tests/mdrules/test_md101_statement_termination.py +181 -0
machine_dialect/linter/tests/test_linter.py +81 -0
machine_dialect/linter/tests/test_rules.py +110 -0
machine_dialect/linter/tests/test_violations.py +71 -0
machine_dialect/linter/violations.py +51 -0
machine_dialect/mir/__init__.py +69 -0
machine_dialect/mir/analyses/__init__.py +20 -0
machine_dialect/mir/analyses/alias_analysis.py +315 -0
machine_dialect/mir/analyses/dominance_analysis.py +49 -0
machine_dialect/mir/analyses/escape_analysis.py +286 -0
machine_dialect/mir/analyses/loop_analysis.py +272 -0
machine_dialect/mir/analyses/tests/test_type_analysis.py +736 -0
machine_dialect/mir/analyses/type_analysis.py +448 -0
machine_dialect/mir/analyses/use_def_chains.py +232 -0
machine_dialect/mir/basic_block.py +385 -0
machine_dialect/mir/dataflow.py +445 -0
machine_dialect/mir/debug_info.py +208 -0
machine_dialect/mir/hir_to_mir.py +1738 -0
machine_dialect/mir/mir_dumper.py +366 -0
machine_dialect/mir/mir_function.py +167 -0
machine_dialect/mir/mir_instructions.py +1877 -0
machine_dialect/mir/mir_interpreter.py +556 -0
machine_dialect/mir/mir_module.py +225 -0
machine_dialect/mir/mir_printer.py +480 -0
machine_dialect/mir/mir_transformer.py +410 -0
machine_dialect/mir/mir_types.py +367 -0
machine_dialect/mir/mir_validation.py +455 -0
machine_dialect/mir/mir_values.py +268 -0
machine_dialect/mir/optimization_config.py +233 -0
machine_dialect/mir/optimization_pass.py +251 -0
machine_dialect/mir/optimization_pipeline.py +355 -0
machine_dialect/mir/optimizations/__init__.py +84 -0
machine_dialect/mir/optimizations/algebraic_simplification.py +733 -0
machine_dialect/mir/optimizations/branch_prediction.py +372 -0
machine_dialect/mir/optimizations/constant_propagation.py +634 -0
machine_dialect/mir/optimizations/cse.py +398 -0
machine_dialect/mir/optimizations/dce.py +288 -0
machine_dialect/mir/optimizations/inlining.py +551 -0
machine_dialect/mir/optimizations/jump_threading.py +487 -0
machine_dialect/mir/optimizations/licm.py +405 -0
machine_dialect/mir/optimizations/loop_unrolling.py +366 -0
machine_dialect/mir/optimizations/strength_reduction.py +422 -0
machine_dialect/mir/optimizations/tail_call.py +207 -0
machine_dialect/mir/optimizations/tests/test_loop_unrolling.py +483 -0
machine_dialect/mir/optimizations/type_narrowing.py +397 -0
machine_dialect/mir/optimizations/type_specialization.py +447 -0
machine_dialect/mir/optimizations/type_specific.py +906 -0
machine_dialect/mir/optimize_mir.py +89 -0
machine_dialect/mir/pass_manager.py +391 -0
machine_dialect/mir/profiling/__init__.py +26 -0
machine_dialect/mir/profiling/profile_collector.py +318 -0
machine_dialect/mir/profiling/profile_data.py +372 -0
machine_dialect/mir/profiling/profile_reader.py +272 -0
machine_dialect/mir/profiling/profile_writer.py +226 -0
machine_dialect/mir/register_allocation.py +302 -0
machine_dialect/mir/reporting/__init__.py +17 -0
machine_dialect/mir/reporting/optimization_reporter.py +314 -0
machine_dialect/mir/reporting/report_formatter.py +289 -0
machine_dialect/mir/ssa_construction.py +342 -0
machine_dialect/mir/tests/__init__.py +1 -0
machine_dialect/mir/tests/test_algebraic_associativity.py +204 -0
machine_dialect/mir/tests/test_algebraic_complex_patterns.py +221 -0
machine_dialect/mir/tests/test_algebraic_division.py +126 -0
machine_dialect/mir/tests/test_algebraic_simplification.py +863 -0
machine_dialect/mir/tests/test_basic_block.py +425 -0
machine_dialect/mir/tests/test_branch_prediction.py +459 -0
machine_dialect/mir/tests/test_call_lowering.py +168 -0
machine_dialect/mir/tests/test_collection_lowering.py +604 -0
machine_dialect/mir/tests/test_cross_block_constant_propagation.py +255 -0
machine_dialect/mir/tests/test_custom_passes.py +166 -0
machine_dialect/mir/tests/test_debug_info.py +285 -0
machine_dialect/mir/tests/test_dict_extraction_lowering.py +192 -0
machine_dialect/mir/tests/test_dictionary_lowering.py +299 -0
machine_dialect/mir/tests/test_double_negation.py +231 -0
machine_dialect/mir/tests/test_escape_analysis.py +233 -0
machine_dialect/mir/tests/test_hir_to_mir.py +465 -0
machine_dialect/mir/tests/test_hir_to_mir_complete.py +389 -0
machine_dialect/mir/tests/test_hir_to_mir_simple.py +130 -0
machine_dialect/mir/tests/test_inlining.py +435 -0
machine_dialect/mir/tests/test_licm.py +472 -0
machine_dialect/mir/tests/test_mir_dumper.py +313 -0
machine_dialect/mir/tests/test_mir_instructions.py +445 -0
machine_dialect/mir/tests/test_mir_module.py +860 -0
machine_dialect/mir/tests/test_mir_printer.py +387 -0
machine_dialect/mir/tests/test_mir_types.py +123 -0
machine_dialect/mir/tests/test_mir_types_enhanced.py +132 -0
machine_dialect/mir/tests/test_mir_validation.py +378 -0
machine_dialect/mir/tests/test_mir_values.py +168 -0
machine_dialect/mir/tests/test_one_based_indexing.py +202 -0
machine_dialect/mir/tests/test_optimization_helpers.py +60 -0
machine_dialect/mir/tests/test_optimization_pipeline.py +554 -0
machine_dialect/mir/tests/test_optimization_reporter.py +318 -0
machine_dialect/mir/tests/test_pass_manager.py +294 -0
machine_dialect/mir/tests/test_pass_registration.py +64 -0
machine_dialect/mir/tests/test_profiling.py +356 -0
machine_dialect/mir/tests/test_register_allocation.py +307 -0
machine_dialect/mir/tests/test_report_formatters.py +372 -0
machine_dialect/mir/tests/test_ssa_construction.py +433 -0
machine_dialect/mir/tests/test_tail_call.py +236 -0
machine_dialect/mir/tests/test_type_annotated_instructions.py +192 -0
machine_dialect/mir/tests/test_type_narrowing.py +277 -0
machine_dialect/mir/tests/test_type_specialization.py +421 -0
machine_dialect/mir/tests/test_type_specific_optimization.py +545 -0
machine_dialect/mir/tests/test_type_specific_optimization_advanced.py +382 -0
machine_dialect/mir/type_inference.py +368 -0
machine_dialect/parser/__init__.py +12 -0
machine_dialect/parser/enums.py +45 -0
machine_dialect/parser/parser.py +3655 -0
machine_dialect/parser/protocols.py +11 -0
machine_dialect/parser/symbol_table.py +169 -0
machine_dialect/parser/tests/__init__.py +0 -0
machine_dialect/parser/tests/helper_functions.py +193 -0
machine_dialect/parser/tests/test_action_statements.py +334 -0
machine_dialect/parser/tests/test_boolean_literal_expressions.py +152 -0
machine_dialect/parser/tests/test_call_statements.py +154 -0
machine_dialect/parser/tests/test_call_statements_errors.py +187 -0
machine_dialect/parser/tests/test_collection_mutations.py +264 -0
machine_dialect/parser/tests/test_conditional_expressions.py +343 -0
machine_dialect/parser/tests/test_define_integration.py +468 -0
machine_dialect/parser/tests/test_define_statements.py +311 -0
machine_dialect/parser/tests/test_dict_extraction.py +115 -0
machine_dialect/parser/tests/test_empty_literal.py +155 -0
machine_dialect/parser/tests/test_float_literal_expressions.py +163 -0
machine_dialect/parser/tests/test_identifier_expressions.py +57 -0
machine_dialect/parser/tests/test_if_empty_block.py +61 -0
machine_dialect/parser/tests/test_if_statements.py +299 -0
machine_dialect/parser/tests/test_illegal_tokens.py +86 -0
machine_dialect/parser/tests/test_infix_expressions.py +680 -0
machine_dialect/parser/tests/test_integer_literal_expressions.py +137 -0
machine_dialect/parser/tests/test_interaction_statements.py +269 -0
machine_dialect/parser/tests/test_list_literals.py +277 -0
machine_dialect/parser/tests/test_no_none_in_ast.py +94 -0
machine_dialect/parser/tests/test_panic_mode_recovery.py +171 -0
machine_dialect/parser/tests/test_parse_errors.py +114 -0
machine_dialect/parser/tests/test_possessive_syntax.py +182 -0
machine_dialect/parser/tests/test_prefix_expressions.py +415 -0
machine_dialect/parser/tests/test_program.py +13 -0
machine_dialect/parser/tests/test_return_statements.py +89 -0
machine_dialect/parser/tests/test_set_statements.py +152 -0
machine_dialect/parser/tests/test_strict_equality.py +258 -0
machine_dialect/parser/tests/test_symbol_table.py +217 -0
machine_dialect/parser/tests/test_url_literal_expressions.py +209 -0
machine_dialect/parser/tests/test_utility_statements.py +423 -0
machine_dialect/parser/token_buffer.py +159 -0
machine_dialect/repl/__init__.py +3 -0
machine_dialect/repl/repl.py +426 -0
machine_dialect/repl/tests/__init__.py +0 -0
machine_dialect/repl/tests/test_repl.py +606 -0
machine_dialect/semantic/__init__.py +12 -0
machine_dialect/semantic/analyzer.py +906 -0
machine_dialect/semantic/error_messages.py +189 -0
machine_dialect/semantic/tests/__init__.py +1 -0
machine_dialect/semantic/tests/test_analyzer.py +364 -0
machine_dialect/semantic/tests/test_error_messages.py +104 -0
machine_dialect/tests/edge_cases/__init__.py +10 -0
machine_dialect/tests/edge_cases/test_boundary_access.py +256 -0
machine_dialect/tests/edge_cases/test_empty_collections.py +166 -0
machine_dialect/tests/edge_cases/test_invalid_operations.py +243 -0
machine_dialect/tests/edge_cases/test_named_list_edge_cases.py +295 -0
machine_dialect/tests/edge_cases/test_nested_structures.py +313 -0
machine_dialect/tests/edge_cases/test_type_mixing.py +277 -0
machine_dialect/tests/integration/test_array_operations_emulation.py +248 -0
machine_dialect/tests/integration/test_list_compilation.py +395 -0
machine_dialect/tests/integration/test_lists_and_dictionaries.py +322 -0
machine_dialect/type_checking/__init__.py +21 -0
machine_dialect/type_checking/tests/__init__.py +1 -0
machine_dialect/type_checking/tests/test_type_system.py +230 -0
machine_dialect/type_checking/type_system.py +270 -0
machine_dialect-0.1.0a1.dist-info/METADATA +128 -0
machine_dialect-0.1.0a1.dist-info/RECORD +268 -0
machine_dialect-0.1.0a1.dist-info/WHEEL +5 -0
machine_dialect-0.1.0a1.dist-info/entry_points.txt +3 -0
machine_dialect-0.1.0a1.dist-info/licenses/LICENSE +201 -0
machine_dialect-0.1.0a1.dist-info/top_level.txt +2 -0
machine_dialect_vm/__init__.pyi +15 -0

machine_dialect/lexer/tests/test_tokenization.py ADDED Viewed

@@ -0,0 +1,294 @@
+import pytest
+from machine_dialect.lexer import Lexer
+from machine_dialect.lexer.tests.helpers import stream_and_assert_tokens
+from machine_dialect.lexer.tokens import Token, TokenType
+class TestLexer:
+    @pytest.mark.parametrize(
+        "input_text,expected_tokens",
+        [
+            # Boolean
+            ("Yes", [Token(TokenType.LIT_YES, "Yes", line=1, position=1)]),
+            ("No", [Token(TokenType.LIT_NO, "No", line=1, position=1)]),
+            # Numbers
+            ("123", [Token(TokenType.LIT_WHOLE_NUMBER, "123", line=1, position=1)]),
+            ("3.14", [Token(TokenType.LIT_FLOAT, "3.14", line=1, position=1)]),
+            ("0", [Token(TokenType.LIT_WHOLE_NUMBER, "0", line=1, position=1)]),
+            # Strings
+            ('"hello"', [Token(TokenType.LIT_TEXT, '"hello"', line=1, position=1)]),
+            ("'world'", [Token(TokenType.LIT_TEXT, "'world'", line=1, position=1)]),
+            ('""', [Token(TokenType.LIT_TEXT, '""', line=1, position=1)]),
+            # Backtick identifiers (backticks consumed by lexer)
+            ("`code`", [Token(TokenType.MISC_IDENT, "code", line=1, position=1)]),
+            ("`variable_name`", [Token(TokenType.MISC_IDENT, "variable_name", line=1, position=1)]),
+            # Numbers in backticks are not valid identifiers, so we get illegal tokens
+            (
+                "`42`",
+                [
+                    Token(TokenType.MISC_ILLEGAL, "`", line=1, position=1),
+                    Token(TokenType.LIT_WHOLE_NUMBER, "42", line=1, position=2),
+                    Token(TokenType.MISC_ILLEGAL, "`", line=1, position=4),
+                ],
+            ),
+            # Empty backticks produce two illegal backtick tokens
+            (
+                "``",
+                [
+                    Token(TokenType.MISC_ILLEGAL, "`", line=1, position=1),
+                    Token(TokenType.MISC_ILLEGAL, "`", line=1, position=2),
+                ],
+            ),
+            # Triple backtick strings
+            ("```python```", [Token(TokenType.LIT_TRIPLE_BACKTICK, "python", line=1, position=1)]),
+            (
+                "```\ncode block\n```",
+                [Token(TokenType.LIT_TRIPLE_BACKTICK, "\ncode block\n", line=1, position=1)],
+            ),
+            (
+                "```js\nconst x = 42;\n```",
+                [Token(TokenType.LIT_TRIPLE_BACKTICK, "js\nconst x = 42;\n", line=1, position=1)],
+            ),
+            ("``````", [Token(TokenType.LIT_TRIPLE_BACKTICK, "", line=1, position=1)]),
+            # Identifiers
+            ("variable", [Token(TokenType.MISC_IDENT, "variable", line=1, position=1)]),
+            ("_underscore", [Token(TokenType.MISC_IDENT, "_underscore", line=1, position=1)]),
+            ("camelCase", [Token(TokenType.MISC_IDENT, "camelCase", line=1, position=1)]),
+            ("var123", [Token(TokenType.MISC_IDENT, "var123", line=1, position=1)]),
+            # Keywords
+            ("if", [Token(TokenType.KW_IF, "if", line=1, position=1)]),
+            ("else", [Token(TokenType.KW_ELSE, "else", line=1, position=1)]),
+            ("define", [Token(TokenType.KW_DEFINE, "define", line=1, position=1)]),
+            ("empty", [Token(TokenType.KW_EMPTY, "empty", line=1, position=1)]),
+            ("entrypoint", [Token(TokenType.KW_ENTRYPOINT, "entrypoint", line=1, position=1)]),
+            ("filter", [Token(TokenType.KW_FILTER, "filter", line=1, position=1)]),
+            ("prompt", [Token(TokenType.KW_PROMPT, "prompt", line=1, position=1)]),
+            ("template", [Token(TokenType.KW_TEMPLATE, "template", line=1, position=1)]),
+            ("give back", [Token(TokenType.KW_RETURN, "give back", line=1, position=1)]),
+            ("gives back", [Token(TokenType.KW_RETURN, "gives back", line=1, position=1)]),
+            ("and", [Token(TokenType.KW_AND, "and", line=1, position=1)]),
+            ("or", [Token(TokenType.KW_OR, "or", line=1, position=1)]),
+            ("is", [Token(TokenType.KW_IS, "is", line=1, position=1)]),
+            ("as", [Token(TokenType.KW_AS, "as", line=1, position=1)]),
+            ("with", [Token(TokenType.KW_WITH, "with", line=1, position=1)]),
+            ("then", [Token(TokenType.KW_THEN, "then", line=1, position=1)]),
+            # More keywords
+            ("action", [Token(TokenType.KW_ACTION, "action", line=1, position=1)]),
+            ("actions", [Token(TokenType.KW_ACTION, "actions", line=1, position=1)]),
+            # "apply" is reserved for future use, currently not mapped
+            ("behavior", [Token(TokenType.KW_BEHAVIOR, "behavior", line=1, position=1)]),
+            # Backslash
+            ("\\", [Token(TokenType.PUNCT_BACKSLASH, "\\", line=1, position=1)]),
+            (
+                "x\\y",
+                [
+                    Token(TokenType.MISC_IDENT, "x", line=1, position=1),
+                    Token(TokenType.PUNCT_BACKSLASH, "\\", line=1, position=2),
+                    Token(TokenType.MISC_IDENT, "y", line=1, position=3),
+                ],
+            ),
+            # Frontmatter delimiter
+            ("---", [Token(TokenType.PUNCT_FRONTMATTER, "---", line=1, position=1)]),
+            (
+                "-- -",
+                [
+                    Token(TokenType.OP_MINUS, "-", line=1, position=1),
+                    Token(TokenType.OP_MINUS, "-", line=1, position=2),
+                    Token(TokenType.OP_MINUS, "-", line=1, position=4),
+                ],
+            ),
+            (
+                "--",
+                [
+                    Token(TokenType.OP_MINUS, "-", line=1, position=1),
+                    Token(TokenType.OP_MINUS, "-", line=1, position=2),
+                ],
+            ),
+            ("behaviors", [Token(TokenType.KW_BEHAVIOR, "behaviors", line=1, position=1)]),
+            ("behaviour", [Token(TokenType.KW_BEHAVIOR, "behaviour", line=1, position=1)]),
+            ("behaviours", [Token(TokenType.KW_BEHAVIOR, "behaviours", line=1, position=1)]),
+            ("Yes/No", [Token(TokenType.KW_YES_NO, "Yes/No", line=1, position=1)]),
+            ("Float", [Token(TokenType.KW_FLOAT, "Float", line=1, position=1)]),
+            ("Floats", [Token(TokenType.KW_FLOAT, "Floats", line=1, position=1)]),
+            ("from", [Token(TokenType.KW_FROM, "from", line=1, position=1)]),
+            ("interaction", [Token(TokenType.KW_INTERACTION, "interaction", line=1, position=1)]),
+            ("interactions", [Token(TokenType.KW_INTERACTION, "interactions", line=1, position=1)]),
+            ("List", [Token(TokenType.KW_LIST, "List", line=1, position=1)]),
+            ("not", [Token(TokenType.KW_NEGATION, "not", line=1, position=1)]),
+            ("Number", [Token(TokenType.KW_NUMBER, "Number", line=1, position=1)]),
+            ("Numbers", [Token(TokenType.KW_NUMBER, "Numbers", line=1, position=1)]),
+            ("otherwise", [Token(TokenType.KW_ELSE, "otherwise", line=1, position=1)]),
+            ("rule", [Token(TokenType.KW_RULE, "rule", line=1, position=1)]),
+            ("Set", [Token(TokenType.KW_SET, "Set", line=1, position=1)]),
+            ("Utility", [Token(TokenType.KW_UTILITY, "Utility", line=1, position=1)]),
+            ("take", [Token(TokenType.KW_TAKE, "take", line=1, position=1)]),
+            ("takes", [Token(TokenType.KW_TAKE, "takes", line=1, position=1)]),
+            ("Tell", [Token(TokenType.KW_TELL, "Tell", line=1, position=1)]),
+            ("text", [Token(TokenType.KW_TEXT, "text", line=1, position=1)]),
+            ("texts", [Token(TokenType.KW_TEXT, "texts", line=1, position=1)]),
+            ("to", [Token(TokenType.KW_TO, "to", line=1, position=1)]),
+            ("trait", [Token(TokenType.KW_TRAIT, "trait", line=1, position=1)]),
+            ("traits", [Token(TokenType.KW_TRAIT, "traits", line=1, position=1)]),
+            ("Use", [Token(TokenType.KW_USE, "Use", line=1, position=1)]),
+            ("URL", [Token(TokenType.KW_URL, "URL", line=1, position=1)]),
+            ("URLs", [Token(TokenType.KW_URL, "URLs", line=1, position=1)]),
+            ("Date", [Token(TokenType.KW_DATE, "Date", line=1, position=1)]),
+            ("Dates", [Token(TokenType.KW_DATE, "Dates", line=1, position=1)]),
+            ("DateTime", [Token(TokenType.KW_DATETIME, "DateTime", line=1, position=1)]),
+            ("DateTimes", [Token(TokenType.KW_DATETIME, "DateTimes", line=1, position=1)]),
+            ("Time", [Token(TokenType.KW_TIME, "Time", line=1, position=1)]),
+            ("Times", [Token(TokenType.KW_TIME, "Times", line=1, position=1)]),
+            ("DataType", [Token(TokenType.KW_DATATYPE, "DataType", line=1, position=1)]),
+            # Single character operators
+            ("+", [Token(TokenType.OP_PLUS, "+", line=1, position=1)]),
+            ("-", [Token(TokenType.OP_MINUS, "-", line=1, position=1)]),
+            ("/", [Token(TokenType.OP_DIVISION, "/", line=1, position=1)]),
+            ("=", [Token(TokenType.OP_ASSIGN, "=", line=1, position=1)]),
+            ("<", [Token(TokenType.OP_LT, "<", line=1, position=1)]),
+            (">", [Token(TokenType.OP_GT, ">", line=1, position=1)]),
+            ("*", [Token(TokenType.OP_STAR, "*", line=1, position=1)]),
+            # Multi-character operators
+            ("**", [Token(TokenType.OP_TWO_STARS, "**", line=1, position=1)]),
+            # Delimiters
+            ("(", [Token(TokenType.DELIM_LPAREN, "(", line=1, position=1)]),
+            (")", [Token(TokenType.DELIM_RPAREN, ")", line=1, position=1)]),
+            ("{", [Token(TokenType.DELIM_LBRACE, "{", line=1, position=1)]),
+            ("}", [Token(TokenType.DELIM_RBRACE, "}", line=1, position=1)]),
+            # Punctuation
+            (";", [Token(TokenType.PUNCT_SEMICOLON, ";", line=1, position=1)]),
+            (",", [Token(TokenType.PUNCT_COMMA, ",", line=1, position=1)]),
+            (".", [Token(TokenType.PUNCT_PERIOD, ".", line=1, position=1)]),
+            (":", [Token(TokenType.PUNCT_COLON, ":", line=1, position=1)]),
+            ("#", [Token(TokenType.PUNCT_HASH, "#", line=1, position=1)]),
+            # Complex expressions
+            (
+                "x = 42",
+                [
+                    Token(TokenType.MISC_IDENT, "x", line=1, position=1),
+                    Token(TokenType.OP_ASSIGN, "=", line=1, position=3),
+                    Token(TokenType.LIT_WHOLE_NUMBER, "42", line=1, position=5),
+                ],
+            ),
+            (
+                "if (x > 0)",
+                [
+                    Token(TokenType.KW_IF, "if", line=1, position=1),
+                    Token(TokenType.DELIM_LPAREN, "(", line=1, position=4),
+                    Token(TokenType.MISC_IDENT, "x", line=1, position=5),
+                    Token(TokenType.OP_GT, ">", line=1, position=7),
+                    Token(TokenType.LIT_WHOLE_NUMBER, "0", line=1, position=9),
+                    Token(TokenType.DELIM_RPAREN, ")", line=1, position=10),
+                ],
+            ),
+            (
+                "x # comment",
+                [
+                    Token(TokenType.MISC_IDENT, "x", line=1, position=1),
+                    Token(TokenType.PUNCT_HASH, "#", line=1, position=3),
+                    Token(TokenType.MISC_IDENT, "comment", line=1, position=5),
+                ],
+            ),
+            (
+                'Set `name` to _"John"_',
+                [
+                    Token(TokenType.KW_SET, "Set", line=1, position=1),
+                    Token(TokenType.MISC_IDENT, "name", line=1, position=6),
+                    Token(TokenType.KW_TO, "to", line=1, position=12),
+                    Token(TokenType.LIT_TEXT, '"John"', line=1, position=15),
+                ],
+            ),
+            (
+                "if **x** is greater than 0, then give back _Yes_",
+                [
+                    Token(TokenType.KW_IF, "if", line=1, position=1),
+                    Token(TokenType.OP_TWO_STARS, "**", line=1, position=4),
+                    Token(TokenType.MISC_IDENT, "x", line=1, position=6),
+                    Token(TokenType.OP_TWO_STARS, "**", line=1, position=7),
+                    Token(TokenType.OP_GT, "is greater than", line=1, position=10),
+                    Token(TokenType.LIT_WHOLE_NUMBER, "0", line=1, position=26),
+                    Token(TokenType.PUNCT_COMMA, ",", line=1, position=27),
+                    Token(TokenType.KW_THEN, "then", line=1, position=29),
+                    Token(TokenType.KW_RETURN, "give back", line=1, position=34),
+                    Token(TokenType.LIT_YES, "Yes", line=1, position=44),
+                ],
+            ),
+            (
+                "if x > 0 then gives back Yes",
+                [
+                    Token(TokenType.KW_IF, "if", line=1, position=1),
+                    Token(TokenType.MISC_IDENT, "x", line=1, position=4),
+                    Token(TokenType.OP_GT, ">", line=1, position=6),
+                    Token(TokenType.LIT_WHOLE_NUMBER, "0", line=1, position=8),
+                    Token(TokenType.KW_THEN, "then", line=1, position=10),
+                    Token(TokenType.KW_RETURN, "gives back", line=1, position=15),
+                    Token(TokenType.LIT_YES, "Yes", line=1, position=26),
+                ],
+            ),
+            (
+                "define rule that give back 42",
+                [
+                    Token(TokenType.KW_DEFINE, "define", line=1, position=1),
+                    Token(TokenType.KW_RULE, "rule", line=1, position=8),
+                    Token(TokenType.MISC_STOPWORD, "that", line=1, position=13),
+                    Token(TokenType.KW_RETURN, "give back", line=1, position=18),
+                    Token(TokenType.LIT_WHOLE_NUMBER, "42", line=1, position=28),
+                ],
+            ),
+        ],
+    )
+    def test_lexer_tokenization(self, input_text: str, expected_tokens: list[Token]) -> None:
+        lexer = Lexer(input_text)
+        stream_and_assert_tokens(lexer, expected_tokens)
+    @pytest.mark.parametrize(
+        "input_text, expected_tokens",
+        [
+            # Basic tag tokens
+            ("<summary>", [Token(TokenType.TAG_SUMMARY_START, "<summary>", line=1, position=1)]),
+            ("</summary>", [Token(TokenType.TAG_SUMMARY_END, "</summary>", line=1, position=1)]),
+            ("<details>", [Token(TokenType.TAG_DETAILS_START, "<details>", line=1, position=1)]),
+            ("</details>", [Token(TokenType.TAG_DETAILS_END, "</details>", line=1, position=1)]),
+            # Case insensitive
+            ("<SUMMARY>", [Token(TokenType.TAG_SUMMARY_START, "<summary>", line=1, position=1)]),
+            ("</Summary>", [Token(TokenType.TAG_SUMMARY_END, "</summary>", line=1, position=1)]),
+            ("<DETAILS>", [Token(TokenType.TAG_DETAILS_START, "<details>", line=1, position=1)]),
+            ("</Details>", [Token(TokenType.TAG_DETAILS_END, "</details>", line=1, position=1)]),
+            # Mixed case
+            ("<SuMmArY>", [Token(TokenType.TAG_SUMMARY_START, "<summary>", line=1, position=1)]),
+            ("</DeTaIlS>", [Token(TokenType.TAG_DETAILS_END, "</details>", line=1, position=1)]),
+            # Tags with content
+            (
+                "<summary>This is a summary</summary>",
+                [
+                    Token(TokenType.TAG_SUMMARY_START, "<summary>", line=1, position=1),
+                    Token(TokenType.MISC_COMMENT, "This is a summary", line=1, position=10),
+                    Token(TokenType.TAG_SUMMARY_END, "</summary>", line=1, position=27),
+                ],
+            ),
+            # Now "summary" and "details" as words should be identifiers
+            ("summary", [Token(TokenType.MISC_IDENT, "summary", line=1, position=1)]),
+            ("details", [Token(TokenType.MISC_IDENT, "details", line=1, position=1)]),
+            # Invalid tags should not be recognized as tags
+            (
+                "<invalid>",
+                [
+                    Token(TokenType.OP_LT, "<", line=1, position=1),
+                    Token(TokenType.MISC_IDENT, "invalid", line=1, position=2),
+                    Token(TokenType.OP_GT, ">", line=1, position=9),
+                ],
+            ),
+            # Less than operator should still work
+            (
+                "x < 5",
+                [
+                    Token(TokenType.MISC_IDENT, "x", line=1, position=1),
+                    Token(TokenType.OP_LT, "<", line=1, position=3),
+                    Token(TokenType.LIT_WHOLE_NUMBER, "5", line=1, position=5),
+                ],
+            ),
+        ],
+    )
+    def test_tag_tokens(self, input_text: str, expected_tokens: list[Token]) -> None:
+        lexer = Lexer(input_text)
+        stream_and_assert_tokens(lexer, expected_tokens)

machine_dialect/lexer/tests/test_underscore_literals.py ADDED Viewed

@@ -0,0 +1,343 @@
+from machine_dialect.lexer import Lexer
+from machine_dialect.lexer.tests.helpers import assert_eof, assert_expected_token
+from machine_dialect.lexer.tokens import Token, TokenMetaType, TokenType
+def is_literal_token(token: Token) -> bool:
+    return token.type.meta_type == TokenMetaType.LIT
+class TestUnderscoreLiterals:
+    def test_wrapped_integer(self) -> None:
+        """Test underscore-wrapped integer literals."""
+        source = "_42_"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_WHOLE_NUMBER, "42", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_wrapped_float(self) -> None:
+        """Test underscore-wrapped float literals."""
+        source = "_3.14_"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_FLOAT, "3.14", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_wrapped_string(self) -> None:
+        """Test underscore-wrapped string literals."""
+        source = '_"Hello, World!"_'
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_TEXT, '"Hello, World!"', line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_unwrapped_integer(self) -> None:
+        """Test unwrapped integer literals (backward compatibility)."""
+        source = "42"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_WHOLE_NUMBER, "42", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_unwrapped_float(self) -> None:
+        """Test unwrapped float literals (backward compatibility)."""
+        source = "3.14"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_FLOAT, "3.14", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_unwrapped_string(self) -> None:
+        """Test unwrapped string literals (backward compatibility)."""
+        source = '"Hello, World!"'
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_TEXT, '"Hello, World!"', line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_mixed_literals_in_expression(self) -> None:
+        """Test both wrapped and unwrapped literals in same expression."""
+        source = "Set `x` to _42_ and `y` to 3.14"
+        lexer = Lexer(source)
+        # Stream tokens and collect numeric literals
+        numeric_literals = []
+        while True:
+            token = lexer.next_token()
+            if token.type == TokenType.MISC_EOF:
+                break
+            if token.type in (TokenType.LIT_WHOLE_NUMBER, TokenType.LIT_FLOAT):
+                numeric_literals.append(token)
+        assert len(numeric_literals) == 2
+        # First literal is wrapped (underscore wrapping handled by lexer)
+        expected_int = Token(TokenType.LIT_WHOLE_NUMBER, "42", line=1, position=12)
+        assert_expected_token(numeric_literals[0], expected_int)
+        # Second literal is unwrapped
+        expected_float = Token(TokenType.LIT_FLOAT, "3.14", line=1, position=28)
+        assert_expected_token(numeric_literals[1], expected_float)
+    def test_underscore_in_identifier(self) -> None:
+        """Test that underscores in identifiers don't interfere with literal syntax."""
+        source = "_var_name_"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.MISC_IDENT, "_var_name_", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_incomplete_wrapped_literal(self) -> None:
+        """Test incomplete wrapped literal with invalid pattern is marked as illegal."""
+        source = "_42"  # Missing closing underscore and starts with _ followed by digits
+        lexer = Lexer(source)
+        # Get the token
+        token = lexer.next_token()
+        # Lexer no longer reports errors (parser will handle them)
+        assert token.type == TokenType.MISC_ILLEGAL
+        assert token.literal == "_42"
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_wrapped_negative_integer(self) -> None:
+        """Test underscore-wrapped negative integer literals."""
+        source = "_-42_"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_WHOLE_NUMBER, "-42", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_wrapped_negative_float(self) -> None:
+        """Test underscore-wrapped negative float literals."""
+        source = "_-3.14_"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_FLOAT, "-3.14", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_wrapped_negative_decimal_only(self) -> None:
+        """Test underscore-wrapped negative float starting with decimal point."""
+        source = "_-.5_"
+        lexer = Lexer(source)
+        # Expected token
+        expected = Token(TokenType.LIT_FLOAT, "-0.5", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_wrapped_positive_decimal_only(self) -> None:
+        """Test underscore-wrapped positive float starting with decimal point."""
+        source = "_.5_"
+        lexer = Lexer(source)
+        # Expected token (should normalize .5 to 0.5)
+        expected = Token(TokenType.LIT_FLOAT, "0.5", line=1, position=1)
+        # Get and verify token
+        actual = lexer.next_token()
+        assert_expected_token(actual, expected)
+        assert is_literal_token(actual)
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_invalid_negative_patterns(self) -> None:
+        """Test various invalid negative patterns in underscore literals."""
+        # Test _-_ (minus with no number)
+        source = "_-_"
+        lexer = Lexer(source)
+        # Should produce identifier "_" followed by minus and another identifier
+        token1 = lexer.next_token()
+        assert token1.type == TokenType.MISC_IDENT
+        assert token1.literal == "_"
+        token2 = lexer.next_token()
+        assert token2.type == TokenType.OP_MINUS
+        assert token2.literal == "-"
+        token3 = lexer.next_token()
+        assert token3.type == TokenType.MISC_IDENT
+        assert token3.literal == "_"
+        assert_eof(lexer.next_token())
+    def test_double_negative_invalid(self) -> None:
+        """Test that double negative is not valid in underscore literals."""
+        source = "_--5_"
+        lexer = Lexer(source)
+        # Should not parse as a literal
+        token1 = lexer.next_token()
+        assert token1.type == TokenType.MISC_IDENT
+        assert token1.literal == "_"
+        # Followed by two minus operators
+        token2 = lexer.next_token()
+        assert token2.type == TokenType.OP_MINUS
+        token3 = lexer.next_token()
+        assert token3.type == TokenType.OP_MINUS
+        # Then illegal pattern 5_
+        token4 = lexer.next_token()
+        assert token4.type == TokenType.MISC_ILLEGAL
+        assert token4.literal == "5_"
+        assert_eof(lexer.next_token())
+    def test_negative_in_expression(self) -> None:
+        """Test negative literal in an expression context."""
+        source = "Set **x** to _-5_."
+        lexer = Lexer(source)
+        # Collect all tokens
+        tokens = []
+        while True:
+            token = lexer.next_token()
+            if token.type == TokenType.MISC_EOF:
+                break
+            tokens.append(token)
+        # Find the negative integer literal
+        int_literals = [t for t in tokens if t.type == TokenType.LIT_WHOLE_NUMBER]
+        assert len(int_literals) == 1
+        assert int_literals[0].literal == "-5"
+    def test_malformed_underscore_string_literal(self) -> None:
+        """Test malformed underscore string literal like _\"unclosed."""
+        source = '_"unclosed.'
+        lexer = Lexer(source)
+        # This should be treated as a single ILLEGAL token
+        token = lexer.next_token()
+        assert token.type == TokenType.MISC_ILLEGAL
+        assert token.literal == '_"unclosed.'
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_malformed_underscore_single_quote_literal(self) -> None:
+        """Test malformed underscore string literal with single quotes."""
+        source = "_'unclosed string"
+        lexer = Lexer(source)
+        # This should be treated as a single ILLEGAL token
+        token = lexer.next_token()
+        assert token.type == TokenType.MISC_ILLEGAL
+        assert token.literal == "_'unclosed string"
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_underscore_string_missing_closing_underscore(self) -> None:
+        """Test underscore string literal missing closing underscore."""
+        source = '_"complete string"'
+        lexer = Lexer(source)
+        # Without closing underscore, the opening _ is an identifier
+        # and the string is a separate token
+        token1 = lexer.next_token()
+        assert token1.type == TokenType.MISC_IDENT
+        assert token1.literal == "_"
+        token2 = lexer.next_token()
+        assert token2.type == TokenType.LIT_TEXT
+        assert token2.literal == '"complete string"'
+        # Verify EOF
+        assert_eof(lexer.next_token())
+    def test_underscore_with_escaped_quote(self) -> None:
+        """Test underscore literal with escaped quote inside."""
+        source = '_"text with \\" escaped quote"_'
+        lexer = Lexer(source)
+        # Should parse correctly as a string literal
+        token = lexer.next_token()
+        assert token.type == TokenType.LIT_TEXT
+        assert token.literal == '"text with \\" escaped quote"'
+        # Verify EOF
+        assert_eof(lexer.next_token())