npm - agent-threat-rules - Versions diffs - 0.3.0 → 0.4.0 - Mend

agent-threat-rules 0.3.0 → 0.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (32) hide show

package/README.md +39 -12
package/dist/badge.d.ts +42 -0
package/dist/badge.d.ts.map +1 -0
package/dist/badge.js +158 -0
package/dist/badge.js.map +1 -0
package/dist/cli.js +74 -2
package/dist/cli.js.map +1 -1
package/dist/eval/run-pint-benchmark.js +4 -2
package/dist/eval/run-pint-benchmark.js.map +1 -1
package/dist/flywheel.d.ts.map +1 -1
package/dist/flywheel.js +24 -1
package/dist/flywheel.js.map +1 -1
package/dist/rule-scaffolder.d.ts +14 -0
package/dist/rule-scaffolder.d.ts.map +1 -1
package/dist/rule-scaffolder.js +123 -6
package/dist/rule-scaffolder.js.map +1 -1
package/package.json +1 -1
package/rules/agent-manipulation/ATR-2026-116-a2a-message-validation.yaml +90 -0
package/rules/agent-manipulation/ATR-2026-117-agent-identity-spoofing.yaml +90 -0
package/rules/agent-manipulation/ATR-2026-118-approval-fatigue.yaml +87 -0
package/rules/agent-manipulation/ATR-2026-119-social-engineering-via-agent.yaml +87 -0
package/rules/context-exfiltration/ATR-2026-113-credential-theft.yaml +87 -0
package/rules/context-exfiltration/ATR-2026-114-oauth-token-abuse.yaml +87 -0
package/rules/context-exfiltration/ATR-2026-115-env-var-harvesting.yaml +88 -0
package/rules/excessive-autonomy/ATR-2026-099-high-risk-tool-gate.yaml +1 -1
package/rules/privilege-escalation/ATR-2026-110-eval-injection.yaml +90 -0
package/rules/privilege-escalation/ATR-2026-111-shell-escape.yaml +91 -0
package/rules/privilege-escalation/ATR-2026-112-dynamic-import-exploitation.yaml +87 -0
package/rules/prompt-injection/ATR-2026-001-direct-prompt-injection.yaml +118 -10
package/rules/prompt-injection/ATR-2026-097-cjk-injection-patterns.yaml +15 -0
package/rules/skill-compromise/ATR-2026-061-description-behavior-mismatch.yaml +1 -1
package/rules/skill-compromise/ATR-2026-063-skill-chain-attack.yaml +2 -1

package/rules/prompt-injection/ATR-2026-001-direct-prompt-injection.yaml CHANGED Viewed

@@ -49,53 +49,91 @@ agent_source:
 detection:
   conditions:
     # -- Layer 1: Instruction override verbs + target nouns --
+    # Supports: "ignore previous instructions", "ignore the above instructions",
+    # "ignore your instructions", "ignore any instructions", "ignore all instructions"
     - field: user_input
       operator: regex
-      value: "(?i)\\b(ignore|disregard|forget|override|bypass|skip|abandon|drop|cancel|suppress|nullify|void|revoke|dismiss|discard|reject)\\s+(all\\s+)?(previous|prior|above|earlier|preceding|original|existing|current|initial|default|given|assigned|preset|established)\\s+(instructions?|prompts?|rules?|guidelines?|directives?|constraints?|context|programming|training|protocols?|policies|configuration|parameters|boundaries|guardrails?|safeguards?|restrictions?|tasks?|assignments?|information)"
-      description: "Instruction override with broad verb and noun synonym coverage"
+      value: "(?i)\\b(ignore|disregard|forget|override|bypass|skip|abandon|drop|cancel|suppress|nullify|void|revoke|dismiss|discard|reject)\\s+(all\\s+)?(the\\s+|your\\s+|my\\s+|any\\s+|these\\s+|those\\s+)?(previous|prior|above|earlier|preceding|original|existing|current|initial|default|given|assigned|preset|established)?\\s*(instructions?|prompts?|rules?|guidelines?|directives?|constraints?|context|programming|training|protocols?|policies|configuration|parameters|boundaries|guardrails?|safeguards?|restrictions?|tasks?|assignments?|information|directions?|orders?|commands?)"
+      description: "Instruction override with broad verb and noun synonym coverage, including determiners"
     # -- Layer 1b: Forget-everything / forget-all shorthand --
     - field: user_input
       operator: regex
-      value: "(?i)\\b(forget|ignore|disregard)\\s+(everything|all\\s+(of\\s+)?that|all\\s+about|about\\s+all|that|what\\s+(I|we|you)\\s+(said|told|asked|mentioned))\\s*(before|earlier|previously|above|\\.|,|!|$)"
+      value: "(?i)\\b(forget|ignore|disregard)\\s+(everything|all\\s+(of\\s+)?that|all\\s+about|about\\s+all|that|what\\s+(I|we|you)\\s+(said|told|asked|mentioned))\\s*(before|earlier|previously|above|davor|zuvor|\\.|,|!|$)"
       description: "Shorthand forget-everything patterns common in adversarial prompts"
     # -- Layer 1c: Task switching / new task injection --
     - field: user_input
       operator: regex
-      value: "(?i)(now\\s+(focus|concentrate|work)\\s+on\\s+(your\\s+)?new\\s+task|new\\s+tasks?\\s+follow|now\\s+I\\s+(have|need|want)\\s+(a\\s+)?(new|different|another)\\s+(task|challenge|assignment)|start\\s+(over|fresh|anew)\\s+with\\s+(a\\s+)?new)"
+      value: "(?i)(now\\s+(focus|concentrate|work)\\s+on\\s+(your\\s+)?new\\s+task|new\\s+(tasks?|instructions?|assignments?)\\s+(follow|are|:|,)|now\\s+I\\s+(have|need|want)\\s+(a\\s+)?(new|different|another|great\\s+new)\\s+(task|challenge|assignment|Herausforderung|Aufgabe)|start\\s+(over|fresh|anew)\\s+with\\s+(a\\s+)?new|I\\s+(have|need)\\s+your\\s+help\\s+with\\s+(another|a\\s+new|einer\\s+weiteren)\\s+(task|Aufgabe))"
       description: "Task switching patterns that redirect agent to attacker-controlled tasks"
     # -- Layer 1d: Broad forget/ignore + everything/that/this --
     - field: user_input
       operator: regex
-      value: "(?i)\\b(forget|ignore|disregard|discard)\\s+(about\\s+)?(everything|all|that|this|what\\s+was|what\\s+I)\\s+(previously|before|earlier|said|told|above|prior)?"
-      description: "Broad forget-everything variants including typo-tolerant matching"
+      value: "(?i)\\b(forget|ignore|disregard|discard)\\s+(about\\s+)?(everything|all|that|this|what\\s+was|what\\s+I|anything\\s+you)\\s*(previously|before|earlier|said|told|above|prior|were|was|have)?"
+      description: "Broad forget-everything variants with extended word coverage"
+    # -- Layer 1g: Bare ignore/forget + above/before + action --
+    - field: user_input
+      operator: regex
+      value: "(?i)\\b(ignore|forget|disregard)\\s+(the\\s+)?(above|everything\\s+above|what\\s+came\\s+before|what\\s+was\\s+said)\\s*(and|,|\\.|;|\\b(say|print|write|output|tell|just|instead))"
+      description: "Ignore-above patterns followed by conjunction, punctuation, or action verb"
     # -- Layer 1e: System prompt extraction --
     - field: user_input
       operator: regex
-      value: "(?i)(reveal|show|display|output|print|repeat|provide|give|share|tell)\\s+(me\\s+)?(your|the|all)\\s+(secret|hidden|internal|system|original|previous|initial)?\\s*(instructions?|prompts?|passwords?|secrets?|embeddings?|configuration)"
+      value: "(?i)(reveal|show|display|output|print|repeat|provide|give|share|tell|what\\s+are|what\\s+were|what\\s+is)\\s+(me\\s+)?(your|the|all)\\s+(secret|hidden|internal|system|original|previous|initial|complete|full|given|guard|entire)?\\s*(instructions?|prompts?|passwords?|secrets?|embeddings?|configuration|directives?|guidelines?|rules)"
       description: "System prompt and secret extraction requests"
     # -- Layer 1f: Contextual task switching with praise prefix --
     - field: user_input
       operator: regex
-      value: "(?i)(well\\s+done|good\\s+job|excellent|that'?s?\\s+(enough|done|great|good|perfect)|very\\s+good|simply\\s+great|outstanding|brilliant|that\\s+is\\s+(done|enough|sufficient))[.!,;]?\\s*(now|but|however|next|okay|ok|so)\\s"
+      value: "(?i)(well\\s+done|good\\s+job|excellent\\s+(performance|work|job)?|that'?s?\\s+(enough|done|great|good|perfect)|very\\s+good|simply\\s+great|outstanding|brilliant|that\\s+is\\s+(done|enough|sufficient)|congratulations|you'?ve\\s+outdone\\s+yourself|einfach\\s+gro(ss|ß)artig|herzlichen\\s+gl[uü]ckwunsch|gut\\s+gemacht|ausgezeichnet|hervorragend|das\\s+gen[uü]gt|sehr\\s+gut|damit\\s+hast\\s+du\\s+dich\\s+selbst\\s+[uü]bertroffen)[.!,;]?\\s*(now|but|however|next|okay|ok|so|nun|jetzt|aber|bitte|come\\s+on|I\\s+need|help\\s+me|write|please|we\\s+ask|further|komm)\\s"
       description: "Praise-then-redirect patterns used to context-switch after flattery"
+    # -- Layer 1h: Leave behind / start fresh context switch --
+    - field: user_input
+      operator: regex
+      value: "(?i)(leave|put)\\s+(all\\s+)?(the\\s+)?(previous|prior|earlier|old)\\s+(information|tasks?|instructions?|context)\\s+(behind|aside|away)|start\\s+(from\\s+the\\s+)?(front|beginning|scratch|zero|neu|vorne)"
+      description: "Leave-behind / start-fresh context switch patterns"
+    # -- Layer 1i: German praise-then-redirect extended --
+    - field: user_input
+      operator: regex
+      value: "(?i)(das\\s+ist\\s+erledigt|das\\s+war\\s+schon\\s+mal\\s+ok|nun\\s+folgen|jetzt\\s+(habe|brauche)\\s+ich|jetzt\\s+komm(t|e)?|weitere[rn]?\\s+Aufgabe)[.!,;]?\\s*[^\\n]{0,30}(neue[rs]?\\s+Aufgabe|Herausforderung|schreibe\\s+(mir|ein)|beantworte)"
+      description: "German: Extended praise-then-redirect and new task patterns"
     # -- Layer 2: Persona switching / identity hijacking --
     - field: user_input
       operator: regex
-      value: "(?i)\\b(you\\s+are\\s+now|you\\s+have\\s+become|you\\s+will\\s+act\\s+as|you\\s+will\\s+be|you\\s+shall\\s+be|transform\\s+into|switch\\s+to\\s+being|become|morph\\s+into|adopt\\s+the\\s+persona)\\s+(a|an|the|my)?\\s*[a-zA-Z]+"
+      value: "(?i)\\b(you\\s+are\\s+now|you\\s+have\\s+become|you\\s+will\\s+act\\s+as|you\\s+will\\s+be|you\\s+shall\\s+be|transform\\s+into|switch\\s+to\\s+being|become|morph\\s+into|adopt\\s+the\\s+persona|now\\s+you\\s+are|jetzt\\s+bist\\s+du|du\\s+bist\\s+(jetzt|nun)|stell\\s+dir\\s+vor\\s+du\\s+bist)\\s+(a|an|the|my|ein[ea]?)?\\s*[a-zA-Z\\u00C0-\\u024F]+"
       description: "Persona switching and identity reassignment attempts"
+    # -- Layer 2b: Act-as roleplay with task assignment --
+    - field: user_input
+      operator: regex
+      value: "(?i)(I\\s+want\\s+you\\s+to\\s+act\\s+as|I\\s+need\\s+you\\s+to\\s+act\\s+as|ich\\s+m[oö]chte,?\\s+dass\\s+Sie\\s+als)\\s+[^\\n]{3,60}[.!]\\s*(you\\s+will|I\\s+will|my\\s+first|your\\s+task|ich\\s+werde)"
+      description: "Act-as roleplay injection with explicit task assignment"
+    # -- Layer 2c: Pretend/imagine with harmful persona --
+    - field: user_input
+      operator: regex
+      value: "(?i)(pretend|imagine|stell\\s+dir\\s+vor)\\s+(you\\s+)?(are|can|could|du\\s+bist)\\s+(a\\s+|an\\s+|ein[ea]?\\s+)?(evil|malicious|unrestricted|unfiltered|b[oö]se|bad|rogue|dangerous|dark|unethical)"
+      description: "Pretend-to-be-evil persona injection"
     # -- Layer 3: Explicit role override --
     - field: user_input
       operator: regex
       value: "(?i)\\b(your\\s+new\\s+role|your\\s+new\\s+purpose|your\\s+new\\s+identity|your\\s+new\\s+persona|your\\s+real\\s+purpose|your\\s+true\\s+identity|your\\s+actual\\s+role)\\s+(is|shall\\s+be|will\\s+be)\\b"
       description: "Explicit role redefinition statements"
+    # -- Layer 3b: Few-shot output manipulation (DE-specific, requires 3+ pairs) --
+    - field: user_input
+      operator: regex
+      value: "(?i)Eingabe\\s*:\\s*[^\\n]+\\s*Ausgabe\\s*:\\s*[^\\n]+\\s*Eingabe\\s*:\\s*[^\\n]+\\s*Ausgabe\\s*:"
+      description: "German few-shot input/output override pattern (Eingabe/Ausgabe)"
     # -- Layer 4: Do-not-follow-rules patterns --
     - field: user_input
       operator: regex
@@ -162,6 +200,18 @@ detection:
       value: "(%69%67%6[eE]%6[fF]%72%65|%64%69%73%72%65%67%61%72%64|%6[fF]%76%65%72%72%69%64%65|\\\\x69\\\\x67\\\\x6e\\\\x6f\\\\x72\\\\x65)"
       description: "URL-encoded or hex-escaped injection keywords"
+    # -- Layer 14b: Spaced-character injection of known keywords --
+    - field: user_input
+      operator: regex
+      value: "(?i)(i\\s+g\\s+n\\s+o\\s+r\\s+e|f\\s+o\\s+r\\s+g\\s+e\\s+t|o\\s+v\\s+e\\s+r\\s+r\\s+i\\s+d\\s+e|b\\s+y\\s+p\\s+a\\s+s\\s+s|s\\s+y\\s+s\\s+t\\s+e\\s+m|d\\s+i\\s+s\\s+r\\s+e\\s+g\\s+a\\s+r\\s+d|s\\s+a\\s+y\\s+t\\s+h\\s+a\\s+t)"
+      description: "Spaced-out injection keywords (ignore, forget, override, bypass, system, say that)"
+    # -- Layer 14c: Stop-write / stop-say command injection --
+    - field: user_input
+      operator: regex
+      value: "(?i)\\bstop\\s*[-:,.]?\\s*(write|say|print|output)\\s*[:,-]?\\s+[A-Z].{2,40}"
+      description: "Stop-and-redirect command injection (stop: write X)"
     # -- Layer 15: Markdown/formatting abuse to hide injections --
     - field: user_input
       operator: regex
@@ -191,8 +241,18 @@ detection:
       description: "German: New task injection patterns"
     - field: user_input
       operator: regex
-      value: "(?i)(ignorieren\\s+Sie|vergessen\\s+Sie|beachten\\s+Sie\\s+nicht)\\s+(die\\s+)?(obigen?|vorherigen?|bisherigen?)?\\s*(Anweisungen|Regeln|Richtlinien|alles)"
+      value: "(?i)(ignorieren\\s+Sie|vergessen\\s+Sie|beachten\\s+Sie\\s+nicht)\\s+(die\\s+)?(obigen?|vorherigen?|bisherigen?)?\\s*(Anweisungen|Regeln|Richtlinien|alles|Ausf[uü]hrungen|Informationen)"
       description: "German: Formal Sie-form instruction override"
+    # -- Layer 16 extended: German obige/vorherige Ausfuehrungen ignorieren --
+    - field: user_input
+      operator: regex
+      value: "(?i)(die\\s+)?(obigen?|vorherigen?)\\s+(Ausf[uü]hrungen|Anweisungen|Informationen|Texte?)\\s+(ignorier|vergess|missacht|[uü]bergeh)"
+      description: "German: 'Die obigen Ausfuehrungen ignorieren' pattern"
+    # -- Layer 16 extended: German alle vorangegangenen Aufgaben --
+    - field: user_input
+      operator: regex
+      value: "(?i)(alle[ns]?\\s+)?(vorangegangenen?|vorherigen?|bisherigen?)\\s+(Aufgaben|Informationen|Anweisungen)\\s+(aus\\s+dem\\s+Kopf|hinter\\s+sich|vergessen|fallen\\s+lassen|streichen)"
+      description: "German: forget previous tasks patterns"
     - field: user_input
       operator: regex
       value: "(?i)ACHTUNG\\s*[-:!]?\\s*(STOPP|STOP|HALT)\\s*[-:!]?"
@@ -208,6 +268,54 @@ detection:
       value: "(تجاهل|انسَ|تخطَّ|ألغِ|أهمل|اترك|اسقط).{0,20}(التعليمات|الأوامر|القواعد|القيود|الإرشادات|التوجيهات).{0,10}(السابقة|الأصلية|الحالية|القديمة)"
       description: "Arabic: Instruction override patterns"
+    # -- Layer 16c: Russian instruction override --
+    - field: user_input
+      operator: regex
+      value: "(?i)(забудь|забудьте|игнорируй|игнорируйте|проигнорируй|отбрось|отбросьте)\\s+(все|всё|предыдущие|прежние)?\\s*(инструкции|правила|указания|команды|ограничения)"
+      description: "Russian: Instruction override patterns"
+    # -- Layer 16d: Serbian/Croatian romanized injection --
+    - field: user_input
+      operator: regex
+      value: "(?i)(zaboravi|ignoriraj|zanemari|preskoči|preskoci)\\s+(sve|prethodne|ranije)?\\s*(instrukcije|pravila|upute|naredbe|ograničenja|ogranicenja|instrukci)"
+      description: "Serbian/Croatian: Romanized instruction override patterns"
+    # -- Layer 16e: German act-as / fungieren patterns --
+    - field: user_input
+      operator: regex
+      value: "(?i)(ich\\s+m[oö]chte,?\\s+dass\\s+Sie\\s+als|fungieren\\s+Sie\\s+als|agieren\\s+Sie\\s+als|spielen\\s+Sie\\s+die\\s+Rolle)\\s+.{3,50}"
+      description: "German: Formal act-as roleplay injection"
+    # -- Layer 16f: German informal persona switching --
+    - field: user_input
+      operator: regex
+      value: "(?i)(nun\\s+bist\\s+du|jetzt\\s+bist\\s+du|du\\s+bist\\s+(jetzt|nun|ab\\s+sofort))\\s+[A-Za-z\\u00C0-\\u024F]{2,}"
+      description: "German: Informal persona switching (du bist jetzt X)"
+    # -- Layer 16g: German vorangehende Befehle --
+    - field: user_input
+      operator: regex
+      value: "(?i)(ignoriere|vergiss)\\s+(alle[ns]?\\s+)?(vorangehenden?|fr[uü]heren?)\\s+(Befehle|Anweisungen|Anordnungen|Regeln)"
+      description: "German: Ignore preceding commands"
+    # -- Layer 16h: Spanish extended --
+    - field: user_input
+      operator: regex
+      value: "(?i)(olvid[ae]|olvide)\\s+(todo|todos?)\\s+(que|lo\\s+que)\\s+(digo|dije|he\\s+dicho|dicho)\\s+(antes|anteriormente)"
+      description: "Spanish: Forget everything I said before"
+    # -- Layer 17: ALL CAPS embedded injection in normal text --
+    - field: user_input
+      operator: regex
+      value: "(DO\\s+NOT\\s+(ANSWER|LOOK|READ|USE|FOLLOW|CHECK|RESPOND)|FORGET\\s+EVERYTHING|IGNORE\\s+ALL)"
+      description: "ALL-CAPS embedded injection commands hidden in normal text"
+    # -- Layer 18: Fictional framing with harmful role --
+    - field: user_input
+      operator: regex
+      value: "(?i)(are|is)\\s+(two\\s+)?(actors?|characters?)\\s+in\\s+a\\s+(film|movie|story)\\s+(about|where)\\s+[^\\n]{0,80}(robbery|hack|steal|thief|exploit|breach|attack|malware|bomb)"
+      description: "Fictional framing with harmful scenario (robbery, hacking, etc.)"
   condition: any
   false_positives:
     - "Users discussing prompt injection as a security topic in educational contexts"

package/rules/prompt-injection/ATR-2026-097-cjk-injection-patterns.yaml CHANGED Viewed

@@ -58,6 +58,21 @@ detection:
       operator: regex
       value: "(忽略|無視|忘記|跳過|放棄|不要管|別管|不用管|不用理).{0,10}(其他|其餘|所有|全部|一切|剩下|別的|任何).{0,10}(內容|東西|消息|訊息|文字|指令|規則|對話|聊天)"
       description: "Traditional Chinese: ignore all other content/messages - broad pattern"
+    # -- Simplified Chinese: ignore previous instructions --
+    - field: content
+      operator: regex
+      value: "(忽略|无视|忘记|跳过).{0,5}(之前|以前|上面|先前|原来|原有|现有).{0,5}(的)?.{0,5}(指令|指示|规则|设定|提示|要求|限制|约束)"
+      description: "Simplified Chinese: ignore previous instructions/rules"
+    # -- Traditional Chinese: ignore previous instructions --
+    - field: content
+      operator: regex
+      value: "(忽略|無視|忘記|跳過).{0,5}(之前|以前|上面|先前|原來|原有|現有).{0,5}(的)?.{0,5}(指令|指示|規則|設定|提示|要求|限制|約束)"
+      description: "Traditional Chinese: ignore previous instructions/rules"
+    # -- Japanese: ignore previous instructions --
+    - field: content
+      operator: regex
+      value: "(以前の|前の|これまでの|先ほどの|上記の).{0,5}(指示|指令|ルール|制約|設定).{0,5}(を)?.{0,5}(無視|忘れ|スキップ|取り消)"
+      description: "Japanese: ignore previous instructions/rules"
     # -- Imperative hijack: "you must" patterns --
     - field: content
       operator: regex

package/rules/skill-compromise/ATR-2026-061-description-behavior-mismatch.yaml CHANGED Viewed

@@ -12,7 +12,7 @@ date: "2026/03/08"
 schema_version: "0.1"
 detection_tier: pattern
 maturity: experimental
-severity: high
+severity: medium
 references:
   owasp_llm:

package/rules/skill-compromise/ATR-2026-063-skill-chain-attack.yaml CHANGED Viewed

@@ -43,7 +43,8 @@ detection:
   conditions:
     - field: tool_args
       operator: regex
-      value: "(?i)(/etc/passwd|/etc/shadow|\\.env|credentials|secrets?\\.json|private[_-]?key|id_rsa|kubeconfig|\\.aws/)"
+      value: "(?i)(/etc/passwd|/etc/shadow|(?<![a-z])\\.(env|aws/credentials)|secrets?\\.json|private[_-]?key|id_rsa|kubeconfig)"
+      description: "Sensitive file/credential access patterns (path-specific, not bare word 'credentials')"
     - field: tool_args
       operator: regex
       value: "(?i)(base64|btoa|encodeURI|hex\\.encode|rot13|xor|compress|gzip|deflate|encrypt)"