PyPI - tokmor - Versions diffs - 1.2.9__py3-none-any.whl - Mend

tokmor 1.2.9__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (70) hide show

tokmor/__init__.py +77 -0
tokmor/api.py +194 -0
tokmor/assets.py +365 -0
tokmor/base.py +238 -0
tokmor/brahmic.py +516 -0
tokmor/cjk.py +497 -0
tokmor/domain/__init__.py +11 -0
tokmor/domain/sentiment.py +198 -0
tokmor/factory.py +394 -0
tokmor/indic.py +289 -0
tokmor/inventory.py +51 -0
tokmor/legacy_api.py +143 -0
tokmor/lemma_store.py +102 -0
tokmor/lookup_keys.py +145 -0
tokmor/models/domain/sentiment/en.json +54 -0
tokmor/models/domain/sentiment/ko.json +52 -0
tokmor/models/seg_lexicon/km_wordfreq.pkl +0 -0
tokmor/models/seg_lexicon/km_wordlist.pkl +0 -0
tokmor/models/seg_lexicon/lo_wordfreq.pkl +0 -0
tokmor/models/seg_lexicon/lo_wordlist.pkl +0 -0
tokmor/models/seg_lexicon/my_wordfreq.pkl +0 -0
tokmor/models/seg_lexicon/my_wordlist.pkl +0 -0
tokmor/models/seg_lexicon/th_wordfreq.pkl +0 -0
tokmor/models/seg_lexicon/th_wordlist.pkl +0 -0
tokmor/models/seg_lexicon/zh_extra_dict.json +35 -0
tokmor/models/seg_lexicon/zh_wordfreq.pkl +0 -0
tokmor/morphology/__init__.py +395 -0
tokmor/morphology/advanced_base.py +472 -0
tokmor/morphology/arabic_advanced.py +247 -0
tokmor/morphology/chinese.py +736 -0
tokmor/morphology/chinese_advanced.py +425 -0
tokmor/morphology/english.py +315 -0
tokmor/morphology/english_advanced.py +560 -0
tokmor/morphology/french_advanced.py +237 -0
tokmor/morphology/german_advanced.py +343 -0
tokmor/morphology/hindi_advanced.py +258 -0
tokmor/morphology/japanese.py +417 -0
tokmor/morphology/japanese_advanced.py +589 -0
tokmor/morphology/korean.py +534 -0
tokmor/morphology/korean_advanced.py +603 -0
tokmor/morphology/russian_advanced.py +217 -0
tokmor/morphology/spanish_advanced.py +226 -0
tokmor/morphology/templates/__init__.py +32 -0
tokmor/morphology/templates/arabic_script_template.py +162 -0
tokmor/morphology/templates/brahmic_template.py +181 -0
tokmor/morphology/templates/cyrillic_template.py +168 -0
tokmor/morphology/templates/latin_template.py +235 -0
tokmor/morphology/templates/other_scripts_template.py +475 -0
tokmor/morphology/thai_native.py +274 -0
tokmor/morphology/tier2.py +477 -0
tokmor/morphology/tier3.py +449 -0
tokmor/morphology/tier4.py +410 -0
tokmor/morphology/unified.py +855 -0
tokmor/morphology/universal_fallback.py +398 -0
tokmor/ner_prep.py +747 -0
tokmor/offline.py +89 -0
tokmor/preprocess.py +80 -0
tokmor/resources.py +288 -0
tokmor/routing.py +147 -0
tokmor/rtl.py +309 -0
tokmor/schema.py +17 -0
tokmor/sns_tags.py +281 -0
tokmor/space_based.py +272 -0
tokmor/token_quality.py +1185 -0
tokmor/unified_tokens.py +228 -0
tokmor-1.2.9.dist-info/METADATA +103 -0
tokmor-1.2.9.dist-info/RECORD +70 -0
tokmor-1.2.9.dist-info/WHEEL +5 -0
tokmor-1.2.9.dist-info/licenses/LICENSE +22 -0
tokmor-1.2.9.dist-info/top_level.txt +1 -0

tokmor/morphology/french_advanced.py ADDED Viewed

@@ -0,0 +1,237 @@
+"""
+French Advanced Morphological Analyzer
+======================================
+5가지 고급 기능을 지원하는 프랑스어 형태소 분석기
+"""
+import re
+from typing import List, Tuple, Dict, Optional
+from .advanced_base import (
+    AdvancedMorphologicalAnalyzer, Morpheme, AnalysisResult, NBestResult, Domain
+)
+class FrenchAdvancedAnalyzer(AdvancedMorphologicalAnalyzer):
+    """프랑스어 고급 형태소 분석기"""
+    LANG_CODE = "fr"
+    LANG_NAME = "French"
+    WORD_PATTERN = re.compile(r"[a-zA-ZàâäéèêëïîôùûüÿœæçÀÂÄÉÈÊËÏÎÔÙÛÜŸŒÆÇ]+(?:-[a-zA-ZàâäéèêëïîôùûüÿœæçÀÂÄÉÈÊËÏÎÔÙÛÜŸŒÆÇ]+)*(?:'[a-zA-ZàâäéèêëïîôùûüÿœæçÀÂÄÉÈÊËÏÎÔÙÛÜŸŒÆÇ]+)?")
+    NUMBER_PATTERN = re.compile(r'[0-9]+(?:[.,][0-9]+)?')
+    def __init__(self):
+        super().__init__()
+    def _build_base_dictionary(self):
+        """기본 사전 구축"""
+        # 불규칙 동사 (être, avoir, aller, faire)
+        self.irregular_verbs = {
+            # être
+            'suis': 'être', 'es': 'être', 'est': 'être',
+            'sommes': 'être', 'êtes': 'être', 'sont': 'être',
+            'étais': 'être', 'était': 'être', 'étions': 'être',
+            'étiez': 'être', 'étaient': 'être', 'été': 'être',
+            # avoir
+            'ai': 'avoir', 'as': 'avoir', 'a': 'avoir',
+            'avons': 'avoir', 'avez': 'avoir', 'ont': 'avoir',
+            'avais': 'avoir', 'avait': 'avoir', 'avions': 'avoir',
+            'aviez': 'avoir', 'avaient': 'avoir', 'eu': 'avoir',
+            # aller
+            'vais': 'aller', 'vas': 'aller', 'va': 'aller',
+            'allons': 'aller', 'allez': 'aller', 'vont': 'aller',
+            'allais': 'aller', 'allait': 'aller', 'allé': 'aller',
+            # faire
+            'fais': 'faire', 'fait': 'faire', 'faisons': 'faire',
+            'faites': 'faire', 'font': 'faire', 'faisais': 'faire',
+            # pouvoir
+            'peux': 'pouvoir', 'peut': 'pouvoir', 'pouvons': 'pouvoir',
+            'pouvez': 'pouvoir', 'peuvent': 'pouvoir', 'pu': 'pouvoir',
+            # vouloir
+            'veux': 'vouloir', 'veut': 'vouloir', 'voulons': 'vouloir',
+            'voulez': 'vouloir', 'veulent': 'vouloir', 'voulu': 'vouloir',
+            # savoir
+            'sais': 'savoir', 'sait': 'savoir', 'savons': 'savoir',
+            'savez': 'savoir', 'savent': 'savoir', 'su': 'savoir',
+            # venir
+            'viens': 'venir', 'vient': 'venir', 'venons': 'venir',
+            'venez': 'venir', 'viennent': 'venir', 'venu': 'venir',
+            # prendre
+            'prends': 'prendre', 'prend': 'prendre', 'prenons': 'prendre',
+            'prenez': 'prendre', 'prennent': 'prendre', 'pris': 'prendre',
+        }
+        # 관사
+        self.articles = {
+            'le': 'DET', 'la': 'DET', 'les': 'DET', "l'": 'DET',
+            'un': 'DET', 'une': 'DET', 'des': 'DET',
+            'du': 'DET', 'de': 'DET', "d'": 'DET',
+            'au': 'DET', 'aux': 'DET',
+        }
+        # 대명사
+        self.pronouns = {
+            'je': 'PRON', 'tu': 'PRON', 'il': 'PRON', 'elle': 'PRON',
+            'on': 'PRON', 'nous': 'PRON', 'vous': 'PRON', 'ils': 'PRON', 'elles': 'PRON',
+            'me': 'PRON', 'te': 'PRON', 'se': 'PRON', 'lui': 'PRON', 'leur': 'PRON',
+            'ce': 'PRON', 'cela': 'PRON', 'ça': 'PRON', 'ceci': 'PRON',
+            'qui': 'PRON', 'que': 'PRON', 'quoi': 'PRON', 'dont': 'PRON',
+        }
+        # 전치사
+        self.prepositions = {
+            'à': 'PREP', 'de': 'PREP', 'en': 'PREP', 'dans': 'PREP',
+            'sur': 'PREP', 'sous': 'PREP', 'avec': 'PREP', 'sans': 'PREP',
+            'pour': 'PREP', 'par': 'PREP', 'chez': 'PREP', 'vers': 'PREP',
+            'entre': 'PREP', 'contre': 'PREP', 'depuis': 'PREP', 'pendant': 'PREP',
+            'avant': 'PREP', 'après': 'PREP', 'devant': 'PREP', 'derrière': 'PREP',
+        }
+        # 접속사
+        self.conjunctions = {
+            'et': 'CONJ', 'ou': 'CONJ', 'mais': 'CONJ', 'donc': 'CONJ',
+            'car': 'CONJ', 'ni': 'CONJ', 'or': 'CONJ',
+            'que': 'CONJ', 'si': 'CONJ', 'quand': 'CONJ', 'comme': 'CONJ',
+            'parce': 'CONJ', 'puisque': 'CONJ', 'lorsque': 'CONJ',
+        }
+        # 부사
+        self.adverbs = {
+            'très': 'ADV', 'bien': 'ADV', 'mal': 'ADV', 'peu': 'ADV',
+            'beaucoup': 'ADV', 'trop': 'ADV', 'assez': 'ADV', 'plus': 'ADV',
+            'moins': 'ADV', 'aussi': 'ADV', 'encore': 'ADV', 'toujours': 'ADV',
+            'jamais': 'ADV', 'souvent': 'ADV', 'parfois': 'ADV', 'ici': 'ADV',
+            'là': 'ADV', 'maintenant': 'ADV', 'déjà': 'ADV', 'bientôt': 'ADV',
+        }
+    def _build_domain_dictionaries(self):
+        """도메인별 사전"""
+        self._domain_dictionaries[Domain.TECH] = {
+            'pomme': ('Apple', 'NP'),
+            'nuage': ('cloud', 'NC'),
+        }
+        self._domain_dictionaries[Domain.FOOD] = {
+            'pomme': ('pomme', 'NC'),
+        }
+        self._domain_dictionaries[Domain.FINANCE] = {
+            'banque': ('banque', 'NC'),
+            'action': ('action', 'NC'),
+        }
+    def _generate_candidates(self, text: str, domain: Domain) -> List[AnalysisResult]:
+        if not text or not text.strip():
+            return [AnalysisResult([])]
+        morphemes = self._analyze_text(text, domain)
+        result = AnalysisResult(morphemes=morphemes, score=1.0, domain=domain)
+        result.score = self._score_analysis(result)
+        return [result]
+    def _analyze_text(self, text: str, domain: Domain) -> List[Morpheme]:
+        result = []
+        pos = 0
+        while pos < len(text):
+            if text[pos].isspace():
+                pos += 1
+                continue
+            word_match = self.WORD_PATTERN.match(text[pos:])
+            if word_match:
+                word = word_match.group()
+                morpheme = self._analyze_word(word, pos, domain)
+                result.append(morpheme)
+                pos += len(word)
+                continue
+            num_match = self.NUMBER_PATTERN.match(text[pos:])
+            if num_match:
+                num = num_match.group()
+                result.append(Morpheme(surface=num, lemma=num, pos='NUM', start=pos, end=pos + len(num)))
+                pos += len(num)
+                continue
+            result.append(Morpheme(surface=text[pos], lemma=text[pos], pos='PUNCT', start=pos, end=pos + 1))
+            pos += 1
+        return result
+    def _analyze_word(self, word: str, offset: int, domain: Domain) -> Morpheme:
+        word_lower = word.lower()
+        # 런타임 사전
+        if word_lower in self._user_dictionary:
+            lemma, pos_tag, _ = self._user_dictionary[word_lower]
+            return Morpheme(surface=word, lemma=lemma, pos=pos_tag, start=offset, end=offset + len(word))
+        # 도메인 사전
+        domain_sense = self._get_domain_sense(word_lower, domain)
+        if domain_sense:
+            return Morpheme(surface=word, lemma=domain_sense[0], pos=domain_sense[1], start=offset, end=offset + len(word))
+        # 기능어
+        if word_lower in self.articles:
+            return Morpheme(surface=word, lemma=word_lower, pos='DET', start=offset, end=offset + len(word))
+        if word_lower in self.pronouns:
+            return Morpheme(surface=word, lemma=word_lower, pos='PRON', start=offset, end=offset + len(word))
+        if word_lower in self.prepositions:
+            return Morpheme(surface=word, lemma=word_lower, pos='PREP', start=offset, end=offset + len(word))
+        if word_lower in self.conjunctions:
+            return Morpheme(surface=word, lemma=word_lower, pos='CONJ', start=offset, end=offset + len(word))
+        if word_lower in self.adverbs:
+            return Morpheme(surface=word, lemma=word_lower, pos='ADV', start=offset, end=offset + len(word))
+        # 불규칙 동사
+        if word_lower in self.irregular_verbs:
+            return Morpheme(surface=word, lemma=self.irregular_verbs[word_lower], pos='V', start=offset, end=offset + len(word))
+        # 형태 분석
+        lemma, pos_tag = self._analyze_morphology(word)
+        return Morpheme(surface=word, lemma=lemma, pos=pos_tag, start=offset, end=offset + len(word))
+    def _analyze_morphology(self, word: str) -> Tuple[str, str]:
+        # -er 동사 (1군)
+        if word.endswith('er') and len(word) > 3:
+            return (word, 'V')
+        # -ir 동사 (2군)
+        if word.endswith('ir') and len(word) > 3:
+            return (word, 'V')
+        # -re 동사 (3군)
+        if word.endswith('re') and len(word) > 3:
+            return (word, 'V')
+        # -tion/-sion 명사
+        if word.endswith(('tion', 'sion')) and len(word) > 5:
+            return (word, 'NC')
+        # -ment 부사
+        if word.endswith('ment') and len(word) > 5:
+            return (word, 'ADV')
+        # -eux/-euse 형용사
+        if word.endswith(('eux', 'euse')) and len(word) > 4:
+            return (word, 'ADJ')
+        # 대문자 시작 (고유명사)
+        if word[0].isupper():
+            return (word, 'NP')
+        return (word, 'NC')
+    def _generate_alternatives(self, text: str, domain: Domain, count: int) -> List[AnalysisResult]:
+        alternatives = []
+        other_domains = [d for d in Domain if d != domain][:count]
+        for alt_domain in other_domains:
+            morphemes = self._analyze_text(text, alt_domain)
+            result = AnalysisResult(morphemes=morphemes, score=0.8, domain=alt_domain)
+            result.score = self._score_analysis(result) * 0.9
+            alternatives.append(result)
+        return alternatives
+FrenchAnalyzer = FrenchAdvancedAnalyzer

tokmor/morphology/german_advanced.py ADDED Viewed

@@ -0,0 +1,343 @@
+"""
+German Advanced Morphological Analyzer
+======================================
+5가지 고급 기능을 지원하는 독일어 형태소 분석기
+Features:
+1. NER Gazetteer Integration - 개체명 경계 보존
+2. Real-time Dictionary Extension - 런타임 사전 확장
+3. Domain Adaptation - 도메인별 분석 최적화
+4. Code-switching - 다국어 혼용 텍스트 처리
+5. N-best Analysis - 다중 후보 + 신뢰도 점수
+"""
+import re
+from typing import List, Tuple, Dict, Set, Optional, Any
+from .advanced_base import (
+    AdvancedMorphologicalAnalyzer, Morpheme, AnalysisResult, NBestResult, Domain
+)
+class GermanAdvancedAnalyzer(AdvancedMorphologicalAnalyzer):
+    """
+    독일어 고급 형태소 분석기
+    특징:
+    - 복합명사 분해
+    - 강/약 변화 처리
+    - 분리동사 처리
+    """
+    LANG_CODE = "de"
+    LANG_NAME = "German"
+    WORD_PATTERN = re.compile(r'[a-zA-ZäöüÄÖÜß]+')
+    NUMBER_PATTERN = re.compile(r'[0-9]+(?:[.,][0-9]+)?')
+    def __init__(self):
+        super().__init__()
+    def _build_base_dictionary(self):
+        """기본 사전 구축"""
+        # =================================================================
+        # 불규칙 동사 (Strong Verbs)
+        # =================================================================
+        self.irregular_verbs = {
+            # sein
+            'bin': 'sein', 'bist': 'sein', 'ist': 'sein',
+            'sind': 'sein', 'seid': 'sein', 'war': 'sein',
+            'warst': 'sein', 'waren': 'sein', 'wart': 'sein',
+            'gewesen': 'sein',
+            # haben
+            'habe': 'haben', 'hast': 'haben', 'hat': 'haben',
+            'habt': 'haben', 'hatte': 'haben', 'hattest': 'haben',
+            'hatten': 'haben', 'hattet': 'haben', 'gehabt': 'haben',
+            # werden
+            'werde': 'werden', 'wirst': 'werden', 'wird': 'werden',
+            'werdet': 'werden', 'wurde': 'werden', 'wurdest': 'werden',
+            'wurden': 'werden', 'wurdet': 'werden', 'geworden': 'werden',
+            # 기타 강변화 동사
+            'ging': 'gehen', 'gegangen': 'gehen',
+            'kam': 'kommen', 'gekommen': 'kommen',
+            'sah': 'sehen', 'gesehen': 'sehen',
+            'nahm': 'nehmen', 'genommen': 'nehmen',
+            'gab': 'geben', 'gegeben': 'geben',
+            'fand': 'finden', 'gefunden': 'finden',
+            'sprach': 'sprechen', 'gesprochen': 'sprechen',
+            'trug': 'tragen', 'getragen': 'tragen',
+            'fuhr': 'fahren', 'gefahren': 'fahren',
+            'schlief': 'schlafen', 'geschlafen': 'schlafen',
+            'lief': 'laufen', 'gelaufen': 'laufen',
+            # 규칙 동사 활용형 (gehen, machen, etc.)
+            'gehe': 'gehen', 'gehst': 'gehen', 'geht': 'gehen',
+            'mache': 'machen', 'machst': 'machen', 'macht': 'machen',
+            'sage': 'sagen', 'sagst': 'sagen', 'sagt': 'sagen',
+            'arbeite': 'arbeiten', 'arbeitest': 'arbeiten', 'arbeitet': 'arbeiten',
+            'lerne': 'lernen', 'lernst': 'lernen', 'lernt': 'lernen',
+            'spiele': 'spielen', 'spielst': 'spielen', 'spielt': 'spielen',
+            'kaufe': 'kaufen', 'kaufst': 'kaufen', 'kauft': 'kaufen',
+            'frage': 'fragen', 'fragst': 'fragen', 'fragt': 'fragen',
+            'höre': 'hören', 'hörst': 'hören', 'hört': 'hören',
+            'lebe': 'leben', 'lebst': 'leben', 'lebt': 'leben',
+            'liebe': 'lieben', 'liebst': 'lieben', 'liebt': 'lieben',
+            'warte': 'warten', 'wartest': 'warten', 'wartet': 'warten',
+            'öffne': 'öffnen', 'öffnest': 'öffnen', 'öffnet': 'öffnen',
+            'zeige': 'zeigen', 'zeigst': 'zeigen', 'zeigt': 'zeigen',
+            'brauche': 'brauchen', 'brauchst': 'brauchen', 'braucht': 'brauchen',
+            'glaube': 'glauben', 'glaubst': 'glauben', 'glaubt': 'glauben',
+            'denke': 'denken', 'denkst': 'denken', 'denkt': 'denken',
+            'kenne': 'kennen', 'kennst': 'kennen', 'kennt': 'kennen',
+            'wohne': 'wohnen', 'wohnst': 'wohnen', 'wohnt': 'wohnen',
+            'suche': 'suchen', 'suchst': 'suchen', 'sucht': 'suchen',
+            'folge': 'folgen', 'folgst': 'folgen', 'folgt': 'folgen',
+            'führe': 'führen', 'führst': 'führen', 'führt': 'führen',
+            'laufe': 'laufen', 'läufst': 'laufen', 'läuft': 'laufen',
+            'fahre': 'fahren', 'fährst': 'fahren', 'fährt': 'fahren',
+            'lese': 'lesen', 'liest': 'lesen',
+            'esse': 'essen', 'isst': 'essen',
+            'schlafe': 'schlafen', 'schläfst': 'schlafen', 'schläft': 'schlafen',
+            'spreche': 'sprechen', 'sprichst': 'sprechen', 'spricht': 'sprechen',
+            'nehme': 'nehmen', 'nimmst': 'nehmen', 'nimmt': 'nehmen',
+            'gebe': 'geben', 'gibst': 'geben', 'gibt': 'geben',
+            'sehe': 'sehen', 'siehst': 'sehen', 'sieht': 'sehen',
+            'helfe': 'helfen', 'hilfst': 'helfen', 'hilft': 'helfen',
+            'treffe': 'treffen', 'triffst': 'treffen', 'trifft': 'treffen',
+            'finde': 'finden', 'findest': 'finden', 'findet': 'finden',
+            'stehe': 'stehen', 'stehst': 'stehen', 'steht': 'stehen',
+            'sitze': 'sitzen', 'sitzt': 'sitzen',
+            'liege': 'liegen', 'liegst': 'liegen', 'liegt': 'liegen',
+            'bleibe': 'bleiben', 'bleibst': 'bleiben', 'bleibt': 'bleiben',
+            'komme': 'kommen', 'kommst': 'kommen', 'kommt': 'kommen',
+            'bringe': 'bringen', 'bringst': 'bringen', 'bringt': 'bringen',
+            'trage': 'tragen', 'trägst': 'tragen', 'trägt': 'tragen',
+            'halte': 'halten', 'hältst': 'halten', 'hält': 'halten',
+            'falle': 'fallen', 'fällst': 'fallen', 'fällt': 'fallen',
+            'lasse': 'lassen', 'lässt': 'lassen',
+            'rufe': 'rufen', 'rufst': 'rufen', 'ruft': 'rufen',
+            'schreibe': 'schreiben', 'schreibst': 'schreiben', 'schreibt': 'schreiben',
+            'ziehe': 'ziehen', 'ziehst': 'ziehen', 'zieht': 'ziehen',
+            'weiß': 'wissen', 'weißt': 'wissen', 'wisst': 'wissen', 'wissen': 'wissen',
+        }
+        # =================================================================
+        # 관사 (Articles)
+        # =================================================================
+        self.articles = {
+            # 정관사
+            'der': 'ART', 'die': 'ART', 'das': 'ART',
+            'den': 'ART', 'dem': 'ART', 'des': 'ART',
+            # 부정관사
+            'ein': 'ART', 'eine': 'ART', 'einer': 'ART',
+            'einem': 'ART', 'einen': 'ART', 'eines': 'ART',
+        }
+        # =================================================================
+        # 대명사 (Pronouns)
+        # =================================================================
+        self.pronouns = {
+            'ich': 'PPER', 'du': 'PPER', 'er': 'PPER', 'sie': 'PPER', 'es': 'PPER',
+            'wir': 'PPER', 'ihr': 'PPER',
+            'mich': 'PPER', 'dich': 'PPER', 'ihn': 'PPER',
+            'mir': 'PPER', 'dir': 'PPER', 'ihm': 'PPER',
+            'uns': 'PPER', 'euch': 'PPER', 'ihnen': 'PPER',
+            'mein': 'PPOS', 'dein': 'PPOS', 'sein': 'PPOS',
+            'unser': 'PPOS', 'euer': 'PPOS',
+            'dieser': 'PDEM', 'diese': 'PDEM', 'dieses': 'PDEM',
+            'jener': 'PDEM', 'jene': 'PDEM', 'jenes': 'PDEM',
+        }
+        # =================================================================
+        # 전치사 (Prepositions)
+        # =================================================================
+        self.prepositions = {
+            'in': 'APPR', 'an': 'APPR', 'auf': 'APPR', 'für': 'APPR',
+            'mit': 'APPR', 'von': 'APPR', 'zu': 'APPR', 'bei': 'APPR',
+            'nach': 'APPR', 'über': 'APPR', 'unter': 'APPR', 'vor': 'APPR',
+            'zwischen': 'APPR', 'durch': 'APPR', 'gegen': 'APPR',
+            'ohne': 'APPR', 'um': 'APPR', 'aus': 'APPR', 'seit': 'APPR',
+            # 축약형 (Preposition + Article)
+            'zur': 'APPRART', 'zum': 'APPRART', 'im': 'APPRART', 'am': 'APPRART',
+            'ins': 'APPRART', 'ans': 'APPRART', 'vom': 'APPRART', 'beim': 'APPRART',
+            'aufs': 'APPRART', 'fürs': 'APPRART', 'ums': 'APPRART',
+        }
+        # =================================================================
+        # 접속사 (Conjunctions)
+        # =================================================================
+        self.conjunctions = {
+            'und': 'KON', 'oder': 'KON', 'aber': 'KON', 'denn': 'KON',
+            'sondern': 'KON', 'doch': 'KON',
+            'dass': 'KOUS', 'weil': 'KOUS', 'wenn': 'KOUS', 'als': 'KOUS',
+            'ob': 'KOUS', 'obwohl': 'KOUS', 'während': 'KOUS',
+            'bevor': 'KOUS', 'nachdem': 'KOUS', 'damit': 'KOUS',
+        }
+        # =================================================================
+        # 조동사 (Modal Verbs)
+        # =================================================================
+        self.modal_verbs = {
+            'kann': 'können', 'kannst': 'können', 'können': 'können', 'könnt': 'können',
+            'konnte': 'können', 'konnten': 'können', 'gekonnt': 'können',
+            'muss': 'müssen', 'musst': 'müssen', 'müssen': 'müssen', 'müsst': 'müssen',
+            'musste': 'müssen', 'mussten': 'müssen', 'gemusst': 'müssen',
+            'will': 'wollen', 'willst': 'wollen', 'wollen': 'wollen', 'wollt': 'wollen',
+            'wollte': 'wollen', 'wollten': 'wollen', 'gewollt': 'wollen',
+            'soll': 'sollen', 'sollst': 'sollen', 'sollen': 'sollen', 'sollt': 'sollen',
+            'sollte': 'sollen', 'sollten': 'sollen', 'gesollt': 'sollen',
+            'darf': 'dürfen', 'darfst': 'dürfen', 'dürfen': 'dürfen', 'dürft': 'dürfen',
+            'durfte': 'dürfen', 'durften': 'dürfen', 'gedurft': 'dürfen',
+            'mag': 'mögen', 'magst': 'mögen', 'mögen': 'mögen', 'mögt': 'mögen',
+            'mochte': 'mögen', 'mochten': 'mögen', 'gemocht': 'mögen',
+        }
+        # =================================================================
+        # 복합명사 요소
+        # =================================================================
+        self.compound_elements = {
+            'Auto': 'NN', 'Bahn': 'NN', 'Haus': 'NN', 'Stadt': 'NN',
+            'Land': 'NN', 'Straße': 'NN', 'Platz': 'NN', 'Markt': 'NN',
+            'Arbeit': 'NN', 'Zeit': 'NN', 'Tag': 'NN', 'Jahr': 'NN',
+            'Woche': 'NN', 'Monat': 'NN', 'Geld': 'NN', 'Bank': 'NN',
+        }
+    def _build_domain_dictionaries(self):
+        """도메인별 사전 구축"""
+        self._domain_dictionaries[Domain.TECH] = {
+            'apfel': ('Apple', 'NE'),
+            'wolke': ('Cloud', 'NN'),
+            'netz': ('Netzwerk', 'NN'),
+        }
+        self._domain_dictionaries[Domain.FOOD] = {
+            'apfel': ('Apfel', 'NN'),
+        }
+        self._domain_dictionaries[Domain.FINANCE] = {
+            'bank': ('Bank', 'NN'),
+            'aktie': ('Aktie', 'NN'),
+        }
+    def _generate_candidates(self, text: str, domain: Domain) -> List[AnalysisResult]:
+        """분석 후보 생성"""
+        if not text or not text.strip():
+            return [AnalysisResult([])]
+        morphemes = self._analyze_text(text, domain)
+        result = AnalysisResult(morphemes=morphemes, score=1.0, domain=domain)
+        result.score = self._score_analysis(result)
+        return [result]
+    def _analyze_text(self, text: str, domain: Domain) -> List[Morpheme]:
+        """텍스트 분석"""
+        result = []
+        pos = 0
+        while pos < len(text):
+            if text[pos].isspace():
+                pos += 1
+                continue
+            word_match = self.WORD_PATTERN.match(text[pos:])
+            if word_match:
+                word = word_match.group()
+                morpheme = self._analyze_word(word, pos, domain)
+                result.append(morpheme)
+                pos += len(word)
+                continue
+            num_match = self.NUMBER_PATTERN.match(text[pos:])
+            if num_match:
+                num = num_match.group()
+                result.append(Morpheme(surface=num, lemma=num, pos='CARD', start=pos, end=pos + len(num)))
+                pos += len(num)
+                continue
+            result.append(Morpheme(surface=text[pos], lemma=text[pos], pos='XY', start=pos, end=pos + 1))
+            pos += 1
+        return result
+    def _analyze_word(self, word: str, offset: int, domain: Domain) -> Morpheme:
+        """단어 분석"""
+        word_lower = word.lower()
+        # 런타임 사전
+        if word_lower in self._user_dictionary:
+            lemma, pos_tag, _ = self._user_dictionary[word_lower]
+            return Morpheme(surface=word, lemma=lemma, pos=pos_tag, start=offset, end=offset + len(word))
+        # 도메인 사전
+        domain_sense = self._get_domain_sense(word_lower, domain)
+        if domain_sense:
+            return Morpheme(surface=word, lemma=domain_sense[0], pos=domain_sense[1], start=offset, end=offset + len(word))
+        # 기능어
+        if word_lower in self.articles:
+            return Morpheme(surface=word, lemma=word_lower, pos=self.articles[word_lower], start=offset, end=offset + len(word))
+        if word_lower in self.pronouns:
+            return Morpheme(surface=word, lemma=word_lower, pos=self.pronouns[word_lower], start=offset, end=offset + len(word))
+        if word_lower in self.prepositions:
+            return Morpheme(surface=word, lemma=word_lower, pos=self.prepositions[word_lower], start=offset, end=offset + len(word))
+        if word_lower in self.conjunctions:
+            return Morpheme(surface=word, lemma=word_lower, pos=self.conjunctions[word_lower], start=offset, end=offset + len(word))
+        # 불규칙 동사
+        if word_lower in self.irregular_verbs:
+            return Morpheme(surface=word, lemma=self.irregular_verbs[word_lower], pos='VVFIN', start=offset, end=offset + len(word))
+        # 조동사
+        if word_lower in self.modal_verbs:
+            return Morpheme(surface=word, lemma=self.modal_verbs[word_lower], pos='VMFIN', start=offset, end=offset + len(word))
+        # 형태 분석
+        lemma, pos_tag = self._analyze_morphology(word)
+        return Morpheme(surface=word, lemma=lemma, pos=pos_tag, start=offset, end=offset + len(word))
+    def _analyze_morphology(self, word: str) -> Tuple[str, str]:
+        """형태 분석"""
+        # -en 동사 어미
+        if word.endswith('en') and len(word) > 3:
+            return (word, 'VVINF')
+        # -t 동사 어미 (3인칭)
+        if word.endswith('t') and len(word) > 2:
+            return (word[:-1] + 'en', 'VVFIN')
+        # -ung 명사
+        if word.endswith('ung') and len(word) > 4:
+            return (word, 'NN')
+        # -heit/-keit 명사
+        if word.endswith(('heit', 'keit')) and len(word) > 5:
+            return (word, 'NN')
+        # -lich/-ig 형용사
+        if word.endswith(('lich', 'ig')) and len(word) > 4:
+            return (word, 'ADJD')
+        # 대문자 시작 (명사)
+        if word[0].isupper():
+            return (word, 'NN')
+        return (word, 'NN')
+    def _generate_alternatives(self, text: str, domain: Domain, count: int) -> List[AnalysisResult]:
+        """대안 생성"""
+        alternatives = []
+        other_domains = [d for d in Domain if d != domain][:count]
+        for alt_domain in other_domains:
+            morphemes = self._analyze_text(text, alt_domain)
+            result = AnalysisResult(morphemes=morphemes, score=0.8, domain=alt_domain)
+            result.score = self._score_analysis(result) * 0.9
+            alternatives.append(result)
+        return alternatives
+GermanAnalyzer = GermanAdvancedAnalyzer