npm - design-clone - Versions diffs - 1.2.0 → 2.1.0 - Mend

design-clone 1.2.0 → 2.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (66) hide show

package/README.md +26 -12
package/bin/commands/clone-site.js +75 -10
package/bin/commands/init.js +33 -1
package/bin/commands/verify.js +5 -3
package/bin/utils/validate.js +24 -8
package/docs/cli-reference.md +200 -2
package/docs/codebase-summary.md +309 -0
package/docs/design-clone-architecture.md +259 -42
package/docs/pixel-perfect.md +35 -4
package/docs/project-roadmap.md +382 -0
package/docs/troubleshooting.md +5 -4
package/package.json +10 -8
package/src/ai/__pycache__/analyze-structure.cpython-313.pyc +0 -0
package/src/ai/__pycache__/extract-design-tokens.cpython-313.pyc +0 -0
package/src/ai/analyze-structure.py +73 -3
package/src/ai/extract-design-tokens.py +356 -13
package/src/ai/prompts/__pycache__/design_tokens.cpython-313.pyc +0 -0
package/src/ai/prompts/__pycache__/structure_analysis.cpython-313.pyc +0 -0
package/src/ai/prompts/__pycache__/ux_audit.cpython-313.pyc +0 -0
package/src/ai/prompts/design_tokens.py +133 -0
package/src/ai/prompts/structure_analysis.py +329 -10
package/src/ai/prompts/ux_audit.py +198 -0
package/src/ai/ux-audit.js +596 -0
package/src/core/app-state-snapshot.js +511 -0
package/src/core/content-counter.js +342 -0
package/src/core/cookie-handler.js +1 -1
package/src/core/css-extractor.js +4 -4
package/src/core/dimension-extractor.js +93 -21
package/src/core/dimension-output.js +103 -6
package/src/core/discover-pages.js +242 -14
package/src/core/dom-tree-analyzer.js +298 -0
package/src/core/extract-assets.js +1 -1
package/src/core/framework-detector.js +538 -0
package/src/core/html-extractor.js +45 -4
package/src/core/lazy-loader.js +7 -7
package/src/core/multi-page-screenshot.js +9 -6
package/src/core/page-readiness.js +8 -8
package/src/core/screenshot.js +138 -9
package/src/core/section-cropper.js +209 -0
package/src/core/section-detector.js +386 -0
package/src/core/semantic-enhancer.js +492 -0
package/src/core/state-capture.js +18 -22
package/src/core/tests/test-section-cropper.js +177 -0
package/src/core/tests/test-section-detector.js +55 -0
package/src/core/video-capture.js +152 -146
package/src/route-discoverers/angular-discoverer.js +157 -0
package/src/route-discoverers/astro-discoverer.js +123 -0
package/src/route-discoverers/base-discoverer.js +242 -0
package/src/route-discoverers/index.js +106 -0
package/src/route-discoverers/next-discoverer.js +130 -0
package/src/route-discoverers/nuxt-discoverer.js +138 -0
package/src/route-discoverers/react-discoverer.js +139 -0
package/src/route-discoverers/svelte-discoverer.js +109 -0
package/src/route-discoverers/universal-discoverer.js +227 -0
package/src/route-discoverers/vue-discoverer.js +118 -0
package/src/utils/__init__.py +1 -1
package/src/utils/__pycache__/__init__.cpython-313.pyc +0 -0
package/src/utils/browser.js +11 -37
package/src/utils/playwright.js +213 -0
package/src/verification/generate-audit-report.js +398 -0
package/src/verification/verify-footer.js +493 -0
package/src/verification/verify-header.js +486 -0
package/src/verification/verify-layout.js +2 -2
package/src/verification/verify-menu.js +4 -20
package/src/verification/verify-slider.js +533 -0
package/src/utils/puppeteer.js +0 -281

package/docs/codebase-summary.md ADDED Viewed

@@ -0,0 +1,309 @@
+# Codebase Summary
+## Overview
+Design Clone is a comprehensive design extraction toolkit that captures website designs through multi-viewport screenshots, extracts HTML/CSS, analyzes structure with AI, and enhances semantic HTML for WordPress compatibility.
+## Core Architecture
+### Directory Structure
+```
+design-clone/
+├── src/
+│   ├── core/                          # Core extraction & processing modules
+│   │   ├── screenshot.js              # Multi-viewport screenshot capture
+│   │   ├── html-extractor.js          # HTML extraction + semantic enhancement
+│   │   ├── semantic-enhancer.js       # WordPress semantic HTML injection (Phase 3)
+│   │   ├── css-extractor.js           # CSS extraction & property tracking
+│   │   ├── filter-css.js              # Unused CSS selector removal
+│   │   ├── animation-extractor.js     # @keyframes & transition extraction
+│   │   ├── state-capture.js           # Hover state capture
+│   │   ├── extract-assets.js          # Image/font/icon downloading
+│   │   ├── design-tokens.js           # Design token extraction
+│   │   ├── dom-tree-analyzer.js       # DOM hierarchy for structure analysis
+│   │   ├── dimension-extractor.js     # Component dimension measurement
+│   │   ├── section-cropper.js         # Section extraction for AI analysis
+│   │   ├── page-readiness.js          # Page stability detection
+│   │   ├── lazy-loader.js             # Lazy loading trigger & wait
+│   │   ├── cookie-handler.js          # Cookie banner dismissal
+│   │   ├── content-counter.js         # Content statistics
+│   │   ├── video-capture.js           # Scroll animation recording
+│   │   └── app-state-snapshot.js      # App state persistence
+│   ├── ai/                            # AI analysis modules
+│   │   ├── ux-audit.js                # UX audit runner
+│   │   └── prompts/                   # AI prompts
+│   ├── verification/                  # Verification scripts
+│   └── utils/                         # Shared utilities
+│       ├── browser.js                 # Browser abstraction facade
+│       ├── env.js                     # Environment resolution
+│       └── helpers.js                 # CLI utilities
+├── tests/                             # Unit tests
+│   ├── test-semantic-enhancer.js      # Semantic enhancer tests (59 tests)
+│   └── [other test files]
+└── package.json
+```
+## Key Modules
+### 1. semantic-enhancer.js (Phase 3)
+**Purpose**: Inject WordPress-compatible semantic IDs, classes, and ARIA roles into extracted HTML while preserving original styling.
+**Key Exports**:
+- `SEMANTIC_MAPPINGS` - Mapping definitions for header, nav, main, sidebar, footer, hero
+- `detectSectionType(element)` - Detect section type via semantic tags (priority 1), ARIA roles (priority 2), class patterns (priority 3)
+- `applySemanticAttributes(element, sectionType, options)` - Add ID/classes/roles to element
+- `handleMultipleNavs(navElements, usedIds)` - Handle multiple nav elements with aria-label
+- `enhanceSemanticHTML(html, domHierarchy)` - Browser-context enhancement (uses DOMParser)
+- `enhanceSemanticHTMLInPage(page, html)` - Playwright-context enhancement (recommended for Node.js)
+**Semantic Mappings**:
+```javascript
+header: { id: 'site-header', classes: ['site-header'], role: 'banner' }
+nav: { id: 'site-navigation', classes: ['main-navigation', 'nav-menu'], role: 'navigation' }
+main: { id: 'main-content', classes: ['site-main', 'content-area'], role: 'main' }
+sidebar: { id: 'primary-sidebar', classes: ['widget-area', 'sidebar'], role: 'complementary' }
+footer: { id: 'site-footer', classes: ['site-footer'], role: 'contentinfo' }
+hero: { id: 'hero-section', classes: ['hero'], role: null }
+```
+**Detection Priority**:
+1. Semantic HTML tags (header, nav, main, aside, footer)
+2. ARIA role attributes (banner, navigation, main, complementary, contentinfo)
+3. Class pattern matching (header, nav, main, sidebar, footer, hero)
+**Rules**:
+- Add ID only if none exists (avoid duplicates)
+- Append classes (never replace existing)
+- Set role only if not present
+- Handle multiple navs with proper aria-label (Primary Menu, Footer Menu, etc.)
+### 2. html-extractor.js (Modified)
+**New Function**: `extractAndEnhanceHtml(page, options)`
+Extracts clean HTML and optionally applies semantic enhancement via semantic-enhancer.js.
+**Options**:
+```javascript
+{
+  enhanceSemantic: true,           // Enable semantic enhancement (default: true)
+  frameworkPatterns: [...]         // Custom framework patterns to remove
+}
+```
+**Returns**:
+```javascript
+{
+  html: string,                    // Enhanced HTML
+  warnings: string[],              // Processing warnings
+  elementCount: number,            // DOM element count
+  semanticStats: {                 // Only if enhanceSemantic=true
+    sectionsEnhanced: number,
+    idsAdded: number,
+    classesAdded: number,
+    rolesAdded: number,
+    warnings: string[]
+  }
+}
+```
+**Existing Functions**:
+- `extractCleanHtml(page, frameworkPatterns)` - Remove scripts, event handlers, framework attributes
+### 3. screenshot.js (Modified)
+**New Flag**: `--no-semantic`
+Disable WordPress semantic HTML enhancement in extracted HTML. By default, semantic enhancement is enabled.
+**Usage**:
+```bash
+node src/core/screenshot.js --url https://example.com --output ./out --extract-html --no-semantic
+```
+### 4. multi-page-screenshot.js (Modified)
+Uses `extractAndEnhanceHtml()` instead of separate extraction steps.
+## Processing Pipeline
+### Multi-Viewport Screenshot Flow
+```
+Input URL
+├─ Desktop (1440x900)
+├─ Tablet (768x1024)
+└─ Mobile (375x812)
+      │
+      ├── Wait for page readiness (DOM stable, fonts loaded, styles stable)
+      ├── Dismiss cookie banners
+      ├── Trigger lazy loading
+      ├── Force lazy images visible
+      ├── Capture screenshots
+      │
+      ├── Optional: Extract HTML
+      │   ├─ Clean HTML (remove scripts, framework attrs)
+      │   └─ Semantic enhance (add WordPress IDs/classes/roles)
+      │
+      ├── Optional: Extract CSS
+      │   ├─ Collect all stylesheet rules
+      │   ├─ Extract @keyframes & transitions
+      │   └─ Filter unused selectors
+      │
+      ├── Optional: Capture hover states
+      │   ├─ Identify interactive elements
+      │   ├─ Screenshot before/during hover
+      │   └─ Generate :hover CSS rules
+      │
+      └── Output: Screenshots + metadata
+Output Files
+├── desktop.png, tablet.png, mobile.png
+├── source.html (cleaned + optionally semantically enhanced)
+├── source.css, source-raw.css
+├── animations.css, animation-tokens.json
+├── hover.css (if --capture-hover)
+├── structure.md (if GEMINI_API_KEY set)
+└── tokens.json
+```
+## Testing
+### Test Files
+- `tests/test-semantic-enhancer.js` - 59 unit tests covering:
+  - SEMANTIC_MAPPINGS exports
+  - Section type detection (header, nav, main, sidebar, footer, hero)
+  - Semantic attribute application
+  - Multiple nav handling with aria-labels
+  - HTML enhancement stats
+  - Page.evaluate integration
+**Run Tests**:
+```bash
+node tests/test-semantic-enhancer.js
+```
+## Data Flow
+### Semantic Enhancement Data Flow
+```
+extractAndEnhanceHtml()
+├─ extractCleanHtml(page)
+│  └─ page.evaluate()
+│     ├─ Clone document
+│     ├─ Remove scripts/noscript
+│     ├─ Remove malicious CSS links
+│     ├─ Remove event handlers
+│     ├─ Remove framework attributes
+│     ├─ Inline critical layout styles
+│     └─ Return cleaned HTML + warnings
+│
+└─ enhanceSemanticHTMLInPage(page, html)
+   └─ page.evaluate(enhancementLogic)
+      ├─ Parse HTML with DOMParser
+      ├─ Detect sections (semantic tags → ARIA roles → class patterns)
+      ├─ Apply IDs/classes/roles
+      ├─ Handle multiple navs with aria-labels
+      ├─ Detect hero sections
+      └─ Return enhanced HTML + stats
+```
+## Configuration & Environment
+### CLI Options (screenshot.js)
+| Option | Default | Phase | Description |
+|--------|---------|-------|-------------|
+| --url | required | - | Target URL |
+| --output | required | - | Output directory |
+| --viewports | all | - | Comma-separated viewport names |
+| --full-page | true | - | Capture full page height |
+| --max-size | 5 | - | Max file size (MB) before compression |
+| --headless | false | - | Run in headless mode |
+| --scroll-delay | 1500 | - | Pause time (ms) between scroll steps |
+| --extract-html | false | - | Extract cleaned HTML |
+| --extract-css | false | - | Extract CSS |
+| --filter-unused | true | - | Filter unused CSS selectors |
+| --capture-hover | false | 2 | Capture hover states |
+| --section-mode | false | - | Enable section-based capture |
+| --no-semantic | false | 3 | Disable semantic HTML enhancement |
+| --video | false | - | Record scroll animation |
+### Environment Variables
+```bash
+GEMINI_API_KEY=...      # For AI structure analysis
+```
+## Design Patterns
+### Error Handling
+All modules use try-catch with warning accumulation. Failed processing steps return partial results rather than throwing.
+### Idempotency
+Semantic enhancement is idempotent—running on already-enhanced HTML produces same result (IDs/classes/roles already present are skipped).
+### Performance
+- Combined landmark selector reduces querySelectorAll calls (8 → 1)
+- Processed element tracking prevents double-counting from overlapping selectors
+- Index-based element matching for reliability during DOM cloning
+### Validation
+- Input validation on HTML strings (non-empty, valid string type)
+- Browser context validation (DOMParser vs page.evaluate)
+- ID uniqueness tracking with usedIds Set
+- DOM size warnings (>50k elements)
+## Version History
+### Phase 1
+- Multi-viewport screenshots
+- HTML/CSS extraction
+- Asset extraction
+### Phase 2
+- Hover state capture
+- UX audit with Gemini
+- Design token extraction
+- DOM tree analysis
+### Phase 3
+- WordPress semantic HTML enhancement (CURRENT)
+- Semantic ID/class/role injection
+- ARIA landmark support
+- Multiple nav handling
+## Integration Points
+### With screenshot.js
+- New `--no-semantic` flag to disable enhancement
+- Automatic semantic enhancement when extracting HTML (unless disabled)
+### With html-extractor.js
+- New `extractAndEnhanceHtml()` function wraps extraction + enhancement
+- `enhanceSemantic` option controls semantic injection
+### With multi-page-screenshot.js
+- Uses `extractAndEnhanceHtml()` for HTML extraction
+## Dependencies
+- **playwright** - Browser automation
+- **sharp** - Image compression (optional)
+- **google-genai** - AI analysis (optional, for Phase 2 features)
+## Limitations & Considerations
+1. **Browser Context Required**: `enhanceSemanticHTML()` requires DOMParser (browser). Use `enhanceSemanticHTMLInPage()` for Playwright.
+2. **Non-Invasive**: Semantic enhancement never removes existing attributes, only adds/appends.
+3. **False Positive Prevention**: Class pattern detection limited to container elements (div, section, article) to avoid false positives.
+4. **Multiple Landing Pages**: Each nav gets unique aria-label (Primary Menu, Footer Menu, Navigation 2, etc.)
+5. **Hero Section Detection**: Only top-level hero elements (not within header/footer) are detected.