npm - @alibaba-group/open-code-review - Versions diffs - 1.3.19 → 1.4.1 - Mend

@alibaba-group/open-code-review 1.3.19 → 1.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

package/README.ja-JP.md CHANGED Viewed

@@ -24,6 +24,22 @@ Gitのdiffを読み取り、変更されたファイルをツール利用機能
 ![Highlights](imgs/highlights-en.png)
+## ベンチマーク
+> 汎用エージェント（Claude Code）と比較して、Open Code Reviewは同じ基盤モデルで有意に高い**精度（Precision）**と**F1スコア**を達成し、トークン消費量は**約1/9**にとどまり、レビューもより高速です。ただし、リコール（Recall）は汎用エージェントより低くなります——これはノイズを抑え精度を優先する設計上のトレードオフです。
+実際のコードレビューに基づくベンチマーク。**50**の人気オープンソースリポジトリから**200**の実際のPull Requestを厳選し、**10**のプログラミング言語をカバー——80人以上のシニアエンジニアによるクロスバリデーション（**1,505**件のアノテーション済み欠陥）。
+| 指標 | 測定内容 | 重要性 |
+|------|----------|--------|
+| **F1** | 精度とリコールの調和平均 | レビュー品質を示す最良の単一指標 |
+| **精度 (Precision)** | 報告された問題のうち実際の欠陥の割合 | 高い = 確認すべき偽陽性が少ない |
+| **リコール (Recall)** | 実際の欠陥のうち発見された割合 | 高い = 見逃しが少ない |
+| **平均時間 (Avg Time)** | レビューあたりの実時間 | CIパイプラインの待機時間に影響 |
+| **平均トークン (Avg Token)** | レビューあたりの総トークン消費量 | APIコストに直接影響 |
+![Benchmark](imgs/benchmark-en.png)
 ## なぜOpen Code Reviewなのか？
 ### 汎用エージェントの問題点

package/README.ko-KR.md CHANGED Viewed

@@ -24,6 +24,22 @@ Open Code Review는 AI 기반 코드 리뷰 CLI 도구입니다. Alibaba Group
 ![Highlights](imgs/highlights-en.png)
+## 벤치마크
+> 범용 Agent(Claude Code)와 비교할 때, Open Code Review는 동일한 기반 모델에서 유의미하게 높은 **정밀도(Precision)**와 **F1 점수**를 달성하며, 토큰 소비량은 **약 1/9** 수준이고 리뷰 속도도 더 빠릅니다. 다만 재현율(Recall)은 범용 Agent보다 낮습니다 — 이는 노이즈를 줄이고 정밀도를 우선하는 설계적 트레이드오프입니다.
+실제 코드 리뷰 기반 벤치마크. **50**개 인기 오픈소스 저장소에서 **200**개 실제 Pull Request를 엄선하고, **10**개 프로그래밍 언어를 커버 — 80명 이상의 시니어 엔지니어가 교차 검증(**1,505**개 어노테이션된 결함).
+| 지표 | 측정 내용 | 중요한 이유 |
+|------|-----------|-------------|
+| **F1** | 정밀도와 재현율의 조화 평균 | 리뷰 품질을 나타내는 최적의 단일 지표 |
+| **정밀도 (Precision)** | 보고된 이슈 중 실제 결함 비율 | 높을수록 확인할 오탐이 적음 |
+| **재현율 (Recall)** | 실제 결함 중 발견된 비율 | 높을수록 놓치는 이슈가 적음 |
+| **평균 시간 (Avg Time)** | 리뷰당 실제 소요 시간 | CI 파이프라인 대기 시간에 영향 |
+| **평균 토큰 (Avg Token)** | 리뷰당 총 토큰 소비량 | API 비용에 직접 영향 |
+![Benchmark](imgs/benchmark-en.png)
 ## 왜 Open Code Review인가?
 ### 범용 Agent의 문제

package/README.md CHANGED Viewed

@@ -24,6 +24,22 @@ It reads Git diffs, sends changed files to a configurable LLM via an agent with
 ![Highlights](imgs/highlights-en.png)
+## Benchmark
+> Compared to general-purpose agents (Claude Code), Open Code Review achieves significantly higher **Precision** and **F1** with the same underlying model, while consuming only **~1/9 of the tokens** and completing reviews faster. Note that its Recall is lower than general-purpose agents — a deliberate trade-off favoring precision over noise.
+A real-world code review benchmark built from **50** popular open-source repositories, **200** real Pull Requests, and **10** programming languages — cross-validated by 80+ senior engineers (**1,505** annotated ground-truth issues).
+| Metric | What it measures | Why it matters |
+|--------|-----------------|----------------|
+| **F1** | Harmonic mean of precision and recall | Best single number for overall review quality |
+| **Precision** | % of reported issues that are real defects | Higher = fewer false alarms to triage |
+| **Recall** | % of real defects that are found | Higher = fewer issues slip through review |
+| **Avg Time** | Wall-clock time per review | Matters for CI pipeline latency |
+| **Avg Token** | Total tokens consumed per review | Directly impacts API cost |
+![Benchmark](imgs/benchmark-en.png)
 ## Why Open Code Review?
 ### The Problem with General-Purpose Agents

package/README.ru-RU.md CHANGED Viewed

@@ -24,6 +24,22 @@ Open Code Review — это CLI-инструмент для код-ревью н
 ![Highlights](imgs/highlights-en.png)
+## Бенчмарк
+> По сравнению с агентами общего назначения (Claude Code), Open Code Review при той же базовой модели достигает значительно более высоких показателей **Precision** и **F1**, потребляя лишь **~1/9 токенов** и выполняя ревью быстрее. При этом показатель Recall ниже, чем у агентов общего назначения — это осознанный компромисс в пользу точности и минимального шума.
+Бенчмарк на основе реальных код-ревью: **50** популярных open-source-репозиториев, **200** реальных Pull Request, **10** языков программирования — перекрёстная валидация 80+ старшими инженерами (**1 505** размеченных дефектов).
+| Метрика | Что измеряет | Почему важна |
+|---------|-------------|--------------|
+| **F1** | Гармоническое среднее precision и recall | Лучший единый показатель качества ревью |
+| **Precision** | % найденных проблем, являющихся реальными дефектами | Выше = меньше ложных срабатываний |
+| **Recall** | % реальных дефектов, которые были найдены | Выше = меньше пропущенных проблем |
+| **Avg Time** | Время выполнения одного ревью | Влияет на задержки в CI-пайплайне |
+| **Avg Token** | Суммарное потребление токенов за ревью | Прямо влияет на стоимость API |
+![Benchmark](imgs/benchmark-en.png)
 ## Почему Open Code Review?
 ### Проблема агентов общего назначения

package/README.zh-CN.md CHANGED Viewed

@@ -24,6 +24,22 @@ Open Code Review 是一款 AI 驱动的代码审查 CLI 工具。它的前身是
 ![Highlights](imgs/highlights-zh.png)
+## 基准测试
+> 相比通用 Agent（Claude Code），Open Code Review 在相同底层模型下取得了显著更高的 **准确率（Precision）** 与 **F1 综合得分**，同时仅消耗 **约 1/9 的 token**、审查更快。但召回率（Recall）低于通用 Agent——这是以精准度换取低噪声的设计取舍。
+基于真实场景的代码审查基准测试，从 **50** 个热门开源仓库中精选 **200** 个真实的 Pull Request，覆盖 **10** 种编程语言——由 80+ 位资深工程师交叉标注验证（共 **1,505** 个标注缺陷）。
+| 指标 | 含义 | 为什么重要 |
+|------|------|-----------|
+| **F1** | 准确率与召回率的调和均值 | 综合衡量审查质量的最佳单一指标 |
+| **准确率 (Precision)** | 报告的问题中真正有效的比例 | 越高 = 误报越少，减少人工确认成本 |
+| **召回率 (Recall)** | 真实缺陷中被发现的比例 | 越高 = 漏报越少，更多问题不会遗漏 |
+| **平均耗时 (Avg Time)** | 每次审查的实际耗时 | 决定 CI 流水线的等待时间 |
+| **平均 Token (Avg Token)** | 每次审查消耗的总 token 数 | 直接影响 API 使用成本 |
+![Benchmark](imgs/benchmark-zh.png)
 ## 为什么选择 Open Code Review？
 ### 通用 Agent 的局限

package/imgs/benchmark-en.png ADDED Viewed

Binary file

package/imgs/benchmark-zh.png ADDED Viewed

Binary file

package/imgs/highlights-en.png CHANGED Viewed

Binary file

package/imgs/highlights-zh.png CHANGED Viewed

Binary file

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@alibaba-group/open-code-review",
-  "version": "1.3.19",
+  "version": "1.4.1",
   "description": "OpenCodeReview CLI — AI-powered code review tool",
   "bin": {
     "ocr": "bin/ocr.js"
@@ -28,12 +28,12 @@
     "checksumPattern": "https://github.com/alibaba/open-code-review/releases/download/v{version}/sha256sum.txt"
   },
   "optionalDependencies": {
-    "@alibaba-group/ocr-darwin-arm64": "1.3.19",
-    "@alibaba-group/ocr-darwin-x64": "1.3.19",
-    "@alibaba-group/ocr-linux-arm64": "1.3.19",
-    "@alibaba-group/ocr-linux-x64": "1.3.19",
-    "@alibaba-group/ocr-win32-arm64": "1.3.19",
-    "@alibaba-group/ocr-win32-x64": "1.3.19"
+    "@alibaba-group/ocr-darwin-arm64": "1.4.1",
+    "@alibaba-group/ocr-darwin-x64": "1.4.1",
+    "@alibaba-group/ocr-linux-arm64": "1.4.1",
+    "@alibaba-group/ocr-linux-x64": "1.4.1",
+    "@alibaba-group/ocr-win32-arm64": "1.4.1",
+    "@alibaba-group/ocr-win32-x64": "1.4.1"
   },
   "engines": {
     "node": ">=14"