Bạn là một nhà nghiên cứu Machine Learning và luôn cảm thấy không đủ thời gian? Bạn mơ ước rằngAIcó thể tự đọc paper, tìm ý tưởng, chạy experiment, viết bài báo và phản biện reviewer — tất cả khi bạn đang ngủ? ARIS (Auto-claude-code-research-in-sleep) chính là câu trả lời. Đây là một hệ thống mã nguồn mở cực kỳ nhẹ, không cần database, không cần Docker, toàn bộ hoạt động chỉ dựa trên các file Markdown thuần. Bài viết này sẽ phân tích cực kỳ chi tiết mọi khía cạnh của dự án này.
1. ARIS là gì?
ARIS (viết tắt của Autonomous Research via Adversarial Multi-Agent Collaboration) là một bộ kỹ năng (skills) tùy chỉnh cho Claude Code, giúp tự động hóa phức tạp quy trình nghiên cứu khoa học thông qua hợp tác đa mô hình (cross-model collaboration). Nghĩa là:
- Claude Code đóng vai trò người thực thi (executor) — nhanh nhẹn, linh hoạt trong việc viết code, chạy experiment.
- GPT-5.4 xhigh (thông qua Codex MCP) đóng vai trò người đánh giá (reviewer) — chậm nhưng kỹ lưỡng, nghiêm khắc trong việc chỉ ra điểm yếu.
Tại sao không dùng một mô hình duy nhất tự đánh giá? Tác giả giải thích rất rõ: khi một mô hình tự review chính nó (self-play), dễ rơi vào “điểm mù” (local minima) — mô hình không phát hiện được sai sót do chúng được tạo ra bởi chính nó. Việc dùng hai mô hình đối kháng (adversarial) giúp phát hiện nhiều lỗ hổng hơn, giống như cách cờ vây hai người chơi tiến tới cân bằng Nash nhanh hơn nhiều người chơi.
Hệ thống hoạt động theo triết lý: ARIS là phương pháp luận, không phải nền tảng — mọi kỹ năng chỉ là file SKILL.md đơn giản, có thể dùng trên Claude Code, Codex CLI, Cursor, Trae, Antigravity, Windsurf hay bất kỳ AI agent nào khác.
2. Các Workflow Chính
ARIS tổ chức toàn bộ quy trình nghiên cứu thành 4 workflow cốt lõi + 1 workflow meta, có thể dùng độc lập hoặc nối tiếp nhau thành pipeline hoàn chỉnh.

2.1 Workflow 1: Khám Phá Ý Tưởng & Cổ Sự Phương Pháp (/idea-discovery)
Mục tiêu: “Trạng thái nghệ thuật hiện tại ra sao? Khoảng trống ở đâu? Giải quyết thế nào?”
Đây là workflow bắt đầu nếu bạn chỉ có một hướng nghiên cứu chung chung, chưa có ý tưởng cụ thể. Các bước diễn ra:
📚 /research-lit → /idea-creator → /novelty-check
(tìm papers) (8-12 ý tưởng) (kiểm tra mới)
│ │ │
▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Quét │─────▶│ Sinh │───────▶│ Kiểm tra │
│ papers │ │ ý tưởng │ │ tính mới │
│ cục bộ + │ │ 8-12 cái │ │ │
│ tìm kiếm │ │ & xếp │ │ │
└──────────┘ │ hạng │ └──────────┘
└──────────┘ │
│ ▼
/research-refine ┌──────────┐
(tinh chỉnh) │ LLM bên │
│ │ ngoài đa │
▼ │ giá │
┌──────────┐ └──────────┘
│ Lặp lại │◀──────────────┘
│ đến khi │
│ score≥9 │
└──────────┘
Chi tiết từng bước:
/research-lit: Tìm kiếm tài liệu đa nguồn — Zotero, Obsidian, PDF cục bộ, arXiv API, Semantic Scholar, DeepXiv, Exa AI web search. Có thể tải PDF từ arXiv nếu bật tùy chọn./idea-creator: Brainstorm 8-12 ý tưởng cụ thể, lọc theo tính khả thi, chi phí tính toán, pilot trên GPU./novelty-check: Xác minh tính mới của ý tưởng bằng cách so sánh với tài liệu gần đây + cross-check bằng GPT-5.4./research-refine: Cổ sự phương pháp — biến ý tưởng mơ hồ thành đề xuất có bài toán cụ thể, lặp lại đến khi đạt điểm ≥ 9/10./experiment-plan: Tạo lộ trình experiment theo claim-driven, bao gồm ablation, ngân sách GPU, thứ tự chạy.
Lệnh tắt: /idea-discovery "hướng nghiên cứu của bạn"
2.2 Workflow 1.5: Cầu Nối Experiment (/experiment-bridge)
Mục tiêu: “Tôi có kế hoạch rồi. Giờ code nó, triển khai và thu kết quả.”
EXPERIMENT_PLAN.md
│
▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Claude │───▶│ GPT-5.4 │───▶│ Sanity │
│ Code │ │ xhigh │ │ Check │
│ viết │ │ review │ │ (1 GPU) │
│ code │ │ code │ │ │
└──────────┘ └──────────┘ └──────────┘
│
▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Thu │◀───│ Theo dõi │◀───│ Triển │
│ kết quả │ │ tiến độ │ │ khai GPU │
└──────────┘ │ (+ W&B) │ └──────────┘
└──────────┘
Khi GPT-5.4 reviewer phát hiện lỗi logic trong code trước khi tốn giờ chạy GPU — đây là tính năng code review mặc định bật. Sau đó, experiment nhỏ nhất chạy trước (sanity check) để phát hiện lỗi runtime, rồi mới triển khai toàn bộ.
ARIS hỗ trợ 3 chế độ GPU:
local: GPU trên máy hiện tạiremote: Máy GPU qua SSH (cấu hình trong CLAUDE.md)vast: Thuê GPU từ Vast.ai theo yêu cầu — ARIS tự phân tích task, tìm GPU rẻ nhất phù hợp, tự thuê → thiết lập → chạy → thu kết quả → hủy.
2.3 Workflow 2: Vòng Lặp Tự Động Đánh Giá & Sửa (/auto-review-loop)
Mục tiêu: “Review bài của tôi, sửa những gì sai, lặp lại đến khi tốt.”
Đây là workflow cốt lõi — chạy trong khi bạn ngủ. GPT-5.4 đánh giá → phát hiện điểm yếu → đề xuất experiment → Claude Code viết script, triển khai lên GPU, theo dõi kết quả, viết lại bài — tất cả tự động.
Kết quả thực tế từ một lần chạy qua đêm:
| Round | Điểm | Điều gì xảy ra |
|---|---|---|
| Initial | 5.0/10 | Borderline reject |
| Round 1 | 6.5/10 | Thêm metrics chuẩn, phát hiện decoupling metric |
| Round 2 | 6.8/10 | Claim chính không tái tạo được, xoay hướng narrative |
| Round 3 | 7.0/10 | Nghiên cứu seed lớn phủ nhận claim cải thiện chính |
| Round 4 | 7.5/10 ✅ | Bằng chứng chẩn đoán vững chắc → sẵn sàng nộp |
Tổng cộng 20+ experiment GPU đã chạy tự động, narrative được viết lại, các claim không còn đúng đã bị loại bỏ — hoàn toàn không cần con người can thiệp.
Các tính năng an toàn:
- 🔒
MAX_ROUNDS = 4— không lặp vô hạn - ⏱️ Experiment > 4 GPU-hour bị bỏ qua, gắn cờ để xử lý sau
- 🧠 Ưu tiên đổi cách diễn đạt (“reframing”) thay vì chạy experiment mới khi cả hai đều giải quyết được vấn đề
- 🪞 Cấm che giấu điểm yếu để tăng điểm giả
- 🔧 Phải sửa thật trước khi review lại
- 💾 Dùng
REVIEW_STATE.jsonđể khôi phục nếu context window đầy giữa chừng
Mức độ đánh giá (Reviewer Difficulty):
| Mức độ | Chi tiết | Khi nào dùng |
|---|---|---|
| medium (mặc định) | Review MCP tiêu chuẩn | Workflow bình thường |
| hard | + Reviewer Memory (GPT theo dõi nghi ngờ qua các vòng) + Debate Protocol (Claude phản biện lại, GPT phán quyết) | Muốn feedback khắc nghiệt hơn |
| nightmare | + GPT đọc trực tiếp repo qua `codex exec` (Claude không thể che giấu gì) + adversarial verification | Chuẩn bị nộp journal/hội nghị top |
2.4 Workflow 3: Pipeline Viết Bài Báo (/paper-writing)
Mục tiêu: “Biến bản narrative nghiên cứu thành PDF sẵn sàng nộp.”
Yêu cầu: môi trường LaTeX cục bộ (latexmk + pdfinfo).
NARRATIVE_REPORT.md → PAPER_PLAN.md → paper/ (LaTeX + PDF)
Các bước chi tiết:
/paper-plan: Tạo Claims-Evidence Matrix, cấu trúc section, kế hoạch hình vẽ, khung trích dẫn/paper-figure: Tạo biểu đồ matplotlib/seaborn chất lượng xuất bản + bảng so sánh LaTeX từ JSON/CSV/paper-illustration: Sơ đồ kiến trúc AI-generated qua Gemini (mặc định), hoặc Mermaid (miễn phí), hoặc bỏ qua/paper-write: Sinh LaTeX section-by-section cho ICLR/NeurIPS/ICML. Trích dẫn thật từ DBLP/CrossRef (anti-hallucination)/paper-compile: Compile LaTeX → PDF, tự sửa lỗi, kiểm tra giới hạn trang/auto-paper-improvement-loop: 2 vòng review nội dung + kiểm tra format (từ 4/10 → 8.5/10)
Kết quả test thực tế — một bài lý thuyết ICLR 2026 (7 sections, 29 trích dẫn, 4 hình, 2 bảng) từ một file NARRATIVE_REPORT.md duy nhất — 0 lỗi compile, 0 undefined reference.
Score progression thực tế:
| Round | Điểm | Thay đổi chính |
|---|---|---|
| Round 0 | 4/10 (nội dung) | Baseline |
| Round 1 | 6/10 | Sửa assumption, làm mềm claims, đổi notation |
| Round 2 | 7/10 | Thêm synthetic validation, strengthens limitations |
| Round 3 | 5→8.5/10 (format) | Remove hero fig, nén conclusion, chuyển sang appendix, sửa overfull hbox |
Sau khi được chấp nhận, ARIS còn hỗ trợ:
/paper-slides: Sinh slide Beamer PDF + PPTX + speaker notes + chuẩn bị Q&A/paper-poster: Sinh poster hội nghị A0/A1 PDF + PPTX + SVG
2.5 Workflow 4: Rebuttal — Phản Biện An Toàn (/rebuttal)
Mục tiêu: “Reviewer đã chấm. Giúp tôi viết rebuttal an toàn, có căn cứ.”
7 giai đoạn:
- Parse — chuẩn hóa reviews, xác thực rules của venue (giới hạn ký tự, text-only…)
- Atomize — chia mỗi review thành issue cards (loại, mức độ nghiêm trọng, thái độ reviewer)
- Strategize — chủ đề toàn cầu, ưu tiên per-reviewer, ngân sách ký tự
- Evidence sprint — nếu
auto_experiment: true, tự chạy experiment bổ sung qua/experiment-bridge - Draft — opener toàn cầu + phản hồi per-reviewer theo số + closing cho meta-reviewer
- Safety check — 6 lints: coverage, provenance, commitment, tone, consistency, limit
- GPT-5.4 stress test — review nội bộ hoài nghi bản nháp → Finalize
3 cổng an toàn — rebuttal sẽ KHÔNG finalize nếu bất kỳ cổng nào thất bại:
- 🔒 Provenance — mọi claim phải map đến paper/review/kết quả được user xác nhận. Không bịa.
- 🔒 Commitment — mọi lời hứa phải được user phê duyệt. Không hứa quá mức.
- 🔒 Coverage — mọi mối bận tâm của reviewer phải được theo dõi. Không bỏ sót.
Hai đầu ra: PASTE_READY.txt (đếm ký tự chính xác) + REBUTTAL_DRAFT_rich.md (bản mở rộng để chỉnh sửa thủ công).
2.6 Workflow M: Meta-Optimize — ARIS Tự Tối Ưu Chính Nó (/meta-optimize)
Khác với W1-W4 tối ưu artifacts (papers, code, experiments), Workflow M tối ưu bản thân ARIS — các file SKILL.md, tham số mặc định, quy tắc hội tụ.
Cách hoạt động:
- Ghi log thụ động — Claude Code hooks ghi lại mọi skill invocation, tool call, failure, parameter override, user prompt
- Phân tích pattern —
/meta-optimizeđọc log và phát hiện: tham số bị override nhiều nhất, tools thường thất bại, điểm review dừng ở đâu, sửa chữa thủ công của user - Đề xuất patch — tạo diff tối thiểu cho SKILL.md với lý do dựa trên dữ liệu
- Reviewer gate — GPT-5.4 xhigh review mỗi patch
- User approval — chỉ áp dụng khi user đồng ý
3. Nhiều Mô Hình Linh Hoạt
ARIS không khóa bạn vào Claude + GPT. Bạn có thể kết hợp bất kỳ mô hình nào tương thích OpenAI API:
| Executor | Reviewer | Cần Claude API? | Cần OpenAI API? |
|---|---|---|---|
| Claude Opus/Sonnet ⭐ | GPT-5.4 (Codex MCP) | Có | Có |
| GLM-5 (Z.ai) | GPT-5.4 | Không | Có |
| GLM-5 | MiniMax-M2.7 | Không | Không |
| DeepSeek-V3.1/Qwen3-Coder | DeepSeek-R1/Qwen3-235B | Không | Không |
| Codex CLI (GPT-5.4) | Claude Code CLI (claude-review) | Không* | Không* |
| Antigravity | GPT-5.4 hoặc bất kỳ qua llm-chat | Không | Tùy chọn |
Và nhiều tổ hợp khác (Kimi, LongCat, Gemini review…). Thậm chí hỗ trợ ModelScope miễn phí — 2000 calls/ngày, không phí, không khóa.
4. Research Wiki — Bộ Nhớ Nghiên Cứu Liên Tục
“Ngừng tái khám phá. Bắt đầu tích lũy.” — cảm hứng từ LLM Wiki của Karpathy.
Khi bật Research Wiki (/research-wiki init), ARIS tích lũy kiến thức qua toàn bộ vòng đời nghiên cứu:
4 loại thực thể:
| Thực thể | Lưu trữ | Ví dụ |
|---|---|---|
| 📄 Paper | Tóm tắt cấu trúc: thesis, method, limitations | paper:chen2025_factorized_gap |
| 💡 Idea | Giả thuyết, trạng thái (proposed/failed/succeeded), lý do thất bại | idea:001 |
| 🧪 Experiment | Metrics, verdict, phần cứng, thời lượng | exp:001 |
| 📋 Claim | Mệnh đề testable + trạng thái evidence | claim:C1 |
Tính năng học hỏi xoắn ốc (Spiral Learning):
- Round 1: Đọc 15 papers → ý tưởng A → experiment → THẤT BẠI → wiki ghi “A thất bại do OOM”
- Round 2:
/idea-creatorđọc wiki → thấy A thất bại → sinh ý tưởng D (tránh bẫy A) → THÀNH CÔNG MỘT PHẦN - Round 3:
/idea-creatorbiết A thất bại + D thành công một phần → sinh ý tưởng F → THÀNH CÔNG 🎉
Ý tưởng thất bại là ký ức giá trị nhất — nó giúp ARIS không lặp lại sai lầm.
5. Tích Hợp Đa Nền Tảng & Công Cụ
5.1 IDE/Agent hỗ trợ
- Claude Code — nền tảng chính
- Codex CLI — bộ kỹ năng đồng bộ đầy đủ
- Cursor — hoạt động với @-reference skills + MCP
- Trae (ByteDance AI IDE) — có hướng dẫn riêng
- Antigravity (Google’s agent-first IDE) — hỗ trợ Claude Opus 4.6 / Gemini 3.1 Pro
- OpenClaw — không cần Claude Code CLI
5.2 Tích hợp Zotero
Tìm kiếm thư viện Zotero, đọc annotations/highlights, xuất BibTeX — trước khi tìm trên web. Cài qua zotero-mcp.
5.3 Tích hợp Obsidian
Tìm kiếm vault theo topic, tag, wikilink. Cài qua mcpvault.
5.4 Thông báo Feishu/Lark
3 chế độ: off (mặc định), push (webhook, cảnh báo mobile), interactive (chat hai chiều — approve/reject từ Feishu).
5.5 GPU Server
- Local GPU: Chạy trực tiếp
- Remote SSH: Cấu hình máy server trong CLAUDE.md
- Vast.ai: Tự thuê, tự chạy, tự hủy
- Modal: Serverless GPU, scale-to-zero, $30/tháng gói free
6. Mức Độ Nỗ Lực (Effort Levels)
Mỗi skill chấp nhận tham số --effort:
| Level | Tokens | Phù hợp | Chi tiết |
|---|---|---|---|
| lite | ~0.4x | Khám phá nhanh, tiết kiệm budget | Ít papers, ý tưởng, rounds. Độ sâu tối thiểu. |
| balanced | 1x | Workflow bình thường (mặc định) | Hành vi hiện tại. Không thay đổi gì. |
| max | ~2.5x | Chuẩn bị nộp bài nghiêm túc | Nhiều papers hơn, review sâu hơn, nhiều ablation hơn. |
| beast | ~5-8x | Sprint nộp venue top | Mọi nút vặn tối đa. Không giới hạn chi phí. |
Cái KHÔNG bao giờ thay đổi bất kể effort:
- Codex reasoning: luôn
xhigh - DBLP/CrossRef citations: luôn bật
- Reviewer independence: luôn bật
- Experiment integrity: luôn bật
Ví dụ so sánh chi tiết theo effort:
| Skill | Chiều | lite | balanced | max | beast |
|---|---|---|---|---|---|
| research-lit | papers | 6-8 | 10-15 | 18-25 | 40-50 |
| idea-creator | ideas | 4-6 | 8-12 | 12-16 | 20-30 |
| auto-review-loop | rounds | 2 | 3-4 | 6 | 8+ |
| rebuttal | stress tests | 0-1 | 1 | 2 | 3 |
7. Danh Sách Toàn Bộ 31 Skills
Full Pipeline
| Skill | Mô tả | Codex MCP? |
|---|---|---|
| 🏗️ research-pipeline | End-to-end: Workflow 1 → 1.5 → 2 → 3 | Có |
Workflow 1: Idea Discovery
| Skill | Mô tả | Codex MCP? |
|---|---|---|
| 🔭 idea-discovery | Orchestrator — chạy tất cả skills dưới đây liên tiếp | Có |
| ├ 📚 research-lit | Tìm kiếm tài liệu đa nguồn | Không |
| ├ 💡 idea-creator | Brainstorm 8-12 ý tưởng, lọc, pilot GPU, xếp hạng | Có |
| ├ 🔍 novelty-check | Kiểm tra tính mới so với tài liệu gần đây | Có |
| ├ 🔬 research-review | Review sâu một vòng từ LLM bên ngoài | Có |
| └ 🧭 research-refine-pipeline | Refine method + plan experiments liên tiếp | Có |
Workflow 1.5: Experiment Bridge
| Skill | Mô tả | Codex MCP? |
|---|---|---|
| 🔗 experiment-bridge | Đọc plan → code → sanity check → deploy GPU → thu kết quả | Không |
| ├ 🚀 run-experiment | Deploy lên local/remote/Vast.ai GPU | Không |
| ├ 👀 monitor-experiment | Theo dõi, thu kết quả | Không |
| └ ☁️ vast-gpu | Quản lý GPU Vast.ai theo yêu cầu | Không |
Workflow 2: Auto Research Loop
| Skill | Mô tả | Codex MCP? |
|---|---|---|
| 🔁 auto-review-loop | Review → fix → re-review (tối đa 4 rounds) | Có |
| ├ 🔬 research-review | Review sâu từ LLM bên ngoài | Có |
| ├ 🔍 novelty-check | Kiểm tra tính mới khi reviewer đề xuất hướng mới | Có |
| ├ 🚀 run-experiment | Deploy experiments lên GPU | Không |
| ├ 📊 analyze-results | Phân tích kết quả, tính thống kê, sinh insights | Không |
| └ 👀 monitor-experiment | Theo dõi experiment đang chạy | Không |
| 🔁 auto-review-loop-llm | Giống trên nhưng dùng bất kỳ API tương thích OpenAI | Không |
Workflow 3: Paper Writing
| Skill | Mô tả | Codex MCP? |
|---|---|---|
| 📝 paper-writing | Orchestrator — chạy tất cả skills dưới đây | Có |
| ├ 📐 paper-plan | Claims-evidence matrix, cấu trúc section, kế hoạch hình vẽ | Có |
| ├ 📊 paper-figure | Biểu đồ matplotlib/seaborn + bảng LaTeX | Tùy chọn |
| ├ 🎨 paper-illustration | Sơ đồ kiến trúc AI qua Gemini | Gemini API |
| ├ ✍️ paper-write | Sinh LaTeX section-by-section, BibTeX thật từ DBLP/CrossRef | Có |
| ├ 🔨 paper-compile | Compile LaTeX → PDF, tự sửa lỗi | Không |
| └ 🔄 auto-paper-improvement-loop | 2 vòng review nội dung + kiểm tra format | Có |
Workflow 4: Rebuttal
| Skill | Mô tả | Codex MCP? |
|---|---|---|
| 📝 rebuttal | Parse → atomize → strategy → draft → safety → stress test → finalize → follow-up | Có |
Standalone / Utility Skills
| Skill | Mô tả | Codex MCP? |
|---|---|---|
| 📄 arxiv | Tìm kiếm, tải và tóm tắt arXiv papers | Không |
| 🔎 semantic-scholar | Tìm papers đã publish qua Semantic Scholar API | Không |
| 📚 deepxiv | Truy xuất paper phân cấp qua DeepXiv CLI | Có |
| 🔎 exa-search | AI-powered web search qua Exa | Có |
| 🎨 pixel-art | Sinh pixel art SVG cho READMEs, slides | Không |
| 📱 feishu-notify | Thông báo Feishu/Lark | Không |
8. Cài Đặt & Sử Dụng Nhanh
Cài đặt
# 1. Clone repo
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
mkdir -p ~/.claude/skills/
cp -r Auto-claude-code-research-in-sleep/skills/* ~/.claude/skills/
# 2. Cài Codex MCP (cho review skills)
npm install -g @openai/codex
codex setup # chọn model gpt-5.4
claude mcp add codex -s user -- codex mcp-server
# 3. Chạy
claude
Cập nhật thông minh
cd Auto-claude-code-research-in-sleep && git pull
bash tools/smart_update.sh # dry-run: xem thay đổi
bash tools/smart_update.sh --apply # áp dụng
smart_update.sh so sánh skills cục bộ với upstream, phát hiện tùy chỉnh cá nhân (đường dẫn server, API keys), chỉ cập nhật những skill an toàn.
Các lệnh chính
# Workflow 1: Khám phá ý tưởng
/idea-discovery "hướng nghiên cứu"
# Workflow 1.5: Cầu nối experiment
/experiment-bridge
# Workflow 2: Vòng lặp tự động
/auto-review-loop "chủ đề paper"
# Workflow 3: Viết bài
/paper-writing "NARRATIVE_REPORT.md"
# Workflow 4: Rebuttal
/rebuttal "paper/ + reviews" — venue: ICML, character limit: 5000
# Pipeline đầy đủ
/research-pipeline "hướng nghiên cứu"
# Bật Research Wiki
/research-wiki init
# Meta-optimize
/meta-optimize
# Targeted mode — cải thiện paper cụ thể
/research-pipeline "improve method X" — ref paper: https://arxiv.org/abs/2406.04329, base repo: https://github.com/org/project
# Rebuttal mode
/rebuttal "paper/ + reviews" — venue: ICML, character limit: 5000
9. Community Papers — Bài Báo Thực Tế Được Xây Dựng Với ARIS
| Paper | Điểm | Venue | Stack |
|---|---|---|---|
| CS Paper | 8/10 “clear accept” | CS Conference | Claude Code + GPT-5.4 |
| AAAI Paper | 7/10 “good paper, accept” | AAAI 2026 Main Technical | Pure Codex CLI |
| UAV-CC | Under review | IEEE TGRS | Claude Opus 4.6 + Codex 5.4 xhigh + Cursor |
10. Tính Năng Đặc Biệt Khác
/experiment-audit
Cross-model verification tính toàn vẹn experiment. GPT-5.4 đọc eval scripts và kết quả, kiểm tra ground truth giả, self-normalized scores, phantom results, scope inflation. Tính năng advisory — cảnh báo lớn, không chặn.
Codex Plugin Integration
Các tính năng bổ sung khi cài codex-plugin-cc:
/codex:review— Review code experiment trước GPU deployment/codex:adversarial-review— Adversarial code review tìm edge cases/codex:rescue— Auto-debug khi experiment hoặc LaTeX compile thất bại sau 2 lần thử, Codex chẩn đoán độc lập
Human-in-the-Loop
Mọi workflow đều hỗ trợ checkpoint tại quyết định quan trọng. AUTO_PROCEED=true cho tự động hoàn toàn, false để phê duyệt từng bước. Có thể kết hợp --human checkpoint: true để tạm dừng sau mỗi vòng review và đưa hướng dẫn tùy chỉnh.
Anti-Hallucination Citations
Workflow 3 (paper writing) fetches BibTeX thật từ DBLP/CrossRef thay vì LLM tự tạo — loại bỏ trích dẫn ảo. Bật mặc định, không cần cài thêm gì.
De-AI Polish
Tự động loại bỏ pattern viết AI (delve, pivotal, landscape…) trong paper.
11. Kiến Trúc Tổng Thể & Triết Lý
Full Pipeline:
/research-lit → /idea-creator → /novelty-check → /research-refine → /experiment-bridge
→ /auto-review-loop → /paper-writing → submit → /rebuttal → accept! 🎉
📚 research-wiki (persistent memory)
↕ reads before ideation, writes after every stage, failed ideas = anti-repetition memory
🧬 /meta-optimize (Workflow M — runs independently, improves ARIS itself)
↑ reads .aris/meta/events.jsonl
Những gì ARIS KHÔNG thay thế:
“These tools accelerate research, but they don’t replace your own critical thinking. Always review generated ideas with your domain expertise, question the assumptions, and make the final call yourself. The best research comes from human insight + AI execution, not full autopilot.”
Tổng Kết
ARIS là một hệ thống nghiên cứu tự động mở phi thường — nhẹ hơn bất kỳ framework nào (chỉ file Markdown), linh hoạt hơn (chạy trên bất kỳ IDE/agent nào), và mạnh mẽ hơn (hợp tác đa mô hình đối kháng). Nó không chỉ giúp bạn viết code hay chạy experiment — nó bao phủ toàn bộ vòng đời nghiên cứu từ ý tưởng đến rebuttal, và thậm chí tự tối ưu chính nó qua meta-optimization.
Source link: ARIS – Auto-claude-code-research-in-sleep






