Litmus: trước khi chấm AI, phải hỏi “đang cần đo cái gì?”

Litmus: Zero-Label, Code-Driven Metric Specification for Evaluating AI Systems đánh vào một điểm yếu lớn của AI production: nhiều hệ thống được chấm bằng metric có sẵn, nhưng mục tiêu đánh giá lại mơ hồ. Một pipeline AI không chỉ fail ở đáp án cuối; nó có thể fail ở retrieval, routing, fallback, confidence, formatting hoặc human review. Vì vậy, câu hỏi không phải chỉ là “metric nào?”, mà là thành phần nào cần đo, lỗi nào quan trọng, và vì sao metric đó hợp lệ.

Litmus là hệ thống zero-label: thiết kế bộ metric mà không cần nhãn huấn luyện. Đầu vào chính là source code và mục tiêu của practitioner. Litmus tái dựng kiến trúc pipeline bằng static scanner, import graph, call graph, rồi LLM tổng hợp thành component graph 8–20 node. Sau đó hệ thống đặt câu hỏi làm rõ cho người dùng và tự đặt câu hỏi phản biện về validity, fit, assumption, direction of goodness. Kết quả không phải một điểm số duy nhất, mà là portfolio metric theo từng stage, có rationale, traceability và bản mapping sang monitoring production.

Thử nghiệm trên 3 pipeline thật: financial account grouping, scientific QA và inherent risk assessment; so với AutoMetrics và 3 baseline DynamicRubric. Litmus đạt coverage rộng nhất hoặc đồng rộng nhất, trải qua nhiều stage hơn, redundancy gần 0 và đứng đầu validity trên cả ba pipeline. Ở scientific QA, Spearman ρ = 0,72, trong khi mọi baseline đều dưới 0,47; trên ba pipeline, Litmus đạt ρ = 0,51; 0,72; 0,32, dù không dùng nhãn khi thiết kế metric.

Đánh giá AI không nên bắt đầu bằng “dùng metric gì”, mà bằng đặc tả rõ cần đo gì, lỗi nào cần tránh, và metric đó phục vụ quyết định vận hành nào.