Paper From Runnable Code to Shippable Applications: Test-Driven Development for Full-Stack Web Application Generation đặt ra một khoảng cách rất thực tế của AI coding agent: tạo được web app “chạy được” chưa có nghĩa là sản phẩm “dùng được”. Theo bài báo, các agent hiện nay vẫn thất bại trong việc đáp ứng yêu cầu chức năng ở hơn 70% trường hợp, vì web app không thể được đánh giá chỉ bằng source code hay terminal output; nó phải được deploy, tương tác qua trình duyệt, rồi biến lỗi quan sát được thành tín hiệu sửa lỗi rõ ràng.

Nhóm tác giả đề xuất TDDev, một framework tự động hóa vòng lặp TDD cho web app full-stack. Quy trình gồm ba bước: chuyển yêu cầu ngôn ngữ tự nhiên thành acceptance tests có cấu trúc trước khi viết code; deploy ứng dụng và kiểm tra bằng mô phỏng thao tác trình duyệt; cuối cùng, dịch lỗi quan sát được thành báo cáo sửa lỗi cho coding agent.

Thử nghiệm so sánh 4 protocol phát triển, trên 2 coding agent, 2 backbone model2 benchmark. TDDev tạo được 124 test cases từ 10 ứng dụng, khớp 57/62 test tham chiếu, đạt 91.9% coverage; testing agent đạt 87.5% accuracy, phát hiện đúng 20/20 app lỗi và không có false positive.

Kết quả chính rất đáng chú ý: TDD infrastructure tăng chất lượng sinh ứng dụng 34–48 điểm phần trăm so với baseline không dùng TDD. Nhưng không có một chiến lược tối ưu cho mọi mô hình: model sinh code toàn cục hợp với agentic TDD, còn model mở rộng code thận trọng hợp với incremental TDD. Ghép sai protocol có thể làm mất lợi ích TDD và tăng chi phí token tới 25 lần. User study cũng cho thấy TDDev giảm can thiệp thủ công từ 4.7/15.2 phút xuống 0.0/18.7 phút.

Posted in