Paper IterCAD: An Iterative Multimodal Agent for Visually-Grounded CAD Generation and Editing đặt vấn đề rất thực tế: CAD trong sản xuất không phải quá trình một phát ăn ngay. Kỹ sư thường nhìn bản vẽ, viết/chỉnh mô hình, chạy kiểm tra, phát hiện lỗi rồi sửa tiếp. Nhưng nhiều hệ AI hiện nay vẫn là one-shot generation: sinh một lần từ text hoặc ảnh, nếu sai thì thất bại.

IterCAD biến CAD thành một quy trình closed-loop, multi-turn giữa agent đa phương thức và CAD sandbox có thể thực thi. Hệ thống xử lý ba nhiệm vụ: Drawing-to-Code, Text-to-CodeInteractive Editing. Agent dùng bản vẽ kỹ thuật nhiều góc nhìn làm neo không gian, sinh code CAD, chạy trong sandbox, nhận compiler/execution/visual feedback, rồi tự sửa theo vòng generate–verify–refine.

Đóng góp kỹ thuật nằm ở pipeline dữ liệu và huấn luyện. Nhóm tác giả tạo dữ liệu bản vẽ kỹ thuật chuẩn công nghiệp, task chỉnh code phức tạp và trajectory tương tác chất lượng cao. Mô hình được huấn luyện bằng progressive SFT, sau đó dùng geometry-aware reinforcement learning với Geometry-Viable Prefix Masking để tăng khả năng code chạy được và hình học đúng.

Điểm đáng chú ý là cách đánh giá. Paper chỉ ra “survivor bias”: nhiều benchmark chỉ đo hình học trên các code chạy được, bỏ qua code lỗi. IterCAD đề xuất CD-TR curveAUC-TR, gộp cả độ hợp lệ của code lẫn độ chính xác hình học.

Kết quả rất mạnh: trên Text2CAD, IterCAD đạt IR 0,64%, Mean CD 10,92, Med CD 0,10; trong khi GPT-4o có IR 93,00%, DeepSeek-V3 51,96%, Qwen2.5-7B 98,83%. Trên CADPrompt, IterCAD đạt IR 2,00%, Mean CD 10,45, Med CD 2,42, vượt xa CAD-Judge ở độ chính xác hình học.

AI thiết kế kỹ thuật không chỉ cần sinh ra hình đẹp, mà phải viết code CAD chạy được, kiểm chứng được và biết tự sửa qua nhiều vòng như kỹ sư thật.

Posted in