OpenAI giới thiệu GPT-5.5 như một mô hình hướng tới “công việc thực tế”: không chỉ trả lời câu hỏi, mà còn lập kế hoạch, dùng công cụ, kiểm tra kết quả, xử lý tác vụ nhiều bước và di chuyển giữa các phần mềm cho đến khi hoàn thành. Mô hình được nhấn mạnh ở bốn nhóm năng lực: agentic coding, sử dụng máy tính, công việc tri thức và nghiên cứu khoa học.
Ở lập trình, GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, 58,6% trên SWE-Bench Pro và 73,1% trên Expert-SWE nội bộ, đồng thời dùng ít token hơn GPT-5.4 trong các tác vụ Codex. Điều này cho thấy trọng tâm không chỉ là viết code nhanh, mà là giữ ngữ cảnh hệ thống lớn, phát hiện lỗi, kiểm thử và sửa xuyên suốt codebase.
Ở công việc tri thức, GPT-5.5 đạt 84,9% trên GDPval, 78,7% trên OSWorld-Verified, 98,0% trên Tau2-bench Telecom, 60,0% trên FinanceAgent, 88,5% ở tác vụ mô hình hóa ngân hàng đầu tư nội bộ và 54,1% trên OfficeQA Pro. OpenAI cho biết hơn 85% nhân sự công ty dùng Codex hằng tuần; riêng nhóm tài chính đã dùng Codex để rà soát 24.771 biểu mẫu K-1, tổng cộng 71.637 trang, nhanh hơn hai tuần so với năm trước.
Ở nghiên cứu, GPT-5.5 cải thiện trên GeneBench, đạt 80,5% trên BixBench, và từng hỗ trợ phân tích bộ dữ liệu biểu hiện gen gồm 62 mẫu, gần 28.000 gen. Một ví dụ khác cho thấy GPT-5.5 trong Codex tạo ứng dụng hình học đại số chỉ từ một câu lệnh trong 11 phút.
GPT-5.5 không chỉ là mô hình mạnh hơn, mà là bước tiến toward AI có thể làm việc bền bỉ, dùng công cụ và tự kiểm tra trong môi trường thật.