Ngày 16 tháng 4 năm 2025, OpenAI đã chính thức công bố hai mô hình suy luận AI mới nhất của mình: o3 và o4-mini. Đây là một bước tiến vượt bậc trong năng lực Trí tuệ Nhân tạo của công ty, đặc biệt là với khả năng suy luận bằng hình ảnh chưa từng có. Các mô hình này hứa hẹn thay đổi cách chúng ta tương tác và khai thác AI trong nhiều lĩnh vực công nghệ khác nhau, định hình một tương lai nơi AI không chỉ “hiểu” văn bản mà còn “tư duy” sâu sắc với các thông tin trực quan.
Khả Năng “Tư Duy” Với Hình Ảnh Của Mô Hình AI Mới
OpenAI khẳng định rằng các mô hình AI mới này có thể diễn giải bất kỳ hình ảnh nào mà người dùng tải lên, từ một bản phác thảo trên bảng trắng, sơ đồ phức tạp trong sách giáo khoa, cho đến các tệp PDF đồ họa. Theo thông báo ra mắt chính thức của OpenAI về o3 và o4-mini:
“Chúng không chỉ đơn thuần nhìn thấy một hình ảnh – chúng thực sự ‘suy nghĩ’ với hình ảnh đó. Điều này mở ra một kỷ nguyên mới trong việc giải quyết vấn đề, nơi khả năng suy luận trực quan và văn bản được kết hợp hài hòa, thể hiện qua hiệu suất vượt trội của chúng trên các tiêu chuẩn đa phương thức.”
Khả năng phân tích hình ảnh được tích hợp sâu vào chuỗi suy luận của các mô hình AI tiên tiến này. Chúng có thể tự động phóng to (zoom), xoay (rotate), hoặc cắt (crop) hình ảnh để tối ưu hóa quá trình xử lý, đồng thời vẫn hoạt động hiệu quả ngay cả với những hình ảnh chất lượng thấp.
Hình ảnh minh họa ChatGPT o4-mini diễn giải và mô tả chi tiết một hình ảnh phức tạp, thể hiện khả năng suy luận bằng hình ảnh đột phá của mô hình AI OpenAI mới.
Ví dụ, khi đối mặt với một vấn đề khoa học cần giải quyết thông qua sơ đồ, mô hình có thể phóng to một phần cụ thể của hình ảnh, thực hiện các phép tính phức tạp bằng Python, sau đó tự động tạo ra một biểu đồ để minh họa kết quả nghiên cứu. Trong quá trình suy luận, o3 và o4-mini có thể linh hoạt sử dụng tất cả các công cụ ChatGPT có sẵn, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “tác tử” (agentic capability) này cho phép các mô hình AI tự động lựa chọn và sử dụng công cụ ChatGPT tối ưu nhất cho từng nhiệm vụ cụ thể. Điều này giúp người dùng và nhà phát triển dễ dàng thực hiện các quy trình công việc nhiều bước và giải quyết các tác vụ phức tạp.
Biến thể o4-mini-high là một phiên bản đặc biệt của o4-mini, được thiết kế để dành nhiều thời gian và tài nguyên tính toán hơn cho mỗi yêu cầu, nhằm mang lại kết quả chất lượng cao vượt trội. Một số kịch bản ứng dụng thực tế của nó bao gồm:
- Tạo và đánh giá các nghiên cứu trong các lĩnh vực STEM như sinh học, kỹ thuật, cung cấp lập luận từng bước chi tiết và giải thích trực quan.
- Tìm kiếm và tổng hợp thông tin từ nhiều nguồn đa dạng như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ, từ đó tạo ra những phân tích và hiểu biết sâu sắc cho doanh nghiệp.
Các mô hình này đã được đào tạo thông qua phương pháp học tăng cường (reinforcement learning), một khái niệm nền tảng trong AI. Nhờ đó, chúng có thể xử lý tốt hơn các vấn đề phức tạp, không rõ ràng và tự động suy luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team. Phiên bản o3-pro dự kiến sẽ ra mắt trong vài tuần tới. Bạn có thể dễ dàng tìm thấy và lựa chọn chúng trong menu bộ chọn mô hình. Đặc biệt, người dùng miễn phí cũng có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn Think trong giao diện soạn thảo trước khi gửi yêu cầu.
Tiềm Năng Đột Phá Từ Khả Năng Đa Phương Thức Của ChatGPT
Với việc trang bị cho AI khả năng “suy nghĩ với hình ảnh”, các mô hình mới của OpenAI có thể giải quyết các vấn đề trong thế giới thực đòi hỏi sự kết hợp giữa việc diễn giải cả văn bản và hình ảnh. Điều này bao gồm những tác vụ như gỡ lỗi mã nguồn từ ảnh chụp màn hình, đọc chữ viết tay, phân tích các sơ đồ khoa học phức tạp, hoặc trích xuất thông tin chuyên sâu từ các biểu đồ và đồ thị dữ liệu. Kết quả là, ChatGPT đã trở nên nhận thức ngữ cảnh tốt hơn đáng kể, mang lại các phản hồi chính xác và hữu ích hơn.
Các mô hình này giờ đây hoạt động tự chủ hơn, có khả năng tự động điều chỉnh và lựa chọn mô hình cụ thể phù hợp nhất với từng nhiệm vụ. Khi các tác tử AI tự động này có thể xử lý các nhiệm vụ phức tạp, nhiều bước, khả năng suy luận và trí tuệ trực quan của chúng trở nên cực kỳ quan trọng đối với các lĩnh vực như nghiên cứu khoa học, kinh doanh, và công việc sáng tạo.
Hãy truy cập và trải nghiệm ngay khả năng “suy luận bằng hình ảnh” đột phá của ChatGPT o3 và o4-mini. Khám phá cách các mô hình AI mới này có thể hỗ trợ công việc và giải quyết vấn đề của bạn hiệu quả hơn. Bạn có những ý tưởng ứng dụng nào cho khả năng đa phương thức này? Hãy chia sẻ trong phần bình luận bên dưới nhé!