GPT-4o: Phiên Bản Thay Đổi Cuộc Chơi Gen AI Và Những Tính Năng Siêu Việt

GPT-4o (“o” đại diện cho “omni”) có nghĩa là toàn năng, được ra mắt vào ngày 13/05/2024. GPT-4o chấp nhận dữ liệu đầu vào là bất kỳ sự kết hợp nào của văn bản, âm thanh, hình ảnh và video, và có thể tạo ra đầu ra dưới dạng văn bản, âm thanh và hình ảnh.

Một số tính năng nổi bật của GPT-4o

1. GPT-4o đạt hiệu suất nhanh hơn và hiệu quả hơn

GPT-4o nhanh hơn đáng kể so với GPT-4 thông thường, thậm chí nhanh gấp đôi GPT-4 Turbo. Cụ thể, trong bản demo, GPT-4o đã tạo ra một câu trả lời dài 488 từ chỉ trong vòng chưa đầy 12 giây. Một câu lệnh tương tự nếu sử dụng GPT-4 có thể sẽ mất gần một phút.

So với các phiên bản tiền nhiệm, GPT-4o không chỉ duy trì hiệu suất ấn tượng trong việc xử lý văn bản tiếng Anh và lập trình, mà còn vượt trội hơn hẳn khi xử lý các ngôn ngữ khác. Nhờ vậy, người dùng sẽ có trải nghiệm mượt mà và trơn tru hơn. GPT-4o giúp người dùng tiết kiệm thời gian và nâng cao hiệu quả công việc.

2. GPT-4o phát triển tính năng chụp ảnh trong thời gian thực

Trong phiên bản cập nhật này, GPT-4o có khả năng ghi lại hình ảnh trực tiếp trên ứng dụng, người dùng cũng có thể thêm các ghi chú trên ảnh theo nhu cầu của cá nhân để GPT-4o thực hiện những yêu cầu.

Tính năng này đem lại rất nhiều sự tiện lợi cho người dùng. Ví dụ khi người dùng có một bài toán cần được giải đáp, họ có thể trực tiếp chụp ảnh bài toán, trực tiếp tải trên ứng dụng, và thêm những ghi chú mà không cần phải thao tác trước trên tập tin và rồi mới tải lên ChatGPT.

3. GPT-4o có khả năng dịch song ngữ chính xác và nhanh chóng

GPT-4o sở hữu khả năng giao tiếp tự nhiên đến mức có thể mô phỏng các đặc trưng của con người như ngắt lời, lắng nghe – hiểu, và thay đổi tông giọng. Thêm vào đó, nó còn có khả năng dịch song ngữ một cách nhanh chóng.

Trong một cuộc hội thoại giữa một người nói tiếng Anh và một người nói tiếng Tây Ban Nha, GPT-4o đã phiên dịch bằng cả hai thứ tiếng một cách trôi chảy và nhanh chóng.

Đặc biệt, GPT-4o có thể phản hồi bằng giọng nói chỉ trong 232 mili giây, tương đương với tốc độ phản ứng của con người trong giao tiếp. Điều này giúp trải nghiệm trò chuyện với GPT-4o trở nên tự nhiên và sống động hơn.

4. GPT-4o có khả năng xử lý liền mạch

So với các phiên bản trước của Voice Mode, GPT-4o mang đến một bước đột phá trong việc tối giản và nâng cao trải nghiệm tương tác qua giọng nói. Thay vì dựa vào nhiều mô hình riêng biệt cho từng công đoạn như chuyển đổi giọng nói thành văn bản, xử lý văn bản và chuyển đổi văn bản thành giọng nói, GPT-4o sử dụng một mô hình hợp nhất để quản lý toàn bộ quy trình từ đầu đến cuối. Điều này giúp giảm đáng kể thời gian phản hồi và nâng cao chất lượng tương tác một cách rõ rệt.

Phiên bản GPT-4o có khả năng nhận biết các sắc thái khác nhau trong giọng nói, phân biệt nhiều người nói cùng lúc, và thậm chí tích hợp các âm thanh như tiếng cười hoặc tiếng hát vào phản hồi của mình.

5. GPT-4o có các tính năng an toàn

Khi ra mắt GPT-4o, OpenAI cho biết họ đã áp dụng các kỹ thuật tiên tiến nhằm đảm bảo an toàn cho đầu ra của mô hình trên tất cả các loại định dạng mới. Điều này bao gồm việc tinh chỉnh dữ liệu huấn luyện và tích hợp các biện pháp bảo vệ nội tại, được thiết kế đặc biệt cho các tương tác bằng giọng nói.

— — —

STEAM for Vietnam Foundation là tổ chức phi lợi nhuận 501(c)(3) được thành lập tại Hoa Kỳ với sứ mệnh thúc đẩy các hoạt động liên quan tới giáo dục STEAM (Science — Khoa học, Technology — Công nghệ, Engineering — Kỹ thuật, Arts — Nghệ thuật, Mathematics — Toán học) tại Việt nam. STEAM for Vietnam được thành lập và vận hành bởi đội ngũ tình nguyện viên là du học sinh và chuyên gia người Việt trên khắp thế giới.

— — —

📧 Email: hello@steamforvietnam.org

🌐 Website: www.steamforvietnam.org

🌐 Fanpage: STEAM for Vietnam

📺 YouTube: http://bit.ly/S4V_YT

🌐 Zalo: Zalo Official

📍Donation: https://www.steamforvietnam.org/donation