Giới thiệu
ChatGPT của OpenAI gần đây đã gây ngạc nhiên khi tự động nhận diện và đọc được thông tin cá nhân từ văn bản trong hình ảnh do người dùng tải lên. Một người dùng phát hiện ra ChatGPT biết "callsign" (mã định danh radio) của mình, dù anh chưa bao giờ nhập trực tiếp thông tin này. Điều này cho thấy khả năng xử lý thị giác của AI đã tiến bộ vượt bậc, không chỉ dừng lại ở việc hiểu chữ viết thông thường mà còn có thể "đọc" thông tin từ ảnh.
Có gì mới?
Sự việc bắt đầu khi một người dùng chia sẻ ảnh chụp màn hình bảng điều khiển radio của mình với ChatGPT. Không ngờ, AI đã tự động quét và nhận diện được mã định danh radio có trong ảnh. Đây không phải là một tính năng được công bố rầm rộ, mà là một minh chứng thực tế cho thấy khả năng "nhìn" và xử lý thông tin từ hình ảnh của ChatGPT đã rất mạnh mẽ. Điều này mở ra nhiều tiềm năng nhưng cũng đặt ra các câu hỏi về quyền riêng tư và cách AI xử lý dữ liệu hình ảnh nhạy cảm.
Tính năng nổi bật
- Nhận diện văn bản trong ảnh (OCR): ChatGPT có khả năng "đọc" chữ viết, số liệu, ký hiệu từ các hình ảnh được tải lên.
- Hiểu ngữ cảnh từ hình ảnh: Không chỉ đọc, AI còn có thể hiểu được ý nghĩa của các thông tin thu thập từ ảnh trong ngữ cảnh cuộc trò chuyện.
- Tự động trích xuất thông tin: AI có thể tự động trích xuất các dữ liệu quan trọng mà người dùng không cần phải chỉ định cụ thể.
Ý nghĩa với người Việt
Với khả năng này, các đối tượng như dân văn phòng, giáo viên hay chủ shop ở Việt Nam có thể hưởng lợi. Ví dụ, dân văn phòng có thể tải ảnh tài liệu để AI tóm tắt hoặc trích xuất dữ liệu. Giáo viên có thể chụp ảnh đề thi, bài tập để AI hỗ trợ soạn giáo án. Chủ shop có thể dùng để đọc thông tin từ hóa đơn, biên lai hay sản phẩm. Tuy nhiên, cần cẩn trọng với các thông tin cá nhân nhạy cảm.
Đã dùng được ở Việt Nam chưa?
Có, bạn hoàn toàn có thể sử dụng tính năng này của ChatGPT tại Việt Nam. Bạn không cần VPN. ChatGPT có các gói miễn phí và trả phí (Plus, Team, Enterprise). Để sử dụng các tính năng nâng cao như xử lý hình ảnh, bạn có thể cần đăng ký gói trả phí, thường yêu cầu thẻ thanh toán quốc tế.
So với đối thủ?
So với các đối thủ như Claude hay Gemini, khả năng xử lý hình ảnh của ChatGPT cũng đang được cải thiện liên tục và thể hiện sự cạnh tranh mạnh mẽ. Claude 3 cũng có khả năng phân tích hình ảnh tốt, trong khi Gemini của Google được phát triển với khả năng đa phương thức (multimodal) ngay từ đầu, cho phép nó xử lý hình ảnh, video và âm thanh một cách tự nhiên. Tuy nhiên, việc ChatGPT tự động đọc được thông tin cá nhân từ ảnh cho thấy một bước tiến đáng chú ý về khả năng suy luận thị giác.
