Giới thiệu
Microsoft Research vừa công bố Lens, một mô hình tạo ảnh từ văn bản đột phá. Thay vì dựa vào lượng lớn dữ liệu thông thường, Lens được huấn luyện bằng 800 triệu mô tả ảnh cực kỳ chi tiết do GPT-4 tạo ra. Nhờ cách tiếp cận này, Lens có thể tạo ra hình ảnh chất lượng cao chỉ với 3.8 tỷ tham số, ít hơn đáng kể so với các đối thủ, đồng thời giảm thiểu chi phí đào tạo.
Có gì mới?
Microsoft Research đã giới thiệu Lens, một phương pháp mới để tạo ảnh từ mô tả văn bản. Điểm khác biệt lớn nhất là cách huấn luyện: thay vì dùng bộ dữ liệu ảnh và mô tả thông thường, Lens tận dụng sức mạnh của GPT-4 để tạo ra 800 triệu mô tả ảnh siêu chi tiết. Việc này giúp mô hình học cách tạo ảnh hiệu quả hơn nhiều, dù có kích thước nhỏ gọn hơn.
Tính năng nổi bật
- Hiệu suất cao với ít tham số: Chỉ dùng 3.8 tỷ tham số nhưng vẫn tạo ảnh chất lượng tốt.
- Dữ liệu huấn luyện chất lượng cao: Sử dụng 800 triệu mô tả ảnh được tạo bởi GPT-4, đảm bảo độ chi tiết và chính xác.
- Tiết kiệm chi phí: Giảm đáng kể chi phí đào tạo mô hình so với các phương pháp truyền thống.
- Mã nguồn mở: Mã nguồn và mô hình được cung cấp miễn phí, khuyến khích cộng đồng thử nghiệm và phát triển.
Ý nghĩa với người Việt
Những người làm nội dung, chủ shop online, hoặc giáo viên cần hình ảnh minh họa nhanh chóng và chất lượng sẽ hưởng lợi. Ví dụ, chủ shop có thể tạo ảnh sản phẩm đẹp, độc đáo cho bài đăng Facebook mà không cần chụp ảnh thật. Giáo viên có thể minh họa bài giảng bằng hình ảnh sinh động, phù hợp với nội dung.
Đã dùng được ở Việt Nam chưa?
Hiện tại, Lens được cung cấp dưới dạng mã nguồn và mô hình miễn phí, người dùng có thể tải về và tự cài đặt. Không cần VPN hay thẻ thanh toán quốc tế để truy cập. Tuy nhiên, việc cài đặt có thể yêu cầu kiến thức kỹ thuật nhất định.
So với đối thủ?
Lens nổi bật so với các đối thủ như Midjourney hay Stable Diffusion ở chiến lược huấn luyện. Trong khi các mô hình khác thường cần rất nhiều dữ liệu thô và có kích thước lớn, Lens chứng minh rằng chất lượng dữ liệu huấn luyện (nhờ GPT-4) quan trọng hơn số lượng, giúp đạt hiệu quả tương đương với chi phí và kích thước mô hình nhỏ hơn.





