Microsoft Research ra mắt Lens: Mô hình tạo ảnh từ chữ siêu hiệu quả

Microsoft Research vừa giới thiệu Lens, mô hình tạo ảnh từ chữ mới. Lens dùng dữ liệu chất lượng cao từ GPT-4, chỉ với 3.8 tỷ tham số mà vẫn cho ảnh đẹp, giảm chi phí đào tạo. Mã nguồn và mô hình được cung cấp miễn phí.

Bởi Đội ngũ Bước cùng AI
Microsoft Research ra mắt Lens: Mô hình tạo ảnh từ chữ siêu hiệu quả

Giới thiệu

Microsoft Research vừa công bố Lens, một mô hình tạo ảnh từ văn bản đột phá. Thay vì dựa vào lượng lớn dữ liệu thông thường, Lens được huấn luyện bằng 800 triệu mô tả ảnh cực kỳ chi tiết do GPT-4 tạo ra. Nhờ cách tiếp cận này, Lens có thể tạo ra hình ảnh chất lượng cao chỉ với 3.8 tỷ tham số, ít hơn đáng kể so với các đối thủ, đồng thời giảm thiểu chi phí đào tạo.

Có gì mới?

Microsoft Research đã giới thiệu Lens, một phương pháp mới để tạo ảnh từ mô tả văn bản. Điểm khác biệt lớn nhất là cách huấn luyện: thay vì dùng bộ dữ liệu ảnh và mô tả thông thường, Lens tận dụng sức mạnh của GPT-4 để tạo ra 800 triệu mô tả ảnh siêu chi tiết. Việc này giúp mô hình học cách tạo ảnh hiệu quả hơn nhiều, dù có kích thước nhỏ gọn hơn.

Tính năng nổi bật

  • Hiệu suất cao với ít tham số: Chỉ dùng 3.8 tỷ tham số nhưng vẫn tạo ảnh chất lượng tốt.
  • Dữ liệu huấn luyện chất lượng cao: Sử dụng 800 triệu mô tả ảnh được tạo bởi GPT-4, đảm bảo độ chi tiết và chính xác.
  • Tiết kiệm chi phí: Giảm đáng kể chi phí đào tạo mô hình so với các phương pháp truyền thống.
  • Mã nguồn mở: Mã nguồn và mô hình được cung cấp miễn phí, khuyến khích cộng đồng thử nghiệm và phát triển.

Ý nghĩa với người Việt

Những người làm nội dung, chủ shop online, hoặc giáo viên cần hình ảnh minh họa nhanh chóng và chất lượng sẽ hưởng lợi. Ví dụ, chủ shop có thể tạo ảnh sản phẩm đẹp, độc đáo cho bài đăng Facebook mà không cần chụp ảnh thật. Giáo viên có thể minh họa bài giảng bằng hình ảnh sinh động, phù hợp với nội dung.

Đã dùng được ở Việt Nam chưa?

Hiện tại, Lens được cung cấp dưới dạng mã nguồn và mô hình miễn phí, người dùng có thể tải về và tự cài đặt. Không cần VPN hay thẻ thanh toán quốc tế để truy cập. Tuy nhiên, việc cài đặt có thể yêu cầu kiến thức kỹ thuật nhất định.

So với đối thủ?

Lens nổi bật so với các đối thủ như Midjourney hay Stable Diffusion ở chiến lược huấn luyện. Trong khi các mô hình khác thường cần rất nhiều dữ liệu thô và có kích thước lớn, Lens chứng minh rằng chất lượng dữ liệu huấn luyện (nhờ GPT-4) quan trọng hơn số lượng, giúp đạt hiệu quả tương đương với chi phí và kích thước mô hình nhỏ hơn.

Ảnh từ bài gốc

Two scatter plots, OneIG on the left and GenEval on the right, with inference time on the x-axis and benchmark score on the y-axis, dot size proportional to model size; Lens and Lens-Turbo sit in the upper left at short inference times.
Two scatter plots, OneIG on the left and GenEval on the right, with inference time on the x-axis and benchmark score on the y-axis, dot size proportional to model size; Lens and Lens-Turbo sit in the upper left at short inference times.
Red-eyed tree frog with a green body, blue-striped flanks, and orange feet perched on a red bromeliad, water droplets on its skin.
Red-eyed tree frog with a green body, blue-striped flanks, and orange feet perched on a red bromeliad, water droplets on its skin.
Line chart showing GenEval score over training steps for three caption variants, with detailed captions consistently above mixed and well above brief captions.
Line chart showing GenEval score over training steps for three caption variants, with detailed captions consistently above mixed and well above brief captions.
Subway wall with the text "GRAND CENTRAL" in white ceramic mosaic letters on a green tile background, curved tracks in the foreground.
Subway wall with the text "GRAND CENTRAL" in white ceramic mosaic letters on a green tile background, curved tracks in the foreground.
Fish fillet with fries, a lemon wedge, a bowl of peas, and a glass bottle on paper and a wooden table, photorealistic.
Fish fillet with fries, a lemon wedge, a bowl of peas, and a glass bottle on paper and a wooden table, photorealistic.

Câu hỏi thường gặp

Lens là gì?

Lens là một mô hình tạo ảnh từ văn bản do Microsoft Research phát triển, sử dụng mô tả ảnh chất lượng cao từ GPT-4 để huấn luyện.

Điểm đặc biệt của Lens so với các mô hình khác?

Lens sử dụng một lượng tham số nhỏ hơn nhiều (3.8 tỷ) nhưng vẫn tạo ảnh chất lượng cao, nhờ vào việc sử dụng 800 triệu mô tả ảnh chi tiết do GPT-4 tạo ra để huấn luyện.

Ai có thể hưởng lợi từ Lens?

Người làm nội dung, chủ shop online, giáo viên và bất kỳ ai cần tạo hình ảnh minh họa nhanh chóng và chất lượng mà không tốn nhiều chi phí.

Lens có miễn phí không?

Có, mã nguồn và mô hình của Lens được Microsoft Research cung cấp miễn phí cho cộng đồng.

Có cần kiến thức kỹ thuật để dùng Lens không?

Vì Lens được cung cấp dưới dạng mã nguồn, người dùng có thể cần một số kiến thức kỹ thuật để cài đặt và sử dụng.

Dùng ngay hôm nay

Microsoft Research Lens

Tạo một bức ảnh minh họa về một con mèo đang đội mũ phi hành gia, ngồi trên mặt trăng, với phong cách hoạt hình màu sắc rực rỡ và bầu trời đầy sao.
Có bản miễn phí~5 phút bắt đầu
Mở Microsoft Research Lens

Bài viết có thể chứa link giới thiệu — không ảnh hưởng giá bạn trả, ủng hộ Bước cùng AI tiếp tục viết miễn phí.

Bài liên quan