Sự khuếch tán ổn định là gì và làm thế nào để tối đa hóa sức mạnh của nó

Liam Miller Liam Miller
Th7 26/2023 (Cập nhật: Th7 26/2023)Nộp cho: Công cụ trí tuệ nhân tạo

Sự tiến bộ của Trí tuệ nhân tạo hiện đang tiếp quản một số chương trình giúp tạo ra hình ảnh. Bạn có thể thấy công cụ Khuếch tán ổn định. Nhưng khuếch tán ổn định là gì? Đây là một công cụ tạo hình ảnh. Mục đích chính của nó là tạo ra hình ảnh bằng cách sử dụng lời nhắc và mọi người thấy hấp dẫn và thú vị khi tạo ra các ký tự và yếu tố khác nhau cùng nhau. Tìm hiểu thêm về khuếch tán ổn định là gì và tìm hiểu cách thức hoạt động của nó.

Phần 1: Khuếch Tán Ổn Định Là Gì

Đó là một mô hình học sâu, chuyển văn bản thành hình ảnh, tạo ra hình ảnh bằng cách nhập lời nhắc để mô tả chủ đề chính. Ví dụ: bạn có thể đặt 'con mèo' và công cụ sẽ tạo ra hình ảnh con mèo. Tuy nhiên, nó có thể nhấn mạnh thêm hoặc thêm nhiều chi tiết hơn khi bạn nhập các lời nhắc phức tạp. Mạng thần kinh tổng quát không chỉ là một công cụ AI, vì nó còn được điều chỉnh với các tác vụ khác như vẽ ngoài, vẽ trong và dịch từ hình ảnh sang hình ảnh thông qua lời nhắc văn bản.

Khuếch tán ổn định được phát triển và tài trợ bởi AI ổn định, nhưng nhóm CompVis tại Đại học Ludwig Maximilian ở Munich có giấy phép kỹ thuật cho mô hình khuếch tán tiềm ẩn. Hơn nữa, sự phát triển được dẫn dắt bởi các nhà nghiên cứu Patrick Esser và Robin Rombach, thu được nhiều dữ liệu đào tạo hơn từ các tổ chức phi lợi nhuận ở Đức với tư cách là những người ủng hộ dự án. Cuối tháng 10 năm 2022, công ty đã huy động được 101 triệu đô la Mỹ$ sau khi giới thiệu lần đầu vào tháng 8 năm 2022.

khuếch tán ổn định

Phần 2. Khuếch Tán Ổn Định VAE Là Gì

Bạn có thể đã gặp phải điều này khi sử dụng trình tạo ảnh AI và VAE rất hữu ích cho công cụ này. VAE là viết tắt của Variable Auto Encoder, dùng để tinh chỉnh bộ giải mã để tô vẽ chi tiết tốt hơn. Nó là một bổ sung cho công cụ AI, vì nó có thể giúp có được hình ảnh sắc nét hơn và màu sắc rực rỡ, đồng thời cải thiện việc tạo ra bàn tay và khuôn mặt.

Tất nhiên, VAE không chỉ dành cho Khuếch tán ổn định vì tất cả các kiểu máy đều có VAE tích hợp để tìm hiểu chi tiết. So sánh sẽ là kết quả giữa từng mô hình và cách chúng sẽ xuất hiện khi bạn nén ảnh. Hơn nữa, có các tệp VAE riêng biệt mà bạn có thể tải xuống trên thiết bị của mình. Để thử một bộ giải mã, bạn có thể sử dụng như sau:

Tập tin Vae

Phần 3. Dreambooth trên khuếch tán ổn định là gì và cách cài đặt

DreamBooth là một mô hình tạo deep learning giúp tinh chỉnh các hình ảnh được tạo ra, đặc biệt là chủ đề cụ thể. Ban đầu, nó dựa trên mô hình chuyển văn bản thành hình ảnh của Imagen, nhưng thật không may, Imagen không có các trọng số được đào tạo trước như Khuếch tán ổn định hoặc các công cụ AI khác. DreamBooth được các Nhà nghiên cứu của Google và một số đồng nghiệp từ Đại học Boston phát triển thêm vào năm 2022.

Công việc của người mẫu là sửa đổi và tinh chỉnh các bức ảnh được tạo, nhưng nó cũng có khả năng hiển thị các chủ thể quen thuộc trong mọi bối cảnh và tình huống. Vì hầu hết các mô hình khuếch tán được đào tạo trước vẫn cần được cải thiện trong danh mục này, DreamBooth sẽ tăng cường đào tạo cho các mô hình khuếch tán. Chỉ với năm hình ảnh, việc sửa đổi hình ảnh có thể được thực hiện với các nền tảng như Khuếch tán ổn định. Dưới đây là hướng dẫn ngắn về cách sử dụng DreamBooth trên Khuếch tán ổn định:

Bước 1.Đầu tiên, bạn phải có hình ảnh đào tạo của một chủ đề để sử dụng trên DreamBooth. Đảm bảo rằng đối tượng đã chụp ảnh. Tiến hành resize ảnh về 512x512 pixel.

Bước 2.Mở DreamBooth và nhập Dấu nhắc sơ thẩmnhắc lớp. Xử lý các thay đổi bằng cách nhấp vào Chơi nút từ phần bên trái của giao diện.

Dấu nhắc sơ thẩm Dreambooth

Bước 3.Khi hoàn tất, hãy chạy thử và bạn sẽ nhận được một vài mẫu do mô hình tạo ra. Bạn có thể tải xuống tệp điểm kiểm tra mô hình từ Google Drive của mình và cài đặt nó trong GUI.

Kiểm tra Dreambooth

Phần 4. Quy mô CFG trong khuếch tán ổn định là gì

Bạn có thể tìm thấy giá trị này được đặt trong mô hình trình tạo ảnh. Và vì nó là điều cần thiết, bạn phải tìm hiểu những gì đáng để tối ưu hóa hình ảnh. Thang đo hướng dẫn miễn phí của bộ phân loại cho phép người dùng điều chỉnh độ gần của kết quả từ hình ảnh đầu vào hoặc lời nhắc được sử dụng. Ví dụ: khi bạn điều chỉnh Thang đo CFG thành một giá trị tuyệt vời hơn, đầu ra sẽ giống với hình ảnh đầu vào hơn nhưng dự kiến sẽ bị biến dạng. Mặt khác, thang CGF thấp hơn sẽ nhận được đầu ra cách xa lời nhắc chính trong khi tạo ra chất lượng tốt hơn.

Nhưng khi nào bạn cần sử dụng thang đo CFG trên Khuếch tán ổn định? Câu trả lời rất đơn giản: trình tạo ảnh AI không thể tạo ra thứ gì đó không nằm trong tầm hiểu biết của nó, vì vậy thang đo CFG sẽ giúp bạn kết hợp nhiều đối tượng bằng cách tăng giá trị của nó. Hạn chế duy nhất là chi phí chất lượng hình ảnh, tỷ lệ thuận với lời nhắc. Nếu quan tâm đến công cụ này, bạn phải thực hành hiệu chỉnh thang đo để tìm điểm phù hợp.

Quy mô CFG

Phần 5. Khuếch tán ổn định cường độ khử nhiễu là gì

Phương pháp này bắt đầu một quá trình thêm nhiễu vào hình ảnh đầu vào. Nó chỉ là một Nâng cấp khuếch tán ổn định. Đó là một giá trị tuyệt vời cho Khuếch tán ổn định, vì nó có thể truyền qua hình ảnh tới hình ảnh(img2img) hoặc InPaint. Lượng nhiễu được kiểm soát bởi Độ mạnh khử nhiễu, từ tối thiểu là 0 đến tối đa là 1. Đặt giá trị này thành 0 sẽ giảm nhiễu thành không có, tạo ra hình ảnh tương tự với hình ảnh đầu vào. Nếu không, giá trị của 1 sẽ thay thế đầu vào bằng tiếng ồn.

Bạn có thể sử dụng Denoise Strength như một phương pháp thực tế để xác định mức độ gần gũi của đầu ra với ảnh hưởng của hình ảnh đầu vào. Một ví dụ tuyệt vời là Cường độ khử nhiễu thấp hơn giúp hình ảnh được tạo trông giống với đầu vào hơn, một cài đặt lý tưởng cho các sửa đổi nhỏ. Mặt khác, Cường độ khử nhiễu cao hơn có thể sẽ làm tăng độ biến thiên đồng thời giảm độ tương tự của hình ảnh đầu vào và đầu ra. Do đó, các giá trị cao hơn rất hữu ích cho các sửa đổi quan trọng.

cường độ khử nhiễu

Phần 6. Clip Skip khuếch tán ổn định là gì và cách sử dụng

CLIP được biết đến như một lớp nhúng được sử dụng để phân tích văn bản. Cấu trúc của nó bao gồm các lớp, mỗi lớp cụ thể hơn lớp trước. Ví dụ: Lớp 1 có thể là “Người” và Lớp 2 sẽ là “nữ” hoặc “nam”. Sau đó, lớp tiếp theo sẽ là “parent, father, man, boy, v.v.”

Mục đích của nó là để có được mô hình văn bản chính xác, dừng danh sách dài các lớp, cuối cùng sẽ trộn nhiều dữ liệu hơn và cung cấp cho bạn nhiều hơn những gì bạn cần. Ví dụ tốt nhất về điều này là mô hình 1.5 với 12 bậc sâu. Mỗi lớp có nhúng văn bản và có thể được trộn lẫn với các chi tiết khác, chẳng hạn như kích thước, màu sắc, v.v. CLIP bỏ qua kích thước không gian văn bản và đến đầu ra chính xác. Đây là cách sử dụng nó:

Bước 1.Từ Điểm kiểm tra khuếch tán ổn định, chuyển đến cài đặt và chọn “Khuếch tán ổn định”.

Bước 2.Cuộn xuống và đi đến “Clip Skip”. Vui lòng đặt nó thành giá trị mong muốn, sau đó cuộn lên để nhấp vào nút “Áp dụng cài đặt”.

Bỏ qua clip

Phần 7. Tốc độ tạo khuếch tán ổn định là gì và cách tăng tốc

Khi bạn nhìn vào tốc độ của một trình tạo AI, bạn sẽ cho rằng sẽ mất một khoảng thời gian để hiển thị kết quả. Tuy nhiên, Khuếch Tán Ổn Định có tốc độ tạo ra là 10 giây. Điều này chỉ dành cho việc sử dụng chung của công cụ trực tuyến, nhưng thời gian vẫn có thể giảm tới bốn giây khi đăng ký gói chính hoặc gói tiêu chuẩn. Đây là một cách để đẩy nhanh tốc độ của mô hình, nhưng độ chính xác của kết quả lại khác xa với thông tin đầu vào Lời nhắc khuếch tán ổn định. Hơn nữa, công cụ này miễn phí chỉ với một số hạn chế về tính năng từ các gói có giá. Vì vậy, làm thế nào để bạn đẩy nhanh tốc độ tạo trong khi không phải trả tiền?

Yêu cầu duy nhất để tăng tốc là thẻ Nvidia, có thể thuộc dòng 4000, 3000, 2000 và thậm chí 1000. Bạn có thể sử dụng Lovelace, Ampere, Pascal Turing, v.v. Để thay thế, hãy sử dụng độ chính xác thấp hơn như float16 và chạy ít bước suy luận hơn.

Mẹo bổ sung: Thay đổi kích thước kết quả khuếch tán ổn định

Sau khi tìm hiểu về mô hình AI, có một điều nữa mà bạn cần biết: kích thước tệp là một yếu tố quan trọng đối với hình ảnh và chúng có thể ngốn dung lượng lưu trữ của bạn do kích thước tệp lớn hơn. Nhưng vơi AnyRec Free Image Compressor Online, việc nén ảnh sẽ thuận tiện. Công cụ trực tuyến có công nghệ AI mới nhất để giúp tối ưu hóa các tệp tải lên đồng thời giảm kích thước tệp. Khi nó tạo các tệp nhỏ hơn, người dùng có thể nhập thêm hình ảnh từ thư mục cục bộ và máy nén sẽ tải chúng ngay lập tức.

Phần 8. Những câu hỏi thường gặp về khuếch tán ổn định

Phần kết luận

Bài đăng này giải thích khuếch tán ổn định là gì và cách nó hoạt động với Clip Skip, VAE, DreamBooth, CFG Scale và Denoising Strength. Mặt khác, bạn có thể sử dụng AnyRec Free Image Compressor Online để giảm kích thước tệp của ảnh được tạo. Nó hoàn toàn miễn phí và không giới hạn sử dụng!

Những bài viết liên quan: