حرکت به سوی Pony Diffusion V7

حرکت به سوی Pony Diffusion V7

حرکت به سوی Pony Diffusion V7

سلام به همه!
من خوشحالم که به‌روزرسانی‌هایی درباره پیشرفت نسخه V7 به همراه تحلیل گذشته‌ای از نسخه V6 را با شما به اشتراک بگذارم.

موفقیت‌هایی که نسخه V6 به‌دست آورده است، بسیار دلگرم‌کننده بوده و من از تمامی کاربران و مدل‌های مشتق‌شده سپاسگزارم، حتی اگر برخی از کاربردها متفاوت با چشم‌انداز اولیه من باشند. اما بازتولید چنین موفقیتی ساده نیست و انتظارات از V7 به‌درستی بالا است. بیایید نگاهی به پیشرفت‌ها و بهبودهایی که می‌توانید در نسخه V7 انتظار داشته باشید، بیندازیم.

درخواست حمایت

پیش از پرداختن به جزئیات فنی، اجازه دهید لحظه‌ای مکث کنیم.

ساخت مدل‌هایی در مقیاس Pony Diffusion، فرآیندی پیچیده و پرهزینه است. من امیدوارم که V7 بتواند تجربیات شادتر بیشتری ارائه دهد و به جامعه سازندگان مدل کمک بیشتری کند. اما برای تحقق این امر به کمک شما نیاز دارم:

– اگر شرکت هستید:
و علاقه‌مند به معرفی در انتشار نسخه V7 و حمایت مالی یا ارائه منابع سخت‌افزاری هستید، لطفاً از طریق ایمیل ah@purplesmart.ai با من ارتباط بگیرید و درباره امکان همکاری صحبت کنیم.

– اگر علاقه‌مند فردی هستید:
می‌توانید به دیسکورد PurpleSmartAi بپیوندید و از گزینه‌های اشتراک و حمایت مالی برای پیشبرد توسعه ما استفاده کنید.

– یا حداقل:
مرا در Twitter دنبال کنید:
[https://twitter.com/AstraliteHeart](https://twitter.com/AstraliteHeart). دیدن بالا رفتن این اعداد همیشه خوشحال‌کننده است!

حالا برگردیم به مسائل جالب‌تری!

سازگاری و مدیریت سبک‌ها

یکی از ویژگی‌های قابل توجه Pony Diffusion، عدم استفاده از برچسب‌های هنری است—تصمیمی که شاید برای بسیاری ناامیدکننده باشد. این تصمیم از یک اصل کلیدی ناشی می‌شود: Pony Diffusion برای تقویت خلاقیت طراحی شده است، نه تقلید از سبک دیگران.

اما برچسب‌های هنری بی‌شک قدرتمند هستند؛ آن‌ها علاوه بر تأثیرگذاری بر کیفیت، به کاربران امکان استفاده مداوم از یک سبک خاص (مثل استفاده از سبک هنرمندان مشهور برای تصاویر پونی) را می‌دهند.

محدودیت‌های V6 در مدیریت سبک:
– در نسخه V6، امکان توصیف غنی‌تر سبک‌ها از طریق پرامپت‌ها افزوده شد، اما این رویکرد محدودیت‌هایی داشت.
– تکنیک‌های پیشرفته‌تر مدیریت سبک که برای V6 در نظر گرفته شده بود، عملکرد موردانتظار را نداشتند.

راه‌حل V7:
برای نسخه V7، من مفهومی با عنوان گروه‌بندی سبک‌ها (style grouping) یا “هنرمندان برتر” (super artists) توسعه داده‌ام.
– ایده این است که از بازخورد انسانی برای تفاوت‌های سبک استفاده کنیم و تصاویر را به طور خودکار بر اساس سبک خوشه‌بندی کنیم.
– در قدم‌های ابتدایی، هنرمندان به‌عنوان پایه آموزش استفاده می‌شوند و در ادامه، پرسش‌های انسانی (چه دو تصویر سبک مشابهی دارند؟) فرآیند را اصلاح می‌کند.

نتیجه این فرآیند، معرفی برچسب‌های ویژه مثل:
– “anime_1”
– “smooth_shading_48”
– “sketch_42”

این برچسب‌ها در پرامپت‌ها استفاده می‌شوند و وفاداری به سبک را بهبود می‌بخشند.

گسترش داده‌ها

1. افزایش مجموعه داده‌ها:
در نسخه V6، از مجموعه داده اولیه 10 میلیون تصویر، 2.6 میلیون تصویر برگزیده شد. در نسخه V7:
– مجموعه داده اولیه به 30 میلیون تصویر گسترش یافته است.
– حدود 10 میلیون تصویر نهایی برای آموزش انتخاب خواهند شد که باعث افزایش توان مدل در پشتیبانی از سبک‌ها و محتواهای متنوع‌تر و بهبود شناخت کاراکترها می‌شود.

2. بهبود تنوع داده‌های SFW:
بیش از 50٪ داده‌های آموزشی نسخه V6، ایمن برای کار (SFW) بودند. با این حال، تنوع کافی در این داده‌ها وجود نداشت. اکنون هدفی برای بهبود جنبه‌های SFW با حفظ کیفیت بالا و تعادل داده‌ها در نظر گرفته شده است.

3. اضافه شدن داده‌های کازپلی:
– گسترش به تصاویر سه‌بعدی و موضوعات انسانی برای کمک به مدل‌های مشتق‌شده با تمرکز بر واقع‌گرایی.

4. بهبود داده‌های انیمه:
– در نسخه V6، داده‌های انیمه قابل توجهی استفاده شد. در V7، انتظار می‌رود که پشتیبانی کلی از سبک‌های انیمه و شناسایی کاراکترها بهبود یابد.

5. افزودن داده‌های ویدئویی:
– تصاویر ثابت از داده‌های ویدئویی استخراج شده‌اند. این کار چالش‌هایی در زمینه زیرنویس‌گذاری و انتخاب بهترین نمونه‌ها دارد، اما نتایج اولیه موفقیت‌آمیز بوده‌اند.

6. اضافه کردن منابع جدید:
– مجموعه داده‌های متفرقه‌ای شامل بازی‌های ویدئویی، آرت‌بوک‌ها و هنر مفهومی برای پوشش نیازهای مدل افزوده شده است.

بهبود زیرنویس‌های تصاویر

زیرنویس‌های زبانی طبیعی در نسخه V6 تأثیر بزرگی داشتند، اما فقط برای نیمی از داده‌ها اعمال شدند. در نسخه V7:
– کیفیت و پوشش زیرنویس‌ها بیشتر خواهد شد.
– مدل زیرنویس‌گذاری بهبود یافته نتایجی ارائه می‌کند که از هر داده عمومی موجود بهتر است.

نمونه‌هایی از زیرنویس‌ها:
1. [لینک نمونه اول](https://derpibooru.org/images/3345861): توضیحات جزئی درباره کاراکتر لونا.
2. [لینک نمونه دوم](https://derpibooru.org/images/3340263): پرنسس سلستیا با محیط شهری.
3. [لینک نمونه سوم](https://derpibooru.org/images/3337672): اپل بلوم و اپل جک در باغ سیب.

مشکلات JPEG Artifacts

در نسخه V6 مشخص شد که آثار فشرده‌سازی JPEG در برخی سبک‌ها وجود دارد. برای رفع این مشکل:
– فرآیند جمع‌آوری داده‌ها تغییر کرده تا تصاویر بدون کاهش کیفیت ذخیره شوند.
– روش‌هایی برای تشخیص آثار فشرده‌سازی و حذف یا اصلاح آن‌ها توسعه داده شده است.

مدل پایه و زمان‌بندی

– من مشتاقم V7 را با SD3 آموزش دهم، گرچه هنوز مشخص نیست که بتوانیم به وزن‌های این مدل دسترسی پیدا کنیم.
– در ماه آینده، تمرکز اصلی روی زیرنویس‌گذاری خواهد بود. پس از تکمیل این مرحله، جمع‌آوری داده‌های انسانی و تحقیقاتی مثل گروه‌بندی سبک‌ها انجام خواهد شد.

به سوی مرزهای جدید در خلاقیت هوش مصنوعی!
Astra،
بنیان‌گذار PurpleSmartAI

نظرات


دیدگاهتان را بنویسید


captcha

×