حرکت به سوی Pony Diffusion V7
سلام به همه!
من خوشحالم که بهروزرسانیهایی درباره پیشرفت نسخه V7 به همراه تحلیل گذشتهای از نسخه V6 را با شما به اشتراک بگذارم.
موفقیتهایی که نسخه V6 بهدست آورده است، بسیار دلگرمکننده بوده و من از تمامی کاربران و مدلهای مشتقشده سپاسگزارم، حتی اگر برخی از کاربردها متفاوت با چشمانداز اولیه من باشند. اما بازتولید چنین موفقیتی ساده نیست و انتظارات از V7 بهدرستی بالا است. بیایید نگاهی به پیشرفتها و بهبودهایی که میتوانید در نسخه V7 انتظار داشته باشید، بیندازیم.
—
درخواست حمایت
پیش از پرداختن به جزئیات فنی، اجازه دهید لحظهای مکث کنیم.
ساخت مدلهایی در مقیاس Pony Diffusion، فرآیندی پیچیده و پرهزینه است. من امیدوارم که V7 بتواند تجربیات شادتر بیشتری ارائه دهد و به جامعه سازندگان مدل کمک بیشتری کند. اما برای تحقق این امر به کمک شما نیاز دارم:
– اگر شرکت هستید:
و علاقهمند به معرفی در انتشار نسخه V7 و حمایت مالی یا ارائه منابع سختافزاری هستید، لطفاً از طریق ایمیل ah@purplesmart.ai با من ارتباط بگیرید و درباره امکان همکاری صحبت کنیم.
– اگر علاقهمند فردی هستید:
میتوانید به دیسکورد PurpleSmartAi بپیوندید و از گزینههای اشتراک و حمایت مالی برای پیشبرد توسعه ما استفاده کنید.
– یا حداقل:
مرا در Twitter دنبال کنید:
[https://twitter.com/AstraliteHeart](https://twitter.com/AstraliteHeart). دیدن بالا رفتن این اعداد همیشه خوشحالکننده است!
حالا برگردیم به مسائل جالبتری!
—
سازگاری و مدیریت سبکها
یکی از ویژگیهای قابل توجه Pony Diffusion، عدم استفاده از برچسبهای هنری است—تصمیمی که شاید برای بسیاری ناامیدکننده باشد. این تصمیم از یک اصل کلیدی ناشی میشود: Pony Diffusion برای تقویت خلاقیت طراحی شده است، نه تقلید از سبک دیگران.
اما برچسبهای هنری بیشک قدرتمند هستند؛ آنها علاوه بر تأثیرگذاری بر کیفیت، به کاربران امکان استفاده مداوم از یک سبک خاص (مثل استفاده از سبک هنرمندان مشهور برای تصاویر پونی) را میدهند.
محدودیتهای V6 در مدیریت سبک:
– در نسخه V6، امکان توصیف غنیتر سبکها از طریق پرامپتها افزوده شد، اما این رویکرد محدودیتهایی داشت.
– تکنیکهای پیشرفتهتر مدیریت سبک که برای V6 در نظر گرفته شده بود، عملکرد موردانتظار را نداشتند.
راهحل V7:
برای نسخه V7، من مفهومی با عنوان گروهبندی سبکها (style grouping) یا “هنرمندان برتر” (super artists) توسعه دادهام.
– ایده این است که از بازخورد انسانی برای تفاوتهای سبک استفاده کنیم و تصاویر را به طور خودکار بر اساس سبک خوشهبندی کنیم.
– در قدمهای ابتدایی، هنرمندان بهعنوان پایه آموزش استفاده میشوند و در ادامه، پرسشهای انسانی (چه دو تصویر سبک مشابهی دارند؟) فرآیند را اصلاح میکند.
نتیجه این فرآیند، معرفی برچسبهای ویژه مثل:
– “anime_1”
– “smooth_shading_48”
– “sketch_42”
این برچسبها در پرامپتها استفاده میشوند و وفاداری به سبک را بهبود میبخشند.
—
گسترش دادهها
1. افزایش مجموعه دادهها:
در نسخه V6، از مجموعه داده اولیه 10 میلیون تصویر، 2.6 میلیون تصویر برگزیده شد. در نسخه V7:
– مجموعه داده اولیه به 30 میلیون تصویر گسترش یافته است.
– حدود 10 میلیون تصویر نهایی برای آموزش انتخاب خواهند شد که باعث افزایش توان مدل در پشتیبانی از سبکها و محتواهای متنوعتر و بهبود شناخت کاراکترها میشود.
2. بهبود تنوع دادههای SFW:
بیش از 50٪ دادههای آموزشی نسخه V6، ایمن برای کار (SFW) بودند. با این حال، تنوع کافی در این دادهها وجود نداشت. اکنون هدفی برای بهبود جنبههای SFW با حفظ کیفیت بالا و تعادل دادهها در نظر گرفته شده است.
3. اضافه شدن دادههای کازپلی:
– گسترش به تصاویر سهبعدی و موضوعات انسانی برای کمک به مدلهای مشتقشده با تمرکز بر واقعگرایی.
4. بهبود دادههای انیمه:
– در نسخه V6، دادههای انیمه قابل توجهی استفاده شد. در V7، انتظار میرود که پشتیبانی کلی از سبکهای انیمه و شناسایی کاراکترها بهبود یابد.
5. افزودن دادههای ویدئویی:
– تصاویر ثابت از دادههای ویدئویی استخراج شدهاند. این کار چالشهایی در زمینه زیرنویسگذاری و انتخاب بهترین نمونهها دارد، اما نتایج اولیه موفقیتآمیز بودهاند.
6. اضافه کردن منابع جدید:
– مجموعه دادههای متفرقهای شامل بازیهای ویدئویی، آرتبوکها و هنر مفهومی برای پوشش نیازهای مدل افزوده شده است.
—
بهبود زیرنویسهای تصاویر
زیرنویسهای زبانی طبیعی در نسخه V6 تأثیر بزرگی داشتند، اما فقط برای نیمی از دادهها اعمال شدند. در نسخه V7:
– کیفیت و پوشش زیرنویسها بیشتر خواهد شد.
– مدل زیرنویسگذاری بهبود یافته نتایجی ارائه میکند که از هر داده عمومی موجود بهتر است.
نمونههایی از زیرنویسها:
1. [لینک نمونه اول](https://derpibooru.org/images/3345861): توضیحات جزئی درباره کاراکتر لونا.
2. [لینک نمونه دوم](https://derpibooru.org/images/3340263): پرنسس سلستیا با محیط شهری.
3. [لینک نمونه سوم](https://derpibooru.org/images/3337672): اپل بلوم و اپل جک در باغ سیب.
—
مشکلات JPEG Artifacts
در نسخه V6 مشخص شد که آثار فشردهسازی JPEG در برخی سبکها وجود دارد. برای رفع این مشکل:
– فرآیند جمعآوری دادهها تغییر کرده تا تصاویر بدون کاهش کیفیت ذخیره شوند.
– روشهایی برای تشخیص آثار فشردهسازی و حذف یا اصلاح آنها توسعه داده شده است.
—
مدل پایه و زمانبندی
– من مشتاقم V7 را با SD3 آموزش دهم، گرچه هنوز مشخص نیست که بتوانیم به وزنهای این مدل دسترسی پیدا کنیم.
– در ماه آینده، تمرکز اصلی روی زیرنویسگذاری خواهد بود. پس از تکمیل این مرحله، جمعآوری دادههای انسانی و تحقیقاتی مثل گروهبندی سبکها انجام خواهد شد.
—
به سوی مرزهای جدید در خلاقیت هوش مصنوعی!
Astra،
بنیانگذار PurpleSmartAI
نظرات