تعریف score_9 و نحوه استفاده از آن در Pony Diffusion

تعریف score_9 و نحوه استفاده از آن در Pony Diffusion

تعریف score_9 و نحوه استفاده از آن در Pony Diffusion

آیا به نسخه بعدی Pony Diffusion علاقه‌مندید؟ به‌روزرسانی‌های جدید را اینجا بخوانید:
[Towards Pony Diffusion V7]

ممکن است score_9 یا نسخه‌های طولانی‌تر آن مانند score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up را در برخی از پرامپت‌های Pony Diffusion دیده باشید. در این راهنما، توضیح داده می‌شود که این برچسب‌ها چیستند، چگونه ایجاد شده‌اند و چطور می‌توانید از آن‌ها برای تولید تصاویر باکیفیت‌تر استفاده کنید.

چرا به برچسب score_9 نیاز داریم؟

چرخه (ساده‌شده) یک مدل AI شامل دو مرحله است:
1. آموزش (Training):
در این مرحله، مدلی که دانش خاصی ندارد (مانند یک مدل تازه‌ساز) یا نیاز به تنظیم دقیق دارد (finetuning) بارها با جفت‌های تصویر-زیرنویس آموزش داده می‌شود. این پروسه، مفاهیم موردنظر را به مدل آموزش می‌دهد تا از دیدگاه انسانی به تصاویر معنا دهد. این فرآیند طولانی است و برای Pony Diffusion نسخه V6 حدود 3 ماه طول کشید و از سخت‌افزار سنگینی استفاده شد.

2. استنتاج (Inference):
پس از اتمام آموزش، از مدل برای تولید تصاویر استفاده می‌کنیم.

در مرحله استنتاج، چالش‌هایی وجود دارد که برای تولید تصاویر باکیفیت باید بر آن‌ها غلبه کنیم:
– کامپیوترها مفهوم “تصاویر زیبا” را نمی‌فهمند.
– کیفیت تصاویر تولید‌شده معمولاً مشابه تصاویر دیده‌شده در مرحله آموزش است (اصطلاحاً به این موضوع GIGO (Garbage In, Garbage Out) گفته می‌شود).

راه‌حل‌ها:

1. آموزش مدل فقط با داده‌های خوب؟
– ایده خوبی است، اما نه عملی:
– بسیاری از مفاهیم (شخصیت‌ها، اشیا، حرکات) داده کافی برای آموزش ندارند.
– هنوز نمی‌دانیم چگونه داده‌های خوب را از داده‌های بد جدا کنیم.

2. ایجاد یک روش برای رتبه‌بندی داده‌های خوب از بد:
– باید راهی برای شناسایی داده‌های باکیفیت پیدا کنیم.
– از مدل‌هایی استفاده می‌کنیم که می‌توانند کیفیت تصاویر را یاد بگیرند و رتبه‌بندی کنند.

چگونه ماشین‌ها را در مورد کیفیت “آموزش” دهیم؟

برای رتبه‌بندی تصاویر، از سیستمی به نام رتبه‌بندی زیبایی‌شناختی مبتنی بر CLIP استفاده می‌کنیم:
– CLIP (Contrastive Language-Image Pre-training):
این مدل، جفت‌های تصویر-متن را بر اساس میزان همبستگی آن‌ها ارزیابی می‌کند.
– مثلاً کلماتی مانند “masterpiece”، “best quality” یا “hd” که در توضیحات تصاویر ظاهر می‌شوند، می‌توانند به مدل کمک کنند تصاویر باکیفیت‌تر را شناسایی کند.

– اما CLIP چالش‌هایی دارد:
– این مدل برای محتوای غیرواقعی (مانند کاراکترهای کارتونی یا پونی‌ها) خوب عمل نمی‌کند.
– برای انیمه بهتر از سبک‌های دیگر عمل می‌کند.

برای غلبه بر این مشکل:
– از ابزارهایی استفاده می‌کنیم که سیگنال‌های کیفیت را از تصاویر استخراج کرده و آن‌ها را رتبه‌بندی می‌کنند.

ورود به “جهنم برچسب‌گذاری داده‌ها”

ما نیاز به تصاویر زیادی داریم:
– تصاویر خوب، نه‌چندان خوب و حتی بد.
– برخی از این تصاویر را می‌توان با استفاده از امتیازات کاربران در سایت‌های محبوب (مانند boorus) جمع‌آوری کرد.

چالش‌ها:
1. کاربران تصاویر را بر اساس محتوا و کیفیت قضاوت می‌کنند که ممکن است همیشه مرتبط نباشند.
– مثلاً محتواهای NSFW یا شخصیت‌های محبوب ممکن است ناعادلانه رتبه بالایی بگیرند.
2. امتیازات در سایت‌های مختلف سازگار نیستند.

راه‌حل:
– تصاویر را به صورت دستی و بر اساس کیفیت و سبک رتبه‌بندی کنیم:
– 1 تا 5 امتیاز برای هر تصویر.
– تعداد زیادی از هر سبک مختلف (3D، اسکچ، نیمه‌واقعی و غیره) را پوشش دهیم.

– در Pony Diffusion نسخه V6، تقریباً 20,000 تصویر به صورت دستی رتبه‌بندی شدند.

ساخت برچسب‌های score_X

پس از برچسب‌گذاری تصاویر:
– یک مدل جدید آموزش داده می‌شود که از رتبه‌های انسانی به همراه CLIP برای یادگیری استفاده می‌کند.
– این مدل، تصاویر جدید را از 0 تا 1 رتبه‌بندی می‌کند (زیرا کامپیوترها با این بازه راحت‌تر هستند).
– تصاویر خوب برچسب‌هایی مانند score_9 (پونی زیبا) دریافت می‌کنند، در حالی که تصاویر ضعیف‌تر ممکن است برچسب score_8 (پونی کمتر زیبا) بگیرند.

آموزش مدل Pony Diffusion با داده‌های برچسب‌خورده

در فرآیند آموزش:
– به مدل یاد می‌دهیم که داده‌های annotated (برچسب‌خورده) با score tags چه تفاوتی دارند.
– بدین ترتیب، می‌توانیم تصاویر با کیفیت بالاتر را تولید کنیم.

چالش نسخه V6
در نسخه V6، برچسب‌های score_9 تنها داده‌های 90% به بالا را شامل می‌شد.
– برای آزمایش، برچسب‌های طولانی‌تر مانند score_9, score_8_up, score_7_up تولید شدند، اما مدل به جای بخش‌های جداگانه برچسب، کل عبارت طولانی را به عنوان “کیفیت خوب” یاد گرفت.

– این مشکل در نسخه V7 اصلاح خواهد شد.

آیا این برچسب‌ها مهم هستند؟

– بله، در برخی موارد:
– ابزارهایی مانند PSAI discord bot به صورت خودکار score_9 و سایر برچسب‌ها را اضافه می‌کنند.
– در UIs دیگر (مانند Auto1111) باید به صورت دستی این برچسب‌ها را به ابتدای پرامپت اضافه کنید.

توصیه‌های نهایی:
1. تأثیر برچسب‌ها بر سبک/LoRA:
– اگر از LoRAهای سبک یا هنرمند خاص استفاده می‌کنید، حذف برچسب‌ها و کنترل بازخورد مدل می‌تواند بهتر باشد.

2. منفی کردن برچسب‌ها برای حذف تصاویر بی‌کیفیت:
– برچسب‌های score_4 یا score_5 در بخش منفی ممکن است کمک کند، اما برای حذف تصاویر بد، ناکافی هستند، زیرا این مدل فقط بر کیفیت تا score_4 آموزش دیده است.

 

نظرات


دیدگاهتان را بنویسید


captcha

×