تعریف score_9 و نحوه استفاده از آن در Pony Diffusion
آیا به نسخه بعدی Pony Diffusion علاقهمندید؟ بهروزرسانیهای جدید را اینجا بخوانید:
[Towards Pony Diffusion V7]
ممکن است score_9 یا نسخههای طولانیتر آن مانند score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up را در برخی از پرامپتهای Pony Diffusion دیده باشید. در این راهنما، توضیح داده میشود که این برچسبها چیستند، چگونه ایجاد شدهاند و چطور میتوانید از آنها برای تولید تصاویر باکیفیتتر استفاده کنید.
—
چرا به برچسب score_9 نیاز داریم؟
چرخه (سادهشده) یک مدل AI شامل دو مرحله است:
1. آموزش (Training):
در این مرحله، مدلی که دانش خاصی ندارد (مانند یک مدل تازهساز) یا نیاز به تنظیم دقیق دارد (finetuning) بارها با جفتهای تصویر-زیرنویس آموزش داده میشود. این پروسه، مفاهیم موردنظر را به مدل آموزش میدهد تا از دیدگاه انسانی به تصاویر معنا دهد. این فرآیند طولانی است و برای Pony Diffusion نسخه V6 حدود 3 ماه طول کشید و از سختافزار سنگینی استفاده شد.
2. استنتاج (Inference):
پس از اتمام آموزش، از مدل برای تولید تصاویر استفاده میکنیم.
در مرحله استنتاج، چالشهایی وجود دارد که برای تولید تصاویر باکیفیت باید بر آنها غلبه کنیم:
– کامپیوترها مفهوم “تصاویر زیبا” را نمیفهمند.
– کیفیت تصاویر تولیدشده معمولاً مشابه تصاویر دیدهشده در مرحله آموزش است (اصطلاحاً به این موضوع GIGO (Garbage In, Garbage Out) گفته میشود).
—
راهحلها:
1. آموزش مدل فقط با دادههای خوب؟
– ایده خوبی است، اما نه عملی:
– بسیاری از مفاهیم (شخصیتها، اشیا، حرکات) داده کافی برای آموزش ندارند.
– هنوز نمیدانیم چگونه دادههای خوب را از دادههای بد جدا کنیم.
2. ایجاد یک روش برای رتبهبندی دادههای خوب از بد:
– باید راهی برای شناسایی دادههای باکیفیت پیدا کنیم.
– از مدلهایی استفاده میکنیم که میتوانند کیفیت تصاویر را یاد بگیرند و رتبهبندی کنند.
—
چگونه ماشینها را در مورد کیفیت “آموزش” دهیم؟
برای رتبهبندی تصاویر، از سیستمی به نام رتبهبندی زیباییشناختی مبتنی بر CLIP استفاده میکنیم:
– CLIP (Contrastive Language-Image Pre-training):
این مدل، جفتهای تصویر-متن را بر اساس میزان همبستگی آنها ارزیابی میکند.
– مثلاً کلماتی مانند “masterpiece”، “best quality” یا “hd” که در توضیحات تصاویر ظاهر میشوند، میتوانند به مدل کمک کنند تصاویر باکیفیتتر را شناسایی کند.
– اما CLIP چالشهایی دارد:
– این مدل برای محتوای غیرواقعی (مانند کاراکترهای کارتونی یا پونیها) خوب عمل نمیکند.
– برای انیمه بهتر از سبکهای دیگر عمل میکند.
برای غلبه بر این مشکل:
– از ابزارهایی استفاده میکنیم که سیگنالهای کیفیت را از تصاویر استخراج کرده و آنها را رتبهبندی میکنند.
—
ورود به “جهنم برچسبگذاری دادهها”
ما نیاز به تصاویر زیادی داریم:
– تصاویر خوب، نهچندان خوب و حتی بد.
– برخی از این تصاویر را میتوان با استفاده از امتیازات کاربران در سایتهای محبوب (مانند boorus) جمعآوری کرد.
چالشها:
1. کاربران تصاویر را بر اساس محتوا و کیفیت قضاوت میکنند که ممکن است همیشه مرتبط نباشند.
– مثلاً محتواهای NSFW یا شخصیتهای محبوب ممکن است ناعادلانه رتبه بالایی بگیرند.
2. امتیازات در سایتهای مختلف سازگار نیستند.
راهحل:
– تصاویر را به صورت دستی و بر اساس کیفیت و سبک رتبهبندی کنیم:
– 1 تا 5 امتیاز برای هر تصویر.
– تعداد زیادی از هر سبک مختلف (3D، اسکچ، نیمهواقعی و غیره) را پوشش دهیم.
– در Pony Diffusion نسخه V6، تقریباً 20,000 تصویر به صورت دستی رتبهبندی شدند.
—
ساخت برچسبهای score_X
پس از برچسبگذاری تصاویر:
– یک مدل جدید آموزش داده میشود که از رتبههای انسانی به همراه CLIP برای یادگیری استفاده میکند.
– این مدل، تصاویر جدید را از 0 تا 1 رتبهبندی میکند (زیرا کامپیوترها با این بازه راحتتر هستند).
– تصاویر خوب برچسبهایی مانند score_9 (پونی زیبا) دریافت میکنند، در حالی که تصاویر ضعیفتر ممکن است برچسب score_8 (پونی کمتر زیبا) بگیرند.
—
آموزش مدل Pony Diffusion با دادههای برچسبخورده
در فرآیند آموزش:
– به مدل یاد میدهیم که دادههای annotated (برچسبخورده) با score tags چه تفاوتی دارند.
– بدین ترتیب، میتوانیم تصاویر با کیفیت بالاتر را تولید کنیم.
چالش نسخه V6
در نسخه V6، برچسبهای score_9 تنها دادههای 90% به بالا را شامل میشد.
– برای آزمایش، برچسبهای طولانیتر مانند score_9, score_8_up, score_7_up تولید شدند، اما مدل به جای بخشهای جداگانه برچسب، کل عبارت طولانی را به عنوان “کیفیت خوب” یاد گرفت.
– این مشکل در نسخه V7 اصلاح خواهد شد.
—
آیا این برچسبها مهم هستند؟
– بله، در برخی موارد:
– ابزارهایی مانند PSAI discord bot به صورت خودکار score_9 و سایر برچسبها را اضافه میکنند.
– در UIs دیگر (مانند Auto1111) باید به صورت دستی این برچسبها را به ابتدای پرامپت اضافه کنید.
توصیههای نهایی:
1. تأثیر برچسبها بر سبک/LoRA:
– اگر از LoRAهای سبک یا هنرمند خاص استفاده میکنید، حذف برچسبها و کنترل بازخورد مدل میتواند بهتر باشد.
2. منفی کردن برچسبها برای حذف تصاویر بیکیفیت:
– برچسبهای score_4 یا score_5 در بخش منفی ممکن است کمک کند، اما برای حذف تصاویر بد، ناکافی هستند، زیرا این مدل فقط بر کیفیت تا score_4 آموزش دیده است.
—
نظرات