پنجشنبه ۶ دی ۱۴۰۳ , 26 Dec 2024
جالب است ۰
هوش مصنوعی Stable Cascade ویژگی‌های جدیدی در تبدیل متن به عکس و ویرایش تصاویر ارائه می‌کند.
منبع : Stability AI
هوش مصنوعی Stable Cascade ویژگی‌های جدیدی در تبدیل متن به عکس و ویرایش تصاویر ارائه می‌کند.
 
به گزارش افتانا، شرکت Stability AI محصول جدید خود موسوم‌به Stable Cascade را که سرویسی برای ساخت عکس با هوش مصنوعی است رونمایی کرده و ادعا می‌کند که سریع‌تر و قدرتمندتر از Stable Diffusion ظاهر می‌شود.
 
Stable Cascade قادر است با دریافت درخواست متنی کاربر، چندین تصویر را در حالت‌های متفاوتی تولید کند. این سرویس همچنین می‌تواند وضوح یک عکس آپلودشده را تا دو برابر افزایش دهد؛ به‌عنوان مثال وضوح ۱۰۲۴×۱۰۲۴ پیکسل را به ۲۰۴۸×۲۰۴۸ پیکسل می‌رساند.
 
ابزار هوش مصنوعی جدید Stability AI در بخش ویرایش تصویر، می‌تواند بخش‌های خراب‌شده‌ای از تصویر را ترمیم یا قسمت حذف‌شده‌ای از آن را پر کند.
 
قابلیت Canny Edge به ابزار Stable Cascade اضافه شده است که کاربران را قادر می‌سازد از روی یک طرح اولیه یا قسمتی از یک تصویر، عکس جدید و کامل‌شده‌ای را ایجاد کنند.
 
مدل هوش مصنوعی جدید Stable Cascade برای محققان در گیت‌هاب قابل دسترسی است، اما هنوز برای استفاده‌ی تجاری منتشر نشده است. این مدل امکانات بیشتری را از مدل‌های مشابهی نظیر Imagen گوگل یا ابزار Imagine with Meta متا به‌ارمغان می‌آورد.
 
برخلاف Stable Diffusion، ابزار هوش مصنوعی Stable Cascade حاصل یک مدل زبانی بزرگ نیست، بلکه از سه مدل مختلف قدرت‌ گرفته که براساس معماری Würstchen توسعه پیدا کرده‌اند.
 
در مرحله اول، مدل Stage C، درخواست متنی را به قطعات کوچکی تقسیم می‌کند، سپس به Stage A و Stage B منتقل می‌شود تا آن را رمزگشایی کنند.
 
Stage C و Stage B هر یک با دو مدل مختلف منتشر خواهند شد که شامل مدل‌هایی با یک میلیارد و ۳٫۶ میلیارد پارامتر برای Stage C و ۷۰۰ میلیون و ۱٫۵ میلیارد پارامتر برای Stage B می‌شوند. سازنده توصیه می‌کند که از مدل‌های با پارامتر بیشتر استفاده شود تا خروجی با کیفیت‌تری به‌دست آید.
 
به لطف رویکرد ماژولار Stable Cascade، نیاز به حافظه‌ی گرافیکی می‌تواند به حدود ۲۰ گیگابایت محدود شود و درصورت استفاده از مدل‌های کوچک‌تر این مقدار کمتر می‌شود، اما بر کیفیت نتیجه نیز تأثیر خواهد گذاشت.
 
تقسیم درخواست به قطعات کوچک‌تر باعث فشرده‌سازی آن می‌شود تا نیاز کمتری به رم و گرافیک داشته باشد و سریع‌تر و با کیفیت بالاتری اجرا شود. در نمونه‌ای از درخواست ارائه‌ شده به مدل، زمان ایجاد تصویر حدود ۱۰ ثانیه طول کشید که از زمان ۲۲ ثانیه در مدل Stable Diffusion سریع‌تر بود.
کد مطلب : 21973
https://aftana.ir/vdcbf9b5.rhb8zpiuur.html
ارسال نظر
نام شما
آدرس ايميل شما
کد امنيتی