هوش مصنوعی مرموز Nano-Banana خبرساز شد؛ تولید و ویرایش عکس با دقتی خیره‌کننده

نویسنده: دیجیاتو __ 10 ساعت پیش

در دنیای پرسرعت هوش مصنوعی، یک مدل جدید و مرموز برای تولید و ویرایش تصویر با نام Nano-Banana ظهور کرده که با عملکرد خیره‌کننده خود، توجه جامعه فناوری را جلب کرده است. این مدل بدون هیچ‌گونه معرفی رسمی و در پلتفرم LMArena مشاهده شده است و می‌تواند دستورات متنی پیچیده را درک و با دقت بالایی تصاویر را ویرایش کند.

برخلاف مدل‌های مشهور، Nano-Banana با کمپین‌های تبلیغاتی معرفی نشد؛ بلکه بی‌سروصدا در بخش ویرایش تصویر پلتفرم LMArena ظاهر شد. البته طولی نکشید که کاربران با به‌ اشتراک‌گذاشتن خروجی‌های جالب، از توانایی بی‌نظیر آن در دنبال‌کردن دستورات پیچیده تعجب کردند. برای مثال، این مدل قادر است دستورات چندمرحله‌ای مانند «شخصیت پایینی را به شخصیت 2B از بازی Nier: Automata و شخصیت بالایی را به Master Chief از بازی Halo تبدیل کن» را با دقتی خیره‌کننده اجرا کند، و نورپردازی، پرسپکتیو و ترکیب‌بندی کلی صحنه را دست‌نخورده باقی بگذارد. در تصویر پایین نیز می‌بینید چگونه دو عکس مختلف را به‌خوبی ترکیب می‌کند:

مدل هوش مصنوعی Nano-Banana

عملکرد فوق‌العاده مدل Nano-Banana باعث شده تا گمانه‌زنی‌های زیادی درمورد هویت سازنده آن شکل بگیرد. اگرچه هیچ شرکتی رسماً اعلام نکرده که این مدل را ساخته، اما قوی‌ترین نظریه این است که Nano-Banana یک پروژه مخفی متعلق به گوگل است، آن هم به دو دلیل: اول، کیفیت و بافت تصاویر تولیدشده شباهت زیادی به مدل‌های Imagen و Gemini گوگل دارد؛ و دوم، گوگل سابقه‌ای طولانی در استفاده از نام میوه‌ها به عنوان اسم رمز برای پروژه‌های داخلی خود دارد.

قدرت اصلی Nano-Banana به توانایی آن برای بازسازی لایه‌های مختلف تصویر (مانند فتوشاپ) برمی‌گردد. این مدل می‌تواند با دستورات ساده، پس‌زمینه را تغییر دهد، حالت چهره فرد را عوض کند، وضوح عکس‌های تار را بهبود بدهد یا حتی دو تصویر مجزا را در یک تصویر واحد ترکیب کند. علاوه‌براین، در حفظ پیوستگی شخصیت‌ها در تصاویر متوالی (مانند یک کمیک استریپ) و تبدیل صحنه‌ها به سبک‌های هنری مختلف (آبرنگ، رنگ روغن و…) نیز برتری دارد.

بااین‌حال، Nano-Banana بی‌نقص نیست. کاربران به مشکلاتی مانند گلیچ‌های بصری در بازتاب‌ها، رندر ناقص متون و خطاهای آناتومیک رایج (مانند خطا در نمایش دست و انگشتان) اشاره کرده‌اند. در‌حال‌حاضر، هیچ راه رسمی برای دسترسی به این مدل وجود ندارد، اما کاربران ممکن است به صورت تصادفی در بخش «Battle» پلتفرم LMArena با آن مواجه شوند. بااین‌حال، اگر این مدل واقعاً پروژه گوگل باشد، عرضه رسمی آن می‌تواند بار دیگر رقابت در بازار هوش مصنوعی مولد تصویر را به شکل چشمگیری دگرگون کند.