هوش مصنوعی GauGAN2 انویدیا از کلمات، تصاویر دقیق و گاهی دلهرهآور تولید میکند
بخش تحقیقاتی انویدیا بهتازگی جدیدترین نسخهی پروژهی هوش مصنوعی GauGAN را رونمایی کرده که مبتنیبر یادگیری عمیق است و حالا به قابلیت تبدیل متن به تصویر مجهز شده است. در نسخهی اولیهی این پروژه، از تبدیل متن به تصویر خبری نبود و لازم بود طرح کلی از سوژه کشیده شود تا براساس این طرح، تصویر واقعی مشابه به کمک هوش مصنوعی تولید شود.
حالا GauGAN2 به کاربر اجازه میدهد با تایپ عباراتی مثل «غروب آفتاب در ساحل» و اضافهکردن جزئیات دیگری به آن، مثل «ساحل سنگی» یا تغییر «غروب» به ساعات دیگری در روز یا حتی تعیین وضعیت آبوهوا، به تصویر واقعی و تقریبا مشابه با آنچه تایپ کرده، برسد.
تصویر تولیدشده از عبارت «butterflies autumn leaves» در الگوریتم GauGAN2 انویدیا
شما میتوانید نحوهی استفاده از این پلتفرم را در ویدئو زیر تماشا کنید یا به خود صفحهی مربوط به پروژهی GauGAN2 بروید و خودتان با این پروژه کار کنید. دقت کنید پس از قبولکردن شرایط و ضوابط در انتهای صفحه، در قسمت Input utilization، حتما تیک text را بزنید و برای نتیجهی دقیقتر، تیک segmentation را بردارید. سپس، عبارت مدنظرتان را در نوار Input text تایپ و روی دکمهی جهت راست (render output) کلیک کنید. حواستان باشد از فشردن دکمهی اینتر خودداری کنید؛ چون نتایج جستوجو را ریست میکند.
تماشا در یوتیوب
جدیدترین نسخهی پروژه GauGAN اولین مدل مبتنیبر هوش مصنوعی است که از چندین ورودی ازجمله متن، طراحی، تقسیمبندی و تصویر بهطور همزمان در یک شبکهی مولد رقابتی واحد پشتیبانی میکند. بههمیندلیل، اگر در بخش Input utilization، تیک گزینه sketch را بزنید و در بوم سمت چپ طرحی را بکشید، هوش مصنوعی طرح شما را به تصویر نشاندادهشده در سمت راست اضافه میکند و گاه اثر هنری جالبی خلق میکند.
بااینحال، این پروژه هنوز در فاز بتا است و یادگیری عمیق آن بهاندازهی کافی پیشرفته نیست تا برای هر عبارت تایپشده، تصویر کاملا مرتبط ایجاد کند. برای مثال، با تایپ عبارت «people walking»، تصویر بهدستآمده نهتنها شباهتی به افراد در حال قدمزدن نداشت؛ بلکه کلاژ تکههایی از بدن حیوانات تصویر دلهرهآوری ایجاد کرد.
تصویر تولیدشده از عبارت «people walking» در الگوریتم GauGAN2 انویدیا
برای سرگرمی، میتوانید عبارات بیمعنی یا رندومی را نیز در این صفحه جستوجو کنید تا الگوریتم انویدیا تصاویر عجیب و دلهرهآور بیشتری به شما نشان دهد. برای نمونه، با تایپ «zoomit is great»، تصویر موهومی زیر بهدست آمد:
تصویر تولیدشده از عبارت «zoomit is great» در الگوریتم GauGAN2 انویدیا
GauGAN الگوریتمی است که غول دنیای پردازندههای گرافیکی توسعه داده تا قدرت هوش مصنوعی را بهنمایش بگذارد. اولین نسخهی GauGAN اوایل سال ۲۰۱۹ بهعنوان پلتفرمی برای طراحی بهکمک هوش مصنوعی ارائه شد که بهواسطهی آن، طرح کشیدهشدهی کاربر به عکس واقعی مشابه با طرح تبدیل میشد.
اصطلاح GAN در نام این پروژه به کلاس گستردهای از برنامههای شبکهی عصبی موسوم به شبکههای مولد رقابتی یا زایای دشمنگونه اشاره میکند که ایان گودفلو و همکارانش در سال ۲۰۱۴ معرفی کردند. در این کلاس، دو شبکهی عصبی روبهروی یکدیگر قرار میگیرند؛ بهطوریکه یک شبکه روی خروجی بهطور پیوسته کار و آن را اصلاح میکند تا زمانی که شبکهی دوم صحت خروجی را تأیید کند. ماهیت رقابتی بین این دو شبکه دلیل «دشمنگونه» نامیدن آنها است.
تصویر مفهومی تولیدشده از عبارت «بودن یا نبودن، مسئله این است» در الگوریتم GauGAN2 انویدیا
انویدیا در گسترش شبکههای مولد رقابتی اقدامات بزرگی انجام داده است که معرفی پروژهی Style-GAN در سال ۲۰۱۸ را شامل میشود. Style-GAN میتواند تصاویر جعلی، اما بسیار واقعگرایانه از افراد تولید کند.
مقالهی مرتبط:انویدیا چگونه در سه هفته، هفتمین رایانه سریع دنیا را تولید کرد؟
انویدیا به توسعه و بهبود GauGAN ادامه خواهد داد و پروژههای مبتنیبر هوش مصنوعی دیگری نیز در دست ساخت دارد. الگوریتم GauGAN2 با ۱۰ میلیون تصویر منظره بهکمک ابررایانه سلین انویدیا، یکی از ده اَبَرکامپیوتر پرقدرت جهان، آموزش دیده است.
پروژهی GauGAN2 انویدیا بهکمک یادگیری عمیق میتواند از کلمات و عبارتهای تایپشده، تصاویری خلق کند که گاه بسیار شبیه به عبارت تایپشده و گاه هنری و گاه بسیار دلهرهآور هستند.