متا از هوش مصنوعی جدیدی برای تبدیل متن به ویدیو رونمایی کرد

تاریخ ارسال: 1401/08/01
تعداد نمایش: 1402
گروه:
- تازه های تکنولوژی

متا از هوش مصنوعی جدیدی برای تبدیل متن به ویدیو رونمایی کرد

یکی از جذاب‌ترین موضوعات حوزه‌ فن اوری، ابزارهای هوش مصنوعی برای تبدیل متن به عکس می باشد. حالا باید محققان از هوش مصنوعی برای تبدیل متن به ویدئو استفاده کنند.

خرید کیبرد و ماوس بی‌سیم لاجیتک مدل MK۲۷۰ با حروف فارسی

زومیت نوشت؛ تیمی از مهندسان واحد یادگیری ماشینی متا، از مدل هوش مصنوعی جدیدی به‌نام Make-A-Video رونمایی کردند. همان‌طور که از نام این ابزار مشخص است، به کاربران اجازه می‌دهد با ارائه‌ توضیح متنی از صحنه‌ موردنظر خود، ویدئوی کوتاهی مطابق با آن متن بوجود بیاورند.

درحال‌حاضر ویدئوهای تولیدشده با این مدل، مصنوعی به‌نظر می‌رسند و برخی المان‌های تار و انیمیشن‌های ضعیف در آن‌ها دیده می‌شود، اما این فن اوری پیشرفتی بسیار قابل توجه در زمینه‌ تولید محتوای مبتنی‌بر هوش مصنوعی به حساب می آید.

متا، هوش مصنوعی جدید خود را با انتشار یک پست وبلاگی معرفی کرد. این شرکت می‌گوید: تحقیقات مولد هوش مصنوعی با در اختیار قرار دادن ابزارهایی برای مردم به منظور ایجاد آسان و سریع محتوای جدید، باعث پیشرفت در بیان خلاقانه خواهد بود. فقط با ارائه‌ چند کلمه یا یک‌خط متن به Make-A-Video، این ابزار می‌تواند تخیل را زنده کند و ویدئوهای منحصربه‌فردی را با رنگ‌ها و مناظر مختلف تولید نماید.

مارک زاکربرگ، مدیرعامل متا در حساب کاربری فیسبوک خود، ابزار Make-A-Video را پیشرفتی شگفت‌انگیز توصیف کرد و گفت: تولید ویدئو بسیار سخت‌تر از ساخت عکس‌ است، زیرا سیستم در این شرایط علاوه‌بر تولید صحیح هر پیکسل، باید تغییر پیکسل‌ها را در طول زمان پیش‌بینی کند.

کلیپ‌هایی که Make-A-Video تولید می‌کند بیشتر از پنج‌ثانیه نیست و صدا ندارند، اما این ابزار از طیف وسیعی از درخواست‌ها پشتیبانی می‌کند. بهترین روش برای قضاوت در مورد عملکرد مدل هوش مصنوعی جدید متا، تماشای برخی خروجی‌های آن است.

فعلا کسی امکان دسترسی مستقیم به ابزار هوش مصنوعی جدید این شرکت را ندارد. این یعنی امکان دارد غول رسانه‌های اجتماعی جهان، بهترین نتیجه‌های به‌دست آمده از هوش مصنوعی جدید خود را ارائه کرده باشد.

خرید حافظه اس اس دی وسترن دیجیتال مدل گرین ام تو با ظرفیت ۲۴۰ گیگابایت

اگرچه واضح است که ویدئوهای فوق با رایانه تولید شده‌اند، اما خروجی این نوع مدل‌های هوش مصنوعی در آینده‌ نزدیک، به‌سرعت بهبود خواهد یافت. ابزارهای تولید تصویر مبتنی‌بر هوش مصنوعی طی چندسال، از ایجاد تصاویر نامفهوم به مرحله‌ای رسیده‌اند که می توانند عکس‌های واقعی و با کیفیت تولید ‌کنند.

اگرچه با توجه به پیچیدگی بسیار زیاد موضوع، احتمال دارد سرعت پیشرفت ایجاد ویدئو با هوش مصنوعی سریع نباشد، اما جایزه‌ تولید یکپارچه‌ ویدئو باعث انگیزه‌ بسیاری از مؤسسات و شرکت‌ها خواهد شد تا منابع قابل توجهی روی این پروژه سرمایه‌گذاری کنند.

متا در پست وبلاگی خود پس از معرفی Make-A-Video، می گوید ابزارهای تولید ویدئو مبتنی‌بر هوش مصنوعی می‌توانند برای تولیدکنندگان محتوا و هنرمندان بسیار ارزشمند باشند، اما مثل مدل‌های تبدیل متن به عکس، چشم‌اندازهای نگران‌کننده‌ای درمورد ابزار تبدیل متن به ویدئو نیز وجود دارد.

خروجی این فن اوری می‌تواند برای اطلاعات نادرست، تبلیغات و به‌احتمال زیاد، براساس آنچه در سیستم‌های تصویری مبتنی‌بر هوش مصنوعی و دیپ‌فیک دیده‌ایم، برای تولید هرزه‌نگاری یا آزار و اذیت و ارعاب مورد سوء استفاده قرار گیرد.

متا می‌خواهد روی چگونگی ساخت سیستم‌های هوش مصنوعی جدید مثل ابزارهای تبدیل متن به ویدئو تمرکز کند و درحال‌حاضر مقاله‌ای درمورد مدل Make-A-Video منتشر نموده است. این شرکت تصمیم دارد نسخه‌ای از سیستم مذکور را ارائه دهد؛ اما هیچ جزئیاتی در مورد تاریخ یا چگونگی دسترسی به آن به‌اشتراک نگذاشته است.

البته متا تنها شرکتی نیست که روی ابزارهای هوش مصنوعی تولید ویدئو کار می‌کند. اوایل سال جاری گروهی از محققان دانشگاه Tsinghua و آکادمی هوش مصنوعی پکن (BAAI) مدل تبدیل متن به ویدئوی خود را با نام CogVideo معرفی کرد و اکنون در دسترس عموم قرار دارد.

خرید هارد اکسترنال ای دیتا مدل اچ دی ۷۱۰ پرو با ظرفیت ۱ ترابایت

محققان متا در مقاله‌ معرفی Make-A-Video خاطرنشان می‌کنند که این مدل در حال آموزش روی جفت‌تصاویر، زیرنویس‌ها و همچنین فیلم‌ها است. محتوای آموزشی از دو مجموعه داده‌‌ (WebVid-10M و HD-VILA-100M) تهیه شده که جمعا حاوی میلیون‌ها ویدئو و صدها هزار ساعت فیلم است.

داده‌های ارائه‌شده برای آموزش این مدل شامل ویدئوهایی است که سایت‌هایی مثل Shutterstock آن‌ها را ایجاد کرده‌اند.

محققان متا می گویند محدودیت‌های فنی مدل هوش مصنوعی تبدیل متن به ویدئو آن‌ها فراتر از مشکلات کنونی مثل انیمیشن‌های ناهمگون یا ایجاد کلیپ‌های مبهم است. به‌عنوان مثال، روش‌های آموزشی آن‌ها نمی‌تواند اطلاعاتی که یک انسان از تماشای ویدئو استنباط می‌کند را بیاموزد.

از دیگر مشکلات این مدل می‌توان به محدودیت در تولید ویدئوهای طولانی‌تر از پنج‌ثانیه با صحنه‌ها و رویدادهای متعدد و همچنین وضوح بالاتر اشاره نمود. Make-A-Video درحال‌حاضر ۱۶ فریم ویدئو را با وضوح ۶۴ در ۶۴ پیکسل تولید می‌کند که با استفاده از یک مدل هوش مصنوعی مجزا، ابعاد آن‌ها را به ۷۶۸ در ۷۶۸ پیکسل ارتقاء می‌دهد.

تیم متا اعلام کرده Make-A-Video مثل سایر مدل‌های هوش مصنوعی که براساس داده‌های جمع‌آوری‌شده از وب آموزش دیده‌اند، جهت گیری‌های اجتماعی و احتمالا اغراق‌آمیز و موارد مضر را آموخته است. این جهت گیری‌ها در مدل‌های تبدیل متن به تصویر، اغلب تعصبات اجتماعی را تقویت می‌کنند. بااین‌حال نمی‌توان گفت مدل متا بدون دسترسی آزاد، چه جهت گیری‌هایی را آموخته است.

متا می‌گوید این تحقیقات را به‌همراه نتایج هوش مصنوعی جدید خود، با عموم کاربران به‌اشتراک خواهد گذاشت و این شرکت به استفاده از چارچوب هوش مصنوعی برای اصلاح و تکامل رویکرد خود در این فن اوری نوظهور ادامه خواهد داد.

خرید حافظه اس اس دی اینترنال وسترن دیجیتال مدل Blue WDS۵۰۰G۱B۰A ظرفیت ۵۰۰ گیگابایت

هوش مصنوعی چیست؟

هوش مصنوعی به انگلیسی Artificial intelligence مخفف AI، شاخه ای از علوم رایانه است که هدف اصلی آن تولید ماشین‌های هوشمندی با توانایی انجام وظایفی است که نیازمند به هوش انسانی است را داشته باشد. هوش مصنوعی در حقیقت نوعی شبیه سازی هوش انسانی برای کامپیوتر است.

در واقع هوش مصنوعی ماشینی است که همانند انسان فکر می کند و توانایی تقلید از رفتار انسان را دارد. این تعریف می تواند به تمامی ماشین هایی اطلاق شود که همانند ذهن انسان عمل می‌کنند و می‌توانند کارهایی مانند حل مسئله و یادگیری را انجام دهند.

متاورس چیست؟

متاورس (Metaverse) یک اینترنت زنده و قابل تجسم است که می‌توان در آن حضور یافت و با استفاده از آواتار و نمادهای شخصی‌سازی ‌شده احساس واقعی‌تری نسبت به تماس تصویری دارد. چیزی که متاورس را از سایر شبکه‌های اجتماعی متمایز کرده و فضایی شبیه به زندگی واقعی را به وجود آورده، رخ دادن اتفاقات به صورت همزمان است.

کاربر در متاورس به جای پیام یا تماس تلفنی، به صورت مستقیم و در زمان واقعی سایر افراد را ملاقات کرده و با آن‌ها ارتباط برقرار می‌کند. همه چیز در دنیای متاورس مانند دنیای واقعی پایدار است و با ورود به فضای متاورس جدید، نیازی نیست تا همه چیز را از اول شروع کنید.