چگونه با هوش مصنوعی OpenAI Sora ویدیوهای جذاب بسازیم؟

این‌طور که پیداست، سرعت توسعه‌ی هوش مصنوعی به سمت نقطه‌ای فراتر از درک انسان پیش می‌رود و در این زمینه، سیستم تبدیل نوشتار به ویدیو سورا محصول شرکت OpenAI جدیدترین فناوری هوش مصنوعی است که دنیای فناوری را تحت تأثیر قرار داده و نشان می‌دهد که اتفاقات در زمینه‌ی هوش مصنوعی زودتر از آنچه انتظار […]

دوشنبه 14 اسفند 1402 - 5:40

چگونه با هوش مصنوعی OpenAI Sora ویدیوهای جذاب بسازیم؟

این‌طور که پیداست، سرعت توسعه‌ی هوش مصنوعی به سمت نقطه‌ای فراتر از درک انسان پیش می‌رود و در این زمینه، سیستم تبدیل نوشتار به ویدیو سورا محصول شرکت OpenAI جدیدترین فناوری هوش مصنوعی است که دنیای فناوری را تحت تأثیر قرار داده و نشان می‌دهد که اتفاقات در زمینه‌ی هوش مصنوعی زودتر از آنچه انتظار می‌رود، رخ می‌دهند.

به گزارش اول فارس شرکت اوپن‌ای‌آی که بیشتر با ابزار چت‌بات هوش مصنوعی «چت جی‌پی‌تی» (Chat GPT) شناخته می‌شود، در هفته‌های اخیر از ابزار هوش مصنوعی جدید خود با نام «سورا» (Sora) برای تبدیل متن به ویدیو رونمایی کرده است. این ابزار هنوز به صورت عمومی در دسترس نیست و فقط آزمایش‌کنندگان محدودی امکان استفاده از آن را دارند اما این‌طور که ویدیوهای منتشر شده نشان می‌دهد، پیشرفت چشمگیری نسبت به دیگر ابزارهای ساخت ویدیو از نوشتار دارد و فیلم‌های نهایی تولید شده با آن کاملا واقعی به نظر می‌رسند. موضوعی که هم‌زمان می‌تواند هیجان‌انگیز و نگران‌کننده باشد.

OpenAI Sora چیست؟

مانند دیگر ابزارهای مولد هوش مصنوعی مانند «دال-ئی» (DALL-E) و «میدجرنی» (MidJourney)، ابزار مبتنی بر هوش مصنوعی «سورا» هم پیام‌های متنی را از شما می‌گیرد و آن‌ها را به یک تصویر دیداری تبدیل می‌کند. اما بر خلاف دیگر موارد اشاره شده برای تولید تصویر مبتنی بر هوش مصنوعی، سورا یک کلیپ ویدیویی کامل دارای حرکت، زوایای مختلف دوربین، جهت و هر چیز دیگری است که از یک ویدیوی تولید شده به طور سنتی انتظار دارید.

با نگاهی به نمونه‌های موجود در وب‌سایت سورا، نتایج نهایی آن، اغلب از ویدیوی واقعی و حرفه‌ای تولید شده قابل تشخیص نیستند. این مقایسه، همه چیز از فیلم‌های هواپیماهای بدون سرنشین گران‌قیمت گرفته تا تولید فیلم‌های چند میلیون دلاری که با بازیگران و جلوه‌های ویژه‌ی تولید شده توسط هوش مصنوعی کامل می‌شوند را دربر می‌گیرد.

البته سورا نخستین فناوری تولید ویدیو از متن نیست و تا کنون شاخص‌ترین نمونه در این زمینه، «ران‌وی ام‌ال» (RunwayML) بود که خدمات خود را با پرداخت هزینه به عموم ارائه می‌دهد. با این حال، حتی در بهترین شرایط، ویدیوهای ران‌وی بیشتر شبیه به نسل‌های اولیه‌ی تصاویر ثابت میدجرنی هستند. هیچ ثباتی در تصاویر وجود ندارد، فیزیک موجود در آن منطقی نیست و در حال حاضر طولانی‌ترین طول کلیپی که ارائه می‌دهد ۱۶ ثانیه است.

«لومیر» (Lumiere) هم که چند هفته پیش منتشر شد، ادعا کرد که ویدیوهای بهتری نسبت به نسخه‌های قبلی خود تولید می‌کند اما به‌نظر می‌رسد که سورا حداقل در برخی موارد از لومیر قدرتمندتر است. این فناوری می‌تواند ویدیوهایی با وضوح حداکثر ۱۹۲۰ در ۱۰۸۰ پیکسل و نسبت‌های مختلف تولید کند.

بهترین خروجی که سورا ارائه می‌دهد کاملا پایدار است، فیزیک ارائه شده در آن برای ذهن انسان درست به نظر می‌رسد و طول کلیپ‌ها می‌تواند تا یک دقیقه را هم شامل شود. ویدیوهای تولید شده توسط سورا بدون صدا هستند، اما سیستم‌های هوش مصنوعی دیگری هم وجود دارند که می‌توانند موسیقی، جلوه‌های صوتی و گفتار تولید کنند تا آن‌ها را روی ویدیوهای تولید شده توسط هوش مصنوعی قرار دهید.

هوش مصنوعی OpenAI Sora

بدین ترتیب نمی‌توان جهش عظیمی را که سورا نسبت به نسل‌های قبلی ویدیوهای تولید شده با هوش مصنوعی عرضه کرده است، نادیده گرفت. همین یک سال پیش بود که هوش مصنوعی ویدیوهای کاملا غیرواقعی تولید می‌کرد اما اکنون با پیش‌نمایش سورا، شوک بزرگی برای فعالان عرصه‌ی هنرهای تصویری ایجاد شده است. سورا احتمالا کل صنعت ویدیو را از سازندگان ویدیوهای تک نفره تا سطح پروژه‌های کلان‌بودجه مانند دیزنی و مارول تحت تأثیر قرار می‌دهد. این ممکن است شروع واقعی صنعت فیلم مصنوعی باشد.

سورا چگونه کار می‌کند؟

تا جایی که امکان دارد، روند تولید تصاویر توسط سورا را بررسی می‌کنیم اما نمی‌توان به جزئیات پرداخت. نخست به این دلیل که OpenAI در مورد عملکرد درونی فناوری خود صحبت نمی‌کند. همه‌ی این موارد انحصاری است و بنابراین جزئیات فناوری مخفی که سورا را از رقبا متمایز می‌کند، مشخص نیست. دوم، جزئیات موضوع شاید برای عموم جذاب و قابل درک نباشد و فقط یک دانشمند حوزه‌ی کامپیوتر از آن سر در بیاورد، بنابراین ما فقط می‌توانیم نحوه‌ی عملکرد این فناوری را به طور کلی درک کنیم.

خوشبختانه «مایک یانگ» (Mike Young) بر اساس گزارشی فنی OpenAI، توضیحات کاملی درباره‌ی فناوری سورا در مدیوم ارائه داده است که در اینجا مهم‌ترین نکات آن را با هم مرور می‌کنیم.

Sora بر اساس درس هایی ساخته شده است که شرکت‌هایی مانند OpenAI هنگام ایجاد فناوری‌هایی مانند «چت‌جی‌پی‌تی» (ChatGPT) یا «دال-ئی» (DALL-E) آموخته‌اند. Sora ویدیوها را با تقسیم کردن آن ویدیوها به بخش‌هایی که مشابه توکن‌های مورد استفاده در مدل آموزشی چت جی‌پی‌تی هستند، تولید می‌کند. از آنجا که این توکن‌ها همگی اندازه‌ی یکسانی دارند، چیزهایی مانند طول کلیپ، نسبت تصویر و وضوح برای سورا مهم نیستند.

در حقیقت این ابزار تولید ویدیو از متن، از همان رویکرد تبدیل گسترده‌ای استفاده می‌کند که در دیگر مدل‌های تبدیل زبانی هوش مصنوعی مانند Chat GPT و گوگل Gemini استفاده می‌شود. این ترانسفورماتورها نخستین بار در سال ۲۰۱۷ توسط گوگل معرفی شدند. در حالی که ترانسفورماتورها در ابتدا برای یافتن الگوهایی در نشانه‌هایی که متن را نشان می‌دهند طراحی شده بودند، سورا اکنون نشانه‌هایی استفاده می‌کند که بخش‌های کوچکی از فضا و زمان را به نمایش می‌گذارند.

Sora در طول آموزش، به پچ توکن‌های پر از نویز و تا حدی پراکنده‌ی یک ویدیو نگاه می‌کند و تلاش می‌کند تا توکن تمیز و بدون نویز را پیش‌بینی کند. با مقایسه‌ی آن با یک واقعیت پایه، مدل زبانی ویدیو را می‌آموزد و از کنار هم قرار دادن این تصاویر یک ویدیوی کامل شکل می‌گیرد. بر اساس همین تمرین و آموزش است که نمونه‌های وب‌سایت سورا بسیار معتبر و واقعی به نظر می‌رسند.

روند رسیدن به ویدیوی تمیز و بدون نویز در سورا

جدای از این توانایی قابل توجه، سورا برای فریم‌های ویدیویی که روی آن‌ها آموزش دیده است، شرح‌های بسیار دقیقی هم دارد، که بخش بزرگی از این همین دلیل است که چرا این ابزار می‌تواند ویدیوهای تولید شده را بر اساس درخواست‌های متنی تغییر دهد.

به نظر می‌رسد توانایی سورا برای شبیه‌سازی دقیق فیزیک در ویدیوها یک ویژگی نوظهور است که صرفا از آموزش روی میلیون‌ها ویدیو که حاوی حرکت بر اساس فیزیک دنیای واقعی هستند، سرچشمه می‌گیرد. ماندگاری اجسام در سورا بسیار خوب است و حتی زمانی که اشیاء از قاب خارج می‌شوند یا به طور موقت توسط چیز دیگری در قاب دیده نمی‌شوند، در پشت تصویر حضور دارند و بدون به هم ریختگی با تغییر زاویه‌ی دوربین دوباره برمی‌گردند.

با این حال، گاهی اوقات زمانی که چیزهای موجود در ویدیو با هم ارتباط برقرار می‌کنند، با درک دلیل ارتباط برای تولید تصویر بعدی از جمله تولید دوباره‌ی اشیاء مشکلاتی دارد. همچنین، به نظر می‌رسد که سورا گاهی چپ و راست را اشتباه می‌کند. با این وجود، آنچه تا کنون در معرفی قدرت سورا نشان داده شده است، نه تنها هم‌اکنون قابل استفاده است، بلکه کاملا پیشرفته به شمار می‌رود.

هوش مصنوعی

چه زمانی به سورا دسترسی خواهید داشت؟

همه‌ی ما بسیار هیجان‌زده هستیم که از Sora استفاده کنیم، و قطعا در آینده بیشتر درباره‌ی آن خواهیم نوشت که این فناوری چقدر می‌تواند کاربردی و شاخص باشد. اما چه زمانی این اتفاق می‌افتد؟

هنوز دقیقا مشخص نیست که چه مدت طول می‌کشد تا سورا در دسترس عموم قرار بگیرد، یا هزینه‌ی آن چقدر خواهد بود. به گفته‌ی OpenAI این فناوری در دستان تیم قرمز است، یعنی گروهی از افراد که وظیفه‌ی دارند که تلاش کنند تا سورا را وادار کنند که همه‌ی کارهای نادرستی را که نباید، انجام دهد و سپس کمک کنند تا محافظی در برابر این نوع کارها قرار داده شود که ممکن است مشتریان واقعی هم از آن بخواهند. این موارد شامل پتانسیل ایجاد اطلاعات نادرست، ساختن مطالب توهین‌آمیز یا خشونت‌بار، و بسیاری از سوء استفاده‌های دیگر است که تصور می‌شود.

علاوه بر این، هم‌اکنون برخی از تولیدکنندگان محتوای منتخب هم به آن دسترسی دارند که به نظر می‌رسد این دسترسی، هم برای اهداف آزمایشی و هم برای دریافت نظرات مختلف و تأییدیه‌های شخص ثالث است که بتواند در نهایت انتشار نهایی آن منجر شود. در نتیجه هنوز زمان انتشار عمومی سورا مشخص نیست. این به این دلیل است که اگر هم‌اکنون در دست آزمایش‌کنندگان ایمنی آن باشد، ممکن است مشکلاتی کشف شود که رفع آن‌ها بیشتر از حد انتظار طول بکشد و بنابراین انتشار عمومی آن را به تعویق بیندازد.

بیشتر بخوانید:

تست هوش | اگر ۷ نفر و یک گربه در این تصویر را ۳۰ ثانیه ای پیدا کنید واقعا باهوشی

کلداستاپ چگونه یک داروی موثر و محبوب برای درمان سرماخوردگی شد؟

این‌که OpenAI احساس می‌کند برای نمایش قابلیت‌های Sora آماده است و حتی از طریق X درخواست‌های عمومی مردم را برای تولید ویدیو با هوش مصنوعی دریافت کرده است، به این معنی است که این شرکت فکر می‌کند کیفیت محصول نهایی تقریبا آماده است، اما تا زمانی که تصویر بهتری از افکار عمومی در این‌باره وجود داشته باشد و مسائل ایمنی مطرح و کشف شود، هیچ کس نمی‌تواند با اطمینان بگوید که چه زمانی عرضه می‌شود. در عین حال می‌توان انتظار داشت در ماه‌های آینده و نه چند سال، این فناوری در وب‌سایت سورا عرضه شود اما احتمالا هفته‌ی آینده نخواهد بود!

کاربردهای بالقوه‌ی تبدیل متن به ویدیو

در حال حاضر، محتوای ویدیویی یا با فیلم‌برداری از دنیای واقعی یا با استفاده از جلوه‌های ویژه تولید می‌شود که هر دو می‌توانند هزینه و زمان زیادی را دربر داشته باشند. اما اگر Sora با قیمت مناسب در دسترس عموم قرار بگیرد، مردم می‌توانند از آن به عنوان یک نرم‌افزار نمونه‌سازی برای تجسم ایده‌ها با هزینه‌ی بسیار کمتر استفاده کنند. بر اساس آنچه از قابلیت‌های سورا می‌دانیم، حتی می‌توان از آن برای ایجاد ویدیوهای کوتاه برای برخی از برنامه‌های کاربردی در سرگرمی، تبلیغات و آموزش استفاده کرد.

مقاله‌ی فنی OpenAI درباره سورا با عنوان «مدل‌های تولید ویدئو به مثابه شبیه‌سازهای جهان» منتشر شده است. این مقاله استدلال می‌کند که نسخه‌های بزرگ‌تر مولدهای ویدیویی مانند سورا ممکن است «شبیه‌سازهای توانمند دنیای فیزیکی و دیجیتالی، و اشیاء و حیوانات و افرادی که در آن زندگی می‌کنند» باشند.

اگر چنین چیزی درست باشد، نسخه‌های بعدی ممکن است کاربردهای علمی برای آزمایش‌های فیزیکی، شیمیایی و حتی اجتماعی داشته باشند. برای نمونه، ممکن است بتوان تأثیر سونامی‌هایی با ابعاد مختلف را بر انواع زیرساخت‌ها و سلامت جسمی و روانی افراد نزدیک به مناطق تحت تأثیر بررسی و آزمایش کرد.

با این حال دستیابی به این سطح از شبیه‌سازی بسیار چالش‌برانگیز است و برخی از کارشناسان باین می‌کنند سیستمی مانند Sora اساسا قادر به انجام آن نیست. یک شبیه‌ساز کامل باید واکنش‌های فیزیکی و شیمیایی را در دقیق‌ترین سطوح کیهان محاسبه کند. با این حال، شبیه‌سازی تقریبی از جهان و ساختن ویدیوهای واقع‌گرایانه برای چشم انسان، ممکن است در سال‌های آینده به آسانی در دسترس باشد.

خطرات و نگرانی‌های اخلاقی

نگرانی‌های اصلی درباره‌ی ابزارهایی مانند Sora حول تأثیر اجتماعی و اخلاقی آن‌ها می‌چرخد. در دنیایی که هم‌اکنون هم گرفتار اطلاعات نادرست است، ابزارهایی مانند سورا ممکن است اوضاع را حتی بدتر کنند.

به آسانی می‌توان دریافت که چگونه می‌توان از توانایی تولید ویدیوی واقعی از هر صحنه‌ی قابل توصیف، برای انتشار اخبار جعلی متقاعدکننده یا ایجاد شک و تردید در فیلم‌های واقعی استفاده شود. ممکن است اقدامات بهداشت عمومی را به خطر بیندازد، برای تأثیرگذاری بر جامعه مورد استفاده قرار بگیرد یا حتی سیستم‌های قضایی را با شواهد نادرست بالقوه دچار چالش کند.

تولیدکننده‌های ویدیو همچنین ممکن است با تولید دیپ‌فیک به ویژه موارد غیراخلاقی، تهدیدهای مستقیم را برای افراد هدف ایجاد کنند. چنین فعالیت‌هایی ممکن است عواقب وحشتناکی بر زندگی افراد آسیب دیده و خانواده‌های آن‌ها داشته باشد.

فراتر از این نگرانی‌ها، مسائل مربوط به کپی‌رایت و مالکیت معنوی هم وجود دارد. ابزارهای مولد هوش مصنوعی به مقادیر زیادی داده برای آموزش نیاز دارند و OpenAI فاش نکرده است که داده‌های آموزشی Sora از کجا آمده است.

«مدل‌های زبانی بزرگ» (LLM) و تولید‌کننده‌های تصویر هم به همین دلیل مورد انتقاد قرار گرفته‌اند. در آمریکا، گروهی از نویسندگان مشهور، از OpenAI به دلیل سوء استفاده احتمالی از مطالب خود شکایت کرده‌اند. این پرونده استدلال می‌کند که مدل‌های زبانی بزرگ و شرکت‌هایی که از آن‌ها استفاده می‌کنند، کار نویسندگان را برای ایجاد محتوای جدید می‌دزدند.

این اما نخستین بار در حافظه‌ی اجتماعی نیست که فناوری از قانون جلوتر حرکت می‌کند. برای نمونه مسئله‌ی تعهدات پلتفرم‌های شبکه‌های اجتماعی در تعدیل محتوا، بحث‌های داغی را در سال‌های اخیر ایجاد کرده است که بیشتر آن حول بخش ۲۳۰ قانون ایالات متحده آمریکا می‌چرخد.

در حالی که این نگرانی‌ها واقعی و قابل بررسی هستند، بر اساس تجربیات گذشته، انتظار نمی‌روند که باعث توقف توسعه‌ی فناوری تولید ویدیو شوند. همان‌طور که اشاره شد، اوپن ای‌آی پیش از در دسترس قرار دادن عمومی Sora چند گام مهم ایمنی را پیش گرفته است و از جمله با کارشناسان برای «پیشگیری از اطلاعات نادرست، محتوای نفرت‌انگیز و سوگیری» و «ساخت ابزارهایی برای کمک به شناسایی محتوای گمراه کننده» همکاری می‌کند.

سورا محصول جدید اوپن ای‌آی، یک پیشرفت چشمگیر در فناوری هوش مصنوعی را نشان می‌دهد و بار دیگر یادآوری می‌کند که سرعت پیشرفت در این زمینه بسیار فراتر از چیزی است که تصور می‌کنیم. این مدل هوش مصنوعی اکنون می‌تواند از توصیف‌های متنی، ویدیوهایی بسازد که تشخیص آن‌ها از فیلم‌های واقعی بسیار دشوار و گاهی غیرممکن است.

چه بخواهیم و چه نه، ما ناگزیر بر لبه‌ی عصر جدیدی در نوآوری‌ها در دنیای فناوری ایستاده‌ایم و اکنون لحظه‌ای است که باید به جای مقابله و ترس از فناوری، بکوشیم هوش مصنوعی را در کنترل خود درآوریم و از آن در جهت مثبت استفاده کنیم. تبدیل متن به ویدیو که در آینده می‌تواند بسیار ساده‌تر هم باشد، فرصت‌های خلاقانه‌ی بی‌شماری را برای فیلمسازان، تولیدکنندگان محتوا، هنرمندان دیجیتال و همه‌ی افراد باز می‌کند تا ایده‌های خلاقانه‌ی را به ساده‌ترین شیوه به صورت مجسم و دیداری درآورند.

اگر جامعه‌ی انسانی این چالش را با خِرد و ظرافت پیش ببرد، شبیه‌سازهای قدرتمند مانند سورا می‌توانند مناظر غیرقابل تصوری را برای داستان‌گویی بصری باز کنند و صداهای متنوع بی‌شماری را برای گفتن داستان‌هایی که پیش از این توسط انسان‌ها یا ماشین‌ها تصور نمی‌شد، شکل دهند.

هیجان واقعی این فناوری جدید، در توانایی آن برای توانمندسازی همه‌ی افراد در به اشتراک گذاشتن دیدگاه‌های منحصربه‌فرد خود از جهان نهفته است. با در هم تنیدن رشته‌های هوش مصنوعی در روند فیلم‌سازی سنتی، می‌توان پیام نهایی هنر را گسترده‌تر از همیشه به اشتراک گذاشت که با وجود تفاوت‌هایمان در آنچه ما را می‌خنداند یا به گریه می‌اندازد، با وجود رؤیاها و اضطراب‌هایمان، همه‌ی ما هنوز انسان هستیم.

پرسش های متداول درباره‌ی هوش مصنوعی تبدیل متن به ویدیو سورا

سورا چه زمانی به صورت عمومی عرضه می‌شود؟

هنوز زمان دقیق انتشار عمومی سورا مشخص نیست و اوپن ای‌آی مشغول بررسی و آزمایش نهایی آن است.

آیا سورا رایگان خواهد بود؟

تا زمان انتشار عمومی و اطلاعیه‌های اوپن ای‌آی نمی‌توان در این‌باره به صورت قطعی صحبت کرد اما مانند چت جی‌پی‌تی و دال-ئی انتظار می‌رود که سورا هم در نسخه‌های پایه به صورت رایگان عرضه شود.

سورا نخستین فناوری تبدیل متن به ویدیو است؟

خیر. پیش از این هم فناوری‌های مبتنی بر هوش مصنوعی برای تولید ویدیو از نوشتار وجود داشته‌اند که از مهم‌ترین آن‌ها می‌توان به Runway اشاره کرد. اما سورا کیفیت تصویری چشمگیری ارائه می‌دهد که تشخیص آن‌ها از ویدیوهای واقعی ساخته شده، بسیار دشوار است.

منابع: دیجی کالا مگ ، The Conversation, How to Geek, Christian Martinez, Light Works

برچسب ها