آخرین اخبار
گوگل برند هوش مصنوعی خود را گسترش داد؛ ابزارهای جدید برای تولید موسیقی، صدا و تصویر

گوگل برند هوش مصنوعی خود را گسترش داد؛ ابزارهای جدید برای تولید موسیقی، صدا و تصویر

برند گوگل با رونمایی از مدل‌های مولد جدید در رویداد Cloud Next، قابلیت‌های نوآورانه‌ای مانند تولید موسیقی، تقلید صدا، و ویرایش پیشرفته ویدیو را به خدمات فضای ابری خود اضافه کرده است. این ابزارها به سازمان‌ها و توسعه‌دهندگان اجازه می‌دهند تا به ساده‌ترین شکل ممکن محتوای حرفه‌ای در سبک‌های مختلف تولید کنند و در عین حال، از مکانیزم‌های امنیتی داخلی برای جلوگیری از سوءاستفاده بهره‌مند شوند.

به گزارش دنیای برند، مدل متن-به-موسیقی گوگل با نام Lyria هم‌اکنون در نسخه پیش‌نمایش برای تعداد محدودی از مشتریان در دسترس است. همچنین، مدل تولید ویدیو Veo 2 با قابلیت‌های جدیدی در زمینه ویرایش و سفارشی‌سازی جلوه‌های بصری تقویت شده است. گوگل همچنین ویژگی جدیدی در زمینه تقلید صدا، با پشتیبانی از مدل فهم صدای Chirp 3، برای کاربران تأییدشده عرضه کرده و تولیدکننده تصویر Imagen 3 نیز بهبودهای قابل‌توجهی در عملکرد خود ارائه داده است.

این به‌روزرسانی‌ها بخشی از تلاش‌های جدید گوگل برای تسلط بر بازار هوش مصنوعی مولد مخصوص سازمان‌ها است. گوگل در این حوزه به طور مستقیم با برندهای رقیب از جمله آمازون که پلتفرم مشابهی به نام Bedrock ارائه می‌دهد، رقابت می‌کند.

گوگل، مدل Lyria را به عنوان جایگزینی برای کتابخانه‌های موسیقی بدون حق امتیاز مطرح کرده است. این مدل به کاربران اجازه می‌دهد در طیف گسترده‌ای از سبک‌ها و ژانرهای موسیقی، از سولوهای جاز تا موسیقی‌های آرامش‌بخش lo-fi، آهنگ تولید کنند.

Chirp 3 نیز که قابلیت تولید صدا به زبان‌هایی نظیر ۳۵ زبان مختلف را دارد، می‌تواند تنها با ۱۰ ثانیه نمونه صوتی، یک صدا را شبیه‌سازی کند. ویژگی جدیدی به نام Transcription with Diarization نیز با پشتیبانی از این مدل معرفی شده است که برای شناسایی و جداسازی گویندگان مختلف در فایل‌های صوتی کاربرد دارد. گوگل تاکید کرده است که فرآیند تقلید صدا با نظارت ویژه انجام شود تا مطمئن شود این قابلیت تنها در موارد قانونی و مجاز به کار رود.

در به‌روزرسانی‌های مربوط به Veo 2، این مدل اکنون می‌تواند بخش‌هایی از پس‌زمینه، لوگوها و اشیا را از ویدیوها حذف کرده، کادر ویدیو را تنظیم کرده و حتی زوایای دوربین و شتاب کلیپ‌ها را تغییر دهد. این مدل همچنین قادر به تولید تایم‌لپس، صحنه‌هایی با زاویه دوربین شبیه به پهپاد و تغییر میان فریم‌های ابتدایی و انتهایی تعریف‌شده توسط کاربر است.

مدل Imagen 3 نیز با قابلیت‌های پیشرفته‌تر در حذف اشیا و بازسازی بخش‌های آسیب‌دیده یا گم‌شده تصاویر بهبود یافته است.

تمامی محتوایی که توسط مدل‌های Imagen، Veo و Lyria تولید می‌شود (به‌جز مدل Chirp) از طریق فناوری SynthID گوگل واترمارک‌گذاری می‌شوند تا از سوءاستفاده احتمالی جلوگیری شود. گوگل اعلام کرده که تمامی مدل‌های تولید محتوای آن به مکانیزم‌های امنیتی داخلی مجهز هستند تا جلوی تولید محتوای مضر گرفته شود.

به گزارش تک‌کرانچ، گوگل اطلاعات دقیقی درباره داده‌هایی که برای آموزش مدل‌هایش استفاده می‌شود ارائه نکرده است. با این‌حال، اعلام کرده که امکان انصراف از استفاده داده‌ها برای آموزش این مدل‌ها را فراهم کرده و سیاستی برای محافظت از مشتریان پلتفرم‌های Google Cloud و Vertex AI در برابر اختلافات مربوط به کپی‌رایت ارائه داده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *