برند گوگل با رونمایی از مدلهای مولد جدید در رویداد Cloud Next، قابلیتهای نوآورانهای مانند تولید موسیقی، تقلید صدا، و ویرایش پیشرفته ویدیو را به خدمات فضای ابری خود اضافه کرده است. این ابزارها به سازمانها و توسعهدهندگان اجازه میدهند تا به سادهترین شکل ممکن محتوای حرفهای در سبکهای مختلف تولید کنند و در عین حال، از مکانیزمهای امنیتی داخلی برای جلوگیری از سوءاستفاده بهرهمند شوند.
به گزارش دنیای برند، مدل متن-به-موسیقی گوگل با نام Lyria هماکنون در نسخه پیشنمایش برای تعداد محدودی از مشتریان در دسترس است. همچنین، مدل تولید ویدیو Veo 2 با قابلیتهای جدیدی در زمینه ویرایش و سفارشیسازی جلوههای بصری تقویت شده است. گوگل همچنین ویژگی جدیدی در زمینه تقلید صدا، با پشتیبانی از مدل فهم صدای Chirp 3، برای کاربران تأییدشده عرضه کرده و تولیدکننده تصویر Imagen 3 نیز بهبودهای قابلتوجهی در عملکرد خود ارائه داده است.
این بهروزرسانیها بخشی از تلاشهای جدید گوگل برای تسلط بر بازار هوش مصنوعی مولد مخصوص سازمانها است. گوگل در این حوزه به طور مستقیم با برندهای رقیب از جمله آمازون که پلتفرم مشابهی به نام Bedrock ارائه میدهد، رقابت میکند.
گوگل، مدل Lyria را به عنوان جایگزینی برای کتابخانههای موسیقی بدون حق امتیاز مطرح کرده است. این مدل به کاربران اجازه میدهد در طیف گستردهای از سبکها و ژانرهای موسیقی، از سولوهای جاز تا موسیقیهای آرامشبخش lo-fi، آهنگ تولید کنند.
Chirp 3 نیز که قابلیت تولید صدا به زبانهایی نظیر ۳۵ زبان مختلف را دارد، میتواند تنها با ۱۰ ثانیه نمونه صوتی، یک صدا را شبیهسازی کند. ویژگی جدیدی به نام Transcription with Diarization نیز با پشتیبانی از این مدل معرفی شده است که برای شناسایی و جداسازی گویندگان مختلف در فایلهای صوتی کاربرد دارد. گوگل تاکید کرده است که فرآیند تقلید صدا با نظارت ویژه انجام شود تا مطمئن شود این قابلیت تنها در موارد قانونی و مجاز به کار رود.
در بهروزرسانیهای مربوط به Veo 2، این مدل اکنون میتواند بخشهایی از پسزمینه، لوگوها و اشیا را از ویدیوها حذف کرده، کادر ویدیو را تنظیم کرده و حتی زوایای دوربین و شتاب کلیپها را تغییر دهد. این مدل همچنین قادر به تولید تایملپس، صحنههایی با زاویه دوربین شبیه به پهپاد و تغییر میان فریمهای ابتدایی و انتهایی تعریفشده توسط کاربر است.
مدل Imagen 3 نیز با قابلیتهای پیشرفتهتر در حذف اشیا و بازسازی بخشهای آسیبدیده یا گمشده تصاویر بهبود یافته است.
تمامی محتوایی که توسط مدلهای Imagen، Veo و Lyria تولید میشود (بهجز مدل Chirp) از طریق فناوری SynthID گوگل واترمارکگذاری میشوند تا از سوءاستفاده احتمالی جلوگیری شود. گوگل اعلام کرده که تمامی مدلهای تولید محتوای آن به مکانیزمهای امنیتی داخلی مجهز هستند تا جلوی تولید محتوای مضر گرفته شود.
به گزارش تککرانچ، گوگل اطلاعات دقیقی درباره دادههایی که برای آموزش مدلهایش استفاده میشود ارائه نکرده است. با اینحال، اعلام کرده که امکان انصراف از استفاده دادهها برای آموزش این مدلها را فراهم کرده و سیاستی برای محافظت از مشتریان پلتفرمهای Google Cloud و Vertex AI در برابر اختلافات مربوط به کپیرایت ارائه داده است.