বিশ্বের সবচেয়ে ফ্লেক্সিবল জেনারেটিভ এআই অডিও মডেল তৈরি করেছে এনভিডিয়া

ফুগাটো নামের একটি নতুন জেনারেটিভ এআই অডিও মডেল সম্প্রতি সাউন্ড প্রযুক্তিতে নতুন যুগের সূচনা করেছে। ফুগাটো মূলত একটি ফাউন্ডেশনাল জেনারেটিভ অডিও ট্রান্সফর্মার মডেল, যা ব্যবহারকারীদের যে কোনো সাউন্ড বা মিউজিক কন্টেন্ট তৈরি এবং পরিবর্তন করার স্বাধীনতা দেয়। ফুগাটো-র মাধ্যমে আপনি টেক্সট অথবা অডিও ফাইল দিয়ে মিউজিক, ভয়েস, এবং সাউন্ডকে ম্যানিপুলেট করতে পারবেন, যা ইতিপূর্বে কোনো মডেলের পক্ষে সম্ভব ছিল না। এটি অডিও কন্টেন্টে মানুষের ভাব প্রকাশকে আরও সহজ এবং সৃজনশীল করে তুলেছে।

ফুগাটো নামটি এসেছে “Foundational Generative Audio Transformer Opus 1” থেকে। এই মডেলটি কেবল মিউজিক তৈরি করতেই সক্ষম নয়, বরং এটি বিদ্যমান সাউন্ড থেকে কোনো বাদ্যযন্ত্র যোগ করা বা সরানো, ভয়েসের অ্যাকসেন্ট বা অনুভূতি পরিবর্তন করা এবং সম্পূর্ণ নতুন সাউন্ড তৈরি করতেও সক্ষম। উদাহরণস্বরূপ, এটি একটি নির্দিষ্ট টেক্সট প্রম্পট থেকে মিউজিক তৈরি করতে পারে, কোনো গান থেকে বাদ্যযন্ত্র যোগ বা কমাতে পারে, অথবা একটি ভয়েসের অ্যাকসেন্ট বা অনুভূতি পরিবর্তন করতে পারে। একটি সাউন্ড মেশিন হিসেবে ফুগাটো ব্যবহার করা সহজ এবং শক্তিশালী। উদাহরণ হিসেবে, সঙ্গীত প্রযোজকরা খুব দ্রুতই একটি গানের আইডিয়া প্রোটোটাইপ তৈরি করতে পারে এবং বিভিন্ন স্টাইল, ভয়েস ও বাদ্যযন্ত্রের মাধ্যমে তা পরীক্ষা করতে পারে। এভাবেই এটি একটি স্টুডিও পরিবেশে সৃজনশীলতাকে নতুন স্তরে উন্নীত করেছে।

আরও পড়ুনঃ

ফুগাটো-এর একটি গুরুত্বপূর্ণ বৈশিষ্ট্য হল এটি “কম্পোজেবল আর্ট” নামক একটি পদ্ধতি ব্যবহার করে, যা বিভিন্ন নির্দেশনা একত্রিত করে অডিও তৈরি করতে পারে। যেমন, টেক্সট নির্দেশনা অনুযায়ী ফরাসি অ্যাকসেন্টে একটি দুঃখিত সুরে কোনো বক্তব্য তৈরি করা যায়। কম্পোজেবল আর্ট পদ্ধতিটি ফুগাটো-কে অডিও জগতের একটি অসাধারণ সৃজনশীল মডেল হিসেবে প্রতিষ্ঠা করেছে। ফুগাটো-র মাধ্যমে ব্যবহারকারীরা যে কোনো সাউন্ডস্কেপ তৈরি করতে পারে, যেখানে সময়ের সাথে সাথে সাউন্ড পরিবর্তন হয়। উদাহরণস্বরূপ, এটি একটি বৃষ্টির ঝড়ের শব্দ তৈরি করতে পারে, যা ধীরে ধীরে বজ্রপাতের শব্দে রূপান্তরিত হয় এবং পরে তা কমে যায়। এই বৈশিষ্ট্যটি সাউন্ডস্কেপের উন্নয়নের ক্ষেত্রে ব্যবহারকারীদের আরও সূক্ষ্ম নিয়ন্ত্রণ প্রদান করে।

সঙ্গীত প্রযোজক ইদো জমিশলানির মতে, সঙ্গীত ইতিহাস হলো প্রযুক্তির ইতিহাস। যেমন, বৈদ্যুতিক গিটার দিয়ে রক অ্যান্ড রোল তৈরি হয়েছিল, আর স্যাম্পলার এসে হিপ-হপের জন্ম দিয়েছিল। ফুগাটো-এর মাধ্যমে আমরা সঙ্গীতের নতুন অধ্যায় রচনা করছি। এটি একটি নতুন বাদ্যযন্ত্র, একটি নতুন সঙ্গীত তৈরি করার সরঞ্জাম, এবং এটি সত্যিই অত্যন্ত উত্তেজনাপূর্ণ। ফুগাটো-এর সাহায্যে সঙ্গীত প্রযোজকরা সহজেই গান তৈরি করতে পারেন এবং বিভিন্ন ধরণের ভয়েস ও বাদ্যযন্ত্রের মাধ্যমে তা পরীক্ষাও করতে পারেন। ফুগাটো-এর মাধ্যমে গান তৈরি করার প্রক্রিয়া আরও সহজ ও দ্রুত হয়েছে।

ফুগাটো কেবলমাত্র সঙ্গীত প্রযোজনা নয়, আরও অনেক ক্ষেত্রে ব্যবহারের সম্ভাবনা রয়েছে। উদাহরণ হিসেবে, বিজ্ঞাপনী সংস্থাগুলো বিভিন্ন অঞ্চলের জন্য দ্রুত এবং সহজে ভিন্ন অ্যাকসেন্ট ও অনুভূতির ভয়েসওভার তৈরি করতে পারে। এছাড়া, ভাষা শিক্ষার টুল হিসেবে এটি খুবই কার্যকর। শিক্ষার্থীরা চাইলে কোনো পারিবারিক সদস্য বা বন্ধুর ভয়েসে তাদের অনলাইন কোর্স শুনতে পারবে, যা শিক্ষাকে আরও আনন্দদায়ক করে তুলবে। ভিডিও গেম ডেভেলপাররাও ফুগাটো ব্যবহার করে গেমের পরিবর্তিত একশন অনুযায়ী প্রি-রেকর্ডেড সাউন্ড মডিফাই করতে পারবে, অথবা সরাসরি টেক্সট নির্দেশনা ও অডিও ইনপুট থেকে নতুন সাউন্ড তৈরি করতে পারবে।

এনভিডিয়া-র অ্যাপ্লাইড অডিও গবেষণা বিভাগের ব্যবস্থাপক এবং ফুগাটো নির্মাণে যুক্ত থাকা রাফায়েল ভ্যালের মতে, ফুগাটো তৈরি করার উদ্দেশ্য ছিল এমন একটি মডেল তৈরি করা, যা মানুষের মতো সাউন্ড বোঝে এবং তৈরি করতে পারে। এটি প্রথম ফাউন্ডেশনাল জেনারেটিভ AI মডেল, যা বিভিন্ন প্রশিক্ষিত ক্ষমতার মিথস্ক্রিয়া থেকে উদ্ভূত ক্ষমতাগুলো প্রদর্শন করে এবং বিনামূল্যে নির্দেশনা সমন্বয়ের সক্ষমতা রাখে।

ফুগাটো-এর মডেল স্কেল এবং ডেটা থেকে অডিও সিন্থেসিস ও ট্রান্সফর্মেশনে স্বতঃসিদ্ধ বহু-কাজের শিক্ষার সম্ভাবনাকে উদ্ভূত করেছে। ফুগাটো তৈরি করার পথে গবেষকরা বিভিন্ন চ্যালেঞ্জের সম্মুখীন হন। তাদের অন্যতম কঠিন কাজ ছিল একটি মিশ্র ডেটাসেট তৈরি করা, যা লক্ষ লক্ষ অডিও নমুনা নিয়ে গঠিত এবং মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহার করা হয়। দলটি একটি বহুমুখী কৌশল ব্যবহার করে ডেটা এবং নির্দেশনা তৈরি করে, যা মডেলের কাজের ব্যাপ্তি অনেকটাই বিস্তৃত করে দেয় এবং আরও নির্ভুল পারফরম্যান্স নিশ্চিত করে।

ভ্যালে মনে করেন যে, ফুগাটো যখন প্রথমবারের মতো একটি প্রম্পট থেকে মিউজিক তৈরি করেছিল, তখন তাদের দলটি বুঝতে পেরেছিল যে তারা সত্যিই কিছু অসাধারণ করে ফেলেছে। আরেকটি স্মরণীয় মুহূর্ত ছিল, যখন ফুগাটো ইলেকট্রনিক মিউজিকের সঙ্গে কুকুরের ঘেউ ঘেউ শব্দ তৈরি করেছিল, যা দলের মধ্যে হাসির ঝড় তোলে। ফুগাটো ব্যবহারকারীদের সৃজনশীলতা আরও উন্নত করতে সক্ষম। এটি যেকোনো সাউন্ড তৈরি করতে পারে, যা ব্যবহারকারী বর্ণনা করতে পারে। উদাহরণস্বরূপ, ফুগাটো একটি ট্রাম্পেটকে কুকুরের মতো শব্দ করতে বা স্যাক্সোফোনকে বিড়ালের মতো শব্দ করতে সক্ষম। এটি অডিওর জগতে একটি বিপ্লবী পদক্ষেপ হিসেবে দেখা হচ্ছে।

তথ্য সূত্রঃ এনভিডিয়া

বিশ্বের প্রথম এআই চালিত বাইনোকুলার (AX Visio)

WhatsApp Group Join Now
Telegram Group Join Now
instagram Group Join Now

সাম্প্রতিক খবর

.আরো