মানুষের মতই শোনাচ্ছে এআইয়ের কণ্ঠস্বর, আমাদের কি চিন্তিত হওয়া উচিত?

আল জাজিরা

মানুষের মতই শোনাচ্ছে এআইয়ের কণ্ঠস্বর, আমাদের কি চিন্তিত হওয়া উচিত?

আল জাজিরা

প্রকাশ : ১১ অক্টোবর ২০২৫, ০৯: ১২

এআই ভয়েস জেনারেশন। সংগৃহীত ছবি

২০২৫ সাল। বছরের শুরুতেই অপ্রত্যাশিত ফোন কল পেয়েছিলেন বেশ কয়েকজন ইতালির ধনাঢ্য ব্যবসায়ী। কণ্ঠস্বরটি ছিল ইতালির প্রতিরক্ষামন্ত্রী গুইডো ক্রোসেট্টোর মত। সেখানে ছিল বিশেষ অনুরোধ, ‘মধ্যপ্রাচ্যে ইতালির যে সাংবাদিকেরা অপহৃত হয়েছেন, তাঁদের মুক্ত করার জন্য কিছু অর্থ পাঠান।’ কিন্তু ফোনের অপর প্রান্তে ছিলেন না ক্রোসেট্টো। কয়েকজন ব্যবসায়ী তাঁর সঙ্গে যোগাযোগ করার পর তিনি এই কল সম্পর্কে জানতে পারেন। পরে জানা যায়, কৃত্রিম বুদ্ধিমত্তা (এআই) ব্যবহার করে ক্রোসেট্টোর কণ্ঠ নকল করেছিলেন প্রতারকেরা।

এআই প্রযুক্তির উন্নতির অর্থ হল এখন অতি-বাস্তবসম্মত ভয়েসওভার ও সাউন্ডবাইট তৈরি করা সম্ভব। প্রকৃতপক্ষে, নতুন গবেষণায় দেখা গেছে, আসল মানুষের কণ্ঠ থেকে আলাদা করা যায় না এআই-জেনারেটেড ভয়েস। এই এক্সপ্লেইনারে আমরা এআইয়ের সম্ভাব্য প্রভাবগুলো বিশ্লেষণ করব।

ক্রোসেট্টো মামলায় কী ঘটেছিল?

ফেব্রুয়ারির শুরুতে ফোন কল পেয়েছিলেন বেশ কয়েকজন ইতালির উদ্যোক্তা ও ব্যবসায়ী। এর এক মাস আগে ইরানে বন্দী ইতালির সাংবাদিক সেসিলিয়া সালাকে মুক্ত করেছিলেন প্রধানমন্ত্রী জর্জিয়া মেলোনি।

ক্রোসেট্টোর কণ্ঠ নকল করে দেওয়া কলগুলোতে ব্যবসায়ীদের অনুরোধ করা হয়েছিল একটি বিদেশি ব্যাংক অ্যাকাউন্টে প্রায় ১ মিলিয়ন ইউরো পাঠানোর জন্য। ব্যাংক অ্যাকাউন্টের বিবরণ মূলত কলের সময়ই দেওয়া হয়েছিল। আবার ক্রোসেট্টোর কর্মীদের পরিচয়ে আসা অন্যান্য কলগুলোতেও দেওয়া হয়েছিল ওইসব ব্যাংক অ্যাকাউন্টের বিবরণ।

৬ ফেব্রুয়ারি, প্রতিরক্ষামন্ত্রী ক্রোসেট্টো এক্স-এ (পূর্বে টুইটার) পোস্ট করে জানান যে ৪ ফেব্রুয়ারি তিনি ‘একজন বন্ধু, একজন বিশিষ্ট উদ্যোক্তা’ এর কাছ থেকে একটি কল পেয়েছিলেন। সেই বন্ধু ক্রোসেট্টোকে জিজ্ঞাসা করেছিলেন, তাঁর অফিস থেকে তাঁর মোবাইল নম্বর চেয়েছিল কি না। ক্রোসেট্টো বলেছিলেন, না এমন তো হওয়ার কথাই না। কারণ ওই ব্যবসায়ীর ফোন নম্বর আগে থেকেই তাঁর কাছে আছে, তাই এটি অসম্ভব।

ক্রোসেট্টো আরও জানান, পরে তাঁর সঙ্গে আরও একজন ব্যবসায়ী যোগাযোগ করেন; একজন ‘জেনারেল’ এর কাছ থেকে কল পাওয়ার পরে তিনি বড় অংকের টাকা ট্রান্সফার করেছিলেন। প্রতিরক্ষামন্ত্রীর ভাষ্যে, ‘তিনি আমাকে ফোন করে বলেন যে তাঁর সঙ্গে আমার এবং তারপর একজন জেনারেলের যোগাযোগ হয়েছিল। ‘‘জেনারেল’’ যে অ্যাকাউন্টে দিয়েছিলেন, সেটিতে বড় অংকের টাকা ট্রান্সফার করেছেন। আমি তাঁকে বলি যে এটি একটি কেলেঙ্কারি। পরে কারাবিনিয়ারিকে (ইতালির পুলিশ) জানাই, তাঁরা তাঁর বাড়িতে যায় এবং তাঁর অভিযোগটি গ্রহণ করেন।’

প্রতিরক্ষা মন্ত্রণালয়ের ভুয়া কর্মকর্তাদের কাছ থেকেও অন্যান্য উদ্যোক্তাদের কাছে একই ধরনের কল করে তাঁদের ব্যক্তিগত তথ্য এবং অর্থ চাওয়া হয়েছিল।

যদিও এই সমস্ত ঘটনা পুলিশের কাছে রিপোর্ট করেছেন তিনি। তবে ক্রোসেট্টো আরও বলেছেন, ‘আমি ঘটনাগুলি জনসমক্ষে আনতে পছন্দ করি যাতে কেউ ফাঁদে না পড়ে।’

এই কেলেঙ্কারির শিকার হয়েছিলেন ইতালির কিছু বিশিষ্ট ব্যবসায়ী। যাঁদের মধ্যে প্রয়াত ফ্যাশন ডিজাইনার জর্জিও আরমানি এবং প্রাদা-এর সহ-প্রতিষ্ঠাতা প্যাট্রিসিও বার্তেলিও ছিলেন। তবে, কর্তৃপক্ষের মতে, শুধুমাত্র ইন্টার মিলান ফুটবল ক্লাবের প্রাক্তন মালিক মাসিমো মোরাত্তি অনুরোধ করা অর্থ পাঠিয়েছিলেন। পুলিশ তাঁর করা ওয়্যার ট্রান্সফারের অর্থ ট্র্যাক করতে এবং ফ্রিজ করতে সক্ষম হয়েছিল।

তখন শহরের প্রসিকিউটরের কার্যালয়ে একটি আইনি অভিযোগ দায়ের করেছেন মোরাত্তি। ইতালীয় গণমাধ্যমকে তিনি বলেছেন, ‘আমি অবশ্যই অভিযোগ দায়ের করেছি। তবে আমি এটি নিয়ে কথা বলতে চাই না, তবে তদন্ত কীভাবে চলে তা দেখবো। সবকিছু বাস্তব মনে হয়েছিল, তাঁরা নিপুণভাবে কাজটি করেছে। এটি যে কারও সঙ্গে ঘটতে পারে।’

এআই ভয়েস জেনারেশন কীভাবে কাজ করে?

এআই ভয়েস জেনারেটর সাধারণত ‘ডিপ লার্নিং’ অ্যালগরিদম ব্যবহার করে থাকে। এর মাধ্যমে এআই প্রোগ্রাম বাস্তব মানুষের কণ্ঠের বিশাল ডেটা পাঠ করে। একটি কণ্ঠের পিচ, উচ্চারণ, স্বর এবং অন্যান্য উপাদান ‘শেখে’।

এআই প্রোগ্রামটি একই ব্যক্তির বেশ কয়েকটি অডিও ক্লিপ ব্যবহার করে প্রশিক্ষিত হয়। সেই নির্দিষ্ট ব্যক্তির কণ্ঠ, উচ্চারণ এবং কথা বলার ধরন অনুকরণ করতে ‘শেখানো’ হয় এটিকে। জেনারেট করা ভয়েস বা অডিওকে এআই-জেনারেটেড ভয়েস ক্লোনও বলা হয়।

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) প্রোগ্রাম ব্যবহার করে, যা এটিকে মানুষের ভাষা বুঝতে, ব্যাখ্যা করতে এবং তৈরি করতে নির্দেশ দেয়। এআই এমনকি একটি কণ্ঠের স্বরসংক্রান্ত বৈশিষ্ট্য, যেমন ব্যঙ্গ বা কৌতুক বুঝতেও শিখতে পারে।

এই প্রোগ্রামগুলো টেক্সটকে ভাষায় রূপান্তর করতে পারে। তারপরে একটি সিন্থেটিক ভয়েস ক্লিপ তৈরি করতে পারে যা একজন আসল মানুষের মতো শোনায়।

কুইন মেরি ইউনিভার্সিটি অব লন্ডনের মনোবিজ্ঞানের একজন সিনিয়র লেকচারার নাদিন লাভান আল জাজিরাকে বলেছেন, ‘মোটামুটিভাবে বলতে গেলে, আমরা হাজার হাজার ঘণ্টা মানবকণ্ঠের রেকর্ডিংসহ একটি এআই মডেলকে প্রশিক্ষণ দিতে পারি, যাতে মডেলটি শিখতে পারে যে মানব কণ্ঠগুলো সাধারণত কেমন শোনায়।’

লাভান এআই ভয়েস সম্পর্কিত সাম্প্রতিক গবেষণার সহ-লেখকও। তিনি আরও বলেছেন, ‘এই মডেল থেকে আপনি এআই-জেনারেটেড ভয়েস তৈরি করতে পারেন। মডেলটি দিয়ে আপনি যেকোনো ভয়েসই তৈরি করতে পারবেন। যা হয়তো কোনো মানুষের কণ্ঠের সঙ্গে মিলবে না। আবার মডেলকে একটি ভয়েসের উদাহরণ দিয়ে বা এটিকে সেই ভয়েস ক্লোন করতে যদি বলেন; এটি সেই নির্দিষ্ট ভয়েসের একটি এআই-জেনারেটেড সংস্করণ বা একটি ডিপফেক তৈরি করতে পারবে।’

২০১৪ সালে অ্যাপল স্পেশাল প্রজেক্টস গ্রুপের মেশিন লার্নিংয়ের পরিচালক ইয়ান গুডফেলো ‘ডিপফেক’ শব্দটি প্রথম ব্যবহার করেন। এটি ‘ডিপ লার্নিং’ এবং ‘ফেক’ এর সংমিশ্রণ। এটি অত্যন্ত বাস্তবসম্মত এআই ছবি, ভিডিও বা অডিওকে বোঝায়, যা ডিপ লার্নিংয়ের মাধ্যমে তৈরি হয়।

তারা কাউকে অনুকরণ করতে কতটা পারদর্শী?

সম্প্রতি কুইন মেরি ইউনিভার্সিটি অব লন্ডনের একদল গবেষক একটি গবেষণা চালিয়েছেন। ২৪ সেপ্টেম্বর বিজ্ঞান জার্নাল পিএলওএস ওয়ান দ্বারা প্রকাশিত গবেষণা প্রতিবেদনের একটি সিদ্ধান্তে বলা হয়েছে, এআই-জেনারেটেড ভয়েসগুলো তাদের শ্রোতাদের কাছে বাস্তব মানুষের কণ্ঠের মতোই শোনায়।

গবেষণাটি চালানোর জন্য এলিভেনল্যাবস নামক একটি টুল ব্যবহার করা হয়। এর মাধ্যমে এআই ভয়েসের ৪০টি নমুনা তৈরি করা হয়েছিল। এই টুল বাস্তব মানুষের কণ্ঠ ব্যবহার করে এবং সম্পূর্ণ নতুন কণ্ঠ তৈরি করে। এর পাশাপাশি মানুষের আসল কণ্ঠের ৪০টি রেকর্ডিং নমুনাও সংগ্রহ করেছিলেন গবেষকেরা। মানসম্পন্ন করার জন্য এই ৮০টি ক্লিপই সম্পাদনা করা হয়েছিল এবং সাউন্ড পরিষ্কার করা হয়েছিল।

গবেষকরা নমুনাগুলোতে ব্রিটিশ, আমেরিকান, অস্ট্রেলিয়ান এবং ভারতীয় উচ্চারণসহ পুরুষ এবং নারী কণ্ঠ ব্যবহার করেছিল। এলিভেনল্যাবস একটি ‘আফ্রিকান’ উচ্চারণও সরবরাহ করে; তবে গবেষকেরা দেখেছেন যে উচ্চারণের লেভেল ছিল ‘তাদের উদ্দেশ্যগুলোর জন্য খুব সাধারণ’।

দলটি পরীক্ষার জন্য যুক্তরাজ্যে ১৮-৬৫ বছর বয়সী ৫০ জন অংশগ্রহণকারীকে এআই ভয়েস এবং আসল মানুষের কণ্ঠের মধ্যে পার্থক্য বের করার জন্য রেকর্ডিংগুলো শুনতে বলা হয়েছিল। তাঁদের আরও জিজ্ঞাসা করা হয়েছিল, কোন কণ্ঠগুলো আরও বিশ্বাসযোগ্য শোনাচ্ছে।

গবেষণায় দেখা গেছে যে, এআই দ্বারা তৈরি করা ‘নতুন’ কণ্ঠগুলো অংশগ্রহণকারীদের কাছে কম বিশ্বাসযোগ্য মনে হয়েছিল। তবে ডিপফেক বা ভয়েস ক্লোনগুলো আসল মানুষের কণ্ঠের মতোই মনে হচ্ছিল তাদের কাছে। ৪১ শতাংশ অংশগ্রহণকারী এআই-জেনারেটেড ভয়েস এবং ৫৮ শতাংশ ভয়েস ক্লোনগুলোকে ‘আসল মানুষের কণ্ঠ’ বলে ভুল করেছিলেন।

এছাড়াও, অংশগ্রহণকারীরা আমেরিকান উচ্চারণের তুলনায় ব্রিটিশ উচ্চারণের কণ্ঠগুলোকে আসল বা মানব বলে ধারণা করেছিলেন। এটি ইঙ্গিত করে যে, এআই ভয়েসগুলো অত্যন্ত পরিশীলিত।

আরও উদ্বেগজনকভাবে, অংশগ্রহণকারীরা এআই-জেনারেটেড ভয়েসগুলোকে আসল মানুষের কণ্ঠের চেয়ে বেশি বিশ্বাসযোগ্য হিসেবে অভিহিত করেছেন। এটি পূর্ববর্তী গবেষণার বিপরীতে, যা সাধারণত এআই ভয়েসগুলোকে কম বিশ্বাসযোগ্য বলে মনে করত। যা আবার ইঙ্গিত করে যে এআই ফেইক ভয়েস তৈরিতে বিশেষভাবে পারদর্শী হয়ে উঠেছে।

লাভান বলেছেন, ‘সম্প্রতি অত্যাধুনিক এআই ভয়েস জেনারেশন কেন এত বেশি পরিশীলিত হয়েছে তার একটি সম্ভাব্য ব্যাখ্যা হল যে মডেলগুলো এখন বিশাল, উচ্চ-মানের প্রশিক্ষণ ডেটা সেটগুলোতে প্রশিক্ষিত।’

লাভান বলেছেন, ‘এর অর্থ হল মডেলগুলোর কণ্ঠ কীভাবে কাজ করে সে সম্পর্কে আরও বেশি তথ্য পায়, যাতে এটি আরও বিস্তারিত চিত্র তৈরি করতে পারে।’ তিনি ব্যাখ্যা করেছেন যে, এআই বিভিন্ন উচ্চারণ, স্বর, কথা বলার ধরন, এমনকি শ্বাস-প্রশ্বাসের শব্দ এবং কথার ত্রুটিগুলো অনুকরণ করে আরও বাস্তবসম্মত কণ্ঠ তৈরি করতে পারে।

আমাদের কি এই বিষয়ে খুব চিন্তিত হওয়া উচিত?

যদিও খুব ‘মানুষের মতো’ শোনায় এমন এআই-জেনারেটেড অডিও বিজ্ঞাপন এবং চলচ্চিত্র সম্পাদনার মতো শিল্পের জন্য দরকারী হতে পারে, তবে এটি কেলেঙ্কারি এবং ভুয়া খবর তৈরি করতে অপব্যবহার করা হতে পারে।

ইতালির ব্যবসায়ীদের লক্ষ্য করে এমন কেলেঙ্কারি ইতিমধ্যে বাড়ছে। মার্কিন যুক্তরাষ্ট্রে, মানুষ তাদের আত্মীয়দের ডিপফেক কণ্ঠের কল পাচ্ছে। কল করে তাদের বলছে যে, তারা বিপদে আছে এবং অর্থ লাগবে।

ক্যালিফোর্নিয়া-ভিত্তিক এআই কোম্পানি রেম্বল এআই-এর তথ্য অনুসারে, এই বছরের জানুয়ারি থেকে জুন মাসের মধ্যে সারা বিশ্বে মানুষ ডিপফেক কেলেঙ্কারিতে ৫৪ দশমিক ৭২ কোটি ইউএস ডলারের বেশি অর্থ হারিয়েছে।

লাভান বলেছেন, ‘যদি একটি কণ্ঠকে যুক্তিসঙ্গতভাবে বিশ্বাসযোগ্য উপায়ে ক্লোন করতে মাত্র কয়েক মিনিট [বা এমনকি কয়েক সেকেন্ড] রেকর্ডিং লাগে, তবে অত্যন্ত বাস্তবসম্মত এআই-জেনারেটেড ভয়েসগুলির জন্য সুস্পষ্ট উদ্বেগ হল পরিচয় চুরি।’

তবে, অনেকক্ষেত্রেই এআই-জেনারেটেড ভয়েসগুলো ইতিবাচক উপায়ে ব্যবহার করা হচ্ছে বলেও উল্লেখ করেন লাভান।

ভিডিও-ও কি ডিপফেক করা যায়?

উদ্বেগজনকভাবে, হ্যাঁ। এআই প্রোগ্রামগুলো বাস্তব মানুষের ডিপফেক ভিডিও তৈরি করতে ব্যবহার করা যেতে পারে। এটি, এআই-জেনারেটেড অডিওর সঙ্গে একত্রিত হয়ে, লোকেরা যা করেনি এমন কাজ এবং কথা বলার ভিডিও ক্লিপগুলো অত্যন্ত বিশ্বাসযোগ্যভাবে জাল করা যেতে পারে। এছাড়াও, ইন্টারনেটে কোন ভিডিওগুলো আসল এবং কোনটি ভুয়া, তা পার্থক্য করা ক্রমশ কঠিন হয়ে উঠছে।

ডিপমিডিয়া, একটি কোম্পানি যা সিন্থেটিক মিডিয়া শনাক্ত করার সরঞ্জাম নিয়ে কাজ করছে। প্রতিষ্ঠানটির ধারণা, এই বছরের শেষ নাগাদ প্রায় ৮০ লাখ ডিপফেক তৈরি এবং অনলাইনে শেয়ার করা হবে। যা ২০২৩ সালে অনলাইনে শেয়ার করা ৫ লাখেরও অনেক বেশি।

ডিপফেক আর কীসের জন্য ব্যবহার করা হচ্ছে?

এই ধরনের ডিপফেক অডিও ফোন কল জালিয়াতি এবং ভুয়া খবর ছড়ানোতে অহরহই ব্যবহার হচ্ছে। এ ছাড়াও মানুষের ‘যৌন সামগ্রী’ তৈরিতেও ব্যবহার করা হচ্ছে। তবে উদ্বেগের ব্যাপার হলো, রেম্বল এআই-এর জুলাই মাসে প্রকাশিত প্রতিবেদনে বলা হয়েছে, এআই-এর অগ্রগতি এআই-জেনারেটেড শিশু যৌন নির্যাতনের সামগ্রীর শিল্পায়িত উৎপাদনে পরিণত হয়েছে, যা বিশ্বব্যাপী আইন প্রয়োগকারী সংস্থাকেও অভিভূত করেছে।

এই বছরের মে মাসে, মার্কিন প্রেসিডেন্ট ডোনাল্ড ট্রাম্প একটি বিল সই করেন। এই বিলে বলা হয়েছে, একজন ব্যক্তির সম্মতি ছাড়া তার অন্তরঙ্গ ছবি প্রকাশ করা একটি ফেডারেল অপরাধ। এর মধ্যে এআই-জেনারেটেড ডিপফেকও অন্তর্ভুক্ত করা হয়েছে। এদিকে গত মাসে, অস্ট্রেলিয়ান সরকারও ঘোষণা করেছে যে, তারা ডিপফেক নগ্ন ছবি তৈরি করতে ব্যবহৃত একটি অ্যাপ্লিকেশন নিষিদ্ধ করবে।

এআই ভয়েস জেনারেশন। সংগৃহীত ছবি

ক্রোসেট্টো মামলায় কী ঘটেছিল?

এআই ভয়েস জেনারেশন কীভাবে কাজ করে?

তারা কাউকে অনুকরণ করতে কতটা পারদর্শী?

আমাদের কি এই বিষয়ে খুব চিন্তিত হওয়া উচিত?

ভিডিও-ও কি ডিপফেক করা যায়?

ডিপফেক আর কীসের জন্য ব্যবহার করা হচ্ছে?

বিষয়:

প্রযুক্তি এআই ভুয়া সংবাদ

১

চে গুয়েভারার প্রতি

২

উপদেষ্টাদের নয়, জাতির সেফ এক্সিটের প্রয়োজন: আসিফ নজরুল

৩

আবদুল করিম সাহিত্যবিশারদ ও আমাদের জাতীয় দুর্ভাগ্য

৪

মায়ের লাশ আটকে সম্পত্তি নিয়ে দুই ভাইয়ের বিবাদ, ২০ ঘণ্টা পর দাফন

৫

আক্ষেপের গোলপোস্টে বাংলাদেশ

বিশ্বের প্রথম ‘এআই মন্ত্রী’ ডায়েলা কীভাবে কাজ করবে

দক্ষিণ-পূর্ব ইউরোপের বলকান উপদ্বীপের উত্তর-পশ্চিম প্রান্তে অবস্থিত একটি রাষ্ট্র আলবেনিয়ার। দেশটির প্রধানমন্ত্রী এদি রামা সম্প্রতি তাঁর মন্ত্রিসভায় মন্ত্রী হিসেবে যুক্ত করেছেন ‘ডায়েলা’ নামে একজনকে। স্বাভাবিকভাবে এই নাম ঘোষণা খুব বেশি গুরুত্বপূর্ণ হওয়ার কথা নয়। তবে বিষয়টি খুব সহজভাবে নেওয়ারও উপায় নেই,

১৪ সেপ্টেম্বর ২০২৫

বাংলাদেশে দ্রুত স্টারলিংক বাস্তবায়ন, স্পেসএক্সের ধন্যবাদ

বাংলাদেশে স্টারলিংক স্যাটেলাইট ইন্টারনেট সেবা চালুর প্রক্রিয়ায় সরকারের সমন্বিত ও গতিশীল প্রচেষ্টার ভূয়সী প্রশংসা করেছেন মার্কিন মহাকাশ গবেষণা প্রতিষ্ঠান স্পেসএক্সের ভাইস প্রেসিডেন্ট লরেন ড্রেয়ার।

১৮ জুলাই ২০২৫