আল জাজিরা
২০২৫ সাল। বছরের শুরুতেই অপ্রত্যাশিত ফোন কল পেয়েছিলেন বেশ কয়েকজন ইতালির ধনাঢ্য ব্যবসায়ী। কণ্ঠস্বরটি ছিল ইতালির প্রতিরক্ষামন্ত্রী গুইডো ক্রোসেট্টোর মত। সেখানে ছিল বিশেষ অনুরোধ, ‘মধ্যপ্রাচ্যে ইতালির যে সাংবাদিকেরা অপহৃত হয়েছেন, তাঁদের মুক্ত করার জন্য কিছু অর্থ পাঠান।’ কিন্তু ফোনের অপর প্রান্তে ছিলেন না ক্রোসেট্টো। কয়েকজন ব্যবসায়ী তাঁর সঙ্গে যোগাযোগ করার পর তিনি এই কল সম্পর্কে জানতে পারেন। পরে জানা যায়, কৃত্রিম বুদ্ধিমত্তা (এআই) ব্যবহার করে ক্রোসেট্টোর কণ্ঠ নকল করেছিলেন প্রতারকেরা।
এআই প্রযুক্তির উন্নতির অর্থ হল এখন অতি-বাস্তবসম্মত ভয়েসওভার ও সাউন্ডবাইট তৈরি করা সম্ভব। প্রকৃতপক্ষে, নতুন গবেষণায় দেখা গেছে, আসল মানুষের কণ্ঠ থেকে আলাদা করা যায় না এআই-জেনারেটেড ভয়েস। এই এক্সপ্লেইনারে আমরা এআইয়ের সম্ভাব্য প্রভাবগুলো বিশ্লেষণ করব।
ফেব্রুয়ারির শুরুতে ফোন কল পেয়েছিলেন বেশ কয়েকজন ইতালির উদ্যোক্তা ও ব্যবসায়ী। এর এক মাস আগে ইরানে বন্দী ইতালির সাংবাদিক সেসিলিয়া সালাকে মুক্ত করেছিলেন প্রধানমন্ত্রী জর্জিয়া মেলোনি।
ক্রোসেট্টোর কণ্ঠ নকল করে দেওয়া কলগুলোতে ব্যবসায়ীদের অনুরোধ করা হয়েছিল একটি বিদেশি ব্যাংক অ্যাকাউন্টে প্রায় ১ মিলিয়ন ইউরো পাঠানোর জন্য। ব্যাংক অ্যাকাউন্টের বিবরণ মূলত কলের সময়ই দেওয়া হয়েছিল। আবার ক্রোসেট্টোর কর্মীদের পরিচয়ে আসা অন্যান্য কলগুলোতেও দেওয়া হয়েছিল ওইসব ব্যাংক অ্যাকাউন্টের বিবরণ।
৬ ফেব্রুয়ারি, প্রতিরক্ষামন্ত্রী ক্রোসেট্টো এক্স-এ (পূর্বে টুইটার) পোস্ট করে জানান যে ৪ ফেব্রুয়ারি তিনি ‘একজন বন্ধু, একজন বিশিষ্ট উদ্যোক্তা’ এর কাছ থেকে একটি কল পেয়েছিলেন। সেই বন্ধু ক্রোসেট্টোকে জিজ্ঞাসা করেছিলেন, তাঁর অফিস থেকে তাঁর মোবাইল নম্বর চেয়েছিল কি না। ক্রোসেট্টো বলেছিলেন, না এমন তো হওয়ার কথাই না। কারণ ওই ব্যবসায়ীর ফোন নম্বর আগে থেকেই তাঁর কাছে আছে, তাই এটি অসম্ভব।
ক্রোসেট্টো আরও জানান, পরে তাঁর সঙ্গে আরও একজন ব্যবসায়ী যোগাযোগ করেন; একজন ‘জেনারেল’ এর কাছ থেকে কল পাওয়ার পরে তিনি বড় অংকের টাকা ট্রান্সফার করেছিলেন। প্রতিরক্ষামন্ত্রীর ভাষ্যে, ‘তিনি আমাকে ফোন করে বলেন যে তাঁর সঙ্গে আমার এবং তারপর একজন জেনারেলের যোগাযোগ হয়েছিল। ‘‘জেনারেল’’ যে অ্যাকাউন্টে দিয়েছিলেন, সেটিতে বড় অংকের টাকা ট্রান্সফার করেছেন। আমি তাঁকে বলি যে এটি একটি কেলেঙ্কারি। পরে কারাবিনিয়ারিকে (ইতালির পুলিশ) জানাই, তাঁরা তাঁর বাড়িতে যায় এবং তাঁর অভিযোগটি গ্রহণ করেন।’
প্রতিরক্ষা মন্ত্রণালয়ের ভুয়া কর্মকর্তাদের কাছ থেকেও অন্যান্য উদ্যোক্তাদের কাছে একই ধরনের কল করে তাঁদের ব্যক্তিগত তথ্য এবং অর্থ চাওয়া হয়েছিল।
যদিও এই সমস্ত ঘটনা পুলিশের কাছে রিপোর্ট করেছেন তিনি। তবে ক্রোসেট্টো আরও বলেছেন, ‘আমি ঘটনাগুলি জনসমক্ষে আনতে পছন্দ করি যাতে কেউ ফাঁদে না পড়ে।’
এই কেলেঙ্কারির শিকার হয়েছিলেন ইতালির কিছু বিশিষ্ট ব্যবসায়ী। যাঁদের মধ্যে প্রয়াত ফ্যাশন ডিজাইনার জর্জিও আরমানি এবং প্রাদা-এর সহ-প্রতিষ্ঠাতা প্যাট্রিসিও বার্তেলিও ছিলেন। তবে, কর্তৃপক্ষের মতে, শুধুমাত্র ইন্টার মিলান ফুটবল ক্লাবের প্রাক্তন মালিক মাসিমো মোরাত্তি অনুরোধ করা অর্থ পাঠিয়েছিলেন। পুলিশ তাঁর করা ওয়্যার ট্রান্সফারের অর্থ ট্র্যাক করতে এবং ফ্রিজ করতে সক্ষম হয়েছিল।
তখন শহরের প্রসিকিউটরের কার্যালয়ে একটি আইনি অভিযোগ দায়ের করেছেন মোরাত্তি। ইতালীয় গণমাধ্যমকে তিনি বলেছেন, ‘আমি অবশ্যই অভিযোগ দায়ের করেছি। তবে আমি এটি নিয়ে কথা বলতে চাই না, তবে তদন্ত কীভাবে চলে তা দেখবো। সবকিছু বাস্তব মনে হয়েছিল, তাঁরা নিপুণভাবে কাজটি করেছে। এটি যে কারও সঙ্গে ঘটতে পারে।’
এআই ভয়েস জেনারেটর সাধারণত ‘ডিপ লার্নিং’ অ্যালগরিদম ব্যবহার করে থাকে। এর মাধ্যমে এআই প্রোগ্রাম বাস্তব মানুষের কণ্ঠের বিশাল ডেটা পাঠ করে। একটি কণ্ঠের পিচ, উচ্চারণ, স্বর এবং অন্যান্য উপাদান ‘শেখে’।
এআই প্রোগ্রামটি একই ব্যক্তির বেশ কয়েকটি অডিও ক্লিপ ব্যবহার করে প্রশিক্ষিত হয়। সেই নির্দিষ্ট ব্যক্তির কণ্ঠ, উচ্চারণ এবং কথা বলার ধরন অনুকরণ করতে ‘শেখানো’ হয় এটিকে। জেনারেট করা ভয়েস বা অডিওকে এআই-জেনারেটেড ভয়েস ক্লোনও বলা হয়।
ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) প্রোগ্রাম ব্যবহার করে, যা এটিকে মানুষের ভাষা বুঝতে, ব্যাখ্যা করতে এবং তৈরি করতে নির্দেশ দেয়। এআই এমনকি একটি কণ্ঠের স্বরসংক্রান্ত বৈশিষ্ট্য, যেমন ব্যঙ্গ বা কৌতুক বুঝতেও শিখতে পারে।
এই প্রোগ্রামগুলো টেক্সটকে ভাষায় রূপান্তর করতে পারে। তারপরে একটি সিন্থেটিক ভয়েস ক্লিপ তৈরি করতে পারে যা একজন আসল মানুষের মতো শোনায়।
কুইন মেরি ইউনিভার্সিটি অব লন্ডনের মনোবিজ্ঞানের একজন সিনিয়র লেকচারার নাদিন লাভান আল জাজিরাকে বলেছেন, ‘মোটামুটিভাবে বলতে গেলে, আমরা হাজার হাজার ঘণ্টা মানবকণ্ঠের রেকর্ডিংসহ একটি এআই মডেলকে প্রশিক্ষণ দিতে পারি, যাতে মডেলটি শিখতে পারে যে মানব কণ্ঠগুলো সাধারণত কেমন শোনায়।’
লাভান এআই ভয়েস সম্পর্কিত সাম্প্রতিক গবেষণার সহ-লেখকও। তিনি আরও বলেছেন, ‘এই মডেল থেকে আপনি এআই-জেনারেটেড ভয়েস তৈরি করতে পারেন। মডেলটি দিয়ে আপনি যেকোনো ভয়েসই তৈরি করতে পারবেন। যা হয়তো কোনো মানুষের কণ্ঠের সঙ্গে মিলবে না। আবার মডেলকে একটি ভয়েসের উদাহরণ দিয়ে বা এটিকে সেই ভয়েস ক্লোন করতে যদি বলেন; এটি সেই নির্দিষ্ট ভয়েসের একটি এআই-জেনারেটেড সংস্করণ বা একটি ডিপফেক তৈরি করতে পারবে।’
২০১৪ সালে অ্যাপল স্পেশাল প্রজেক্টস গ্রুপের মেশিন লার্নিংয়ের পরিচালক ইয়ান গুডফেলো ‘ডিপফেক’ শব্দটি প্রথম ব্যবহার করেন। এটি ‘ডিপ লার্নিং’ এবং ‘ফেক’ এর সংমিশ্রণ। এটি অত্যন্ত বাস্তবসম্মত এআই ছবি, ভিডিও বা অডিওকে বোঝায়, যা ডিপ লার্নিংয়ের মাধ্যমে তৈরি হয়।
সম্প্রতি কুইন মেরি ইউনিভার্সিটি অব লন্ডনের একদল গবেষক একটি গবেষণা চালিয়েছেন। ২৪ সেপ্টেম্বর বিজ্ঞান জার্নাল পিএলওএস ওয়ান দ্বারা প্রকাশিত গবেষণা প্রতিবেদনের একটি সিদ্ধান্তে বলা হয়েছে, এআই-জেনারেটেড ভয়েসগুলো তাদের শ্রোতাদের কাছে বাস্তব মানুষের কণ্ঠের মতোই শোনায়।
গবেষণাটি চালানোর জন্য এলিভেনল্যাবস নামক একটি টুল ব্যবহার করা হয়। এর মাধ্যমে এআই ভয়েসের ৪০টি নমুনা তৈরি করা হয়েছিল। এই টুল বাস্তব মানুষের কণ্ঠ ব্যবহার করে এবং সম্পূর্ণ নতুন কণ্ঠ তৈরি করে। এর পাশাপাশি মানুষের আসল কণ্ঠের ৪০টি রেকর্ডিং নমুনাও সংগ্রহ করেছিলেন গবেষকেরা। মানসম্পন্ন করার জন্য এই ৮০টি ক্লিপই সম্পাদনা করা হয়েছিল এবং সাউন্ড পরিষ্কার করা হয়েছিল।
গবেষকরা নমুনাগুলোতে ব্রিটিশ, আমেরিকান, অস্ট্রেলিয়ান এবং ভারতীয় উচ্চারণসহ পুরুষ এবং নারী কণ্ঠ ব্যবহার করেছিল। এলিভেনল্যাবস একটি ‘আফ্রিকান’ উচ্চারণও সরবরাহ করে; তবে গবেষকেরা দেখেছেন যে উচ্চারণের লেভেল ছিল ‘তাদের উদ্দেশ্যগুলোর জন্য খুব সাধারণ’।
দলটি পরীক্ষার জন্য যুক্তরাজ্যে ১৮-৬৫ বছর বয়সী ৫০ জন অংশগ্রহণকারীকে এআই ভয়েস এবং আসল মানুষের কণ্ঠের মধ্যে পার্থক্য বের করার জন্য রেকর্ডিংগুলো শুনতে বলা হয়েছিল। তাঁদের আরও জিজ্ঞাসা করা হয়েছিল, কোন কণ্ঠগুলো আরও বিশ্বাসযোগ্য শোনাচ্ছে।
গবেষণায় দেখা গেছে যে, এআই দ্বারা তৈরি করা ‘নতুন’ কণ্ঠগুলো অংশগ্রহণকারীদের কাছে কম বিশ্বাসযোগ্য মনে হয়েছিল। তবে ডিপফেক বা ভয়েস ক্লোনগুলো আসল মানুষের কণ্ঠের মতোই মনে হচ্ছিল তাদের কাছে। ৪১ শতাংশ অংশগ্রহণকারী এআই-জেনারেটেড ভয়েস এবং ৫৮ শতাংশ ভয়েস ক্লোনগুলোকে ‘আসল মানুষের কণ্ঠ’ বলে ভুল করেছিলেন।
এছাড়াও, অংশগ্রহণকারীরা আমেরিকান উচ্চারণের তুলনায় ব্রিটিশ উচ্চারণের কণ্ঠগুলোকে আসল বা মানব বলে ধারণা করেছিলেন। এটি ইঙ্গিত করে যে, এআই ভয়েসগুলো অত্যন্ত পরিশীলিত।
আরও উদ্বেগজনকভাবে, অংশগ্রহণকারীরা এআই-জেনারেটেড ভয়েসগুলোকে আসল মানুষের কণ্ঠের চেয়ে বেশি বিশ্বাসযোগ্য হিসেবে অভিহিত করেছেন। এটি পূর্ববর্তী গবেষণার বিপরীতে, যা সাধারণত এআই ভয়েসগুলোকে কম বিশ্বাসযোগ্য বলে মনে করত। যা আবার ইঙ্গিত করে যে এআই ফেইক ভয়েস তৈরিতে বিশেষভাবে পারদর্শী হয়ে উঠেছে।
লাভান বলেছেন, ‘সম্প্রতি অত্যাধুনিক এআই ভয়েস জেনারেশন কেন এত বেশি পরিশীলিত হয়েছে তার একটি সম্ভাব্য ব্যাখ্যা হল যে মডেলগুলো এখন বিশাল, উচ্চ-মানের প্রশিক্ষণ ডেটা সেটগুলোতে প্রশিক্ষিত।’
লাভান বলেছেন, ‘এর অর্থ হল মডেলগুলোর কণ্ঠ কীভাবে কাজ করে সে সম্পর্কে আরও বেশি তথ্য পায়, যাতে এটি আরও বিস্তারিত চিত্র তৈরি করতে পারে।’ তিনি ব্যাখ্যা করেছেন যে, এআই বিভিন্ন উচ্চারণ, স্বর, কথা বলার ধরন, এমনকি শ্বাস-প্রশ্বাসের শব্দ এবং কথার ত্রুটিগুলো অনুকরণ করে আরও বাস্তবসম্মত কণ্ঠ তৈরি করতে পারে।
যদিও খুব ‘মানুষের মতো’ শোনায় এমন এআই-জেনারেটেড অডিও বিজ্ঞাপন এবং চলচ্চিত্র সম্পাদনার মতো শিল্পের জন্য দরকারী হতে পারে, তবে এটি কেলেঙ্কারি এবং ভুয়া খবর তৈরি করতে অপব্যবহার করা হতে পারে।
ইতালির ব্যবসায়ীদের লক্ষ্য করে এমন কেলেঙ্কারি ইতিমধ্যে বাড়ছে। মার্কিন যুক্তরাষ্ট্রে, মানুষ তাদের আত্মীয়দের ডিপফেক কণ্ঠের কল পাচ্ছে। কল করে তাদের বলছে যে, তারা বিপদে আছে এবং অর্থ লাগবে।
ক্যালিফোর্নিয়া-ভিত্তিক এআই কোম্পানি রেম্বল এআই-এর তথ্য অনুসারে, এই বছরের জানুয়ারি থেকে জুন মাসের মধ্যে সারা বিশ্বে মানুষ ডিপফেক কেলেঙ্কারিতে ৫৪ দশমিক ৭২ কোটি ইউএস ডলারের বেশি অর্থ হারিয়েছে।
লাভান বলেছেন, ‘যদি একটি কণ্ঠকে যুক্তিসঙ্গতভাবে বিশ্বাসযোগ্য উপায়ে ক্লোন করতে মাত্র কয়েক মিনিট [বা এমনকি কয়েক সেকেন্ড] রেকর্ডিং লাগে, তবে অত্যন্ত বাস্তবসম্মত এআই-জেনারেটেড ভয়েসগুলির জন্য সুস্পষ্ট উদ্বেগ হল পরিচয় চুরি।’
তবে, অনেকক্ষেত্রেই এআই-জেনারেটেড ভয়েসগুলো ইতিবাচক উপায়ে ব্যবহার করা হচ্ছে বলেও উল্লেখ করেন লাভান।
উদ্বেগজনকভাবে, হ্যাঁ। এআই প্রোগ্রামগুলো বাস্তব মানুষের ডিপফেক ভিডিও তৈরি করতে ব্যবহার করা যেতে পারে। এটি, এআই-জেনারেটেড অডিওর সঙ্গে একত্রিত হয়ে, লোকেরা যা করেনি এমন কাজ এবং কথা বলার ভিডিও ক্লিপগুলো অত্যন্ত বিশ্বাসযোগ্যভাবে জাল করা যেতে পারে। এছাড়াও, ইন্টারনেটে কোন ভিডিওগুলো আসল এবং কোনটি ভুয়া, তা পার্থক্য করা ক্রমশ কঠিন হয়ে উঠছে।
ডিপমিডিয়া, একটি কোম্পানি যা সিন্থেটিক মিডিয়া শনাক্ত করার সরঞ্জাম নিয়ে কাজ করছে। প্রতিষ্ঠানটির ধারণা, এই বছরের শেষ নাগাদ প্রায় ৮০ লাখ ডিপফেক তৈরি এবং অনলাইনে শেয়ার করা হবে। যা ২০২৩ সালে অনলাইনে শেয়ার করা ৫ লাখেরও অনেক বেশি।
এই ধরনের ডিপফেক অডিও ফোন কল জালিয়াতি এবং ভুয়া খবর ছড়ানোতে অহরহই ব্যবহার হচ্ছে। এ ছাড়াও মানুষের ‘যৌন সামগ্রী’ তৈরিতেও ব্যবহার করা হচ্ছে। তবে উদ্বেগের ব্যাপার হলো, রেম্বল এআই-এর জুলাই মাসে প্রকাশিত প্রতিবেদনে বলা হয়েছে, এআই-এর অগ্রগতি এআই-জেনারেটেড শিশু যৌন নির্যাতনের সামগ্রীর শিল্পায়িত উৎপাদনে পরিণত হয়েছে, যা বিশ্বব্যাপী আইন প্রয়োগকারী সংস্থাকেও অভিভূত করেছে।
এই বছরের মে মাসে, মার্কিন প্রেসিডেন্ট ডোনাল্ড ট্রাম্প একটি বিল সই করেন। এই বিলে বলা হয়েছে, একজন ব্যক্তির সম্মতি ছাড়া তার অন্তরঙ্গ ছবি প্রকাশ করা একটি ফেডারেল অপরাধ। এর মধ্যে এআই-জেনারেটেড ডিপফেকও অন্তর্ভুক্ত করা হয়েছে। এদিকে গত মাসে, অস্ট্রেলিয়ান সরকারও ঘোষণা করেছে যে, তারা ডিপফেক নগ্ন ছবি তৈরি করতে ব্যবহৃত একটি অ্যাপ্লিকেশন নিষিদ্ধ করবে।
২০২৫ সাল। বছরের শুরুতেই অপ্রত্যাশিত ফোন কল পেয়েছিলেন বেশ কয়েকজন ইতালির ধনাঢ্য ব্যবসায়ী। কণ্ঠস্বরটি ছিল ইতালির প্রতিরক্ষামন্ত্রী গুইডো ক্রোসেট্টোর মত। সেখানে ছিল বিশেষ অনুরোধ, ‘মধ্যপ্রাচ্যে ইতালির যে সাংবাদিকেরা অপহৃত হয়েছেন, তাঁদের মুক্ত করার জন্য কিছু অর্থ পাঠান।’ কিন্তু ফোনের অপর প্রান্তে ছিলেন না ক্রোসেট্টো। কয়েকজন ব্যবসায়ী তাঁর সঙ্গে যোগাযোগ করার পর তিনি এই কল সম্পর্কে জানতে পারেন। পরে জানা যায়, কৃত্রিম বুদ্ধিমত্তা (এআই) ব্যবহার করে ক্রোসেট্টোর কণ্ঠ নকল করেছিলেন প্রতারকেরা।
এআই প্রযুক্তির উন্নতির অর্থ হল এখন অতি-বাস্তবসম্মত ভয়েসওভার ও সাউন্ডবাইট তৈরি করা সম্ভব। প্রকৃতপক্ষে, নতুন গবেষণায় দেখা গেছে, আসল মানুষের কণ্ঠ থেকে আলাদা করা যায় না এআই-জেনারেটেড ভয়েস। এই এক্সপ্লেইনারে আমরা এআইয়ের সম্ভাব্য প্রভাবগুলো বিশ্লেষণ করব।
ফেব্রুয়ারির শুরুতে ফোন কল পেয়েছিলেন বেশ কয়েকজন ইতালির উদ্যোক্তা ও ব্যবসায়ী। এর এক মাস আগে ইরানে বন্দী ইতালির সাংবাদিক সেসিলিয়া সালাকে মুক্ত করেছিলেন প্রধানমন্ত্রী জর্জিয়া মেলোনি।
ক্রোসেট্টোর কণ্ঠ নকল করে দেওয়া কলগুলোতে ব্যবসায়ীদের অনুরোধ করা হয়েছিল একটি বিদেশি ব্যাংক অ্যাকাউন্টে প্রায় ১ মিলিয়ন ইউরো পাঠানোর জন্য। ব্যাংক অ্যাকাউন্টের বিবরণ মূলত কলের সময়ই দেওয়া হয়েছিল। আবার ক্রোসেট্টোর কর্মীদের পরিচয়ে আসা অন্যান্য কলগুলোতেও দেওয়া হয়েছিল ওইসব ব্যাংক অ্যাকাউন্টের বিবরণ।
৬ ফেব্রুয়ারি, প্রতিরক্ষামন্ত্রী ক্রোসেট্টো এক্স-এ (পূর্বে টুইটার) পোস্ট করে জানান যে ৪ ফেব্রুয়ারি তিনি ‘একজন বন্ধু, একজন বিশিষ্ট উদ্যোক্তা’ এর কাছ থেকে একটি কল পেয়েছিলেন। সেই বন্ধু ক্রোসেট্টোকে জিজ্ঞাসা করেছিলেন, তাঁর অফিস থেকে তাঁর মোবাইল নম্বর চেয়েছিল কি না। ক্রোসেট্টো বলেছিলেন, না এমন তো হওয়ার কথাই না। কারণ ওই ব্যবসায়ীর ফোন নম্বর আগে থেকেই তাঁর কাছে আছে, তাই এটি অসম্ভব।
ক্রোসেট্টো আরও জানান, পরে তাঁর সঙ্গে আরও একজন ব্যবসায়ী যোগাযোগ করেন; একজন ‘জেনারেল’ এর কাছ থেকে কল পাওয়ার পরে তিনি বড় অংকের টাকা ট্রান্সফার করেছিলেন। প্রতিরক্ষামন্ত্রীর ভাষ্যে, ‘তিনি আমাকে ফোন করে বলেন যে তাঁর সঙ্গে আমার এবং তারপর একজন জেনারেলের যোগাযোগ হয়েছিল। ‘‘জেনারেল’’ যে অ্যাকাউন্টে দিয়েছিলেন, সেটিতে বড় অংকের টাকা ট্রান্সফার করেছেন। আমি তাঁকে বলি যে এটি একটি কেলেঙ্কারি। পরে কারাবিনিয়ারিকে (ইতালির পুলিশ) জানাই, তাঁরা তাঁর বাড়িতে যায় এবং তাঁর অভিযোগটি গ্রহণ করেন।’
প্রতিরক্ষা মন্ত্রণালয়ের ভুয়া কর্মকর্তাদের কাছ থেকেও অন্যান্য উদ্যোক্তাদের কাছে একই ধরনের কল করে তাঁদের ব্যক্তিগত তথ্য এবং অর্থ চাওয়া হয়েছিল।
যদিও এই সমস্ত ঘটনা পুলিশের কাছে রিপোর্ট করেছেন তিনি। তবে ক্রোসেট্টো আরও বলেছেন, ‘আমি ঘটনাগুলি জনসমক্ষে আনতে পছন্দ করি যাতে কেউ ফাঁদে না পড়ে।’
এই কেলেঙ্কারির শিকার হয়েছিলেন ইতালির কিছু বিশিষ্ট ব্যবসায়ী। যাঁদের মধ্যে প্রয়াত ফ্যাশন ডিজাইনার জর্জিও আরমানি এবং প্রাদা-এর সহ-প্রতিষ্ঠাতা প্যাট্রিসিও বার্তেলিও ছিলেন। তবে, কর্তৃপক্ষের মতে, শুধুমাত্র ইন্টার মিলান ফুটবল ক্লাবের প্রাক্তন মালিক মাসিমো মোরাত্তি অনুরোধ করা অর্থ পাঠিয়েছিলেন। পুলিশ তাঁর করা ওয়্যার ট্রান্সফারের অর্থ ট্র্যাক করতে এবং ফ্রিজ করতে সক্ষম হয়েছিল।
তখন শহরের প্রসিকিউটরের কার্যালয়ে একটি আইনি অভিযোগ দায়ের করেছেন মোরাত্তি। ইতালীয় গণমাধ্যমকে তিনি বলেছেন, ‘আমি অবশ্যই অভিযোগ দায়ের করেছি। তবে আমি এটি নিয়ে কথা বলতে চাই না, তবে তদন্ত কীভাবে চলে তা দেখবো। সবকিছু বাস্তব মনে হয়েছিল, তাঁরা নিপুণভাবে কাজটি করেছে। এটি যে কারও সঙ্গে ঘটতে পারে।’
এআই ভয়েস জেনারেটর সাধারণত ‘ডিপ লার্নিং’ অ্যালগরিদম ব্যবহার করে থাকে। এর মাধ্যমে এআই প্রোগ্রাম বাস্তব মানুষের কণ্ঠের বিশাল ডেটা পাঠ করে। একটি কণ্ঠের পিচ, উচ্চারণ, স্বর এবং অন্যান্য উপাদান ‘শেখে’।
এআই প্রোগ্রামটি একই ব্যক্তির বেশ কয়েকটি অডিও ক্লিপ ব্যবহার করে প্রশিক্ষিত হয়। সেই নির্দিষ্ট ব্যক্তির কণ্ঠ, উচ্চারণ এবং কথা বলার ধরন অনুকরণ করতে ‘শেখানো’ হয় এটিকে। জেনারেট করা ভয়েস বা অডিওকে এআই-জেনারেটেড ভয়েস ক্লোনও বলা হয়।
ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) প্রোগ্রাম ব্যবহার করে, যা এটিকে মানুষের ভাষা বুঝতে, ব্যাখ্যা করতে এবং তৈরি করতে নির্দেশ দেয়। এআই এমনকি একটি কণ্ঠের স্বরসংক্রান্ত বৈশিষ্ট্য, যেমন ব্যঙ্গ বা কৌতুক বুঝতেও শিখতে পারে।
এই প্রোগ্রামগুলো টেক্সটকে ভাষায় রূপান্তর করতে পারে। তারপরে একটি সিন্থেটিক ভয়েস ক্লিপ তৈরি করতে পারে যা একজন আসল মানুষের মতো শোনায়।
কুইন মেরি ইউনিভার্সিটি অব লন্ডনের মনোবিজ্ঞানের একজন সিনিয়র লেকচারার নাদিন লাভান আল জাজিরাকে বলেছেন, ‘মোটামুটিভাবে বলতে গেলে, আমরা হাজার হাজার ঘণ্টা মানবকণ্ঠের রেকর্ডিংসহ একটি এআই মডেলকে প্রশিক্ষণ দিতে পারি, যাতে মডেলটি শিখতে পারে যে মানব কণ্ঠগুলো সাধারণত কেমন শোনায়।’
লাভান এআই ভয়েস সম্পর্কিত সাম্প্রতিক গবেষণার সহ-লেখকও। তিনি আরও বলেছেন, ‘এই মডেল থেকে আপনি এআই-জেনারেটেড ভয়েস তৈরি করতে পারেন। মডেলটি দিয়ে আপনি যেকোনো ভয়েসই তৈরি করতে পারবেন। যা হয়তো কোনো মানুষের কণ্ঠের সঙ্গে মিলবে না। আবার মডেলকে একটি ভয়েসের উদাহরণ দিয়ে বা এটিকে সেই ভয়েস ক্লোন করতে যদি বলেন; এটি সেই নির্দিষ্ট ভয়েসের একটি এআই-জেনারেটেড সংস্করণ বা একটি ডিপফেক তৈরি করতে পারবে।’
২০১৪ সালে অ্যাপল স্পেশাল প্রজেক্টস গ্রুপের মেশিন লার্নিংয়ের পরিচালক ইয়ান গুডফেলো ‘ডিপফেক’ শব্দটি প্রথম ব্যবহার করেন। এটি ‘ডিপ লার্নিং’ এবং ‘ফেক’ এর সংমিশ্রণ। এটি অত্যন্ত বাস্তবসম্মত এআই ছবি, ভিডিও বা অডিওকে বোঝায়, যা ডিপ লার্নিংয়ের মাধ্যমে তৈরি হয়।
সম্প্রতি কুইন মেরি ইউনিভার্সিটি অব লন্ডনের একদল গবেষক একটি গবেষণা চালিয়েছেন। ২৪ সেপ্টেম্বর বিজ্ঞান জার্নাল পিএলওএস ওয়ান দ্বারা প্রকাশিত গবেষণা প্রতিবেদনের একটি সিদ্ধান্তে বলা হয়েছে, এআই-জেনারেটেড ভয়েসগুলো তাদের শ্রোতাদের কাছে বাস্তব মানুষের কণ্ঠের মতোই শোনায়।
গবেষণাটি চালানোর জন্য এলিভেনল্যাবস নামক একটি টুল ব্যবহার করা হয়। এর মাধ্যমে এআই ভয়েসের ৪০টি নমুনা তৈরি করা হয়েছিল। এই টুল বাস্তব মানুষের কণ্ঠ ব্যবহার করে এবং সম্পূর্ণ নতুন কণ্ঠ তৈরি করে। এর পাশাপাশি মানুষের আসল কণ্ঠের ৪০টি রেকর্ডিং নমুনাও সংগ্রহ করেছিলেন গবেষকেরা। মানসম্পন্ন করার জন্য এই ৮০টি ক্লিপই সম্পাদনা করা হয়েছিল এবং সাউন্ড পরিষ্কার করা হয়েছিল।
গবেষকরা নমুনাগুলোতে ব্রিটিশ, আমেরিকান, অস্ট্রেলিয়ান এবং ভারতীয় উচ্চারণসহ পুরুষ এবং নারী কণ্ঠ ব্যবহার করেছিল। এলিভেনল্যাবস একটি ‘আফ্রিকান’ উচ্চারণও সরবরাহ করে; তবে গবেষকেরা দেখেছেন যে উচ্চারণের লেভেল ছিল ‘তাদের উদ্দেশ্যগুলোর জন্য খুব সাধারণ’।
দলটি পরীক্ষার জন্য যুক্তরাজ্যে ১৮-৬৫ বছর বয়সী ৫০ জন অংশগ্রহণকারীকে এআই ভয়েস এবং আসল মানুষের কণ্ঠের মধ্যে পার্থক্য বের করার জন্য রেকর্ডিংগুলো শুনতে বলা হয়েছিল। তাঁদের আরও জিজ্ঞাসা করা হয়েছিল, কোন কণ্ঠগুলো আরও বিশ্বাসযোগ্য শোনাচ্ছে।
গবেষণায় দেখা গেছে যে, এআই দ্বারা তৈরি করা ‘নতুন’ কণ্ঠগুলো অংশগ্রহণকারীদের কাছে কম বিশ্বাসযোগ্য মনে হয়েছিল। তবে ডিপফেক বা ভয়েস ক্লোনগুলো আসল মানুষের কণ্ঠের মতোই মনে হচ্ছিল তাদের কাছে। ৪১ শতাংশ অংশগ্রহণকারী এআই-জেনারেটেড ভয়েস এবং ৫৮ শতাংশ ভয়েস ক্লোনগুলোকে ‘আসল মানুষের কণ্ঠ’ বলে ভুল করেছিলেন।
এছাড়াও, অংশগ্রহণকারীরা আমেরিকান উচ্চারণের তুলনায় ব্রিটিশ উচ্চারণের কণ্ঠগুলোকে আসল বা মানব বলে ধারণা করেছিলেন। এটি ইঙ্গিত করে যে, এআই ভয়েসগুলো অত্যন্ত পরিশীলিত।
আরও উদ্বেগজনকভাবে, অংশগ্রহণকারীরা এআই-জেনারেটেড ভয়েসগুলোকে আসল মানুষের কণ্ঠের চেয়ে বেশি বিশ্বাসযোগ্য হিসেবে অভিহিত করেছেন। এটি পূর্ববর্তী গবেষণার বিপরীতে, যা সাধারণত এআই ভয়েসগুলোকে কম বিশ্বাসযোগ্য বলে মনে করত। যা আবার ইঙ্গিত করে যে এআই ফেইক ভয়েস তৈরিতে বিশেষভাবে পারদর্শী হয়ে উঠেছে।
লাভান বলেছেন, ‘সম্প্রতি অত্যাধুনিক এআই ভয়েস জেনারেশন কেন এত বেশি পরিশীলিত হয়েছে তার একটি সম্ভাব্য ব্যাখ্যা হল যে মডেলগুলো এখন বিশাল, উচ্চ-মানের প্রশিক্ষণ ডেটা সেটগুলোতে প্রশিক্ষিত।’
লাভান বলেছেন, ‘এর অর্থ হল মডেলগুলোর কণ্ঠ কীভাবে কাজ করে সে সম্পর্কে আরও বেশি তথ্য পায়, যাতে এটি আরও বিস্তারিত চিত্র তৈরি করতে পারে।’ তিনি ব্যাখ্যা করেছেন যে, এআই বিভিন্ন উচ্চারণ, স্বর, কথা বলার ধরন, এমনকি শ্বাস-প্রশ্বাসের শব্দ এবং কথার ত্রুটিগুলো অনুকরণ করে আরও বাস্তবসম্মত কণ্ঠ তৈরি করতে পারে।
যদিও খুব ‘মানুষের মতো’ শোনায় এমন এআই-জেনারেটেড অডিও বিজ্ঞাপন এবং চলচ্চিত্র সম্পাদনার মতো শিল্পের জন্য দরকারী হতে পারে, তবে এটি কেলেঙ্কারি এবং ভুয়া খবর তৈরি করতে অপব্যবহার করা হতে পারে।
ইতালির ব্যবসায়ীদের লক্ষ্য করে এমন কেলেঙ্কারি ইতিমধ্যে বাড়ছে। মার্কিন যুক্তরাষ্ট্রে, মানুষ তাদের আত্মীয়দের ডিপফেক কণ্ঠের কল পাচ্ছে। কল করে তাদের বলছে যে, তারা বিপদে আছে এবং অর্থ লাগবে।
ক্যালিফোর্নিয়া-ভিত্তিক এআই কোম্পানি রেম্বল এআই-এর তথ্য অনুসারে, এই বছরের জানুয়ারি থেকে জুন মাসের মধ্যে সারা বিশ্বে মানুষ ডিপফেক কেলেঙ্কারিতে ৫৪ দশমিক ৭২ কোটি ইউএস ডলারের বেশি অর্থ হারিয়েছে।
লাভান বলেছেন, ‘যদি একটি কণ্ঠকে যুক্তিসঙ্গতভাবে বিশ্বাসযোগ্য উপায়ে ক্লোন করতে মাত্র কয়েক মিনিট [বা এমনকি কয়েক সেকেন্ড] রেকর্ডিং লাগে, তবে অত্যন্ত বাস্তবসম্মত এআই-জেনারেটেড ভয়েসগুলির জন্য সুস্পষ্ট উদ্বেগ হল পরিচয় চুরি।’
তবে, অনেকক্ষেত্রেই এআই-জেনারেটেড ভয়েসগুলো ইতিবাচক উপায়ে ব্যবহার করা হচ্ছে বলেও উল্লেখ করেন লাভান।
উদ্বেগজনকভাবে, হ্যাঁ। এআই প্রোগ্রামগুলো বাস্তব মানুষের ডিপফেক ভিডিও তৈরি করতে ব্যবহার করা যেতে পারে। এটি, এআই-জেনারেটেড অডিওর সঙ্গে একত্রিত হয়ে, লোকেরা যা করেনি এমন কাজ এবং কথা বলার ভিডিও ক্লিপগুলো অত্যন্ত বিশ্বাসযোগ্যভাবে জাল করা যেতে পারে। এছাড়াও, ইন্টারনেটে কোন ভিডিওগুলো আসল এবং কোনটি ভুয়া, তা পার্থক্য করা ক্রমশ কঠিন হয়ে উঠছে।
ডিপমিডিয়া, একটি কোম্পানি যা সিন্থেটিক মিডিয়া শনাক্ত করার সরঞ্জাম নিয়ে কাজ করছে। প্রতিষ্ঠানটির ধারণা, এই বছরের শেষ নাগাদ প্রায় ৮০ লাখ ডিপফেক তৈরি এবং অনলাইনে শেয়ার করা হবে। যা ২০২৩ সালে অনলাইনে শেয়ার করা ৫ লাখেরও অনেক বেশি।
এই ধরনের ডিপফেক অডিও ফোন কল জালিয়াতি এবং ভুয়া খবর ছড়ানোতে অহরহই ব্যবহার হচ্ছে। এ ছাড়াও মানুষের ‘যৌন সামগ্রী’ তৈরিতেও ব্যবহার করা হচ্ছে। তবে উদ্বেগের ব্যাপার হলো, রেম্বল এআই-এর জুলাই মাসে প্রকাশিত প্রতিবেদনে বলা হয়েছে, এআই-এর অগ্রগতি এআই-জেনারেটেড শিশু যৌন নির্যাতনের সামগ্রীর শিল্পায়িত উৎপাদনে পরিণত হয়েছে, যা বিশ্বব্যাপী আইন প্রয়োগকারী সংস্থাকেও অভিভূত করেছে।
এই বছরের মে মাসে, মার্কিন প্রেসিডেন্ট ডোনাল্ড ট্রাম্প একটি বিল সই করেন। এই বিলে বলা হয়েছে, একজন ব্যক্তির সম্মতি ছাড়া তার অন্তরঙ্গ ছবি প্রকাশ করা একটি ফেডারেল অপরাধ। এর মধ্যে এআই-জেনারেটেড ডিপফেকও অন্তর্ভুক্ত করা হয়েছে। এদিকে গত মাসে, অস্ট্রেলিয়ান সরকারও ঘোষণা করেছে যে, তারা ডিপফেক নগ্ন ছবি তৈরি করতে ব্যবহৃত একটি অ্যাপ্লিকেশন নিষিদ্ধ করবে।
দক্ষিণ-পূর্ব ইউরোপের বলকান উপদ্বীপের উত্তর-পশ্চিম প্রান্তে অবস্থিত একটি রাষ্ট্র আলবেনিয়ার। দেশটির প্রধানমন্ত্রী এদি রামা সম্প্রতি তাঁর মন্ত্রিসভায় মন্ত্রী হিসেবে যুক্ত করেছেন ‘ডায়েলা’ নামে একজনকে। স্বাভাবিকভাবে এই নাম ঘোষণা খুব বেশি গুরুত্বপূর্ণ হওয়ার কথা নয়। তবে বিষয়টি খুব সহজভাবে নেওয়ারও উপায় নেই,
১৪ সেপ্টেম্বর ২০২৫বাংলাদেশে স্টারলিংক স্যাটেলাইট ইন্টারনেট সেবা চালুর প্রক্রিয়ায় সরকারের সমন্বিত ও গতিশীল প্রচেষ্টার ভূয়সী প্রশংসা করেছেন মার্কিন মহাকাশ গবেষণা প্রতিষ্ঠান স্পেসএক্সের ভাইস প্রেসিডেন্ট লরেন ড্রেয়ার।
১৮ জুলাই ২০২৫