ভয়েস ক্লোনিং—ফোনে কণ্ঠ নকল: অপরাধ জগতের নতুন হাতিয়ার
অনুপম নিউজ টোয়েন্টিফোর ডট কম প্রকাশিত হয়েছে : ২৮ অক্টোবর ২০২৪, ৯:২৯:২২ অপরাহ্ন
অনুপম বিজ্ঞান ডেস্ক: বিজ্ঞানের আবিস্কার মানুষকে কেবল সুবিধা দিচ্ছে না, একই সাথে মারাত্মক অসুবিধায়ও ফেলছে। বিজ্ঞানপূর্ব যুগের চেয়ে বর্তমান ‘বিজ্ঞানের সফলতার’ যুগে মানুষের শংকা উদ্বিগ্নতা অনেক বেশি। প্রযুক্তি যতই উন্নত হচ্ছে, নতুন নতুন সুবিধার পাশাপাশি সৃষ্টি হচ্ছে অসুবিধারও। ভয়েস ক্লোনিং অর্থাৎ কন্ঠস্বর নকলের প্রযুক্তি বর্তমানে বেশ জনপ্রিয়তা পেয়েছে। শুরুতে এটি নিছক বিনোদনের জন্য হলেও বর্তমানে এই প্রযুক্তি শঙ্কার কারণ হয়ে দাঁড়িয়েছে। সম্প্রতি ডিপফেক প্রযুক্তিতে নকল কণ্ঠস্বরের ব্যবহারের মাধ্যমে লাখ লাখ ডলার হাতিয়ে নেয়ার ঘটনাও ঘটেছে। কিন্তু এই ভয়েস ক্লোনিং কিংবা কন্ঠস্বর নকলের প্রযুক্তিটি আসলে কী এটি নিয়ে অনেকের মনেই রয়ে গেছে অস্পষ্টতা।
মূলত এই প্রযুক্তির মাধ্যমে কারো কণ্ঠ ক্লোন বা হুবহু নকল করা হয় কম্পিউটারে কৃত্রিম বুদ্ধিমত্তার একটি সফটওয়্যার প্রোগ্রাম ব্যবহার করে, যার মাধ্যমে একজন ব্যক্তির কণ্ঠস্বর হুবহু নকল করে একটা কৃত্রিম কণ্ঠস্বর তৈরি করা হয়। এর জন্য কাউকে মাত্র কয়েক মিনিট তার কণ্ঠের রেকর্ডিং করে দিতে হয়। এর থেকেই সফটওয়্যার জেনে যায় তার কণ্ঠের আওয়াজ, তার বাচনভঙ্গি- কীভাবে ওই ব্যক্তি কথা বলেন। বর্তমানে এই প্রযুক্তি এতটাই নিঁখুত হয়েছে যে শুনলে মনেই হবে না এটি একটি যান্ত্রিক কার্যক্রম।
এই প্রযুক্তির মাধ্যমে একজনের কথা বলার ঢং, অ্যাকসেন্ট বা কথার উচ্চারণভঙ্গি, কত দ্রুত বা ধীরে কথা বলেন, কথা বলার সময় কণ্ঠ কতটা ওঠে বা নামে, শব্দের মাঝে একজন যেভাবে শ্বাস নেন এবং গলার স্বর কতটা হালকা বা গম্ভীর সবই এই সফটওয়্যার হুবহু নকল করে ফেলে। এমনকি এই প্রযুক্তির মাধ্যমে একজনের কণ্ঠস্বরের সব বিশেষত্ব জেনে নেয়ার পর যখন কম্পিউটারের কীবোর্ডে কোন শব্দ বা বাক্য লেখা হবে, সেটা কম্পিউটার হুবহু ঐ ব্যক্তির গলার আওয়াজে উপস্থাপন করবে – অর্থাৎ শুনলে মনে হবে তিনিই সরাসরি কথা বলছেন। শুধু তাই নয়, কারো নকল কণ্ঠস্বরে দরকার হলে নানা ধরনের আবেগও ফুটিয়ে তুলতে পারবে এই সফটওয়্যার- যেমন রাগ, ভয়, আনন্দ, প্রেম, বিরহ বা বিরক্তি।
ভোকালআইডি প্রতিষ্ঠানটি তৈরি করেছেন রুপাল প্যাটেল। তিনি সংস্থাটির প্রধান নির্বাহী। তিনি নর্থইস্টার্ন ইউনিভার্সিটির যোগাযোগ বিজ্ঞান ও এ সংক্রান্ত সমস্যা বিষয়ে অধ্যাপক। রুপাল প্যাটেল এই ব্যবসা গড়ে তোলেন ২০১৪ সালে তার চিকিৎসা কাজকে আরও এগিয়ে নেবার লক্ষ্যে। যেসব রোগী অসুস্থতার কারণে বা অস্ত্রোপচারের পর কথা বলার ক্ষমতা হারিয়েছে তাদের কণ্ঠস্বর যন্ত্রের সাহায্যে কৃত্রিমভাবে তৈরি করার তাগিদ থেকে এই প্রযুক্তির ওপর ভিত্তি করে তিনি তার সংস্থাটি প্রতিষ্ঠা করেন।
কিন্তু সম্প্রতি এই চমৎকার প্রযুক্তিটিরই একটি ভয়ানক দিক ধরা পড়েছে। বিশেষজ্ঞরা খুবই উদ্বিগ্ন যে এই প্রযুক্তি সাইবার অপরাধের জন্য খুবই ঊর্বর একটা ক্ষেত্র। কারণ ধরুন যে কথা বলছে সে আসল মানুষ নাকি নকল মানুষ তা বোঝা এর ফলে অসম্ভব হয়ে দাঁড়াবে, এবং আপনাকে ফাঁদে ফেলা অপরাধীদের জন্য খুবই সহজ হবে। ডিজিটাল প্রযুক্তি ব্যবহার করে যেসব ভুয়া ভিডিও তৈরি করা হয়, সেগুলোর মত এভাবে হুবহু নকল করা কণ্ঠকেও “ডিপফেক” বলা হয়।
সাইবার নিরাপত্তা বিশেষজ্ঞ এডি ববরিটস্কি বলছেন, “এতদিন পর্যন্ত যখন আমরা ফোনে কারোর সাথে কথা বলতাম, আমরা অন্তত এটুকু নিশ্চিন্ত থাকতে পারতাম যে যার সাথে কথা বলছি সে আমার পরিচিত কণ্ঠ- তাকে অন্তত বিশ্বাস করা যায়। কিন্তু এখন সেটিও বদলে যাচ্ছে। ধরুন, কোন সংস্থার বস তার কর্মচারীকে ফোন করে বললেন আমার কিছু তথ্য দরকার। সেসব স্পর্শকাতর, গোপন তথ্য। কিন্তু কর্মচারী ভাবলেন আমি তো বসের কণ্ঠ চিনি। কাজেই দ্বিধা না করে বসের নির্দেশ মেনে তিনি সেসব তথ্য দিয়ে দিলেন। সাইবার অপরাধীদের জন্য এ তো সুবর্ণ সুযোগ।”
আসলেই ২০১৯ সালে ওয়াল স্ট্রিট জার্নালে এরকম একটি ঘটনার খবর ছাপা হয়েছিল। ব্রিটেনের একটি প্রতিষ্ঠানের ম্যানেজার জার্মানি থেকে তার বসের কণ্ঠের একটি নির্দেশ পেয়ে দু লাখ বিশ হাজার ইউরো (দু লাখ ৬০ হাজার ডলার) অর্থ পাঠিয়েছিল যার কাছে, সে ছিল প্রতারক। জার্মান কোম্পানির বসের ক্লোন করা কণ্ঠ ব্যবহার করেছিল ঐ প্রতারক।
ধারণা করা যাচ্ছে ভয়েস আর্টিস্টদের কাছে এই প্রযুক্তিটি আশীর্বাদ হলেও, পরবর্তীতে অপরাধীদের কাছে এটি হয়ে উঠবে একটি মারাত্মক হাতিয়ার। রাজনৈতিক প্রতারণার ক্ষেত্রেও এই ভয়েস ক্লোনিং ব্যবহার হচ্ছে।