ইনফরমেশন এক্সট্রাক্সন: উপাত্তকে তথ্যে রূপান্তর

অতিথি লেখক's picture
Submitted by guest_writer on Fri, 06/12/2013 - 12:18am
Categories:

সচলে দ্বিতীয় বারের মত লিখতে বসা। আমার প্রথম লেখায় আমি বাংলাদেশের রাজনৈতিক হুমকির একটা পরিসংখ্যান দেয়ার চেস্টা করেছি। খুব স্বাভাবিক ভাবেই, অনেকে জানতে চাচ্ছেন আমি কোন ম্যাথড বা ম্যাটেরিয়ালস ব্যাবহার করে ওই তথ্য গুলো দিয়েছি। প্রথম লেখাতে আমি এই ব্যাপারগুল সম্পর্কে খুব সংক্ষেপে এবং সহজ ভাবে কিছু জিনিশ ব্যাখ্যা করেছি, কারন সত্যি বলতে এই জাতীও টেকনিক্যাল লেখার গ্রহণযোগ্যতা বা লেখার টেকনিক্যাল অংশ গুলো সম্পর্কে পাঠক আগ্রহী হবে কিনা সে ব্যাপারে একটু সন্দিহান ছিলাম। কিন্তু লেখার পরে দেখলাম অনেকেই টেকনিক্যাল ব্যাপারগুলো সম্পর্কে জানতে আগ্রহ প্রকাশ করেছেন। সেই সাথে এই ধরনের আরও লেখা পড়তে চান বলে জানিয়েছেন। তাই আজ টেকনিক্যাল কিছু ব্যাপার নিয়ে কথা বলব।

উপাত্য কি, আর তথ্য কি?
ইংরেজিতে দুটো ভিন্ন নাম, ড্যেটা এবং ইনফরমেশন। ডেটাকে প্রসেস করে যা পাওয়া যায়, তাই ইনফরমেশন। ধরুন, আপনার কাছে আপনার ক্লাসের সব ছাত্রের সিজিপিএ এর লিস্ট আছে। এটা যদি হয় ডেটা, তাহলে এখান থেকে আপনি যে ধরনের ইনফরমেশন পেতে পারেন, সেগুলো হল,

১। ক্লাসে কার সিজিপিএ সব থেকে ভালো।
২। কার সিজিপিএ সব থেকে খারাপ।
৩। গড় সিজিপিএ কত।
৪। যাদের রোল প্রথম দিকে, তাদের সিজিপিএ ভালো, নাকি যাদের রোল শেষের দিকে।
৫। আপনার ক্লাসের কোন ছাত্র ভবিষ্যতে শিক্ষক হতে পারে।

কি ধরনের ইনফরমেশন আপনি জেনারেট করবেন বা করতে পারবেন, সেটা নির্ভর করে আপনার চিন্তার মাত্রা আর উপাত্যের সমৃদ্ধির উপর।
উপরে আমি যে ৫ টা ইনফরমেশন জেনারেট করার আইডিয়া দিলাম, এ ছাড়াও আর কোন ইনফরমেশন বের করার আইডিয়া থাকলে কমেন্টে জানাতে পারেন। যেমন এই মাত্র আরেকটা মাথায় আসলো। যেহেতু আপনার ক্লাসের সবাইকে আপনি মোটামুটি চেনেন, সিজিপিএর লিস্ট থাকলে আপনি চাইলে এই ইনফরমেশন বের করতে পারেন, "যাদের সিজিপিএ ভালো, তারা বেশী ক্রিয়েটিভ, নাকি যাদের সিজিপিএ খারাপ তারা?" সব ধরনের ইনফরমেশন আপনাকে বের করতে হবে পরিসংখ্যান, সম্ভাব্যাতা বা গনিতের এই জাতীও বিষয় গুলোর উপর ভিত্তি করে।

ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং-
পৃথিবীতে অন্যান্য প্রানীর তুলনায় মানুষ এত উন্নত কেন? অনেকে অনেক ভাবে এর উত্তর দিতে পারে, কিন্তু আমার মতে এর কারন মানুষের কমিউনিকেশন ক্ষমতা আছে। অন্যান্য প্রানীদের কি নেই? আছে, কিন্তু মানুষের মত এট ডিটেলস ভাবে মনের ভাব প্রকাশ করার ক্ষমতা নেই। মানুষই একমাত্র প্রানী, যারা কথা বলে মনের ভাব প্রকাশ করতে পারে। এমনকি, মনের সূক্ষ্মাতিসূক্ষ্ম ভাবও কথা বলে প্রকাশ করা যায়। যেমন, আপনার এক বন্ধু আপনাকে বলল, তার ঠাণ্ডা লাগছে, আরেক বন্ধু বলল, তার ঠাণ্ডা ঠাণ্ডা লাগছে। দুটো কথার মধ্যে একটা সুক্ষ পার্থক্য আছে এবং মানুষ সেটা ধরতে পারে। এত সুক্ষ ভাবে আর অন্য কোন প্রানী কমিউনিকেট করতে পারে না।

আমাদের কথার মদ্ধে লুকিয়ে থাকে তথ্য। যেমন উপরের কথা দুটো থেকে আপনি প্রথমেই যেটা বুঝবেন, সেটা হল আপনার প্রথম বন্ধুর ভালো ঠাণ্ডা লাগছে, আর দ্বিতীয় বন্ধুর হালকা ঠাণ্ডা লাগছে। এটুকু পর্যন্ত বুঝতে আপনাকে কোন কস্ট করতে হবে না। কিন্তু কথাটি নিয়ে আরেকটু চিন্তা করলে আপনি আরও বুঝতে পারবেন আপনার প্রথম বন্ধুটি আছে একটি শীতল পরিবেশে, এবং দ্বিতীয় বন্ধুটি আছে এমন একটা পরিবেশে, যেখানে শিত আছে, কিন্তু খুব একটা বেশী না, অন্তত প্রথম বন্ধুটি যেখানে আছে সেখান থেকে কম। দুজন যদি একই যায়গায় থাকে, আপনি সিদ্ধান্ত নিতে পারেন আপনার প্রথম বন্ধুটির ঠাণ্ডা সহ্য করার ক্ষমতা দ্বিতীয় বন্ধুর থেকে কম। আপনাকে যখন কেউ কোন কথা বলে বা লিখে জানায়, সেটা আপনার মস্তিষ্কের কাছে ডেটা, সেখান থেকে আপনি কি ইনফরমেশন পাবেন, বা কতটি ইনফরমেশন পাবেন, সেটা নির্ভর করবে আপনার চিন্তার ব্যাপ্তি, মস্তিষ্কের প্যাটার্ন ম্যাচিং ক্ষমতা বা আপনার মস্তিষ্ক উপাত্যটিকে কতটুকু গুরুত্ব দিচ্ছে তার উপর।

ভাষাকে এনালাইসিস করলে অনেক ধরনের তথ্য পাওয়া সম্ভব। ঠিক যেমনটা আমি দেখিয়েছি আমার প্রথম লেখায়। এর জন্যে আপনার প্রথমেই যেই জিনিসটা লাগবে, সেটা হল টেক্সট কন্টেন্ট। আমরা যারা এখন বাংলাদেশে বাংলা ল্যাঙ্গুয়েজ প্রসেসিং নিয়ে কাজ করি, তাদের ডাটার সব থেকে বড় উৎস ইন্টারনেট। এমনকি অন্য যে কোন ভাষার খেত্রেও তাই। কিন্তু সমস্যা হল, ইংরেজিতে যে পরিমান কন্টেন্ট আছে, বাংলায় ওই পরিমান কন্টেন্ট নেই। বাংলা কন্টেন্টের অধিকাংসই হল বাংলা পত্রিকা গুলোর অনলাইন ভার্সন এবং বিভিন্ন ব্লগ(কিন্তু কিছু ব্লগে আজকাল যে ভাষা ব্যাবহার করা হয়, তা আসলে বাংলা থেকে ডাইভারটেড। তারা হয়ত মজা করার জন্যে এটা করে, কিন্তু এতে বাংলা ভাষা এবং ভাষার রিসোর্স ক্ষতিগ্রস্থ হচ্ছে)। আর আমার ধারনা, অধিকাংশ বাংলা সাইটের বয়স গড়ে ৫ বছর। কিছু হয়ত কম বেশী থাকতে পারে।
তাই কন্টেন্টের প্রাচুর্য আর বৈচিত্র দুটোই কম। তবে আশা করি, আর ১০ বছর পরে ইন্টারনেটে বাংলার সমৃদ্ধ রিসোর্স থাকবে। কন্টেন্টের একটা টেকনিক্যাল নাম আছে, সেটা হল করপাস/কর্পোরা।

এমনকি কোন প্রোগ্রাম লেখা সম্ভব, যা মানুষের মত কথা বুঝতে পারে? সায়েন্স ফিকশনে বা হলিউডের মুভিতে আমরা রোবটের সাথে মানুষকে কথা বলতে দেখি। বাস্তবেও এমন কিছু প্রজেক্ট আছে, যেমন অটমেটিক চ্যাট বট, একটি প্রোগ্রাম, যা আপনার সাথে মানুষের মত চ্যাট করবে (যদিও এখনো ৫০% পারফেক্ট করাও সম্ভব হয় নি)। কোন প্রোগ্রামের মানুষের মত কথা বোঝার বা বলার ক্ষমতা থাকা মানে সেই প্রোগ্রামের আসলে মানুষের মত চিন্তা করার ক্ষমতা আছে। তাই বুঝতেই পারছেন, এটা হল ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং এর সব থেকে এডভান্স টপিক।

আমার উপাত্তের উৎসঃ
এক কথায় উত্তর, গুগল। ইন্টারনেট থেকে কন্টেন্ট কালেক্ট করার জন্যে আপনি চাইলে স্ক্রিপ্ট লিখতে পারেন, ক্রলার বানাতে পারেন, পার্সার ব্যাবহার করতে পারেন, ম্যানুয়ালি কপি পেস্ট করতে পারেন সেটা আপনার ইচ্ছা। আপনি কি জাতীও কাজ করবেন, বা কি ধরনের ইনফরমেশন চাচ্ছেন তার উপরেও নির্ভর করে। তবে একটা ব্যাপার সবাইকে জানিয়ে দেয়া ভালো, এই কাজে প্রচুর ধৈর্য আর সময় দরকার।

সব সময়কি আপনাকে কন্টেন্ট এনালাইসিস করেই ইনফরমেশন বের করতে হবে? না। ধরুন, আমার কাছে অনেক কন্টেন্ট আছে। আমি এখান থেকে এনালাইসিস করে স্টপ ওয়ারড গুলো (ও এবং, বা , কিন্তু এই ধরনের লেস সিগ্নিফিকেন্ট ওয়ার্ড, যাদের আসলে কন্টেন্টে খুব বেশী ভুমিকা থাকে না) বের করলাম। এখন কেউ যদি চায় তার কোন কাজে স্টপ ওয়ার্ড এর লিস্ট লাগবে, সেই ক্ষেত্রে সে কন্টেন্ট কালেক্ট করে এনালাইসিস এর মাধ্যমে স্টপ ওয়ার্ড বের করতে পারে, অথবা সে চাইলে আমার বের করা লিস্ট ব্যাবহার করতে পারে। এটাকে বলে লেক্সিক্যাল করপাস। যা এমন এক ধরনের ইনফরমেশন, যা ডাটা এনাইসিস করে বের করা হয়েছে, এবং পরবর্তী ইনফরমেশন বের করার জন্যে তাকেই আবার ডাটা হিসেবে ব্যাবহার করা হচ্ছে। আমার প্রথম পোস্টের ইনফরমেশন গুলোর জন্যে আমি একটি লেক্সিক্যাল করপাস ব্যাবহার করেছি। তার নাম "গুগল এডভান্স সার্চ"। আমরা সাধারনত গুগলে যে সার্চর কিভাবে গুগল সার্চ ইঞ্জিন ব্যাবহার করে এন-গ্রাম, মার্কভ মডেল, নেইমড এন্টিটি রিকগনিসনের মত কাজ গুলো করা যায়, আমি বর্তমানে সে ব্যাপারে রিসার্চ করছি। আমি কোন রিসার্চ পেপারের লিঙ্ক দিতে পারছি না কারন এর আগে এটা নিয়ে আর কেউ কাজ করে নি, মানে গুগল সার্চকে লেকজিক্যাল করপাস হিসেবে ব্যাবহার করে নি। তবে হয়ত বছরখানেকের মধ্যেই দিতে পারব। এই এপ্রোচের সব থেকে বড় সুবিধা, আপনাকে কন্টেন্ট স্টোর করতে হচ্ছে না এবং কোন এলগরিদম নিয়েও কাজ করতে হচ্ছে না। আপনার প্রোগ্রাম শুধু গুগলকে কোয়েরি পাঠাচ্ছে(এই পার্টটা সব থেকে ট্রিকি, আপনি কি ধরনের ইনফরমেশন চান, সেই অনুযায়ী কোয়েরি লিখতে হবে) এবং গুগল কোয়েরি একজিকিউট করার পরে যে রেজাল্ট দিচ্ছে, সে রেজাল্ট পারস করে নিয়ে আসছে। আর যেহেতু সব থেকে বেশী কন্টেন্ট গুগলের আছে, এবং গুগল তার ইফিসিয়েন্ট প্রোগ্রাম দিয়ে ওই কন্টেন্ট এনালাইসিস করে আপনাকে রেজাল্ট দিচ্ছে, তাই কন্টেন্টের সমৃদ্ধির ও এলগরিদমের ইফিসিয়েন্সির ব্যাপারে আপনি ১০০ ভাগ নিশ্চিন্ত থাকতে পারেন। এর থেকে বেশী কন্টেন্ট কোন করপাসে থাকা সম্ভব না। কারন অধিকাংশ করপাস হল গোটা ইন্টারনেটের কন্টেন্ট সেট এর একটা উপসেট।

ম্যাথডঃ
এটা সম্পূর্ণ আপেক্ষিক। আমি ধরনের ইনফরমেশন বের করতে চাচ্ছি এবং আমার কাছে কি ধরনের রিসোর্স এভেইলেবেল(কন্টেন্ট বা ম্যাথম্যাটিকাল/স্টাটেস্টিক্যাল/ল্যাঙ্গুয়িস্টিক থিউরি), তার উপর ভিত্তি করে তৈরি হবে আমার ম্যাথড। যেহেতু বাংলা লাঙ্গুয়েজ প্রসেসিং নিয়ে এখনো খুব বেশী থিওরিটিক্যাল কাজ এখনো হয় নি, তাই এ ক্ষেত্রে নিজের সৃষ্টিশীলতা বা প্রব্লেম সল্ভিং স্কিল দেখানোর একটা ভালো সুযোগ আছে। কাজ করার ক্ষেত্রে বা কোন সিদ্ধান্ত নেয়ার ক্ষেত্রে আপনি অনেকটাই স্বাধীন। আপনার এনালাইসিসের ফলাফল বলে দেবে আপনার সিদ্ধান্ত কতটুকু সঠিক ছিল। টেকনিক্যাল কিছু টারমের সাথে পরিচয় করিয়ে দেয়াটা দরকার মনে করি, যেমন ল্যাঙ্গুয়েজ মডেল, এন-গ্রাম মডেল, বাইগ্রাম, ট্রাইগ্রাম, মারকভ এজামসন, মারকভ মডেল, ২ বাই ২ কন্টিজেন্সি টেবিল, প্রিসিসন, রিকল, এফ মেজর, ইনফরমেশন এক্সট্রাক্সন, সেন্টিমেন্ট এনালাইসিস, করপাস, লেকজিক্যাল করপাস, স্টাটিস্টিক্স, প্রব্যাবিলিটি ইত্যাদি। এগুল সম্পর্কে এক আর্টিকেলে টেকনিক্যাল ডিটেলস দেয়া সম্ভব না। কেউ চাইলে স্টানফোরডের ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এর উপরে ওপেন কোর্স করতে পারেন।

ইনফরমেশনের সত্যতা কতটুকুঃ
সেটা সব থেকে ভালো বলতে পারবে মানুষ। এখানে আপনাকে আমি যে তথ্য দিচ্ছি , তা আমাকে দিচ্ছে একটা প্রোগ্রাম। এর আউটপুট সঠিক কি ভুল, তা বলবে পাঠক। যদি প্রোগ্রাম যে তথ্য দিচ্ছে , তা বাস্তব হয়, বা কিছু সর্ত সাপেক্ষে বাস্তবতার কাছাকাছি থাকে, তাহলে বুঝতে পারব প্রোগ্রাম ডিজাইন ঠিক আছে। তবে প্রসেসে ভুল হওয়ার সম্ভাবনা কম, কারন আমি স্টাব্লিশ থিওরি গুলোর উপর ভিত্তি করেই প্রসেস এর মডেল করব, কিন্তু যে ইনফরমেশন চাচ্ছি, সে ব্যাপারে কন্টেন্ট যদি সমৃদ্ধ না হয়, সে ক্ষেত্রে প্রোগ্রামের দেয়া তথ্যের সাথে বাস্তবের গরমিল থাকতে পারে।এটা স্টাটেস্টিক্যাল ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং এর একটা ড্রব্যাক(সীমাবদ্ধতা)।

ইনফরমেশন দিয়ে আমরা কি করবঃ
জানি না। আসলেই জানি না। সব ইনফরমেশন মানুষের কাজে লাগে না, কিছু ইনফরমেশন কেবল ইনফরমেশন হিসে জানতেই ভালো লাগে।
কিছু আপনার সমসাময়িক পরিস্থিতি সম্পর্কে আপনাকে পূর্বাভাস সেয় বা সচেতন করে। কিছু ইনফরমেশন প্রকৃতির নিয়ম বুঝতে সাহাজ্য করে। ইনফরমেশন ইজ অল এরাউন্ড, আপনি একে কিভাবে ব্যাবহার করতে পারবেন, তা নির্ভর করে সম্পূর্ণ আপনার উপরে। আর কিছু ক্ষেত্রে কেবলমাত্র বুদ্ধিবৃত্তিক তাড়না থেকে এসব জিনিস জানা দরকার হয়। আর কিছু ক্ষেত্রে মানুষের থেকে ভালো এনালাইসিস করতে পারে প্রোগ্রাম। সাধারন মানুষের পক্ষে এত ডকুমেন্ট ঘেটে তথ্য বের করা সম্ভব না। মানুষ ক্যালকুলেটর বানায়, তার মানে সে যোগ বিয়োগ করতে পারে না তা নয়। ক্যালকুলেটর কম সময়ে নিখুত ভাবে কাজটা করে দেয়।

বাংলাদেশের আলোচিত জেলাঃ
সবশেষে, আজ আরেকটা ইনফরমেশন দেই, যদিও আজ কোন ইনফরমেশন দেয়ার ইচ্ছা ছিল না। এটাও ডাটা এনালাইসিস করে পাওয়া। মেথড খুবই সিম্পল,করপাসে প্রতিটা জেলার জন্যে নাম্বার অফ ডকুমেন্টস কাউন্ট করছি ।

বাংলাদেশের অনলাইনে সব থেকে আলোচিত জেলা গুলো হল (ক্রমানুসারে),

ঢাকা (২,৫৭০,০০০)
গোপালগঞ্জ (১,০৮০,০০০)
চট্টগ্রাম (১,০৫০,০০০)
সিলেট (৭২৫,০০০)
রাজশাহী (৬২১,০০০)
খুলনা (৫৫৪,০০০)
বরিশাল (৫১৫,০০০)
রংপুর (৪৮০,০০০)

গোপালগঞ্জের ব্যাপারটা ইন্টারেস্টিং না? ঢাকার পরেই বাংলাদেশে যে জেলা নিয়ে অনলাইনে সব থেকে বেশী আলোচনা হয়, তা হল গোপালগঞ্জ। আরেকটা ব্যাপার, উপরের লিস্টে ১ টা ছাড়া বাকি সবই বিভাগ। তার মানে বিভাগ গুলো নিয়ে সব থেকে বেশী আলোচনা হয়। পপুলার জেলা গুলোর মধ্যে কুমিল্লা ও নোয়াখালী জেলার কাউন্ট যথাক্রমে ২৭৩০০০ ও ১৭৬০০০, যা যে কোন বিভাগের থেকে অনেক কম। এই ইনফরমেশন আপনার কোন কাজে লাগতে পারে বা নাও লাগতে পারে। যেমন,আপনি চাইলে হাইপথিসিস দার করাতে পারেন "যদি পরবর্তীতে কোন নতুন বিভাগ ঘোষণা করতে চায়, তাহলে লিস্টে গোপালগঞ্জ থাকতে পারে।"

লেখায় কোন ভুল থাকলে ক্ষমা সুন্দর দৃষ্টিতে দেখবেন, আমি গুছিয়ে লিখতে পারি না।

পথের দাবি


Comments

সাক্ষী সত্যানন্দ's picture

পপকর্ন লইয়া গ্যালারীতে বইলাম
পরবর্তীতে বানানগুলো একবার অন্তত দেখে দেবেন... কয়েকটা একেবারে চোখে লাগে

মডুদের প্রতি আবেদনঃ কেউ কি দয়া করে অন্তত শিরোনামে "উপাত্ত" বানানটা ঠিক করে দেবেন?

____________________________________
যাহারা তোমার বিষাইছে বায়ু, নিভাইছে তব আলো,
তুমি কি তাদের ক্ষমা করিয়াছ, তুমি কি বেসেছ ভালো?

অতিথি লেখক's picture

বানান ভুলের জন্যে দুঃখিত। এটা আমার সীমাবদ্ধতা। পরবর্তীতে এডিট করতে পারলে ঠিক করে দেব।

পথের দাবি

সাক্ষী সত্যানন্দ's picture

আরে ব্যাপার না... এইরকম টেকনিক্যাল ব্যাপার নিয়ে লেখাটাই যথেষ্ট কঠিন... আগ্রহ নিয়ে বসে থাকলাম

____________________________________
যাহারা তোমার বিষাইছে বায়ু, নিভাইছে তব আলো,
তুমি কি তাদের ক্ষমা করিয়াছ, তুমি কি বেসেছ ভালো?

অতিথি লেখক's picture

শিরোনামে এত বড় একটা ভুল পীড়া দিচ্ছিলো। মডারেটর ঠিক করে দিয়েছে হাসি

পথের দাবি

সত্যপীর's picture

দুর্দান্ত।

কম্পিউটার বিজ্ঞানের লোক নই তবে কাজের দায়ে প্রচুর ইনফরমেশন ম্যানিপুলেট করতে হয় তাই আপনার লেখাটা আগ্রহ নিয়ে পড়লাম। যে কোম্পানিতে কাজ করি তার কাস্টমার এবং কম্পিটিটররা বিভিন্ন প্ল্যাটফর্মে (ইমেইল, সার্ভে ফর্ম, সোস্যাল মিডিয়া) মন্তব্য করে, সেইটার টেক্সট অ্যানালিসিস করা হয় কোম্পানি থেকে অনেক পয়সা ও সময় খরচ করে। সেইটে দিয়ে ঠিক করা হয় ভবিষ্যত গন্তব্য কি, ঠিক পথে আছি কিনা বা কেনই বা এই পথে ইত্যাদি। ইনফরমেশন ইজ পাওয়ার।

তাত্ত্বিক কথার পাশাপাশি ব্যবহারিক দিক নিয়েও লিখুন, যেমন বলেছেন বিভাগ জেলা নিয়ে এই লেখায়। দুর্দান্ত লেখা।

..................................................................
#Banshibir.

অতিথি লেখক's picture

মন্তব্যের জন্যে অনেক ধন্যবাদ। পাঠক থাকলে লিখে আনন্দ পাই।

উন্নত দেশগুলতে ব্যাপক হারে ব্যাবহার হলেও বাংলা ভাষায় এই ধরনের কাজ অনেকটাই নতুন। এর একটা কারন আমাদের অনলাইন এক্টিভিটি খুব বেশী দিনের না। যত দিন যাবে, তত কন্টেন্ট ও রিসোর্স এর পরিমান বাড়বে। সেই সাথে বাড়বে এপ্লিকেসন।

পয়সা এবং সময়ের ব্যাপারটা আসলেই একটু বেশী লাগে এই ধরনের কাজে। ন্যাচারাল লাঙ্গুয়েজ প্রসেসিং এর জন্যে ইউএসএ, ইউরোপিয়ান নেসন্স বা ইন্ডিয়ায় গভমেন্ট এর প্রচুর ফান্ডিং থাকে। বাংলাদেশের প্রেক্ষাপট হয়ত ভবিষ্যতে আরও ভালো হবে।

আমার প্রথম লেখাটি পরে দেখতে পারেন, সেখানে বাংলাদেশের রাজনীতি নিয়ে একটি ইনফরমেশন বের করার চেষ্টা করেছি।

পথের দাবি

সত্যপীর's picture

হ্যাঁ প্রথম লেখা আগেই পড়েছি। মন্তব্য করিনি। আরো লিখুন। মন্তব্য দিয়ে পাঠক গুণবেন না, মন্তব্য পড়ুক না পড়ুক ভালো লেখার পাঠক পাবেন।

..................................................................
#Banshibir.

অতিথি লেখক's picture

চলুক দুর্দান্ত, আপনি আমাদের কথা রেখেছেন। সেইজন্যে সাধুবাদ, আপনার কাছ থেকে আরো অনেক কিছু পাওয়ার আশা থাকল।

মাসুদ সজীব

অতিথি লেখক's picture

আপনারে অসংখ্য -ধইন্যাপাতা- হাসি

পথের দাবি

হিমু's picture

আপনি কি কোনো নির্দিষ্ট সাইট থেকে কর্পাস তৈরি করে কিছু জিনিস বিশ্লেষণ করতে পারবেন, যদি সময় হয়?

অতিথি লেখক's picture

হ্যা, এটা সম্ভব। তবে কি ধরনের বিশ্লেষণ, তার উপরে অনেকটা নির্ভর করে।

পথের দাবি

প্রকৃতিপ্রেমিক's picture

তত্ত্বাবধায়ক নাকি হাসিনার অধীনে নির্বাচন, জনগণের ভাব কী-- এ বিষয়ে আপনার ড্যাটা থেকে কোন তথ্য বের করা যাবে?

অতিথি লেখক's picture

চেস্টা করব, যদি কোন গ্রহণযোগ্য উপায় বের করতে পারি এনালাইসিস করার। আসলে অনলাইন মিডিয়াতে জনগনের কথার থেকে রাজনৈতিক ব্যাক্তিদের কথা বেশী থাকে। কারন কোন এক পপুলার রাজনীতিবিদ কোন একটা কথা বললে সাথে সাথে হাজার খানেক সাইটে ডকুমেন্ট পাবলিশ হয়ে যায়, কিন্তু সাধারন জনগনের কথা ফেসবুক বা ব্লগ পর্যন্তই সীমাবদ্ধ থাকে। তবে চেস্টা করে দেখা যেতে পারে, আইডিয়াটা ভালো।

পথের দাবি

এক লহমা's picture

আরো চাই, অনেক চাই হাসি

--------------------------------------------------------

এক লহমা / আস্ত জীবন, / এক আঁচলে / ঢাকল ভুবন।
এক ফোঁটা জল / উথাল-পাতাল, / একটি চুমায় / অনন্ত কাল।।

এক লহমার... টুকিটাকি

অতিথি লেখক's picture

হবে হবে আপনারে অসংখ্য -ধইন্যাপাতা-

স্পর্শ's picture

দারুণ পোস্ট! উত্তম জাঝা!


ইচ্ছার আগুনে জ্বলছি...

অতিথি লেখক's picture

আপনারে অসংখ্য -ধইন্যাপাতা- হাসি

পথের দাবি

অতিথি লেখক's picture

চলুক

অতিথি লেখক's picture

আপনারে অসংখ্য -ধইন্যাপাতা-

পথের দাবি

আব্দুল্লাহ এ.এম.'s picture

সিজিপিএ উপাত্ত ব্যবহার করে আরও কয়েকটি তথ্যের আইডিয়া-

গড় সিজিপিএ ছেলেদের ভাল নাকি মেয়েদের
শহরের ছেলেদের নাকি মফস্বলের ছেলেদের
শহরের মেয়েদের নাকি মফস্বলের মেয়েদের
স্মার্ট ও ফ্যাশনদুরস্ত ছেলেদের নাকি সাধারন ছেলেদের
সুন্দরী মেয়েদের নাকি সাদামাটা চেহারার মেয়েদের

অতিথি লেখক's picture

ওয়াও! এর পর থেকে আমাকে দেখছি কোন অনুসিদ্ধান্ত দেয়া লাগবে না, শুধু তথ্যটুকু দিলেই পাঠক বুদ্ধিদীপ্ত চমৎকার অনুসিদ্ধান্ত তৈরি করে নিতে পারবে হাসি

পথের দাবি

অতিথি লেখক's picture

চমত্কার লেখা। লেখক এর টেকনিক্যাল শব্দ গুলোকে যথাসম্ভব বাংলায় প্রকাশ করার প্রচেষ্টা কে আমি আন্তরিকভাবে ধনয্বাদ এবং কৃতজ্ঞতা জানাচ্ছি।এরকম লেখা আরো আশা করছি। এখানে একটা ব্যাপার বলার ইচ্ছা হচ্ছে। লেখক বার বার বলছেন ইন্টারনেট এ বাংলা সম্পর্কিত তত্ত্ব, তথ্য ,উপাত্ত সর্বোপরি গবেষণা পত্র অনেক কম। এর একটা বড় কারণ হিসেবে আমি বলব আমাদের নিজেদের ভাষার প্রতি তাচ্ছিল্য এবং ব্রিটিশ গোলামিপনা থেকে মুক্ত হতে না পারা। কারণ আমাদের দেশ এর মানুষ অনেক গবেষণা করে, বিদেশে গিয়ে লেখাপড়া করে প্রচুর গবেষণা করে বিশাল পন্ডিত হয়। কিন্তু যা কিছুই প্রকাশ করতে যায় সব কিছু ইংলিশ অথবা ওই দেশ এর ভাষায় করে। এমনকি বাংলাদেশ এ বসে গবেষণা পত্র ইংরেজিতে লিখে প্রকাশ করে। যদি সবাই তাদের শিক্ষা জীবনে অন্তত একটা করে গবেষণা পত্রও বাংলায় লিখে প্রকাশ করত এবং বাংলাভাষার জন্য একটা অথবা কয়েকটা আন্তর্জাতিক মান এর জার্নাল এর ব্যবস্থা করা যেত তাহলে হয়ত আমরা আরো অনেক বাংলা গবেষণা পত্র এবং তথ্য সমৃদ্ধ বাংলা লেখা পেতাম।

অতিথি লেখক's picture

অন্যান্য সেক্টরের অবস্থা জানি না, কিন্তু বাংলাদেশের আইটি সেক্টর নিয়ে আমি প্রচন্ড আশাবাদী। আমি এমন অনেককেই আমি ব্যাক্তিগত ভাবে চিনি, যারা উচ্চশিক্ষার জন্যে দেশের বাইরে আছেন এবং উচ্চশিক্ষা শেষ করেই আবার দেশে ফিরে আসবেন। এবং যে সময়টা তারা দেশের বাইরে আছেন, নিয়মিত দেশের খোঁজ খবর রাখছেন, দেশের অসমাপ্ত প্রোজেক্ট গুলো চালিয়ে যাচ্ছেন বা তত্ত্বাবধায়ন করছেন। এদের মধ্যে অনেকেই আছেন তরুন শিক্ষক, যারা দেশের বাইরে থেকেও তাদের দেশে থাকা ছাত্রদের নিয়ে নতুন নতুন প্রোজেক্ট শুরু করছেন।

এমন একজনকে চিনি, যিনি দেশের একটা স্বনামধন্য বিশ্ববিদ্যালয়ের এসিস্টেন্ট প্রফেসর, যে এক যুগেরও বেশী সময় ধরে বাংলা লাঙ্গুয়েজ প্রসেসিং নিয়ে কাজ করছেন । উচ্চশিক্ষার জন্যে কখনো দেশের বাইরে যান নি, কিন্তু ইন্টারন্যাশনাল জার্নাল গুলোয় তার পাব্লিশড রিসার্চ পেপারের সংখ্যা ১০+ , আর বাংলা ভাষার যে ধরনের রিসোর্স তার কাছে আছে, অবিশ্বাস্য! এদের দেখলে কিভাবে হতাশ হই, বলেন! এই মানুষগুলোর কাজের সুফল আমরা খুব দ্রুতই পাওয়া শুরু করব।

এমন স্টুডেন্ট অর্গানাইজেশন দেখেছি, যারা স্টুডেন্টদের রিসার্চ পেপার পাব্লিশ করে বেরায়! অবস্থা বুঝেন!!
এই অবস্থায় আশাবাদী না হয়ে উপায় আছে হাসি

পথের দাবি

ধুসর জলছবি's picture

দারুণ পোস্ট। আপনি সময় বের করে এত দ্রুত লিখে ফেলবেন আশা করিনি। অভিনন্দন তাই। যদিও আমি টেকনিক্যাল ব্যাপার গুলো বুঝব না, আপনি সহজ করেই লিখেছেন বলা যায়। আরও লিখুন। হাততালি

অতিথি লেখক's picture

আপনারে অসংখ্য -ধইন্যাপাতা-

মৃত্যুময় ঈষৎ's picture

বাধ্য হলাম লগিন করে মন্তব্য করতে যদিও আজ মন খুব খারাপ মহাত্মা মেন্ডেলার মৃত্যুশোকে মন খারাপ

স্বাগতম সচলায়তনে। আপনি নিয়মিত লিখবেন এটা সনির্বদ্ধ অনুরোধ রইলো। আমি গণকযন্ত্র কৌশলের ছাত্র, খুব তৃপ্তি পেলাম পড়ে।


_____________________
Give Her Freedom!

অতিথি লেখক's picture

অনেক ধন্যবাদ। যেহেতু গণকযন্ত্র কৌশলের ছাত্র, আপনার কাছ থেকে প্রশংসার সাথে সাথে সমালোচনাও আশা করি। নিয়মিত লেখার চেস্টা করব।

পথের দাবি

দীনহিন's picture

Quote:
কিন্তু কিছু ব্লগে আজকাল যে ভাষা ব্যাবহার করা হয়, তা আসলে বাংলা থেকে ডাইভারটেড। তারা হয়ত মজা করার জন্যে এটা করে, কিন্তু এতে বাংলা ভাষা এবং ভাষার রিসোর্স ক্ষতিগ্রস্থ হচ্ছে

রিসোর্স কিভাবে ক্ষতিগ্রস্ত হচ্ছে, ঠিক বুঝিনি। 'মজা করার শব্দ' কমিউনিকেট করার অসাধারণ ক্ষমতা নিয়ে জন্মানো মানুষ কি বুঝবে না? কন্টেন্টের কি ক্ষতি হবে?

Quote:
যা আপনার সাথে মানুষের মত চ্যাট করবে

'মানুষের মত চ্যাট' করা মানে কি? মানুষের মত 'শীত লাগছে' কথাটার ভিন্ন ভিন্ন অর্থ ধরে ফেলতে পারবে?

Quote:
সব ইনফরমেশন মানুষের কাজে লাগে না, কিছু ইনফরমেশন কেবল ইনফরমেশন হিসে জানতেই ভালো লাগে।

যেমন?

Quote:
যেমন,আপনি চাইলে হাইপথিসিস দার করাতে পারেন "যদি পরবর্তীতে কোন নতুন বিভাগ ঘোষণা করতে চায়, তাহলে লিস্টে গোপালগঞ্জ থাকতে পারে।"

শেষের এই চমকটি লেখাটিকে ভিন্ন মাত্রা দিয়েছে। ডেটা থেকে যান্ত্রিক এনালিসিসের মাধ্যমে বেরিয়ে আসতে পারে এমন ইনফরমেশন, যা হয়ত রাজনৈতিক বাস্তবতার খুব কাছাকাছি। এবং সেই কারণে কিছুটা বিশ্বাসযোগ্যও। তবে আলোচিত লিস্টে 'বগুড়া' নেই বলে প্রোগ্রাম ডিজাইন নিয়ে সন্দেহও থেকে যায় কিন্তু।

যাই হোক, বিপুল বানান বিভ্রাট সত্বেও আপনার লেখা শেষ পর্যন্ত আগ্রহ ধরে রাখে প্রধাণত আপনার সহজ করে বলা ও গুছিয়ে লেখার ক্ষমতার কারণে।

.............................
তুমি কষে ধর হাল
আমি তুলে বাঁধি পাল

অতিথি লেখক's picture

যেভাবে ভাষার রিসোর্স ক্ষতিগ্রস্ত হচ্ছেঃ ধরুন, কোন একটা কাজে আপনি "মন চায়" কথাটা কাউন্ট করলেন। সেখানে যারা "মুঞ্চায়" লিখেছে, সেই কাউন্ট গুলো বাদ পরে গেল, যদিও দুটোর মানে একই। "মুঞ্চায়" দিয়ে আপনি মনের ভাব প্রকাশ করতে পারবেন, কিন্তু এটা বাংলা শব্দ না। এই ধরনের শব্দ ব্যাবহার করা কি খারাপ? ভাষার মূল লক্ষ্য মনের ভাব প্রকাশ করা, সেই অর্থে যে শব্দ দিয়ে মনের ভাব প্রকাশ পায়, সেই শব্দই গ্রহণযোগ্য। ভাষায় নতুন শব্দের অনুপ্রবেশ ঘটবে বা প্রচলিত শব্দের বিচ্যুতি ঘটবে, এটাও সত্যি। কিন্তু বিচ্যুতির মাত্রা বেশী হলে সেটা আর যাই হোক, বাংলা ভাষা বলা যায় না। বলা যায়, বাংলা থেকে ডাইভারটেড। এই ধরনের রিসোর্স থেকে বাংলা ভাষার খুব একটা লাভ হয় না। তাই বললাম ভাষার রিসোর্স ক্ষতিগ্রস্ত হচ্ছে।

হ্যা। এর একটা স্ট্যান্ডার্ড টেস্ট আছে, নাম "টিউরিং টেস্ট"। এর সিস্টেম হল, পর্দার এক পাশে থাকবে একজন মানুষ(A), অপর পাশে থাকবে একজন মানুষ(B) ও একটা বট(C), যা পর্দার এপাশে থাকা মানুষটির সাথে একই সময়ে একই আইডি দিয়ে চ্যাট করবে। দুজনেই(B & C) চেস্টা করবে A এর কাছে নিজেকে মানুষ প্রমান করার। এর পর A সিদ্ধান্ত নিবে, কে মানুষ কে বট। এখন পর্যন্ত কোন বট A কে বোকা বানিয়ে নিজেকে মানুষ প্রমান করতে পারে নি। যদি পারে, ঘটনাটা হবে এরকম, একটা মেশিনের বুদ্ধিমত্তার কাছে মানুষের বুদ্ধিমত্তা পরাজিত হল।

টিউরিং টেস্টে পাস করার রিকোয়ারমেন্ট হল, একে কম পক্ষে ৩০% বোকা বানাতে হবে মানুষকে। কোন বট আজ পর্যন্ত এটা পারে নি, কিন্তু "এল-বট" নামে একটা কাছাকাছি গিয়েছিলো ২০০৮ সালে(২৫%)।

যে তথ্য বিনোদনঃ অভাব নাই। যেমন, এখানে দেখুন।

বগুড়ারটা আমি বের করছিলাম, কিন্তু অতটা তাৎপর্য নেই বলে দেই নি।
বগুড়া (২২১,০০০)

পথের দাবি

দীনহিন's picture

Quote:
সেখানে যারা "মুঞ্চায়" লিখেছে, সেই কাউন্ট গুলো বাদ পরে গেল, যদিও দুটোর মানে একই।

এখানেই আমার দ্বিমত। আমার কাছে দুটোর মানে এক নয়। "মুঞ্চায়" শব্দটিতে একটা মজার, অথবা বিদ্রূপাত্মক এলিমেন্ট আছে, যা মূল "মন চায়" থেকে অবশ্যই অতিরিক্ত কিছু ভাব প্রদান করে। আপনি যাকে ডাইভারটেড বলছেন, খেয়াল করলে দেখবেন, সেগুলো অনেক সময়ই একটাই ডাইভারটেড মেসেজও কিন্তু প্রদান করে। এনালিসিস যদি সেক্ষেত্রে 'মঞ্চায়'-কে বাদ দিয়ে থাকে, ঠিকই করেছে। 'মঞ্চায়' যেহেতু ভিন্নধর্মী রিসোর্স।

Quote:
যে তথ্য বিনোদনঃ অভাব নাই। যেমন, এখানে দেখুন।

পাতাটি ঘুরে এলাম। হ্যাঁ, ইনফরমেশন হিসেবে জানতেই ভাল লাগে। কিন্তু কাজে লাগবে না কেন, তা বুঝতে পারছি না এখনো। তথ্যগুলি আপনার জ্ঞানের বিস্তৃতি কি ঘটায় না? আর এভাবেই কি তা কাজে লাগার শর্ত পূরণ করে না? আসলে 'কাজে লাগা' বলতে কি বোঝাচ্ছেন? কাজে নামলেই তো আহরিত তথ্য কাজে লাগবে, তাই না?

.............................
তুমি কষে ধর হাল
আমি তুলে বাঁধি পাল

প্রোফেসর হিজিবিজবিজ's picture

বানান বিভ্রাট নিয়ে মন্তব্য চলে এসেছে বলে আর বাড়তি কিছু লিখলাম না।

জটিল বিষয় অনেক গুছিয়ে সহজ করে লিখেছেন - ধন্যবাদ। পেশার জন্য প্রচুর এনালিসিস করতে হয় আমাকে, তাই মজা পেলাম। লিখতে থাকুন।

____________________________

অতিথি লেখক's picture

আপনারে অসংখ্য -ধইন্যাপাতা-

Post new comment

The content of this field is kept private and will not be shown publicly.