on
ডাটা সায়েন্সের ক্ষেত্রে কি দিয়ে শুরু করবো? R নাকি Python?
বর্তমান বিশ্বে মিলিয়ন ডলারের প্রশ্ন, কেনো R শিখবো? ডাটা সায়েন্সের ক্ষেত্রে R দিয়ে শুরু করবো নাকি Python দিয়ে? Python vs R!!
এই প্রশ্নগুলো নিয়ে গুগল সার্চ করলে হাজার হাজার মতামত ও লিঙ্ক পাওয়া যাবে। তারপরো এই লেখাটির উদ্দেশ্য হল ডাটা সায়েন্সে যারা নতুন এবং এই প্রশ্ন গুলো নিয়ে মাথা ঘামাচ্ছেন তাদের আমার নিজস্ব দৃষ্টিভঙ্গি থেকে কিছুটা সাহায্য করা।
R কিংবা Python এই ২ টার যেকোনো একটা ল্যাংগুয়েজ ভালো করে জানলেই ডাটা সায়েন্সের জন্য এনাফ। তবে ২টা ল্যাংগুয়েজেরই কিছু বেষ্ট পার্ট আছে।
যেমনঃ R গ্রাফিকাল রেপ্রেজেন্টেশন, এক্সপ্লোরেটরি অ্যানালাইসিস এবং স্ট্যাটিস্টিক্যাল মডেল টেস্টিং এর জন্য বেষ্ট, আবার পাইথনে ডাটা ক্লিনিং, ওয়ার্কফ্লো কনট্রোল, অ্যালগোরিদম ও মডেল ইমপ্লিমেন্টেশন ও ডেপ্লয়মেন্টের সুবিধা পাবেন। ডাটা সায়েন্সে বর্তমানে বেস্ট পার্ফরম্যান্সের জন্য R ও Python ২ টাই ব্যবহার করা হয়। অনেকেই ডাটা ক্লিনিং ও ডেপ্লয়মেন্টের ক্ষেত্রে পাইথন ব্যবহার করে আর অ্যানালাইসিস ও মডেল টেস্টিং এর ক্ষেত্রে R ব্যবহার করে। বর্তমানের খুব প্রচলিত একটা কথা হল “Python and R complement each other, especially for people working in data mining / applied stats”. তাই প্রফেশনাল লেভেলে বেস্ট পার্ফরম্যান্সের জন্য হয়তো ২টাই ব্যবহার করতে হবে। তাই সবচেয়ে ভালো যদি ২টাই আয়ত্ত করা যায়।
এখন আসি একজন ডাটা সায়েন্স বিগিনার হিসেবে R এবং Python এর মধ্যে কোনটা দিয়ে শুরু করবেন –
যদি আপনি আগে থেকে পাইথন পেরে থাকেন এবং প্রোগ্রামিং ব্যাকগ্রাউন্ডের হন তাহলে পাইথন দিয়েই শুরু করতে পারেন। কারণ নতুন একটা ল্যাংগুয়েজ অ্যাডপ্ট করা সবার জন্য সবসময় সুখকর হয় না (আমার অভিজ্ঞতা হলঃ যারা পাইথনে কোড করেন তারা কেন জানি পাইথন ব্যতিত অন্য ল্যাংগুয়েজে সুখী হতে পারে না)। পাইথনে ডাটা সায়েন্সের জন্য অসংখ্য সুন্দর ও পাওারফুল লাইব্রেরি আছে। আপনাকে কোথাও আটকাতে হবে না এটা নিশ্চিন্ত থাকতে পারেন।
যদি আপনি আগে থেকে পাইথন না জানেন তাহলে বলবো R দিয়েই শুরু করেন। R এর জন্মই স্ট্যাটিস্টিক্যাল ব্যাকগ্রাউন্ড থেকে, ওর কাজই হলো ডাটা নিয়ে খেলা ধুলা করা। তাই বলা হয় “R is the lingua franca of data science.” ডাটা সায়েন্সের জন্য R এ পুরো একটা ইকোসিস্টেম আছে এবং খুবি শক্তিশালী সাপোর্ট পাওয়া যায়। কেন আপনি R দিয়ে শুরু করবেন তার জন্য এই আর্টিকেলটা পড়তে পারেন – Why you should learn R first for data science
আসল বিষয় হলো, একজন ডাটা সায়েন্টিস্ট কে ডাটা কে বুঝতে হয়, ভালবাসতে হয়, ফিল করতে হয়। তাই এখানে প্রোগ্রামিং ল্যাংগুয়েজ খুব বড় কোন ফ্যাক্টর না। যে স্কিলটা গড়ে তোলা প্রয়োজন সেটা হলো আপনি একটা ডাটা প্রবলেমকে ঠিক মতো বুঝতে পারছেন কিনা, ফিল করতে পারছেন কিনা। তাই ল্যাংগুয়েজ আসলে মেইন ফোকাস হওয়া উচিত না। ডাটাকে বোঝা এবং ফিল করার ক্ষেত্রে R ই আপনাকে সবচেয়ে বেশি সাপোর্ট দিবে। আমি নিজেও R দিয়ে কাজ করে ডাটা প্রবলেম কে ভালোভাবে ফিল করতে পেরেছি। অনেকের ক্ষেত্রে বিষয়টা ভিন্ন ও হতে পারে।
এখন ডিসিশন আপনার উপর, আপনি কিভাবে/কি দিয়ে শুরু করতে চান। আমার পয়েন্টগুলো বুঝে থাকলে আপনার ডিসিশন নেয়াটা সহজ হওয়ার কথা।