লিনিয়ার রিগ্রেশন ব্যবহৃত হয় যখন আমরা একটি সংখ্যাত্মক মান прогноз করতে চাই (উদাহরণস্বরূপ, বাড়ির দাম, তাপমাত্রা, বা বিক্রয়)।
এটি কাজ করে এমন একটি সরলরেখা খুঁজে বের করে যা ইনপুট বৈশিষ্ট্য এবং আউটপুটের মধ্যে সম্পর্ককে সর্বোত্তমভাবে উপস্থাপন করে।
এই পাঠে, আমরা মূল ধারণাটি বুঝতেও মনোযোগ দেবো, এবং পরে আরও উন্নত রিগ্রেশন প্রযুক্তিগুলি অন্বেষণ করবো।

ইনফোগ্রাফিক দাসানি মাডিপাল্লি দ্বারা
এখন পর্যন্ত আপনি পদক্ষেপভিত্তিক রিগ্রেশন কী তা অন্বেষণ করেছেন, আমরা যা ব্যবহার করছি সেসব কুমড়ো মূল্য ডেটাসেট থেকে উদাহরণ হিসেবে। আপনি matplotlib দিয়ে এটি ভিজুয়ালাইজেশনও করেছেন।
এখন আপনি এমএল এর জন্য রিগ্রেশনে আরও গভীরে প্রবেশ করার জন্য প্রস্তুত। ভিজুয়ালাইজেশন ডেটা বোঝার জন্য সাহায্য করে, কিন্তু মেশিন লার্নিংয়ের আসল শক্তি আসে মডেল প্রশিক্ষণ থেকে। মডেলগুলি ঐতিহাসিক ডেটায় প্রশিক্ষিত হয় যাতে তারা ডেটার নির্ভরতা স্বয়ংক্রিয়ভাবে ধরতে পারে, এবং এটি নতুন ডেটার জন্য পূর্বাভাস দিতে সক্ষম করে, যা আগে মডেল দেখেনি।
এই পাঠে, আপনি দুই ধরনের রিগ্রেশন সম্পর্কে শেখবেন: মৌলিক লিনিয়ার রিগ্রেশন এবং পলিনোমিয়াল রিগ্রেশন, এর সাথে এই প্রযুক্তির প্রাথমিক গাণিতিক ধারণা। এই মডেলগুলি আমাদের দেয় আলাদা ইনপুট ডেটার উপর ভিত্তি করে কুমড়োর দাম অনুমান করার সুযোগ।
🎥 উপরের ছবিতে ক্লিক করুন লিনিয়ার রিগ্রেশনের একটি সংক্ষিপ্ত ভিডিও ওভারভিউ এর জন্য।
এই কারিকুলামের পুরো সময় আমরা গাণিতিক জ্ঞান সীমিত ধরেই চলব, এবং অন্য ক্ষেত্রে থেকে আসা শিক্ষার্থীদের জন্য এটি সহজবোধ্য করার চেষ্টা করব, তাই নোট, 🧮 কলআউট, চিত্র এবং অন্যান্য শিক্ষণ সরঞ্জাম লক্ষ্য রাখুন সহায়তার জন্য।
আপনি এখন পর্যন্ত যে কুমড়ো ডেটা নিয়ে কাজ করছেন তার কাঠামো সম্পর্কে পরিচিত হওয়া উচিত। এটি আপনি এটি আগেই লোড ও ক্লিন করে রেখেছেন এই পাঠের notebook.ipynb ফাইলে। এই ফাইলে, কুমড়ো দামের তথ্য প্রতি বাসেলের হিসেবে নতুন ডেটা ফ্রেমে দেখানো হয়েছে।
Visual Studio Code এ কনর্নেলে এই নোটবুকগুলো চালাতে পারবেন কিনা তা পরীক্ষা করে নিন।
স্মরণ করিয়ে দিতে চাই, আপনি এই ডেটা লোড করছেন যাতে এর জন্য প্রশ্ন করতে পারেন।
- কখন কুমড়ো কেনা সবচেয়ে ভালো সময়?
- ছোট আকারের কুমড়োর একটি কেসের দাম প্রায় কত হবে?
- কি আমি এগুলো আধা বাসেল বস্তায় কিনব, না ১ ১/৯ বাসেল বাক্সে?
চলুন এ ডেটার খোঁজ চালিয়ে যাই।
আগের পাঠে, আপনি একটি Pandas ডেটা ফ্রেম তৈরি করেছিলেন এবং মূল ডেটাসেটের একটি অংশ দিয়ে পূর্ণ করেছিলেন, দামগুলো বাসেল অনুযায়ী মানানসই করে। এর ফলে, আপনি মাত্র ৪০০-র মতো ডেটাপয়েন্ট এবং শুধুমাত্র শরতের মাসগুলো নিয়েই তথ্য সংগ্রহ করতে পেরেছিলেন।
এই পাঠের সঙ্গেই প্রিলোড করা ডেটা দেখুন। ডেটা লোড করা হয়েছে এবং প্রথম একটি স্ক্যাটারপ্লট চার্টে মাস অনুযায়ী দেখানো হয়েছে। হয়তো আরও পরিষ্কার করতে ডেটা ক্লিন করে আরও বিশদ পেতে পারি।
যেমন আপনি পাঠ ১ এ শিখেছেন, লিনিয়ার রিগ্রেশন চর্চার লক্ষ্য হলো একটি লাইন আঁকা যাতে:
- চর পরিবর্তনের সম্পর্ক দেখানো। চর পরিবর্তনের মধ্যে সম্পর্ককে উপস্থাপন করা।
- পূর্বাভাস তৈরি। এমন একটি পূর্বাভাস তৈরি করা যেখানে নতুন ডেটাপয়েন্ট সেই লাইন সম্পর্কিত কোথায় পড়বে তা নির্ধারণ করা যায়।
সাধারণত, লিস্ট-স্কোয়ার্স রিগ্রেশন এই ধরনের লাইন আঁকার জন্য ব্যবহৃত হয়। "লিস্ট-স্কোয়ার্স" শব্দটি বোঝায় এমন একটি প্রক্রিয়া যেখানে মোট ত্রুটি (এরর) সর্বনিম্ন করার চেষ্টা করা হয়। প্রতিটি ডেটা পয়েন্টের জন্য, আমরা আসল পয়েন্ট এবং আমাদের রিগ্রেশন লাইনের মধ্যে উল্লম্ব দূরত্ব (যা রেসিডুয়াল নামে পরিচিত) পরিমাপ করি।
আমরা এই দূরত্বগুলো বর্গ করি কারণ দুটি প্রধান কারণ:
- দিকের উপর নয় মাত্রার ভিত্তিতে: আমরা -৫ এর ত্রুটিকেও +৫ এর ত্রুটির মতোই বিবেচনা করতে চাই। বর্গ করলে সব মান ধনাত্মক হয়।
- আউটলায়ারদের জন্য বেশি শাস্তি: বড় ত্রুটির বর্গ করলে তার ওজন বেশি হয়, ফলে লাইন দূরে থাকা পয়েন্টের কাছাকাছি থাকে।
তারপর আমরা সব বর্গ করা দূরত্ব একত্র করি। আমাদের লক্ষ্য হল এমন একটি নির্দিষ্ট লাইন খোঁজা যেখানে এই যোগফল সর্বনিম্ন থাকবে — তাই নাম "লিস্ট-স্কোয়ার্স"।
🧮 আমাকে গাণিতিক সূত্র দেখাও
এই লাইন, যা লাইন অফ বেস্ট ফিট বলা হয়, এক সমীকরণের মাধ্যমে প্রকাশ করা যায়:
Y = a + bX
Xহল 'ব্যাখ্যামূলক ভেরিয়েবল'।Yহল 'নির্ভরশীল ভেরিয়েবল'। লাইনের ঢালbএবংaহল y-ইন্টারসেপ্ট যা নির্দেশ করে যখনX = 0তখনYএর মান কত।প্রথমে, ঢাল
bহিসাব করুন। ইনফোগ্রাফিক জেন লুপার দ্বারাঅন্য কথায়, আমাদের কুমড়ো ডেটার প্রশ্ন অনুযায়ী: "মাস অনুযায়ী প্রতি বাসেলে কুমড়োর দাম অনুমান করুন", এখানে
Xহবে দাম এবংYহবে বিক্রয়ের মাস।Y এর মান হিসাব করুন। যদি আপনি প্রায় $৪ প্রদান করছেন, তবে এটা অবশ্যই এপ্রিল! ইনফোগ্রাফিক জেন লুপার দ্বারা
গাণিতিক সূত্রটি লাইন এর ঢাল দেখাতে হবে, যা নির্ভর করে y-ইন্টারসেপ্টের উপর, অর্থাৎ
X = 0হলেYকোথায় থাকে।আপনি এই মানগুলোর গণনার পদ্ধতি এই Math is Fun ওয়েবসাইটে দেখতে পারেন। সাথে এই Least-squares calculator দেখুন সংখ্যাগুলোর মান কীভাবে লাইনে প্রভাব ফেলে।
আরেকটি শব্দ যা বুঝতে হবে তা হল X এবং Y এর মধ্যে করেলেশন সহগ। একটি scatterplot ব্যবহার করে আপনি দ্রুত এই সহগটি দেখতে পারেন। একটি স্ক্যাটারপ্লটে পয়েন্টগুলো সুসজ্জিত রেখায় থাকলে করেলেশন বেশি, আর যেসব পয়েন্ট এলোমেলো ছড়িয়ে থাকে সেসবের করেলেশন কম।
একটি ভালো লিনিয়ার রিগ্রেশন মডেল হবে যার লিস্ট-স্কোয়ার্স রিগ্রেশন ব্যবহারের মাধ্যমে করেলেশন সহগ বেশি (0 এর থেকে 1 এর দিকে) হবে।
✅ এই পাঠের সাথে থাকা নোটবুক চালিয়ে দেখুন এবং মাস এবং দাম এর scatterplot টি দেখুন। আপনার ভিজুয়াল ইন্টারপ্রিটেশন অনুযায়ী কি মাস থেকে দাম এর ডেটার উপর করেলেশন বেশি নাকি কম বলে মনে হচ্ছে? আপনি কি পেতে পারেন আরও সূক্ষ্ম মাপ যেমন বছরের দিন (অর্থাৎ বছরের শুরু থেকে কততম দিন)?
নীচের কোডে, আমরা ধরে নিচ্ছি যে ডেটা আমরা ক্লিন করেছি এবং একটি new_pumpkins নামের ডেটাফ্রেম পেয়েছি, যা নিম্নরূপ:
| ID | Month | DayOfYear | Variety | City | Package | Low Price | High Price | Price |
|---|---|---|---|---|---|---|---|---|
| 70 | 9 | 267 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 15.0 | 15.0 | 13.636364 |
| 71 | 9 | 267 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 18.0 | 18.0 | 16.363636 |
| 72 | 10 | 274 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 18.0 | 18.0 | 16.363636 |
| 73 | 10 | 274 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 17.0 | 17.0 | 15.454545 |
| 74 | 10 | 281 | PIE TYPE | BALTIMORE | 1 1/9 bushel cartons | 15.0 | 15.0 | 13.636364 |
ডেটা ক্লিন করার কোড
notebook.ipynbএ পাওয়া যাবে। আমরা আগের পাঠের মতো ডেটা ক্লিনিং করেছেন এবং নিম্নলিখিত এক্সপ্রেশন দিয়েDayOfYearকলাম হিসাব করেছি:
day_of_year = pd.to_datetime(pumpkins['Date']).apply(lambda dt: (dt-datetime(dt.year,1,1)).days)এখন যেহেতু আপনি লিনিয়ার রিগ্রেশনের গাণিতিক ভিত্তি বুঝে ফেলেছেন, চলুন একটি রিগ্রেশন মডেল তৈরি করি যা পূর্বাভাস দেবে কোন কুমড়োর প্যাকেজটির দাম সবচেয়ে ভালো হবে। কেউ যদি ছুটির মেলার জন্য কুমড়ো কিনতে চান, তারা এই তথ্য ব্যবহার করে ক্রয় পরিকল্পনা অপটিমাইজ করতে পারবেন।
🎥 উপরের ছবিতে ক্লিক করুন করেলেশন সম্পর্কে ছোট ভিডিও ওভারভিউ এর জন্য।
গত পাঠ থেকে আপনি নিশ্চয়ই দেখেছেন ভিন্ন ভিন্ন মাসে গড় দাম কেমন লাগে:
এটি নির্দেশ করে কিছু করেলেশন থাকবে, এবং আমরা চেষ্টা করতে পারি লিনিয়ার রিগ্রেশন মডেল প্রশিক্ষণ করতে যা Month এবং Price বা DayOfYear এবং Price এর মধ্যকার সম্পর্ক অনুমান করবে। নিচে scatterplot আছে যা DayOfYear এবং Price এর সম্পর্ক দেখায়:
চলুন দেখি corr ফাংশন দিয়ে করেলেশন কেমন:
print(new_pumpkins['Month'].corr(new_pumpkins['Price']))
print(new_pumpkins['DayOfYear'].corr(new_pumpkins['Price']))করেলেশন সম্ভবত খুব বেশি নয়, মাস অনুসারে প্রায় -০.১৫ এবং DayOfMonth অনুসারে -০.১৭, কিন্তু হতে পারে অন্য গুরুত্বপূর্ণ সম্পর্ক আছে। মনে হচ্ছে দাম বিভিন্ন কুমড়ো প্রকার অনুসারে আলাদা আলাদা ক্লাস্টারে বিভক্ত। এই অনুমান নিশ্চিত করতে, প্রতিটি কুমড়ো ধরণ একটি আলাদা রঙে প্লট করি। scatter ফাংশনে ax প্যারামিটার দিয়ে সব পয়েন্ট একই গ্রাফে দেখাতে পারি:
ax=None
colors = ['red','blue','green','yellow']
for i,var in enumerate(new_pumpkins['Variety'].unique()):
df = new_pumpkins[new_pumpkins['Variety']==var]
ax = df.plot.scatter('DayOfYear','Price',ax=ax,c=colors[i],label=var)আমাদের তদন্তে দেখা যায়, কুমড়োর প্রকার দামকে বিক্রয় তারিখের চেয়ে বেশি প্রভাবিত করে। এটি একটি বার গ্রাফ থেকে স্পষ্ট:
new_pumpkins.groupby('Variety')['Price'].mean().plot(kind='bar')এখন আমরা শুধুমাত্র একটি কুমড়ো প্রকারের দিকে মনোযোগ দিবো, 'pie type', এবং দেখি বিক্রয় তারিখের মূল্যতে কী প্রভাব:
pie_pumpkins = new_pumpkins[new_pumpkins['Variety']=='PIE TYPE']
pie_pumpkins.plot.scatter('DayOfYear','Price') Price এবং DayOfYear এর করেলেশন corr ফাংশন দিয়ে হিসাব করলে প্রায় -0.27 পাওয়া যাবে - যা অর্থ দেয়, একটি পূর্বাভাস মডেল প্রশিক্ষণ করাটা যুক্তিসঙ্গত।
লিনিয়ার রিগ্রেশন মডেল ট্রেনিং করার আগে, নিশ্চিত হওয়া জরুরি যে ডেটা ক্লিন। লিনিয়ার রিগ্রেশন মিসিং ভ্যালু সহ ভালো কাজ করে না, তাই সমস্ত খালি সেল সরিয়ে ফেলা ভালো:
pie_pumpkins.dropna(inplace=True)
pie_pumpkins.info()আরেকটি উপায় হলো, খালি মানগুলো সংশ্লিষ্ট কলামের গড় মান দিয়ে পূরণ করা।
🎥 উপরের ছবিতে ক্লিক করুন লিনিয়ার এবং পলিনোমিয়াল রিগ্রেশন সম্পর্কে ছোট ভিডিও ওভারভিউ এর জন্য।
আমরা আমাদের লিনিয়ার রিগ্রেশন মডেল প্রশিক্ষণের জন্য Scikit-learn লাইব্রেরি ব্যবহার করব।
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_splitআমরা প্রথমে ইনপুট মান (ফিচার) এবং প্রত্যাশিত আউটপুট (লেবেল) আলাদা নাম্পাই অ্যারেতে বিভক্ত করব:
X = pie_pumpkins['DayOfYear'].to_numpy().reshape(-1,1)
y = pie_pumpkins['Price']লক্ষ্য করুন, ইনপুট ডেটাকে
reshapeকরতে হয়েছে যাতে লিনিয়ার রিগ্রেশন প্যাকেজ এটি সঠিকভাবে বুঝতে পারে। লিনিয়ার রিগ্রেশন ২-ডি অ্যারে প্রত্যাশা করে, যেখানে অ্যারের প্রতিটি সারি ইনপুট ফিচারের ভেক্টর। আমাদের ক্ষেত্রে, যেহেতু কেবল একটি ইনপুট আছে, তাই N x 1 আকৃতির অ্যারে প্রয়োজন, যেখানে N ডেটাসেটের আকার।
তারপর, আমাদের ডেটা শিক্ষণ এবং পরীক্ষার জন্য ভাগ করতে হবে, যাতে মডেল প্রশিক্ষণের পর আমরা এটি যাচাই করতে পারি:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)শেষে, প্রকৃত লিনিয়ার রিগ্রেশন মডেল প্রশিক্ষণ মাত্র দুটি কোড লাইনে হয়। আমরা LinearRegression অবজেক্ট ডিফাইন করি, এবং fit পদ্ধতি ব্যবহার করে ডেটার সাথে ফিট করি:
lin_reg = LinearRegression()
lin_reg.fit(X_train,y_train)LinearRegression অবজেক্টটি fit করার পরে রিগ্রেশনের সমস্ত কোএফিসিয়েন্ট থাকে, যা .coef_ প্রপার্টি ব্যবহার করে অ্যাক্সেস করা যায়। আমাদের ক্ষেত্রে, কেবল একটি কোএফিসিয়েন্ট আছে, যা প্রায় -0.017 হওয়া উচিত। এর মানে হল দাম কিছুটা হ্রাস পাচ্ছে সময়ের সাথে, কিন্তু খুব বেশি নয়, প্রায় প্রতি দিন ২ সেন্টের মতো। আমরা রিগ্রেশনের ক্রসিং পয়েন্ট Y-অক্ষের সাথে lin_reg.intercept_ ব্যবহার করে অ্যাক্সেস করতে পারি - এটি আমাদের ক্ষেত্রে প্রায় 21 হবে, যা বছরের শুরুতে মূল্যের নির্দেশ করে।
আমাদের মডেল কতটা সঠিক তা দেখার জন্য, আমরা টেস্ট ডেটাসেটে দাম প্রেডিক্ট করতে পারি, এবং তারপর আমাদের পূর্বাভাসগুলি প্রত্যাশিত মানের সাথে কতটা কাছাকাছি তা পরিমাপ করি। এটি করা যায় mean square error (MSE) মেট্রিক্স ব্যবহার করে, যা প্রত্যাশিত এবং পূর্বাভাসিত মানগুলির মধ্যে সমগ্র বর্গাকার পার্থক্যের গড়।
pred = lin_reg.predict(X_test)
mse = np.sqrt(mean_squared_error(y_test,pred))
print(f'Mean error: {mse:3.3} ({mse/np.mean(pred)*100:3.3}%)')আমাদের ত্রুটি প্রায় ২ পয়েন্ট, যা ~১৭% এর মতো। খুব ভালো নয়। মডেলের গুণমানের আরেকটি সূচক হল coefficient of determination, যা এভাবে পাওয়া যায়:
score = lin_reg.score(X_train,y_train)
print('Model determination: ', score)যদি মান ০ হয়, এর অর্থ মডেল ইনপুট তথ্য বিবেচনায় নেয় না, এবং worst linear predictor হিসেবে কাজ করে, যা কেবল ফলাফলের গড় মান। ১ এর মানে হল আমরা সব প্রত্যাশিত আউটপুট নিখুঁতভাবে প্রেডিক্ট করতে পারি। আমাদের ক্ষেত্রে, কোএফিসিয়েন্ট প্রায় ০.০৬, যা বেশ কম।
আমরা টেস্ট ডেটা এবং রিগ্রেশন লাইনের গ্রাফও আঁকতে পারি যেন ভালভাবে বুঝতে পারি কিভাবে রিগ্রেশন কাজ করে আমাদের ক্ষেত্রে:
plt.scatter(X_test,y_test)
plt.plot(X_test,pred)রৈখিক রিগ্রেশনের আরেকটি ধরন হল Polynomial Regression। মাঝে মাঝে ভেরিয়েবলগুলোর মধ্যে সরলরৈখিক সম্পর্ক থাকে - যেমন ভলিউমে বড় পাম্পকিনের দাম বেশি হয় - কিন্তু কখনো কখনো এই সম্পর্কগুলো প্লেন বা সরলরেখা হিসেবে ছবি করা যায় না।
✅ এখানে আরো কিছু উদাহরণ আছে যেখানে Polynomial Regression ব্যবহার করা যেতে পারে।
আবার Date এবং Price এর সম্পর্ক দেখুন। এই scatterplot কি অবশ্যই সরলরেখা দ্বারা বিশ্লেষণ করা উচিত বলে মনে হয়? দাম কি ওঠানামা করতে পারে না? এই ক্ষেত্রে, আপনি polynomial regression চেষ্টা করতে পারেন।
✅ পলিনোমিয়াল হলো গাণিতিক প্রকাশ যা এক বা একাধিক ভেরিয়েবল ও কোএফিসিয়েন্ট নিয়ে গঠিত হতে পারে।
Polynomial Regression একটি বাকা রেখা তৈরি করে যাতে নন-লিনিয়ার ডেটা ভালো ফিট হয়। আমাদের ক্ষেত্রে, যদি ইনপুট ডেটাতে squared DayOfYear ভেরিয়েবল যোগ করি, তাহলে আমরা আমাদের ডেটা একটি ধারার মতো বক্ররেখার সাথে ফিট করতে পারব যা বছরের কোন এক বিন্দুতে মিনিমাম হবে।
Scikit-learn এর pipeline API ব্যবহার করে আমরা বিভিন্ন ডেটা প্রক্রিয়াকরণের ধাপ একত্রিত করতে পারি। একটি pipeline হলো estimators এর একটি শৃঙ্খল। আমাদের ক্ষেত্রে, আমরা একটি pipeline তৈরি করব যা প্রথমে polynomial ফিচার তৈরি করে, তারপরে রিগ্রেশন ট্রেন করে:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
pipeline = make_pipeline(PolynomialFeatures(2), LinearRegression())
pipeline.fit(X_train,y_train)PolynomialFeatures(2) ব্যবহার করার মানে হল আমরা ইনপুট ডেটার সব দ্বিতীয়-ডিগ্রী পলিনোমিয়াল ফিচার যুক্ত করব। আমাদের ক্ষেত্রে এটি শুধু DayOfYear2, কিন্তু যদি ইনপুটে দুটি ভেরিয়েবল X এবং Y থাকে, তাহলে এটি X2, XY এবং Y2 যোগ করবে। আমরা চাইলে উচ্চতর ডিগ্রী পলিনোমিয়ালও ব্যবহার করতে পারি।
Pipeline মূল LinearRegression অবজেক্টের মতো ব্যবহার করা যাবে, যেমন আমরা pipeline কে fit করতে পারি, এবং তারপর predict ব্যবহার করে ফলাফল পেতে পারি। নিচের গ্রাফে টেস্ট ডেটা আর অ্যাপ্রক্সিমেশন কুভ দেখানো হয়েছে:
Polynomial Regression ব্যবহার করলে আমরা কিছুটা কম MSE এবং বেশি determination পাই, তবে উল্লেখযোগ্য নয়। আমাদের অন্য ফিচারগুলোও বিবেচনায় নিতে হবে!
আপনি লক্ষ্য করতে পারেন যে হ্যালোউইনের সময় পাম্পকিনের দাম ন্যূনতম পর্যায়ে থাকে। আপনি এই ঘটনা কীভাবে ব্যাখ্যা করবেন?
🎃 অভিনন্দন, আপনি একটি মডেল তৈরি করেছেন যা পাই পাম্পকিনের দাম পূর্বাভাস দিতে পারে। সম্ভবত আপনি একই পদ্ধতি অন্য সব ধরনের পাম্পকিনের জন্যও অনুসরণ করতে পারেন, তবে সেটা ক্লান্তিকর হবে। চলুন এখন শিখি কিভাবে পাম্পকিনের ভ্যারাইটি আমাদের মডেলে বিবেচনা করা যায়!
আদর্শ জগতে, আমরা চাই একই মডেল ব্যবহার করে বিভিন্ন পাম্পকিন ভ্যারাইটির দাম পূর্বাভাস দিতে পারি। কিন্তু Variety কলামটি Month এর মত নয়, কারণ এতে অ-সংখ্যাত্মক মান থাকে। এমন কলামগুলোকে categorical বলা হয়।
🎥 উপরের ছবিতে ক্লিক করে ক্যাটেগরিক্যাল ফিচার ব্যবহার করার একটা ছোট ভিডিও দেখতে পারেন।
এখানে আপনি দেখতে পাচ্ছেন কিভাবে গড় দাম ভ্যারাইটির ওপর নির্ভর করে:
ভ্যারাইটিকে বিবেচনায় নিতে প্রথমে এটিকে সংখ্যাত্মক ফর্মে রূপান্তর করতে হবে, বা encode করতে হবে। আমরা এটি করার কয়েকটি পদ্ধতি ব্যবহার করতে পারি:
- সাধারণ numeric encoding একটি ভ্যারাইটির তালিকা তৈরি করে, এবং তারপর আলাদা ভ্যারাইটির নামের পরিবর্তে তালিকার ইন্ডেক্স যোগ করে। এটি লিনিয়ার রিগ্রেশনের জন্য ভাল নয়, কারণ লিনিয়ার রিগ্রেশন ইনডেক্সের সংখ্যাটিকে গণ্য করে ফলাফলে যোগ করে কোন কোএফিসিয়েন্টের গুণিতকে। আমাদের ক্ষেত্রে, ইনডেক্স নম্বর এবং দাম এর সম্পর্ক স্পষ্টভাবে নন-লিনিয়ার, যদিও ইনডেক্সগুলি বিশেষভাবে সাজানো হোক।
- One-hot encoding
Varietyকলামকে ৪টি আলাদা কলামে ভেঙে দেয়, প্রতিটি ভ্যারাইটির জন্য একটি করে। প্রতিটি কলামে ১ থাকবে যদি ভ্যারাইটির রোটি সেই ভ্যারাইটির হয়, অন্যথায় ০। এর ফলে লিনিয়ার রিগ্রেশনে প্রতিটি পাম্পকিন ভ্যারাইটির জন্য চারটি কোএফিসিয়েন্ট থাকবে, যা ঐ ভ্যারাইটির "শুরুর দাম" (বা "অতিরিক্ত দাম") নির্দেশ করে।
নিচের কোডটি দেখায় কিভাবে আমরা একটি ভ্যারাইটিকে one-hot encode করতে পারি:
pd.get_dummies(new_pumpkins['Variety'])| ID | FAIRYTALE | MINIATURE | MIXED HEIRLOOM VARIETIES | PIE TYPE |
|---|---|---|---|---|
| 70 | 0 | 0 | 0 | 1 |
| 71 | 0 | 0 | 0 | 1 |
| ... | ... | ... | ... | ... |
| 1738 | 0 | 1 | 0 | 0 |
| 1739 | 0 | 1 | 0 | 0 |
| 1740 | 0 | 1 | 0 | 0 |
| 1741 | 0 | 1 | 0 | 0 |
| 1742 | 0 | 1 | 0 | 0 |
One-hot encoded variety ইনপুট ব্যবহার করে লিনিয়ার রিগ্রেশন ট্রেন করতে, আমরা কেবল সঠিকভাবে X এবং y ডেটা ইনিশিয়ালাইজ করলেই হয়:
X = pd.get_dummies(new_pumpkins['Variety'])
y = new_pumpkins['Price']বাকি কোড আগের লিনিয়ার রিগ্রেশন ট্রেন করার মতই। চেষ্টা করলে দেখবেন mean squared error প্রায় একই থাকে, কিন্তু determination অনেক বেশি (~৭৭%) হয়। আরো সঠিক পূর্বাভাস পেতে আমরা আরো ক্যাটেগরিক্যাল ফিচার এবং সংখ্যাত্মক ফিচার যেমন Month বা DayOfYear বিবেচনা করতে পারি। একাধিক ফিচার একত্র করতে আমরা join ব্যবহার করতে পারি:
X = pd.get_dummies(new_pumpkins['Variety']) \
.join(new_pumpkins['Month']) \
.join(pd.get_dummies(new_pumpkins['City'])) \
.join(pd.get_dummies(new_pumpkins['Package']))
y = new_pumpkins['Price']এখানেও আমরা City এবং Package টাইপ বিবেচনা করছি, যা MSE 2.84 (১০%) এবং determination 0.94 দেয়!
সেরা মডেল তৈরি করতে আমরা উপরের উদাহরণ থেকে একত্রিত (one-hot encoded ক্যাটেগরিক্যাল + সংখ্যাত্মক) ডেটা Polynomial Regression এর সঙ্গে ব্যবহার করতে পারি। আপনার সুবিধার জন্য সম্পূর্ণ কোড এখানে:
# প্রশিক্ষণ ডেটা সেট আপ করুন
X = pd.get_dummies(new_pumpkins['Variety']) \
.join(new_pumpkins['Month']) \
.join(pd.get_dummies(new_pumpkins['City'])) \
.join(pd.get_dummies(new_pumpkins['Package']))
y = new_pumpkins['Price']
# ট্রেন-টেস্ট বিভাজন করুন
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# পাইপলাইন সেট আপ এবং প্রশিক্ষণ দিন
pipeline = make_pipeline(PolynomialFeatures(2), LinearRegression())
pipeline.fit(X_train,y_train)
# টেস্ট ডেটার জন্য ফলাফল পূর্বানুমান করুন
pred = pipeline.predict(X_test)
# MSE এবং নির্ধারণ ক্ষমতা গণনা করুন
mse = np.sqrt(mean_squared_error(y_test,pred))
print(f'Mean error: {mse:3.3} ({mse/np.mean(pred)*100:3.3}%)')
score = pipeline.score(X_train,y_train)
print('Model determination: ', score)এটি প্রায় ৯৭% determination coefficient এবং MSE=2.23 (~৮% পূর্বাভাস ত্রুটি) দেবে।
| Model | MSE | Determination |
|---|---|---|
DayOfYear Linear |
2.77 (১৭.২%) | 0.07 |
DayOfYear Polynomial |
2.73 (১৭.০%) | 0.08 |
Variety Linear |
5.24 (১৯.৭%) | 0.77 |
| All features Linear | 2.84 (১০.৫%) | 0.94 |
| All features Polynomial | 2.23 (৮.২৫%) | 0.97 |
🏆 শুভকামনা! আপনি এক পাঠে চারটি রিগ্রেশন মডেল তৈরী করেছেন, এবং মডেল গুণমান ৯৭% উন্নত করেছেন। রিগ্রেশন এর শেষ অংশে আপনি লজিস্টিক রিগ্রেশন সম্পর্কে শিখবেন যা শ্রেণি নির্ধারণে ব্যবহৃত হয়।
এই নোটবুকে বিভিন্ন ভেরিয়েবল টেস্ট করে দেখুন কিভাবে সহসম্পর্ক মডেলের নির্ভুলতার সাথে সম্পর্কিত।
এই পাঠে আমরা লিনিয়ার রিগ্রেশন শিখেছি। রিগ্রেশনের আরো গুরুত্বপূর্ণ ধরণ রয়েছে। Stepwise, Ridge, Lasso এবং Elasticnet টেকনিক সম্পর্কে পড়ুন। আরও জানার জন্য ভালো একটি কোর্স হলো Stanford Statistical Learning course।
অস্বীকৃতি:
এই নথিটি কৃত্রিম বুদ্ধিমত্তা অনুবাদ সেবা Co-op Translator ব্যবহার করে অনূদিত হয়েছে। যদিও আমরা সঠিকতার জন্য চেষ্টা করি, দয়া করে চোখ বুলিয়ে নিন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল নথিটি তার নিজস্ব ভাষায় কর্তৃপক্ষসূত্র হিসাবে বিবেচিত হওয়া উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদের পরামর্শ দেওয়া হয়। এই অনুবাদের ব্যবহারে কোনো ভুলবোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।












