K-Means குழுமம்

முன்-வகுப்பு வினாடி வினா

இந்த பாடத்தில், நீங்கள் Scikit-learn மற்றும் நீங்கள் முன்பே இறக்குமதி செய்த நைஜீரிய இசை தரவுத்தொகுப்பைப் பயன்படுத்தி குழுமங்களை உருவாக்குவது எப்படி என்பதை கற்றுக்கொள்வீர்கள். K-Means குழுமத்திற்கான அடிப்படைகளை நாம் கற்கப்போகிறோம். நீங்கள் முன் பாடத்தில் கற்றுக்கொண்டது போல, குழுமங்களுடன் வேலை செய்ய பல வழிகள் உள்ளன, மேலும் நீங்கள் பயன்படுத்தும் முறை உங்கள் தரவின் அடிப்படையில் இருக்கும். K-Means மிகவும் பொதுவான குழும முறை என்பதால் அதை முயற்சிப்போம். தொடங்குவோம்!

நீங்கள் கற்றுக்கொள்ளும் சொற்கள்:

Silhouette மதிப்பீடு
Elbow முறை
Inertia
Variance

அறிமுகம்

K-Means Clustering என்பது சிக்னல் செயலாக்கத்தின் துறையில் இருந்து பெறப்பட்ட ஒரு முறை. இது 'k' குழுமங்களாக தரவுகளை பிரிக்கவும் பகிரவும் ஒரு வரிசை கண்காணிப்புகளைப் பயன்படுத்துகிறது. ஒவ்வொரு கண்காணிப்பும் ஒரு குறிப்பிட்ட தரவுப் புள்ளியை அதன் அருகிலுள்ள 'mean' அல்லது குழுமத்தின் மைய புள்ளிக்கு அருகில் குழுமமாக்க முயற்சிக்கிறது.

குழுமங்களை Voronoi diagrams போல காட்சிப்படுத்தலாம், இதில் ஒரு புள்ளி (அல்லது 'seed') மற்றும் அதற்குரிய பகுதி அடங்கும்.

Jen Looper உருவாக்கிய தகவல் வரைபடம்

K-Means குழும செயல்முறை மூன்று படிகள் கொண்ட செயல்முறையாக செயல்படுகிறது:

க алгоритம் தரவுத்தொகுப்பிலிருந்து k-மைய புள்ளிகளைத் தேர்ந்தெடுக்கிறது. இதற்குப் பிறகு இது மடக்குகிறது:
1. ஒவ்வொரு மாதிரியையும் அருகிலுள்ள மைய புள்ளிக்கு ஒதுக்குகிறது.
2. முந்தைய மைய புள்ளிகளுக்கு ஒதுக்கப்பட்ட அனைத்து மாதிரிகளின் சராசரி மதிப்பை எடுத்து புதிய மைய புள்ளிகளை உருவாக்குகிறது.
3. பின்னர், புதிய மற்றும் பழைய மைய புள்ளிகளுக்கு இடையிலான வேறுபாட்டை கணக்கிடுகிறது மற்றும் மைய புள்ளிகள் நிலைபெறும்வரை மீண்டும் செய்கிறது.

K-Means பயன்படுத்துவதற்கான ஒரு குறைபாடு 'k', அதாவது மைய புள்ளிகளின் எண்ணிக்கையை நிறுவ வேண்டும் என்பதில் உள்ளது. 'elbow method' ஒரு நல்ல தொடக்க மதிப்பை 'k' க்கான மதிப்பீடு செய்ய உதவுகிறது. நீங்கள் அதை ஒரு நிமிடத்தில் முயற்சிக்கலாம்.

முன் தேவைகள்

இந்த பாடத்தின் notebook.ipynb கோப்பில் நீங்கள் வேலை செய்ய வேண்டும், இதில் நீங்கள் கடந்த பாடத்தில் செய்த தரவுகளை இறக்குமதி மற்றும் ஆரம்ப சுத்திகரிப்பு அடங்கும்.

பயிற்சி - தயாரிப்பு

பாடல்களின் தரவுகளை மீண்டும் ஒரு முறை பாருங்கள்.

ஒவ்வொரு நெடுவரிசைக்கும் boxplot() அழைத்து ஒரு பாக்ஸ் பிளாட்டை உருவாக்கவும்:

plt.figure(figsize=(20,20), dpi=200)

plt.subplot(4,3,1)
sns.boxplot(x = 'popularity', data = df)

plt.subplot(4,3,2)
sns.boxplot(x = 'acousticness', data = df)

plt.subplot(4,3,3)
sns.boxplot(x = 'energy', data = df)

plt.subplot(4,3,4)
sns.boxplot(x = 'instrumentalness', data = df)

plt.subplot(4,3,5)
sns.boxplot(x = 'liveness', data = df)

plt.subplot(4,3,6)
sns.boxplot(x = 'loudness', data = df)

plt.subplot(4,3,7)
sns.boxplot(x = 'speechiness', data = df)

plt.subplot(4,3,8)
sns.boxplot(x = 'tempo', data = df)

plt.subplot(4,3,9)
sns.boxplot(x = 'time_signature', data = df)

plt.subplot(4,3,10)
sns.boxplot(x = 'danceability', data = df)

plt.subplot(4,3,11)
sns.boxplot(x = 'length', data = df)

plt.subplot(4,3,12)
sns.boxplot(x = 'release_date', data = df)

இந்த தரவு கொஞ்சம் சத்தமாக உள்ளது: ஒவ்வொரு நெடுவரிசையையும் பாக்ஸ் பிளாட்டாகக் கவனிப்பதன் மூலம், நீங்கள் வெளிப்புற மதிப்புகளை காணலாம்.

நீங்கள் தரவுத்தொகுப்பைச் சென்று இந்த வெளிப்புற மதிப்புகளை அகற்றலாம், ஆனால் அது தரவுகளை மிகவும் குறைவாக்கும்.

தற்போது, உங்கள் குழும பயிற்சிக்காக எந்த நெடுவரிசைகளை நீங்கள் பயன்படுத்தப் போகிறீர்கள் என்பதைத் தேர்ந்தெடுக்கவும். ஒரே மாதிரியான வரம்புகளைக் கொண்டவற்றைத் தேர்ந்தெடுக்கவும் மற்றும் artist_top_genre நெடுவரிசையை எண் தரவாக குறியாக்கவும்:
```
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

X = df.loc[:, ('artist_top_genre','popularity','danceability','acousticness','loudness','energy')]

y = df['artist_top_genre']

X['artist_top_genre'] = le.fit_transform(X['artist_top_genre'])

y = le.transform(y)
```
இப்போது நீங்கள் எத்தனை குழுமங்களை இலக்காகக் கொள்ள வேண்டும் என்பதைத் தேர்ந்தெடுக்க வேண்டும். நீங்கள் தரவுத்தொகுப்பிலிருந்து 3 பாடல் வகைகளை பிரித்தெடுத்துள்ளீர்கள் என்பதை நீங்கள் அறிந்துள்ளீர்கள், எனவே 3 ஐ முயற்சிக்கலாம்:
```
from sklearn.cluster import KMeans

nclusters = 3 
seed = 0

km = KMeans(n_clusters=nclusters, random_state=seed)
km.fit(X)

# Predict the cluster for each data point

y_cluster_kmeans = km.predict(X)
y_cluster_kmeans
```

நீங்கள் dataframe இன் ஒவ்வொரு வரிசைக்கும் (0, 1 அல்லது 2) கணிக்கப்பட்ட குழுமங்களுடன் ஒரு வரிசையை அச்சிடப்பட்டதாகக் காண்கிறீர்கள்.

இந்த வரிசையைப் பயன்படுத்தி 'silhouette score' ஐ கணக்கிடவும்:
```
from sklearn import metrics
score = metrics.silhouette_score(X, y_cluster_kmeans)
score
```

Silhouette மதிப்பீடு

1 க்கு அருகிலுள்ள silhouette மதிப்பீட்டைத் தேடுங்கள். இந்த மதிப்பீடு -1 முதல் 1 வரை மாறுகிறது, மேலும் மதிப்பீடு 1 ஆக இருந்தால், குழுமம் அடர்த்தியாகவும் மற்ற குழுமங்களிலிருந்து நன்றாகப் பிரிக்கப்பட்டதாகவும் இருக்கும். 0 க்கு அருகிலுள்ள மதிப்பு, அண்டை குழுமங்களின் முடிவு எல்லைக்கு மிகவும் அருகிலுள்ள மாதிரிகளுடன் ஒட்டுமொத்த குழுமங்களை பிரதிநிதித்துவப்படுத்துகிறது. (மூலம்)

எங்கள் மதிப்பீடு .53, எனவே நடுவில் உள்ளது. இது இந்த வகையான குழுமத்திற்கு எங்கள் தரவு குறிப்பாக பொருத்தமாக இல்லை என்பதை குறிக்கிறது, ஆனால் தொடர்வோம்.

பயிற்சி - ஒரு மாதிரியை உருவாக்கவும்

KMeans ஐ இறக்குமதி செய்து குழும செயல்முறையைத் தொடங்கவும்.
```
from sklearn.cluster import KMeans
wcss = []

for i in range(1, 11):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)
```
இங்கு சில பகுதிகள் விளக்கத்திற்குத் தகுதியானவை.

🎓 range: குழும செயல்முறையின் மீளுருவாக்கங்கள்

🎓 random_state: "மைய புள்ளி ஆரம்பத்திற்கான சீரற்ற எண் உருவாக்கத்தை நிர்ணயிக்கிறது." மூலம்

🎓 WCSS: "within-cluster sums of squares" என்பது ஒரு குழுமத்தின் மைய புள்ளிக்கு உள்ள அனைத்து புள்ளிகளின் சதுர சராசரி தூரத்தை அளவிடுகிறது. மூலம்.

🎓 Inertia: K-Means الگوریتمங்கள் 'inertia' ஐ குறைக்க மைய புள்ளிகளைத் தேர்ந்தெடுக்க முயற்சிக்கின்றன, இது "குழுமங்கள் உள்ளார்ந்த ஒற்றுமையாக இருக்கின்றன என்பதை அளவிடும் ஒரு அளவீடு." மூலம். இந்த மதிப்பு ஒவ்வொரு மீளுருவாக்கத்திலும் wcss மாறியில் சேர்க்கப்படுகிறது.

🎓 k-means++: Scikit-learn இல் நீங்கள் 'k-means++' ஆப்டிமைசேஷனைப் பயன்படுத்தலாம், இது "மைய புள்ளிகள் பொதுவாக ஒருவருக்கொருவர் தொலைவில் இருக்கும்படி ஆரம்பிக்கின்றன, சீரற்ற ஆரம்பத்துடன் ஒப்பிடும்போது சிறந்த முடிவுகளை வழங்குகிறது.

Elbow முறை

முன்பு, நீங்கள் 3 பாடல் வகைகளை இலக்காகக் கொண்டுள்ளீர்கள் என்பதால், 3 குழுமங்களைத் தேர்ந்தெடுக்க வேண்டும் என்று நீங்கள் முடிவு செய்தீர்கள். ஆனால் அது சரியா?

'elbow method' ஐப் பயன்படுத்தி உறுதிப்படுத்தவும்.
```
plt.figure(figsize=(10,5))
sns.lineplot(x=range(1, 11), y=wcss, marker='o', color='red')
plt.title('Elbow')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()
```
நீங்கள் முந்தைய படியில் உருவாக்கிய wcss மாறியைப் பயன்படுத்தி ஒரு வரைபடத்தை உருவாக்கவும், இதில் 'elbow' இல் உள்ள வளைவு எங்கு உள்ளது என்பதை காட்டுகிறது, இது குழுமங்களின் சரியான எண்ணிக்கையை குறிக்கிறது. அது மூன்று இருக்கலாம்!

பயிற்சி - குழுமங்களை காட்சிப்படுத்தவும்

செயல்முறையை மீண்டும் முயற்சிக்கவும், இந்த முறை மூன்று குழுமங்களை அமைத்து, குழுமங்களை scatterplot ஆக காட்சிப்படுத்தவும்:
```
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 3)
kmeans.fit(X)
labels = kmeans.predict(X)
plt.scatter(df['popularity'],df['danceability'],c = labels)
plt.xlabel('popularity')
plt.ylabel('danceability')
plt.show()
```
மாதிரியின் துல்லியத்தைச் சரிபார்க்கவும்:
```
labels = kmeans.labels_

correct_labels = sum(y == labels)

print("Result: %d out of %d samples were correctly labeled." % (correct_labels, y.size))

print('Accuracy score: {0:0.2f}'. format(correct_labels/float(y.size)))
```
இந்த மாதிரியின் துல்லியம் மிகவும் நல்லதல்ல, மேலும் குழுமங்களின் வடிவம் ஏன் என்பதை உங்களுக்கு ஒரு குறிப்பைக் கொடுக்கிறது.

இந்த தரவு மிகவும் சமநிலையற்றது, மிகவும் குறைவாக தொடர்புடையது மற்றும் நெடுவரிசை மதிப்புகளுக்கு இடையிலான வேறுபாடு மிகவும் அதிகமாக உள்ளது, குழுமம் நன்றாக செயல்படுவதற்கு. உண்மையில், உருவாகும் குழுமங்கள் மேலே வரையறுக்கப்பட்ட மூன்று வகை பிரிவுகளால் மிகவும் பாதிக்கப்படுகின்றன அல்லது சாய்ந்திருக்கின்றன. அது ஒரு கற்றல் செயல்முறை!

Scikit-learn இன் ஆவணங்களில், இந்த மாதிரி, குழுமங்கள் மிகவும் நன்றாக வரையறுக்கப்படாதது, 'variance' பிரச்சனை கொண்டுள்ளது:

Scikit-learn இன் தகவல் வரைபடம்

Variance

Variance என்பது "சராசரியத்திலிருந்து சதுர வேறுபாடுகளின் சராசரி" என்று வரையறுக்கப்படுகிறது (மூலம்). இந்த குழும பிரச்சனையின் சூழலில், இது எங்கள் தரவுத்தொகுப்பின் எண்கள் சராசரியத்திலிருந்து கொஞ்சம் அதிகமாக விலகும் என்பதை குறிக்கிறது.

✅ இது இந்த பிரச்சனையை சரிசெய்ய நீங்கள் செய்யக்கூடிய அனைத்து வழிகளையும் சிந்திக்க சிறந்த தருணம். தரவுகளை மேலும் சீரமைக்கிறீர்களா? வேறு நெடுவரிசைகளைப் பயன்படுத்துகிறீர்களா? வேறு الگوریتمஐ பயன்படுத்துகிறீர்களா? குறிப்புகள்: உங்கள் தரவுகளை scale செய்ய முயற்சிக்கவும் அதை சாதாரணமாக்கவும் மற்றும் பிற நெடுவரிசைகளைச் சோதிக்கவும்.

இந்த 'variance calculator' ஐ முயற்சித்து இந்த கருத்தை மேலும் புரிந்துகொள்ளுங்கள்.

🚀சவால்

இந்த notebook உடன் சில நேரம் செலவிடுங்கள், அளவுருக்களைச் சீரமைக்கவும். தரவுகளை மேலும் சுத்திகரிப்பதன் மூலம் (உதாரணமாக வெளிப்புற மதிப்புகளை அகற்றுதல்) நீங்கள் மாதிரியின் துல்லியத்தை மேம்படுத்த முடியுமா? நீங்கள் குறிப்பிட்ட தரவுப் மாதிரிகளுக்கு அதிக எடை கொடுக்க எடைகளைப் பயன்படுத்தலாம். சிறந்த குழுமங்களை உருவாக்க நீங்கள் இன்னும் என்ன செய்ய முடியும்?

குறிப்பு: உங்கள் தரவுகளை அளவிட முயற்சிக்கவும். தரவுத்தொகுப்பின் நெடுவரிசைகள் வரம்பு அடிப்படையில் ஒருவருக்கொருவர் மேலும் ஒத்திருக்கும்படி தரவுகளைச் சீரமைக்க standard scaling ஐச் சேர்க்கும் குறிப்பிட்ட குறியீடு notebook இல் உள்ளது. தரவுகளை அளவிடாமல் விடுவது குறைவான variance கொண்ட தரவுகளுக்கு அதிக எடை கொடுக்க அனுமதிக்கிறது என்பதால் silhouette மதிப்பீடு குறைந்தாலும், elbow வரைபடத்தில் 'kink' மிருதுவாக மாறுகிறது. இந்த பிரச்சனை குறித்து மேலும் படிக்க இங்கே.

பாடத்திற்குப் பிந்தைய வினாடி வினா

மதிப்பீடு & சுயபடிப்பு

K-Means Simulator இதுபோன்ற ஒன்றைப் பாருங்கள். இந்த கருவியை நீங்கள் மாதிரி தரவுப் புள்ளிகளை காட்சிப்படுத்தவும் அதன் மைய புள்ளிகளைத் தீர்மானிக்கவும் பயன்படுத்தலாம். தரவின் சீரற்ற தன்மை, குழுமங்களின் எண்ணிக்கை மற்றும் மைய புள்ளிகளின் எண்ணிக்கையை நீங்கள் திருத்தலாம். இது தரவுகளை குழுமமாக்குவது எப்படி என்பதைப் பற்றிய ஒரு கருத்தை உங்களுக்கு வழங்குமா?

மேலும், Stanford இன் K-Means பற்றிய இந்த கையேட்டை பாருங்கள்.

பணிக்கட்டளை

வேறு குழும முறைகளை முயற்சிக்கவும்

குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. எங்கள் நோக்கம் துல்லியமாக இருக்க வேண்டும் என்பதுதான், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது துல்லியமின்மைகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளவும். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

K-Means குழுமம்

முன்-வகுப்பு வினாடி வினா

அறிமுகம்

முன் தேவைகள்

பயிற்சி - தயாரிப்பு

Silhouette மதிப்பீடு

பயிற்சி - ஒரு மாதிரியை உருவாக்கவும்

Elbow முறை

பயிற்சி - குழுமங்களை காட்சிப்படுத்தவும்

Variance

🚀சவால்

பாடத்திற்குப் பிந்தைய வினாடி வினா

மதிப்பீடு & சுயபடிப்பு

பணிக்கட்டளை

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

K-Means குழுமம்

முன்-வகுப்பு வினாடி வினா

அறிமுகம்

முன் தேவைகள்

பயிற்சி - தயாரிப்பு

Silhouette மதிப்பீடு

பயிற்சி - ஒரு மாதிரியை உருவாக்கவும்

Elbow முறை

பயிற்சி - குழுமங்களை காட்சிப்படுத்தவும்

Variance

🚀சவால்

பாடத்திற்குப் பிந்தைய வினாடி வினா

மதிப்பீடு & சுயபடிப்பு

பணிக்கட்டளை