இந்த பாடத்தில், நீங்கள் Scikit-learn மற்றும் நீங்கள் முன்பே இறக்குமதி செய்த நைஜீரிய இசை தரவுத்தொகுப்பைப் பயன்படுத்தி குழுமங்களை உருவாக்குவது எப்படி என்பதை கற்றுக்கொள்வீர்கள். K-Means குழுமத்திற்கான அடிப்படைகளை நாம் கற்கப்போகிறோம். நீங்கள் முன் பாடத்தில் கற்றுக்கொண்டது போல, குழுமங்களுடன் வேலை செய்ய பல வழிகள் உள்ளன, மேலும் நீங்கள் பயன்படுத்தும் முறை உங்கள் தரவின் அடிப்படையில் இருக்கும். K-Means மிகவும் பொதுவான குழும முறை என்பதால் அதை முயற்சிப்போம். தொடங்குவோம்!
நீங்கள் கற்றுக்கொள்ளும் சொற்கள்:
- Silhouette மதிப்பீடு
- Elbow முறை
- Inertia
- Variance
K-Means Clustering என்பது சிக்னல் செயலாக்கத்தின் துறையில் இருந்து பெறப்பட்ட ஒரு முறை. இது 'k' குழுமங்களாக தரவுகளை பிரிக்கவும் பகிரவும் ஒரு வரிசை கண்காணிப்புகளைப் பயன்படுத்துகிறது. ஒவ்வொரு கண்காணிப்பும் ஒரு குறிப்பிட்ட தரவுப் புள்ளியை அதன் அருகிலுள்ள 'mean' அல்லது குழுமத்தின் மைய புள்ளிக்கு அருகில் குழுமமாக்க முயற்சிக்கிறது.
குழுமங்களை Voronoi diagrams போல காட்சிப்படுத்தலாம், இதில் ஒரு புள்ளி (அல்லது 'seed') மற்றும் அதற்குரிய பகுதி அடங்கும்.
Jen Looper உருவாக்கிய தகவல் வரைபடம்
K-Means குழும செயல்முறை மூன்று படிகள் கொண்ட செயல்முறையாக செயல்படுகிறது:
- க алгоритம் தரவுத்தொகுப்பிலிருந்து k-மைய புள்ளிகளைத் தேர்ந்தெடுக்கிறது. இதற்குப் பிறகு இது மடக்குகிறது:
- ஒவ்வொரு மாதிரியையும் அருகிலுள்ள மைய புள்ளிக்கு ஒதுக்குகிறது.
- முந்தைய மைய புள்ளிகளுக்கு ஒதுக்கப்பட்ட அனைத்து மாதிரிகளின் சராசரி மதிப்பை எடுத்து புதிய மைய புள்ளிகளை உருவாக்குகிறது.
- பின்னர், புதிய மற்றும் பழைய மைய புள்ளிகளுக்கு இடையிலான வேறுபாட்டை கணக்கிடுகிறது மற்றும் மைய புள்ளிகள் நிலைபெறும்வரை மீண்டும் செய்கிறது.
K-Means பயன்படுத்துவதற்கான ஒரு குறைபாடு 'k', அதாவது மைய புள்ளிகளின் எண்ணிக்கையை நிறுவ வேண்டும் என்பதில் உள்ளது. 'elbow method' ஒரு நல்ல தொடக்க மதிப்பை 'k' க்கான மதிப்பீடு செய்ய உதவுகிறது. நீங்கள் அதை ஒரு நிமிடத்தில் முயற்சிக்கலாம்.
இந்த பாடத்தின் notebook.ipynb கோப்பில் நீங்கள் வேலை செய்ய வேண்டும், இதில் நீங்கள் கடந்த பாடத்தில் செய்த தரவுகளை இறக்குமதி மற்றும் ஆரம்ப சுத்திகரிப்பு அடங்கும்.
பாடல்களின் தரவுகளை மீண்டும் ஒரு முறை பாருங்கள்.
-
ஒவ்வொரு நெடுவரிசைக்கும்
boxplot()அழைத்து ஒரு பாக்ஸ் பிளாட்டை உருவாக்கவும்:plt.figure(figsize=(20,20), dpi=200) plt.subplot(4,3,1) sns.boxplot(x = 'popularity', data = df) plt.subplot(4,3,2) sns.boxplot(x = 'acousticness', data = df) plt.subplot(4,3,3) sns.boxplot(x = 'energy', data = df) plt.subplot(4,3,4) sns.boxplot(x = 'instrumentalness', data = df) plt.subplot(4,3,5) sns.boxplot(x = 'liveness', data = df) plt.subplot(4,3,6) sns.boxplot(x = 'loudness', data = df) plt.subplot(4,3,7) sns.boxplot(x = 'speechiness', data = df) plt.subplot(4,3,8) sns.boxplot(x = 'tempo', data = df) plt.subplot(4,3,9) sns.boxplot(x = 'time_signature', data = df) plt.subplot(4,3,10) sns.boxplot(x = 'danceability', data = df) plt.subplot(4,3,11) sns.boxplot(x = 'length', data = df) plt.subplot(4,3,12) sns.boxplot(x = 'release_date', data = df)
இந்த தரவு கொஞ்சம் சத்தமாக உள்ளது: ஒவ்வொரு நெடுவரிசையையும் பாக்ஸ் பிளாட்டாகக் கவனிப்பதன் மூலம், நீங்கள் வெளிப்புற மதிப்புகளை காணலாம்.
நீங்கள் தரவுத்தொகுப்பைச் சென்று இந்த வெளிப்புற மதிப்புகளை அகற்றலாம், ஆனால் அது தரவுகளை மிகவும் குறைவாக்கும்.
-
தற்போது, உங்கள் குழும பயிற்சிக்காக எந்த நெடுவரிசைகளை நீங்கள் பயன்படுத்தப் போகிறீர்கள் என்பதைத் தேர்ந்தெடுக்கவும். ஒரே மாதிரியான வரம்புகளைக் கொண்டவற்றைத் தேர்ந்தெடுக்கவும் மற்றும்
artist_top_genreநெடுவரிசையை எண் தரவாக குறியாக்கவும்:from sklearn.preprocessing import LabelEncoder le = LabelEncoder() X = df.loc[:, ('artist_top_genre','popularity','danceability','acousticness','loudness','energy')] y = df['artist_top_genre'] X['artist_top_genre'] = le.fit_transform(X['artist_top_genre']) y = le.transform(y)
-
இப்போது நீங்கள் எத்தனை குழுமங்களை இலக்காகக் கொள்ள வேண்டும் என்பதைத் தேர்ந்தெடுக்க வேண்டும். நீங்கள் தரவுத்தொகுப்பிலிருந்து 3 பாடல் வகைகளை பிரித்தெடுத்துள்ளீர்கள் என்பதை நீங்கள் அறிந்துள்ளீர்கள், எனவே 3 ஐ முயற்சிக்கலாம்:
from sklearn.cluster import KMeans nclusters = 3 seed = 0 km = KMeans(n_clusters=nclusters, random_state=seed) km.fit(X) # Predict the cluster for each data point y_cluster_kmeans = km.predict(X) y_cluster_kmeans
நீங்கள் dataframe இன் ஒவ்வொரு வரிசைக்கும் (0, 1 அல்லது 2) கணிக்கப்பட்ட குழுமங்களுடன் ஒரு வரிசையை அச்சிடப்பட்டதாகக் காண்கிறீர்கள்.
-
இந்த வரிசையைப் பயன்படுத்தி 'silhouette score' ஐ கணக்கிடவும்:
from sklearn import metrics score = metrics.silhouette_score(X, y_cluster_kmeans) score
1 க்கு அருகிலுள்ள silhouette மதிப்பீட்டைத் தேடுங்கள். இந்த மதிப்பீடு -1 முதல் 1 வரை மாறுகிறது, மேலும் மதிப்பீடு 1 ஆக இருந்தால், குழுமம் அடர்த்தியாகவும் மற்ற குழுமங்களிலிருந்து நன்றாகப் பிரிக்கப்பட்டதாகவும் இருக்கும். 0 க்கு அருகிலுள்ள மதிப்பு, அண்டை குழுமங்களின் முடிவு எல்லைக்கு மிகவும் அருகிலுள்ள மாதிரிகளுடன் ஒட்டுமொத்த குழுமங்களை பிரதிநிதித்துவப்படுத்துகிறது. (மூலம்)
எங்கள் மதிப்பீடு .53, எனவே நடுவில் உள்ளது. இது இந்த வகையான குழுமத்திற்கு எங்கள் தரவு குறிப்பாக பொருத்தமாக இல்லை என்பதை குறிக்கிறது, ஆனால் தொடர்வோம்.
-
KMeansஐ இறக்குமதி செய்து குழும செயல்முறையைத் தொடங்கவும்.from sklearn.cluster import KMeans wcss = [] for i in range(1, 11): kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42) kmeans.fit(X) wcss.append(kmeans.inertia_)
இங்கு சில பகுதிகள் விளக்கத்திற்குத் தகுதியானவை.
🎓 range: குழும செயல்முறையின் மீளுருவாக்கங்கள்
🎓 random_state: "மைய புள்ளி ஆரம்பத்திற்கான சீரற்ற எண் உருவாக்கத்தை நிர்ணயிக்கிறது." மூலம்
🎓 WCSS: "within-cluster sums of squares" என்பது ஒரு குழுமத்தின் மைய புள்ளிக்கு உள்ள அனைத்து புள்ளிகளின் சதுர சராசரி தூரத்தை அளவிடுகிறது. மூலம்.
🎓 Inertia: K-Means الگوریتمங்கள் 'inertia' ஐ குறைக்க மைய புள்ளிகளைத் தேர்ந்தெடுக்க முயற்சிக்கின்றன, இது "குழுமங்கள் உள்ளார்ந்த ஒற்றுமையாக இருக்கின்றன என்பதை அளவிடும் ஒரு அளவீடு." மூலம். இந்த மதிப்பு ஒவ்வொரு மீளுருவாக்கத்திலும் wcss மாறியில் சேர்க்கப்படுகிறது.
🎓 k-means++: Scikit-learn இல் நீங்கள் 'k-means++' ஆப்டிமைசேஷனைப் பயன்படுத்தலாம், இது "மைய புள்ளிகள் பொதுவாக ஒருவருக்கொருவர் தொலைவில் இருக்கும்படி ஆரம்பிக்கின்றன, சீரற்ற ஆரம்பத்துடன் ஒப்பிடும்போது சிறந்த முடிவுகளை வழங்குகிறது.
முன்பு, நீங்கள் 3 பாடல் வகைகளை இலக்காகக் கொண்டுள்ளீர்கள் என்பதால், 3 குழுமங்களைத் தேர்ந்தெடுக்க வேண்டும் என்று நீங்கள் முடிவு செய்தீர்கள். ஆனால் அது சரியா?
-
'elbow method' ஐப் பயன்படுத்தி உறுதிப்படுத்தவும்.
plt.figure(figsize=(10,5)) sns.lineplot(x=range(1, 11), y=wcss, marker='o', color='red') plt.title('Elbow') plt.xlabel('Number of clusters') plt.ylabel('WCSS') plt.show()
நீங்கள் முந்தைய படியில் உருவாக்கிய
wcssமாறியைப் பயன்படுத்தி ஒரு வரைபடத்தை உருவாக்கவும், இதில் 'elbow' இல் உள்ள வளைவு எங்கு உள்ளது என்பதை காட்டுகிறது, இது குழுமங்களின் சரியான எண்ணிக்கையை குறிக்கிறது. அது மூன்று இருக்கலாம்!
-
செயல்முறையை மீண்டும் முயற்சிக்கவும், இந்த முறை மூன்று குழுமங்களை அமைத்து, குழுமங்களை scatterplot ஆக காட்சிப்படுத்தவும்:
from sklearn.cluster import KMeans kmeans = KMeans(n_clusters = 3) kmeans.fit(X) labels = kmeans.predict(X) plt.scatter(df['popularity'],df['danceability'],c = labels) plt.xlabel('popularity') plt.ylabel('danceability') plt.show()
-
மாதிரியின் துல்லியத்தைச் சரிபார்க்கவும்:
labels = kmeans.labels_ correct_labels = sum(y == labels) print("Result: %d out of %d samples were correctly labeled." % (correct_labels, y.size)) print('Accuracy score: {0:0.2f}'. format(correct_labels/float(y.size)))
இந்த மாதிரியின் துல்லியம் மிகவும் நல்லதல்ல, மேலும் குழுமங்களின் வடிவம் ஏன் என்பதை உங்களுக்கு ஒரு குறிப்பைக் கொடுக்கிறது.
இந்த தரவு மிகவும் சமநிலையற்றது, மிகவும் குறைவாக தொடர்புடையது மற்றும் நெடுவரிசை மதிப்புகளுக்கு இடையிலான வேறுபாடு மிகவும் அதிகமாக உள்ளது, குழுமம் நன்றாக செயல்படுவதற்கு. உண்மையில், உருவாகும் குழுமங்கள் மேலே வரையறுக்கப்பட்ட மூன்று வகை பிரிவுகளால் மிகவும் பாதிக்கப்படுகின்றன அல்லது சாய்ந்திருக்கின்றன. அது ஒரு கற்றல் செயல்முறை!
Scikit-learn இன் ஆவணங்களில், இந்த மாதிரி, குழுமங்கள் மிகவும் நன்றாக வரையறுக்கப்படாதது, 'variance' பிரச்சனை கொண்டுள்ளது:
Scikit-learn இன் தகவல் வரைபடம்
Variance என்பது "சராசரியத்திலிருந்து சதுர வேறுபாடுகளின் சராசரி" என்று வரையறுக்கப்படுகிறது (மூலம்). இந்த குழும பிரச்சனையின் சூழலில், இது எங்கள் தரவுத்தொகுப்பின் எண்கள் சராசரியத்திலிருந்து கொஞ்சம் அதிகமாக விலகும் என்பதை குறிக்கிறது.
✅ இது இந்த பிரச்சனையை சரிசெய்ய நீங்கள் செய்யக்கூடிய அனைத்து வழிகளையும் சிந்திக்க சிறந்த தருணம். தரவுகளை மேலும் சீரமைக்கிறீர்களா? வேறு நெடுவரிசைகளைப் பயன்படுத்துகிறீர்களா? வேறு الگوریتمஐ பயன்படுத்துகிறீர்களா? குறிப்புகள்: உங்கள் தரவுகளை scale செய்ய முயற்சிக்கவும் அதை சாதாரணமாக்கவும் மற்றும் பிற நெடுவரிசைகளைச் சோதிக்கவும்.
இந்த 'variance calculator' ஐ முயற்சித்து இந்த கருத்தை மேலும் புரிந்துகொள்ளுங்கள்.
இந்த notebook உடன் சில நேரம் செலவிடுங்கள், அளவுருக்களைச் சீரமைக்கவும். தரவுகளை மேலும் சுத்திகரிப்பதன் மூலம் (உதாரணமாக வெளிப்புற மதிப்புகளை அகற்றுதல்) நீங்கள் மாதிரியின் துல்லியத்தை மேம்படுத்த முடியுமா? நீங்கள் குறிப்பிட்ட தரவுப் மாதிரிகளுக்கு அதிக எடை கொடுக்க எடைகளைப் பயன்படுத்தலாம். சிறந்த குழுமங்களை உருவாக்க நீங்கள் இன்னும் என்ன செய்ய முடியும்?
குறிப்பு: உங்கள் தரவுகளை அளவிட முயற்சிக்கவும். தரவுத்தொகுப்பின் நெடுவரிசைகள் வரம்பு அடிப்படையில் ஒருவருக்கொருவர் மேலும் ஒத்திருக்கும்படி தரவுகளைச் சீரமைக்க standard scaling ஐச் சேர்க்கும் குறிப்பிட்ட குறியீடு notebook இல் உள்ளது. தரவுகளை அளவிடாமல் விடுவது குறைவான variance கொண்ட தரவுகளுக்கு அதிக எடை கொடுக்க அனுமதிக்கிறது என்பதால் silhouette மதிப்பீடு குறைந்தாலும், elbow வரைபடத்தில் 'kink' மிருதுவாக மாறுகிறது. இந்த பிரச்சனை குறித்து மேலும் படிக்க இங்கே.
K-Means Simulator இதுபோன்ற ஒன்றைப் பாருங்கள். இந்த கருவியை நீங்கள் மாதிரி தரவுப் புள்ளிகளை காட்சிப்படுத்தவும் அதன் மைய புள்ளிகளைத் தீர்மானிக்கவும் பயன்படுத்தலாம். தரவின் சீரற்ற தன்மை, குழுமங்களின் எண்ணிக்கை மற்றும் மைய புள்ளிகளின் எண்ணிக்கையை நீங்கள் திருத்தலாம். இது தரவுகளை குழுமமாக்குவது எப்படி என்பதைப் பற்றிய ஒரு கருத்தை உங்களுக்கு வழங்குமா?
மேலும், Stanford இன் K-Means பற்றிய இந்த கையேட்டை பாருங்கள்.
வேறு குழும முறைகளை முயற்சிக்கவும்
குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. எங்கள் நோக்கம் துல்லியமாக இருக்க வேண்டும் என்பதுதான், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது துல்லியமின்மைகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளவும். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.




