मेरी पिछली पोस्ट वर्गीकरण समस्या तैयार करती है और इसे 3 प्रकारों (बाइनरी, मल्टी-क्लास और मल्टी-लेबल) में विभाजित करती है और इस प्रश्न का उत्तर देती है कि "बाइनरी वर्गीकरण कार्य को हल करने के लिए आपको किस सक्रियण और हानि फ़ंक्शन का उपयोग करने की आवश्यकता है?"।
इस पोस्ट में, मैं उसी प्रश्न का उत्तर दूंगा लेकिन बहु-वर्ग वर्गीकरण कार्य के लिए और आपको एक प्रदान करूंगा
बहु-वर्ग वर्गीकरण कार्य को हल करने के लिए आपको किन सक्रियण और हानि कार्यों का उपयोग करने की आवश्यकता है?
प्रदान किया गया कोड काफी हद तक बाइनरी वर्गीकरण कार्यान्वयन पर आधारित है क्योंकि बाइनरी वर्गीकरण से मल्टी-क्लास में स्विच करने के लिए आपको अपने कोड और एनएन में बहुत कम संशोधन जोड़ने की आवश्यकता होती है। आसान नेविगेशन के लिए संशोधित कोड ब्लॉक को (परिवर्तित) के साथ चिह्नित किया गया है।
जैसा कि बाद में दिखाया जाएगा, मल्टी-क्लास वर्गीकरण के लिए उपयोग किया जाने वाला सक्रियण फ़ंक्शन सॉफ्टमैक्स सक्रियण है। सॉफ्टमैक्स का व्यापक रूप से मल्टी-क्लास वर्गीकरण के बाहर विभिन्न एनएन आर्किटेक्चर में उपयोग किया जाता है। उदाहरण के लिए, सॉफ्टमैक्स ट्रांसफॉर्मर मॉडल में उपयोग किए जाने वाले मल्टी-हेड अटेंशन ब्लॉक के मूल में है (देखें अटेंशन इज़ ऑल यू नीड ) इनपुट मानों को संभाव्यता वितरण में परिवर्तित करने की क्षमता के कारण (उस पर बाद में और अधिक देखें)।
यदि आप मल्टी-क्लास वर्गीकरण समस्याओं को हल करने के लिए सॉफ्टमैक्स सक्रियण और सीई हानि को लागू करने के पीछे की प्रेरणा को जानते हैं तो आप अधिक जटिल एनएन आर्किटेक्चर और हानि कार्यों को समझने और कार्यान्वित करने में सक्षम होंगे।
बहु-वर्ग वर्गीकरण समस्या को नमूनों के एक सेट के रूप में दर्शाया जा सकता है {(x_1, y_1), (x_2, y_2),...,(x_n, y_n)} , जहां x_i एक एम-आयामी वेक्टर है जिसमें नमूने की विशेषताएं शामिल हैं i और y_i वह वर्ग है जिससे x_i संबंधित है। जहां लेबल y_i k मानों में से एक मान सकता है, जहां k 2 से अधिक वर्गों की संख्या है। लक्ष्य एक मॉडल बनाना है जो प्रत्येक इनपुट नमूना x_i के लिए लेबल y_i की भविष्यवाणी करता है।
उन कार्यों के उदाहरण जिन्हें बहु-वर्ग वर्गीकरण समस्याओं के रूप में माना जा सकता है:
बहु-वर्ग वर्गीकरण में आपको दिया गया है:
नमूनों का एक सेट {(x_1, y_1), (x_2, y_2),...,(x_n, y_n)}
x_i एक एम-आयामी वेक्टर है जिसमें नमूना i की विशेषताएं शामिल हैं
y_i वह वर्ग है जिससे x_i संबंधित है और k मानों में से एक मान सकता है, जहां k>2 वर्गों की संख्या है।
एक संभाव्य वर्गीकरणकर्ता के रूप में एक बहु-वर्ग वर्गीकरण तंत्रिका नेटवर्क बनाने के लिए हमें इसकी आवश्यकता है:
तंत्रिका नेटवर्क की अंतिम रैखिक परत "कच्चे आउटपुट मान" का एक वेक्टर आउटपुट करती है। वर्गीकरण के मामले में, आउटपुट मान मॉडल के विश्वास का प्रतिनिधित्व करते हैं कि इनपुट k वर्गों में से एक से संबंधित है। जैसा कि पहले चर्चा की गई थी कि आउटपुट परत का आकार k होना चाहिए और आउटपुट मान प्रत्येक k वर्ग और SUM(p_i)=1 के लिए संभावनाओं p_i का प्रतिनिधित्व करना चाहिए।
बाइनरी वर्गीकरण पर लेख एनएन आउटपुट मानों को संभावनाओं में बदलने के लिए सिग्मॉइड सक्रियण का उपयोग करता है। आइए रेंज [-3, 3] में k आउटपुट मानों पर सिग्मॉइड लागू करने का प्रयास करें और देखें कि क्या सिग्मॉइड पहले सूचीबद्ध आवश्यकताओं को पूरा करता है:
k आउटपुट मान श्रेणी (0,1) में होना चाहिए, जहां k वर्गों की संख्या है
k आउटपुट मानों का योग 1 के बराबर होना चाहिए
पिछला लेख दिखाता है कि सिग्मॉइड फ़ंक्शन इनपुट मानों को एक श्रेणी (0,1) में मैप करता है। आइए देखें कि क्या सिग्मॉइड सक्रियण दूसरी आवश्यकता को पूरा करता है। नीचे दी गई उदाहरण तालिका में मैंने सिग्मॉइड सक्रियण के साथ आकार k (k=7) वाले एक वेक्टर को संसाधित किया और इन सभी मानों को जोड़ दिया - इन 7 मानों का योग 3.5 के बराबर है। इसे ठीक करने का एक सीधा तरीका सभी k मानों को उनके योग से विभाजित करना होगा।
इनपुट | -3 | -2 | -1 | 0 | 1 | 2 | 3 | जोड़ |
---|---|---|---|---|---|---|---|---|
सिग्मॉइड आउटपुट | 0.04743 | 0.11920 | 0.26894 | 0.50000 | 0.73106 | 0.88080 | 0.95257 | 3.5000 |
दूसरा तरीका यह होगा कि इनपुट मान का घातांक लिया जाए और इसे सभी इनपुट मानों के घातांकों के योग से विभाजित किया जाए:
सॉफ्टमैक्स फ़ंक्शन वास्तविक संख्याओं के वेक्टर को संभावनाओं के वेक्टर में बदल देता है। परिणाम में प्रत्येक संभावना (0,1) की सीमा में है, और संभावनाओं का योग 1 है।
इनपुट | -3 | -2 | -1 | 0 | 1 | 2 | 3 | जोड़ |
---|---|---|---|---|---|---|---|---|
सॉफ्टमैक्स | 0.00157 | 0.00426 | 0.01159 | 0.03150 | 0.08563 | 0.23276 | 0.63270 | 1 |
सॉफ्टमैक्स के साथ काम करते समय आपको एक बात का ध्यान रखना होगा: आउटपुट मान p_i इनपुट सरणी में सभी मानों पर निर्भर करता है क्योंकि हम इसे सभी मानों के घातांक के योग से विभाजित करते हैं। नीचे दी गई तालिका इसे दर्शाती है: दो इनपुट वैक्टर में 3 सामान्य मान {1, 3, 4} हैं, लेकिन आउटपुट सॉफ्टमैक्स मान भिन्न हैं क्योंकि दूसरा तत्व अलग है (2 और 4)।
इनपुट 1 | 1 | 2 | 3 | 4 |
---|---|---|---|---|
सॉफ्टमैक्स 1 | 0.0321 | 0.0871 | 0.2369 | 0.6439 |
इनपुट 2 | 1 | 4 | 3 | 4 |
सॉफ्टमैक्स 2 | 0.0206 | 0.4136 | 0.1522 | 0.4136 |
बाइनरी क्रॉस एन्ट्रापी हानि को इस प्रकार परिभाषित किया गया है:
बाइनरी वर्गीकरण में, दो आउटपुट संभावनाएं p_i और (1-p_i) और जमीनी सच्चाई मान y_i और (1-y_i) हैं।
बहु-वर्ग वर्गीकरण समस्या एन वर्गों के लिए बीसीई हानि के सामान्यीकरण का उपयोग करती है: क्रॉस-एन्ट्रॉपी हानि।
N इनपुट नमूनों की संख्या है, y_i जमीनी सच्चाई है, और p_i वर्ग i की अनुमानित संभावना है।
संभाव्य बहु-वर्ग वर्गीकरण एनएन को लागू करने के लिए हमें इसकी आवश्यकता है:
कोड के अधिकांश भाग बाइनरी वर्गीकरण पर पिछले लेख के कोड पर आधारित हैं।
परिवर्तित भागों को (परिवर्तित) से चिह्नित किया गया है:
आइए PyTorch फ्रेमवर्क के साथ मल्टी-क्लास वर्गीकरण के लिए एक तंत्रिका नेटवर्क को कोड करें।
सबसे पहले, इंस्टॉल करें
# used for accuracy metric and confusion matrix !pip install torchmetrics
उन पैकेजों को आयात करें जिनका उपयोग बाद में कोड में किया जाएगा
from sklearn.datasets import make_classification import numpy as np import torch import torchmetrics import matplotlib.pyplot as plt import seaborn as sn import pandas as pd from sklearn.decomposition import PCA
कक्षाओं की संख्या के साथ वैश्विक चर सेट करें (यदि आप इसे 2 पर सेट करते हैं और बाइनरी-वर्गीकरण एनएन प्राप्त करते हैं जो सॉफ्टमैक्स और क्रॉस-एन्ट्रॉपी हानि का उपयोग करता है)
number_of_classes=4
मैं इस्तेमाल करूँगा
n_samples - उत्पन्न नमूनों की संख्या है
n_features - उत्पन्न नमूनों X के आयामों की संख्या निर्धारित करता है
n_classes - जेनरेट किए गए डेटासेट में कक्षाओं की संख्या। बहु-वर्ग वर्गीकरण समस्या में, 2 से अधिक वर्ग होने चाहिए
जेनरेट किए गए डेटासेट में X का आकार [n_samples, n_features] और Y का आकार [n_samples, ] होगा।
def get_dataset(n_samples=10000, n_features=20, n_classes=2): # https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification data_X, data_y = make_classification(n_samples=n_samples, n_features=n_features, n_classes=n_classes, n_informative=n_classes, n_redundant=0, n_clusters_per_class=2, random_state=42, class_sep=4) return data_X, data_y
डेटासेट आँकड़ों को विज़ुअलाइज़ करने और प्रिंट करने के लिए फ़ंक्शंस को परिभाषित करें। show_dataset फ़ंक्शन का उपयोग करता है
def print_dataset(X, y): print(f'X shape: {X.shape}, min: {X.min()}, max: {X.max()}') print(f'y shape: {y.shape}') print(y[:10]) def show_dataset(X, y, title=''): if X.shape[1] > 2: X_pca = PCA(n_components=2).fit_transform(X) else: X_pca = X fig = plt.figure(figsize=(4, 4)) plt.scatter(x=X_pca[:, 0], y=X_pca[:, 1], c=y, alpha=0.5) # generate colors for all classes colors = plt.cm.rainbow(np.linspace(0, 1, number_of_classes)) # iterate over classes and visualize them with the dedicated color for class_id in range(number_of_classes): class_mask = np.argwhere(y == class_id) X_class = X_pca[class_mask[:, 0]] plt.scatter(x=X_class[:, 0], y=X_class[:, 1], c=np.full((X_class[:, 0].shape[0], 4), colors[class_id]), label=class_id, alpha=0.5) plt.title(title) plt.legend(loc="best", title="Classes") plt.xticks() plt.yticks() plt.show()
न्यूनतम अधिकतम स्केलर के साथ डेटासेट सुविधाओं X को रेंज [0,1] तक स्केल करें। यह आमतौर पर तेज़ और अधिक स्थिर प्रशिक्षण के लिए किया जाता है।
def scale(x_in): return (x_in - x_in.min(axis=0))/(x_in.max(axis=0)-x_in.min(axis=0))
आइए जेनरेट किए गए डेटासेट आँकड़ों को प्रिंट करें और ऊपर के कार्यों के साथ इसकी कल्पना करें।
X, y = get_dataset(n_classes=number_of_classes) print('before scaling') print_dataset(X, y) show_dataset(X, y, 'before') X_scaled = scale(X) print('after scaling') print_dataset(X_scaled, y) show_dataset(X_scaled, y, 'after')
आपको जो आउटपुट मिलना चाहिए वह नीचे हैं।
before scaling X shape: (10000, 20), min: -9.549551632357336, max: 9.727761741276673 y shape: (10000,) [0 2 1 2 0 2 0 1 1 2]
after scaling X shape: (10000, 20), min: 0.0, max: 1.0 y shape: (10000,) [0 2 1 2 0 2 0 1 1 2]
न्यूनतम-अधिकतम स्केलिंग डेटासेट सुविधाओं को विकृत नहीं करती है, यह उन्हें रैखिक रूप से रेंज [0,1] में बदल देती है। "न्यूनतम-अधिकतम स्केलिंग के बाद डेटासेट" आंकड़ा पिछले आंकड़े की तुलना में विकृत प्रतीत होता है क्योंकि पीसीए एल्गोरिदम द्वारा 20 आयामों को घटाकर 2 कर दिया जाता है और पीसीए एल्गोरिदम न्यूनतम-अधिकतम स्केलिंग से प्रभावित हो सकता है।
PyTorch डेटा लोडर बनाएं।
def get_data_loaders(dataset, batch_size=32, shuffle=True): data_X, data_y = dataset # https://pytorch.org/docs/stable/data.html#torch.utils.data.TensorDataset torch_dataset = torch.utils.data.TensorDataset(torch.tensor(data_X, dtype=torch.float32), torch.tensor(data_y, dtype=torch.float32)) # https://pytorch.org/docs/stable/data.html#torch.utils.data.random_split train_dataset, val_dataset = torch.utils.data.random_split(torch_dataset, [int(len(torch_dataset)*0.8), int(len(torch_dataset)*0.2)], torch.Generator().manual_seed(42)) # https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader loader_train = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=shuffle) loader_val = torch.utils.data.DataLoader(val_dataset, batch_size=batch_size, shuffle=shuffle) return loader_train, loader_val
PyTorch डेटा लोडर का परीक्षण करें
dataloader_train, dataloader_val = get_data_loaders(get_dataset(n_classes=number_of_classes), batch_size=32) train_batch_0 = next(iter(dataloader_train)) print(f'Batches in the train dataloader: {len(dataloader_train)}, X: {train_batch_0[0].shape}, Y: {train_batch_0[1].shape}') val_batch_0 = next(iter(dataloader_val)) print(f'Batches in the validation dataloader: {len(dataloader_val)}, X: {val_batch_0[0].shape}, Y: {val_batch_0[1].shape}')
उत्पादन:
Batches in the train dataloader: 250, X: torch.Size([32, 20]), Y: torch.Size([32]) Batches in the validation dataloader: 63, X: torch.Size([32, 20]), Y: torch.Size([32])
प्री और पोस्टप्रोसेसिंग फ़ंक्शन बनाएं। जैसा कि आपने पहले नोट किया होगा कि वर्तमान Y आकार [N] है, हमें इसकी आवश्यकता है [N,number_of_classes]। ऐसा करने के लिए हमें Y वेक्टर में मानों को वन-हॉट एनकोड करना होगा।
वन-हॉट एन्कोडिंग क्लास इंडेक्स को बाइनरी प्रतिनिधित्व में परिवर्तित करने की एक प्रक्रिया है जहां प्रत्येक वर्ग को एक अद्वितीय बाइनरी वेक्टर द्वारा दर्शाया जाता है।
दूसरे शब्दों में: [number_of_classes] आकार के साथ एक शून्य वेक्टर बनाएं और तत्व को class_id से 1 पर सेट करें, जहां class_ids {0,1,…,number_of_classes-1}:
0 >> [1. 0. 0. 0.]
1 >> [0. 1. 0. 0.]
2 >> [0. 0.1.0.]
2 >> [0. 0. 0. 1.]
पाइटोरच टेंसर को torch.nn.functional.one_hot के साथ संसाधित किया जा सकता है और सुन्न कार्यान्वयन बहुत सीधा है। आउटपुट वेक्टर का आकार [N,number_of_classes] होगा।
def preprocessing(y, n_classes): ''' one-hot encoding for input numpy array or pytorch Tensor input: y - [N,] numpy array or pytorch Tensor output: [N, n_classes] the same type as input ''' assert type(y)==np.ndarray or torch.is_tensor(y), f'input should be numpy array or torch tensor. Received input is: {type(categorical)}' assert len(y.shape)==1, f'input shape should be [N,]. Received input shape is: {y.shape}' if torch.is_tensor(y): return torch.nn.functional.one_hot(y, num_classes=n_classes) else: categorical = np.zeros([y.shape[0], n_classes]) categorical[np.arange(y.shape[0]), y]=1 return categorical
वन-हॉट एनकोडेड वेक्टर को वापस क्लास आईडी में बदलने के लिए हमें वन-हॉट एनकोडेड वेक्टर में अधिकतम तत्व का सूचकांक ढूंढना होगा। इसे नीचे दिए गए torch.argmax या np.argmax के साथ किया जा सकता है।
def postprocessing(categorical): ''' one-hot to classes decoding with .argmax() input: categorical - [N,classes] numpy array or pytorch Tensor output: [N,] the same type as input ''' assert type(categorical)==np.ndarray or torch.is_tensor(categorical), f'input should be numpy array or torch tensor. Received input is: {type(categorical)}' assert len(categorical.shape)==2, f'input shape should be [N,classes]. Received input shape is: {categorical.shape}' if torch.is_tensor(categorical): return torch.argmax(categorical,dim=1) else: return np.argmax(categorical, axis=1)
परिभाषित पूर्व और पश्चात प्रसंस्करण कार्यों का परीक्षण करें।
y = get_dataset(n_classes=number_of_classes)[1] y_logits = preprocessing(y, n_classes=number_of_classes) y_class = postprocessing(y_logits) print(f'y shape: {y.shape}, y preprocessed shape: {y_logits.shape}, y postprocessed shape: {y_class.shape}') print('Preprocessing does one-hot encoding of class ids.') print('Postprocessing does one-hot decoding of class one-hot encoded class ids.') for i in range(10): print(f'{y[i]} >> {y_logits[i]} >> {y_class[i]}')
उत्पादन:
y shape: (10000,), y preprocessed shape: (10000, 4), y postprocessed shape: (10000,) Preprocessing does one-hot encoding of class ids. Postprocessing does one-hot decoding of one-hot encoded class ids. id>>one-hot encoding>>id 0 >> [1. 0. 0. 0.] >> 0 2 >> [0. 0. 1. 0.] >> 2 1 >> [0. 1. 0. 0.] >> 1 2 >> [0. 0. 1. 0.] >> 2 0 >> [1. 0. 0. 0.] >> 0 2 >> [0. 0. 1. 0.] >> 2 0 >> [1. 0. 0. 0.] >> 0 1 >> [0. 1. 0. 0.] >> 1 1 >> [0. 1. 0. 0.] >> 1 2 >> [0. 0. 1. 0.] >> 2
यह अनुभाग बाइनरी वर्गीकरण मॉडल को प्रशिक्षित करने के लिए आवश्यक सभी कार्यों के कार्यान्वयन को दर्शाता है।
सॉफ्टमैक्स फॉर्मूला का PyTorch-आधारित कार्यान्वयन
def softmax(x): assert len(x.shape)==2, f'input shape should be [N,classes]. Received input shape is: {x.shape}' # Subtract the maximum value for numerical stability # you can find explanation here: https://www.deeplearningbook.org/contents/numerical.html x = x - torch.max(x, dim=1, keepdim=True)[0] # Exponentiate the values exp_x = torch.exp(x) # Sum along the specified dimension sum_exp_x = torch.sum(exp_x, dim=1, keepdim=True) # Compute the softmax return exp_x / sum_exp_x
आइए सॉफ्टमैक्स का परीक्षण करें:
चरण 1 के साथ [-10, 11] श्रेणी में test_input numpy सरणी उत्पन्न करें
इसे आकार के साथ एक टेंसर में दोबारा आकार दें [7,3]
कार्यान्वित सॉफ्टमैक्स फ़ंक्शन और PyTorch डिफ़ॉल्ट कार्यान्वयन torch.nn.functional.softmax के साथ प्रक्रिया test_input
परिणामों की तुलना करें (वे समान होने चाहिए)
सभी सात [1,3] टेंसरों के लिए आउटपुट सॉफ्टमैक्स मान और योग
test_input = torch.arange(-10, 11, 1, dtype=torch.float32) test_input = test_input.reshape(-1,3) softmax_output = softmax(test_input) print(f'Input data shape: {test_input.shape}') print(f'input data range: [{test_input.min():.3f}, {test_input.max():.3f}]') print(f'softmax output data range: [{softmax_output.min():.3f}, {softmax_output.max():.3f}]') print(f'softmax output data sum along axis 1: [{softmax_output.sum(axis=1).numpy()}]') softmax_output_pytorch = torch.nn.functional.softmax(test_input, dim=1) print(f'softmax output is the same with pytorch implementation: {(softmax_output_pytorch==softmax_output).all().numpy()}') print('Softmax activation changes values in the chosen axis (1) so that they always sum up to 1:') for i in range(softmax_output.shape[0]): print(f'\t{i}. Sum before softmax: {test_input[i].sum().numpy()} | Sum after softmax: {softmax_output[i].sum().numpy()}') print(f'\t values before softmax: {test_input[i].numpy()}, softmax output values: {softmax_output[i].numpy()}')
उत्पादन:
Input data shape: torch.Size([7, 3]) input data range: [-10.000, 10.000] softmax output data range: [0.090, 0.665] softmax output data sum along axis 1: [[1. 1. 1. 1. 1. 1. 1.]] softmax output is the same with pytorch implementation: True Softmax activation changes values in the chosen axis (1) so that they always sum up to 1: 0. Sum before softmax: -27.0 | Sum after softmax: 1.0 values before softmax: [-10. -9. -8.], softmax output values: [0.09003057 0.24472848 0.66524094] 1. Sum before softmax: -18.0 | Sum after softmax: 1.0 values before softmax: [-7. -6. -5.], softmax output values: [0.09003057 0.24472848 0.66524094] 2. Sum before softmax: -9.0 | Sum after softmax: 1.0 values before softmax: [-4. -3. -2.], softmax output values: [0.09003057 0.24472848 0.66524094] 3. Sum before softmax: 0.0 | Sum after softmax: 1.0 values before softmax: [-1. 0. 1.], softmax output values: [0.09003057 0.24472848 0.66524094] 4. Sum before softmax: 9.0 | Sum after softmax: 1.0 values before softmax: [2. 3. 4.], softmax output values: [0.09003057 0.24472848 0.66524094] 5. Sum before softmax: 18.0 | Sum after softmax: 1.0 values before softmax: [5. 6. 7.], softmax output values: [0.09003057 0.24472848 0.66524094] 6. Sum before softmax: 27.0 | Sum after softmax: 1.0 values before softmax: [ 8. 9. 10.], softmax output values: [0.09003057 0.24472848 0.66524094]
CE सूत्र का PyTorch-आधारित कार्यान्वयन
def cross_entropy_loss(softmax_logits, labels): # Calculate the cross-entropy loss loss = -torch.sum(labels * torch.log(softmax_logits)) / softmax_logits.size(0) return loss
परीक्षण सीई कार्यान्वयन:
आकार [10,5] और सीमा [0,1) में मूल्यों के साथ test_input सरणी उत्पन्न करें
आकार [10,] और सीमा [0,4] में मानों के साथ test_target सरणी उत्पन्न करें।
एक-हॉट एन्कोड test_target सरणी
कार्यान्वित क्रॉस_एन्ट्रॉपी फ़ंक्शन और PyTorch कार्यान्वयन के साथ हानि की गणना करें
परिणामों की तुलना करें (वे समान होने चाहिए)
test_input = torch.rand(10, 5, requires_grad=False) test_target = torch.randint(0, 5, (10,), requires_grad=False) test_target = preprocessing(test_target, n_classes=5).float() print(f'test_input shape: {list(test_input.shape)}, test_target shape: {list(test_target.shape)}') # get loss with the cross_entropy_loss implementation loss = cross_entropy_loss(softmax(test_input), test_target) # get loss with the torch.nn.functional.cross_entropy implementation # !!!torch.nn.functional.cross_entropy applies softmax on input logits # !!!pass it test_input without softmax activation loss_pytorch = torch.nn.functional.cross_entropy(test_input, test_target) print(f'Loss outputs are the same: {(loss==loss_pytorch).numpy()}')
अपेक्षित आउटपुट:
test_input shape: [10, 5], test_target shape: [10, 5] Loss outputs are the same: True
मैं इस्तेमाल करूँगा
बहु-वर्ग वर्गीकरण सटीकता मीट्रिक बनाने के लिए दो मापदंडों की आवश्यकता होती है:
कार्य प्रकार "मल्टीक्लास"
कक्षाओं की संख्या num_classes
# https://torchmetrics.readthedocs.io/en/stable/classification/accuracy.html#module-interface accuracy_metric=torchmetrics.classification.Accuracy(task="multiclass", num_classes=number_of_classes) def compute_accuracy(y_pred, y): assert len(y_pred.shape)==2 and y_pred.shape[1] == number_of_classes, 'y_pred shape should be [N, C]' assert len(y.shape)==2 and y.shape[1] == number_of_classes, 'y shape should be [N, C]' return accuracy_metric(postprocessing(y_pred), postprocessing(y))
इस उदाहरण में प्रयुक्त एनएन 2 छिपी हुई परतों वाला एक गहरा एनएन है। इनपुट और छिपी हुई परतें ReLU सक्रियण का उपयोग करती हैं और अंतिम परत क्लास इनपुट के रूप में प्रदान किए गए सक्रियण फ़ंक्शन का उपयोग करती है (यह सिग्मॉइड सक्रियण फ़ंक्शन होगा जो पहले लागू किया गया था)।
class ClassifierNN(torch.nn.Module): def __init__(self, loss_function, activation_function, input_dims=2, output_dims=1): super().__init__() self.linear1 = torch.nn.Linear(input_dims, input_dims * 4) self.linear2 = torch.nn.Linear(input_dims * 4, input_dims * 8) self.linear3 = torch.nn.Linear(input_dims * 8, input_dims * 4) self.output = torch.nn.Linear(input_dims * 4, output_dims) self.loss_function = loss_function self.activation_function = activation_function def forward(self, x): x = torch.nn.functional.relu(self.linear1(x)) x = torch.nn.functional.relu(self.linear2(x)) x = torch.nn.functional.relu(self.linear3(x)) x = self.activation_function(self.output(x)) return x
उपरोक्त चित्र एकल बैच के लिए प्रशिक्षण तर्क को दर्शाता है। बाद में train_epoch फ़ंक्शन को कई बार (युगों की चयनित संख्या) कॉल किया जाएगा।
def train_epoch(model, optimizer, dataloader_train): # set the model to the training mode # https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module.train model.train() losses = [] accuracies = [] for step, (X_batch, y_batch) in enumerate(dataloader_train): ### forward propagation # get model output and use loss function y_pred = model(X_batch) # get class probabilities with shape [N,1] # apply loss function on predicted probabilities and ground truth loss = model.loss_function(y_pred, y_batch) ### backward propagation # set gradients to zero before backpropagation # https://pytorch.org/docs/stable/generated/torch.optim.Optimizer.zero_grad.html optimizer.zero_grad() # compute gradients # https://pytorch.org/docs/stable/generated/torch.Tensor.backward.html loss.backward() # update weights # https://pytorch.org/docs/stable/optim.html#taking-an-optimization-step optimizer.step() # update model weights # calculate batch accuracy acc = compute_accuracy(y_pred, y_batch) # append batch loss and accuracy to corresponding lists for later use accuracies.append(acc) losses.append(float(loss.detach().numpy())) # compute average epoch accuracy train_acc = np.array(accuracies).mean() # compute average epoch loss loss_epoch = np.array(losses).mean() return train_acc, loss_epoch
मूल्यांकन फ़ंक्शन प्रदान किए गए PyTorch डेटालोडर पर पुनरावृत्त होता है जो वर्तमान मॉडल सटीकता की गणना करता है और औसत हानि और औसत सटीकता लौटाता है।
def evaluate(model, dataloader_in): # set the model to the evaluation mode # https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module.eval model.eval() val_acc_epoch = 0 losses = [] accuracies = [] # disable gradient calculation for evaluation # https://pytorch.org/docs/stable/generated/torch.no_grad.html with torch.no_grad(): for step, (X_batch, y_batch) in enumerate(dataloader_in): # get predictions y_pred = model(X_batch) # calculate loss loss = model.loss_function(y_pred, y_batch) # calculate batch accuracy acc = compute_accuracy(y_pred, y_batch) accuracies.append(acc) losses.append(float(loss.detach().numpy())) # compute average accuracy val_acc = np.array(accuracies).mean() # compute average loss loss_epoch = np.array(losses).mean() return val_acc, loss_epoch
भविष्यवाणी फ़ंक्शन प्रदान किए गए डेटालोडर पर पुनरावृत्त होता है, पोस्ट-प्रोसेस्ड (वन-हॉट डिकोडेड) मॉडल भविष्यवाणियों और जमीनी सच्चाई मानों को [एन,1] पायटोरच सरणियों में एकत्र करता है, और दोनों सरणियों को लौटाता है। बाद में इस फ़ंक्शन का उपयोग भ्रम मैट्रिक्स की गणना करने और भविष्यवाणियों की कल्पना करने के लिए किया जाएगा।
def predict(model, dataloader): # set the model to the evaluation mode # https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module.eval model.eval() xs, ys = next(iter(dataloader)) y_pred = torch.empty([0, ys.shape[1]]) x = torch.empty([0, xs.shape[1]]) y = torch.empty([0, ys.shape[1]]) # disable gradient calculation for evaluation # https://pytorch.org/docs/stable/generated/torch.no_grad.html with torch.no_grad(): for step, (X_batch, y_batch) in enumerate(dataloader): # get predictions y_batch_pred = model(X_batch) y_pred = torch.cat([y_pred, y_batch_pred]) y = torch.cat([y, y_batch]) x = torch.cat([x, X_batch]) # print(y_pred.shape, y.shape) y_pred = postprocessing(y_pred) y = postprocessing(y) return y_pred, y, x
मॉडल को प्रशिक्षित करने के लिए हमें केवल ट्रेन_एपोच फ़ंक्शन को एन बार कॉल करने की आवश्यकता है, जहां एन युगों की संख्या है। मूल्यांकन फ़ंक्शन को सत्यापन डेटासेट पर वर्तमान मॉडल सटीकता को लॉग करने के लिए कहा जाता है। अंत में, सत्यापन सटीकता के आधार पर सर्वोत्तम मॉडल को अपडेट किया जाता है। मॉडल_ट्रेन फ़ंक्शन सर्वोत्तम सत्यापन सटीकता और प्रशिक्षण इतिहास लौटाता है।
def model_train(model, optimizer, dataloader_train, dataloader_val, n_epochs=50): best_acc = 0 best_weights = None history = {'loss': {'train': [], 'validation': []}, 'accuracy': {'train': [], 'validation': []}} for epoch in range(n_epochs): # train on dataloader_train acc_train, loss_train = train_epoch(model, optimizer, dataloader_train) # evaluate on dataloader_val acc_val, loss_val = evaluate(model, dataloader_val) print(f'Epoch: {epoch} | Accuracy: {acc_train:.3f} / {acc_val:.3f} | ' + f'loss: {loss_train:.5f} / {loss_val:.5f}') # save epoch losses and accuracies in history dictionary history['loss']['train'].append(loss_train) history['loss']['validation'].append(loss_val) history['accuracy']['train'].append(acc_train) history['accuracy']['validation'].append(acc_val) # Save the best validation accuracy model if acc_val >= best_acc: print(f'\tBest weights updated. Old accuracy: {best_acc:.4f}. New accuracy: {acc_val:.4f}') best_acc = acc_val torch.save(model.state_dict(), 'best_weights.pt') # restore model and return best accuracy model.load_state_dict(torch.load('best_weights.pt')) return best_acc, history
आइए सब कुछ एक साथ रखें और बहु-वर्ग वर्गीकरण मॉडल को प्रशिक्षित करें।
######################################### # Get the dataset X, y = get_dataset(n_classes=number_of_classes) print(f'Generated dataset shape. X:{X.shape}, y:{y.shape}') # change y numpy array shape from [N,] to [N, C] for multi-class classification y = preprocessing(y, n_classes=number_of_classes) print(f'Dataset shape prepared for multi-class classification with softmax activation and CE loss.') print(f'X:{X.shape}, y:{y.shape}') # Get train and validation datal loaders dataloader_train, dataloader_val = get_data_loaders(dataset=(scale(X), y), batch_size=32) # get a batch from dataloader and output intput and output shape X_0, y_0 = next(iter(dataloader_train)) print(f'Model input data shape: {X_0.shape}, output (ground truth) data shape: {y_0.shape}') ######################################### # Create ClassifierNN for multi-class classification problem # input dims: [N, features] # output dims: [N, C] where C is number of classes # activation - softmax to output [,C] probabilities so that their sum(p_1,p_2,...,p_c)=1 # loss - cross-entropy model = ClassifierNN(loss_function=cross_entropy_loss, activation_function=softmax, input_dims=X.shape[1], output_dims=y.shape[1]) ######################################### # create optimizer and train the model on the dataset optimizer = torch.optim.Adam(model.parameters(), lr=0.001) print(f'Model size: {sum([x.reshape(-1).shape[0] for x in model.parameters()])} parameters') print('#'*10) print('Start training') acc, history = model_train(model, optimizer, dataloader_train, dataloader_val, n_epochs=20) print('Finished training') print('#'*10) print("Model accuracy: %.2f%%" % (acc*100))
अपेक्षित आउटपुट नीचे दिए गए आउटपुट के समान होना चाहिए।
Generated dataset shape. X:(10000, 20), y:(10000,) Dataset shape prepared for multi-class classification with softmax activation and CE loss. X:(10000, 20), y:(10000, 4) Model input data shape: torch.Size([32, 20]), output (ground truth) data shape: torch.Size([32, 4]) Model size: 27844 parameters ########## Start training Epoch: 0 | Accuracy: 0.682 / 0.943 | loss: 0.78574 / 0.37459 Best weights updated. Old accuracy: 0.0000. New accuracy: 0.9435 Epoch: 1 | Accuracy: 0.960 / 0.967 | loss: 0.20272 / 0.17840 Best weights updated. Old accuracy: 0.9435. New accuracy: 0.9668 Epoch: 2 | Accuracy: 0.978 / 0.962 | loss: 0.12004 / 0.17931 Epoch: 3 | Accuracy: 0.984 / 0.979 | loss: 0.10028 / 0.13246 Best weights updated. Old accuracy: 0.9668. New accuracy: 0.9787 Epoch: 4 | Accuracy: 0.985 / 0.981 | loss: 0.08838 / 0.12720 Best weights updated. Old accuracy: 0.9787. New accuracy: 0.9807 Epoch: 5 | Accuracy: 0.986 / 0.981 | loss: 0.08096 / 0.12174 Best weights updated. Old accuracy: 0.9807. New accuracy: 0.9812 Epoch: 6 | Accuracy: 0.986 / 0.981 | loss: 0.07944 / 0.12036 Epoch: 7 | Accuracy: 0.988 / 0.982 | loss: 0.07605 / 0.11773 Best weights updated. Old accuracy: 0.9812. New accuracy: 0.9821 Epoch: 8 | Accuracy: 0.989 / 0.982 | loss: 0.07168 / 0.11514 Best weights updated. Old accuracy: 0.9821. New accuracy: 0.9821 Epoch: 9 | Accuracy: 0.989 / 0.983 | loss: 0.06890 / 0.11409 Best weights updated. Old accuracy: 0.9821. New accuracy: 0.9831 Epoch: 10 | Accuracy: 0.989 / 0.984 | loss: 0.06750 / 0.11128 Best weights updated. Old accuracy: 0.9831. New accuracy: 0.9841 Epoch: 11 | Accuracy: 0.990 / 0.982 | loss: 0.06505 / 0.11265 Epoch: 12 | Accuracy: 0.990 / 0.983 | loss: 0.06507 / 0.11272 Epoch: 13 | Accuracy: 0.991 / 0.985 | loss: 0.06209 / 0.11240 Best weights updated. Old accuracy: 0.9841. New accuracy: 0.9851 Epoch: 14 | Accuracy: 0.990 / 0.984 | loss: 0.06273 / 0.11157 Epoch: 15 | Accuracy: 0.991 / 0.984 | loss: 0.05998 / 0.11029 Epoch: 16 | Accuracy: 0.990 / 0.985 | loss: 0.06056 / 0.11164 Epoch: 17 | Accuracy: 0.991 / 0.984 | loss: 0.05981 / 0.11096 Epoch: 18 | Accuracy: 0.991 / 0.985 | loss: 0.05642 / 0.10975 Best weights updated. Old accuracy: 0.9851. New accuracy: 0.9851 Epoch: 19 | Accuracy: 0.990 / 0.986 | loss: 0.05929 / 0.10821 Best weights updated. Old accuracy: 0.9851. New accuracy: 0.9856 Finished training ########## Model accuracy: 98.56%
def plot_history(history): fig = plt.figure(figsize=(8, 4), facecolor=(0.0, 1.0, 0.0)) ax = fig.add_subplot(1, 2, 1) ax.plot(np.arange(0, len(history['loss']['train'])), history['loss']['train'], color='red', label='train') ax.plot(np.arange(0, len(history['loss']['validation'])), history['loss']['validation'], color='blue', label='validation') ax.set_title('Loss history') ax.set_facecolor((0.0, 1.0, 0.0)) ax.legend() ax = fig.add_subplot(1, 2, 2) ax.plot(np.arange(0, len(history['accuracy']['train'])), history['accuracy']['train'], color='red', label='train') ax.plot(np.arange(0, len(history['accuracy']['validation'])), history['accuracy']['validation'], color='blue', label='validation') ax.set_title('Accuracy history') ax.legend() fig.tight_layout() ax.set_facecolor((0.0, 1.0, 0.0)) fig.show()
acc_train, _ = evaluate(model, dataloader_train) acc_validation, _ = evaluate(model, dataloader_val) print(f'Accuracy - Train: {acc_train:.4f} | Validation: {acc_validation:.4f}')
Accuracy - Train: 0.9901 | Validation: 0.9851
val_preds, val_y, _ = predict(model, dataloader_val) print(val_preds.shape, val_y.shape) multiclass_confusion_matrix = torchmetrics.classification.ConfusionMatrix('multiclass', num_classes=number_of_classes) cm = multiclass_confusion_matrix(val_preds, val_y) print(cm) df_cm = pd.DataFrame(cm) plt.figure(figsize = (6,5), facecolor=(0.0,1.0,0.0)) sn.heatmap(df_cm, annot=True, fmt='d') plt.show()
val_preds, val_y, val_x = predict(model, dataloader_val) val_preds, val_y, val_x = val_preds.numpy(), val_y.numpy(), val_x.numpy() show_dataset(val_x, val_y,'Ground Truth') show_dataset(val_x, val_preds, 'Predictions')
बहु-वर्ग वर्गीकरण के लिए, आपको सॉफ्टमैक्स सक्रियण और क्रॉस-एन्ट्रॉपी हानि का उपयोग करने की आवश्यकता है। बाइनरी वर्गीकरण से बहु-वर्ग वर्गीकरण में स्विच करने के लिए कुछ कोड संशोधन आवश्यक हैं: डेटा प्रीप्रोसेसिंग और पोस्टप्रोसेसिंग, सक्रियण और हानि फ़ंक्शन। इसके अलावा, आप वन-हॉट एन्कोडिंग, सॉफ्टमैक्स और क्रॉस-एन्ट्रॉपी लॉस के साथ कक्षाओं की संख्या 2 पर सेट करके बाइनरी वर्गीकरण समस्या को हल कर सकते हैं।