La selección de características en python es el proceso en el que usted selecciona automática o manualmente las características en el conjunto de datos que más contribuyen a su variable de predicción o salida en la que está interesado.  Una de las principales razones es que el aprendizaje automático sigue la regla de "basura dentro basura fuera" y es por eso que debe estar muy preocupado por las funciones que se alimentan al modelo. Tenga en cuenta que no todas las características presentadas en su conjunto de datos son importantes para brindarle el mejor rendimiento del modelo.  Las 4 razones principales para aplicar la selección de funciones en Python:  Mejora la precisión de un modelo si se elige el subconjunto correcto.  Reduce el sobreajuste.  Permite que el algoritmo de aprendizaje automático entrene más rápido.  Reduce la complejidad de un modelo y lo hace más fácil de interpretar.  “Preparé un modelo seleccionando todas las características y obtuve una precisión de alrededor del 65 %, lo que no es bueno para un modelo predictivo y, después de hacer una selección de características e ingeniería de características sin hacer ningún cambio lógico en el código de mi modelo, mi precisión saltó a 81 % que es bastante impresionante”- Por   . Raheel Shaikh  En este artículo, aprenderá cómo seleccionar funciones importantes automáticamente mediante el uso de un paquete de Python de código abierto llamado featurewiz.  ¿Qué es Featurewiz?  Featurewiz es un nuevo paquete de Python de código abierto para crear y seleccionar automáticamente características importantes en su conjunto de datos que crearán el mejor modelo con un mayor rendimiento. También utiliza estrategias avanzadas de ingeniería de funciones para crear nuevas funciones antes de seleccionar el mejor conjunto de funciones con una sola línea de código.  Nota: Featurewiz puede detectar automáticamente si el problema es de regresión o clasificación.  ¿Como funciona?  Featurewiz usa el algoritmo SULOV y Recursive XGBoost para reducir las características y seleccionar las mejores características para el modelo.    SULOV significa Búsqueda de lista de variables no correlacionadas. El algoritmo funciona en los siguientes pasos. (a) SÚLOV  Primer paso: encuentre todos los pares de variables altamente correlacionadas que excedan un umbral de correlación (digamos absoluto (0.8)).  Segundo paso: encontrar su puntaje de información mutua para la variable objetivo. La puntuación de información mutua es un método de puntuación no paramétrico. Por lo tanto, es adecuado para todo tipo de variables y objetivos.  Tercer paso: tome cada par de variables correlacionadas, luego elimine la que tenga el puntaje de información mutua más bajo.  Paso final: recopile los que tengan los puntajes de información más altos y la menor correlación entre sí.    Después de seleccionar las funciones con menos correlación y una puntuación de información mutua alta, se utiliza el XGBoost recursivo para encontrar las mejores funciones entre las funciones restantes. Así es como funciona. (b) XGBoost recursivo  Primer paso: seleccione todas las características en el conjunto de datos y divida el conjunto de datos en conjuntos válidos y de entrenamiento.  Segundo paso: encuentre las principales características X en el tren utilizando válido para paradas anticipadas (para evitar el sobreajuste).  Tercer paso: tome el siguiente conjunto de características y encuentre la X superior.  Paso final: repita esto 5 veces y finalmente combine todas las funciones seleccionadas y elimínelas.  Instalación  El paquete requiere xgboost, NumPy, pandas y matplotlib. Además, debería ejecutarse en la mayoría de Python 3.  Puede instalar Featurewiz usando PyPI.    pip install featurewiz  Cómo usar Featurewiz para la selección de funciones en Python  Usaremos el conjunto de datos de Mobile Price para encontrar las mejores características que pueden ayudar a obtener una buena precisión al predecir el rango de precios.  0 (bajo costo)  1 (costo medio)  2 (alto costo)  4 (costo muy alto)  Puede descargar el conjunto de datos   . aquí  Importar paquetes de python.       pandas   pd   numpy   np   seaborn   sns   sklearn.model_selection   train_test_split   sklearn.preprocessing   StandardScaler   sklearn.ensemble   RandomForestClassifier   sklearn.linear_model   LogisticRegression   sklearn.metrics   accuracy_score   featurewiz   featurewiz np.random.seed(   ) # import packages import as import as import as from import from import from import from import from import from import 1234  Cargue el conjunto de datos Precio móvil.    data = pd.read_csv(   ) data.shape '../data/train.csv'  (2000, 21)  El conjunto de datos contiene 21 columnas (20 características y 1 objetivo) y, afortunadamente, este conjunto de datos no tiene valores faltantes.  Dividir los datos en características y objetivos independientes.    X = data.drop([   ],axis=   ) y = data.price_range.values 'price_range' 1  Luego estandarice las características usando StandardScaler de scikit-learn.    X_scaled = StandardScaler().fit_transform(X)  Divida los datos en conjuntos de entrenamiento y validación. El 20% de los datos se utilizará para la validación.    X_train, X_valid, y_train, y_valid = train_test_split(X_scaled,y,test_size =   ,stratify=y, random_state=   ) 0.2 1  Cree y entrene el   en el conjunto de trenes.  clasificador RandoForest   classifier = RandomForestClassifier() classifier.fit(X_train,y_train)  Haga una predicción sobre el conjunto de validación y luego verifique el rendimiento del modelo.     preds = classifier.predict(X_valid)   accuracy_score(preds,y_valid) # make prediction # check performance  0.88  La precisión del modelo es del   cuando usamos las 20 funciones disponibles en el conjunto de datos. 88 %  Ahora puede usar Featurewiz para seleccionar automáticamente el mejor conjunto de características que le brindarán el mejor rendimiento del modelo.     target =   features, train = featurewiz(data, target, corr_limit=   , verbose=   , sep=   , header=   ,test_data=   , feature_engg=   , category_encoders=   ) # automatic feature selection by using featurewiz package 'price_range' 0.7 2 "," 0 "" "" ""  En la instancia de Featurewiz, hemos agregado el conjunto de datos y el nombre de la variable de destino. También puede cambiar el límite de correlación utilizando corr_limit (el valor predeterminado es 7).  Durante el proceso de selección, mostrará la siguiente serie de salida.    Skipping feature engineering since no feature_engg input... Skipping category encoding since no category encoders specified   input... Loading train data... Shape of your Data Set loaded: (   ,   ) Loading test data... Filename   an empty string   file   able to be loaded   Classifying variables   data set...   Predictors classified... No variables removed since no ID   low-information variables found   data set No GPU active on this device Running XGBoost using CPU parameters Removing   columns   further processing since ID   low information variables columns removed: [] After removing redundant variables   further processing, features left =     Searching   highly correlated variables     variables using SULOV method   No highly correlated variables   data set to remove. All selected... Adding   categorical variables to reduced numeric variables of     Current number of predictors =   Finding Important Features using Boosted Trees algorithm... using   variables... using   variables... using   variables... using   variables... using   variables... Selected   important features   your dataset Time taken (   seconds) =   Returning list of   important features   dataframe. in 2000 21 is or not ############## CLASSIFYINGVARIABLES #################### in 20 or in 0 from or from 20 #### Single_Label Multi_Classification Feature Selection Started #### for from 20 ##### SULOV : Searching for Uncorrelated List Of Variables (takes time...) ############ in 0 20 ############## FEATURESELECTION #################### 20 20 16 12 8 4 16 from in 19 16 and  Como puede ver, Featurewiz selecciona 16 funciones importantes del conjunto de datos. La instancia de Featurewiz devuelve dos objetos  Funciones: una lista de funciones seleccionadas  Un marco de datos: este marco de datos contiene solo las características seleccionadas y la variable de destino.  Ahora puede volver a entrenar RandomForestClassifier con las características seleccionadas y ver si el rendimiento del modelo mejorará.  Veamos la lista de características seleccionadas.    print(features)  ['RAM',  'Potencia de la batería',  'px_altura',  'px_ancho',  'pantalla táctil',  'mobile_wt',  'int_memoria',  'tres_g',  'sc_h',  'cuatro_g',  'sc_w',  'n_núcleos',  'fc',  'ordenador personal',  'tiempo de conversación',  'Wifi']  Divida el marco de datos en características seleccionadas y el objetivo.     X_new = train.drop([   ],axis=   ) y = train.price_range.values #split data into feature and target 'price_range' 1  Luego, estandarice las características seleccionadas usando StandardScaler de scikit-learn.     X_scaled = StandardScaler().fit_transform(X_new) # preprocessing the features  Divida los datos en conjuntos de entrenamiento y validación. El 20% de los datos se utilizará para la validación.     X_train, X_valid, y_train, y_valid = train_test_split(X_scaled,y,test_size =   ,stratify=y, random_state=   ) #split data into train and validate 0.2 1  Cree y entrene el clasificador RandoForest en el conjunto de trenes nuevamente.     classifier = RandomForestClassifier() classifier.fit(X_train,y_train) # create and train classifier  Haga una predicción sobre el conjunto de validación y luego verifique el rendimiento del modelo.     preds = classifier.predict(X_valid)   accuracy_score(preds,y_valid) # make prediction # check performance  0.905  La precisión del modelo ha aumentado del   al   cuando usamos las características mejor seleccionadas (16 de 20 características) del conjunto de datos. 88 % 90,5 %  Reflexiones finales sobre la selección de funciones en Python  En este artículo, ha aprendido cómo puede seleccionar automáticamente funciones importantes utilizando el paquete Featurewiz. También puede utilizar Featurewiz en cualquier conjunto de datos multiclase o multietiqueta. De modo que puede tener tantas etiquetas de destino como desee.  Hay más opciones disponibles en el paquete Featurewiz. Te recomiendo que los leas  aquí.  Si aprendiste algo nuevo o disfrutaste leyendo este artículo, compártelo para que otros puedan verlo. Hasta entonces, ¡nos vemos en el próximo post!  También puedes encontrarme en Twitter   . @Davis_McDavid  Y puedes leer más artículos como este   . aquí  ¿Quiere mantenerse al día con lo último en python?   en el pie de página a continuación. Suscríbase a nuestro boletín

Target

Twitter

2022 - Data Science Demon

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Data

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - Pythonistas Paradise

Contact me for collaboration

Nominated for 2022 - Data Science Demon

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Selección automática de características en Python: una guía esencial

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Una breve introducción a la teoría del cerebro de Boltzmann

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Navegando por las aguas: desarrollo de aplicaciones RAG de nivel de producción con lagos de datos

Aumente su productividad con estas 18 herramientas para desarrolladores 🚀🔥

Una breve introducción a la teoría del cerebro de Boltzmann

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Navegando por las aguas: desarrollo de aplicaciones RAG de nivel de producción con lagos de datos

Aumente su productividad con estas 18 herramientas para desarrolladores 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps