Модели машинного обучения для распознавания пользователей с использованием динамики нажатия клавиш  Динамика нажатия клавиш, которая используется в моделях машинного обучения в этой статье для распознавания пользователей, представляет собой поведенческую биометрию. В динамике нажатия клавиш используется особый способ ввода текста каждым человеком для подтверждения своей личности. Это достигается путем анализа   клавиши и отпускания клавиши, которые составляют нажатие клавиши на клавиатуре компьютера, для извлечения шаблонов набора текста. двух событий нажатия  В этой статье будет рассмотрено, как эти шаблоны можно применить для создания трех точных моделей   для распознавания пользователей. машинного обучения  Цель этой статьи будет разделена на две части:   моделей машинного обучения (1.   2.     3.   ) и   в реальном живом одноточечном API, способном прогнозировать пользователя на основе 5 входных данных. параметры: модель ML и 4 раза нажатия клавиш. построение и обучение SVM Случайный лес XGBoost развертывание модели  1. Построение моделей  Проблема  Цель этой части — построение   для распознавания пользователей на основе данных   ими клавиш. Динамика нажатия клавиш — это поведенческая биометрия, которая использует уникальный способ набора текста человеком для проверки личности человека. моделей машинного обучения о нажатиях  Шаблоны набора текста преимущественно извлекаются с компьютерных клавиатур. шаблоны, используемые в динамике нажатия клавиш, в основном основаны на двух событиях, составляющих нажатие клавиши: нажатие клавиши и отпускание клавиши.  Событие Key-Press происходит при первоначальном   клавиши, а Key-Release происходит при последующем   этой клавиши. нажатии отпускании  На этом этапе предоставляется набор данных о нажатиях клавиш пользователей со следующей информацией:    : в этом наборе данных собраны данные о нажатиях клавиш от 110 пользователей. keystroke.csv  Всем пользователям предлагается ввести постоянную строку длиной 13 раз 8 раз, и собираются данные о нажатии клавиши (время нажатия клавиши и время отпускания клавиши для каждой клавиши).  Набор данных содержит 880 строк и 27 столбцов.  В первом столбце указан идентификатор пользователя, а в остальных — время нажатия и отпускания символов с первого по 13-й.  Вам следует сделать следующее:  Обычно необработанные данные недостаточно информативны, и   . для построения хорошей модели необходимо извлечь информативные признаки из необработанных данных  В связи с этим четыре особенности:   Hold Time “HT”   Press-Press time “PPT”   Release-Release Time “RRT”   Release-Press time “RPT”  введены и определения каждого из них описаны выше.  2. Для каждой строки файла   вам следует   для каждых двух последовательных клавиш. keystroke.csv, сгенерировать эти функции  3. После завершения предыдущего шага вам следует   в строке. В результате у вас должно быть 8 признаков (4 средних и 4 стандартных отклонения) в каждой строке. →  рассчитать среднее и стандартное отклонение для каждого объекта process_csv()   def calculate_mean_and_standard_deviation(feature_list): from math import sqrt # calculate the mean mean = sum(feature_list) / len(feature_list) # calculate the squared differences from the mean squared_diffs = [(x - mean) ** 2 for x in feature_list] # calculate the sum of the squared differences sum_squared_diffs = sum(squared_diffs) # calculate the variance variance = sum_squared_diffs / (len(feature_list) - 1) # calculate the standard deviation std_dev = sqrt(variance) return mean, std_dev   def process_csv(df_input_csv_data): data = { 'user': [], 'ht_mean': [], 'ht_std_dev': [], 'ppt_mean': [], 'ppt_std_dev': [], 'rrt_mean': [], 'rrt_std_dev': [], 'rpt_mean': [], 'rpt_std_dev': [], } # iterate over each row in the dataframe for i, row in df_input_csv_data.iterrows(): # iterate over each pair of consecutive presses and releases # print('user:', row['user']) # list of hold times ht_list = [] # list of press-press times ppt_list = [] # list of release-release times rrt_list = [] # list of release-press times rpt_list = [] # I use the IF to select only the X rows of the csv if i < 885: for j in range(12): # calculate the hold time: release[j]-press[j] ht = row[f"release-{j}"] - row[f"press-{j}"] # append hold time to list of hold times ht_list.append(ht) # calculate the press-press time: press[j+1]-press[j] if j < 11: ppt = row[f"press-{j + 1}"] - row[f"press-{j}"] ppt_list.append(ppt) # calculate the release-release time: release[j+1]-release[j] if j < 11: rrt = row[f"release-{j + 1}"] - row[f"release-{j}"] rrt_list.append(rrt) # calculate the release-press time: press[j+1] - release[j] if j < 10: rpt = row[f"press-{j + 1}"] - row[f"release-{j}"] rpt_list.append(rpt) # ht_list, ppt_list, rrt_list, rpt_list are a list of calculated values for each feature -> feature_list ht_mean, ht_std_dev = calculate_mean_and_standard_deviation(ht_list) ppt_mean, ppt_std_dev = calculate_mean_and_standard_deviation(ppt_list) rrt_mean, rrt_std_dev = calculate_mean_and_standard_deviation(rrt_list) rpt_mean, rpt_std_dev = calculate_mean_and_standard_deviation(rpt_list) # print(ht_mean, ht_std_dev) # print(ppt_mean, ppt_std_dev) # print(rrt_mean, rrt_std_dev) # print(rpt_mean, rpt_std_dev) data['user'].append(row['user']) data['ht_mean'].append(ht_mean) data['ht_std_dev'].append(ht_std_dev) data['ppt_mean'].append(ppt_mean) data['ppt_std_dev'].append(ppt_std_dev) data['rrt_mean'].append(rrt_mean) data['rrt_std_dev'].append(rrt_std_dev) data['rpt_mean'].append(rpt_mean) data['rpt_std_dev'].append(rpt_std_dev) else: break data_df = pd.DataFrame(data) return data_df  Весь код вы можете найти на моем GitHub в репозитории KeystrokeDynamics:   https://github.com/BogdanAlinTudorache/KeystrokeDynamics?embedable=true  Обучайте ML  Теперь, когда мы проанализировали данные, мы можем начать строить модели, обучая ML.  Машина опорных векторов   def train_svm(training_data, features): import joblib from sklearn.svm import SVC """ SVM stands for Support Vector Machine, which is a type of machine learning algorithm used: for classification and regression analysis. SVM algorithm aims to find a hyperplane in an n-dimensional space that separates the data into two classes. The hyperplane is chosen in such a way that it maximizes the margin between the two classes, making the classification more robust and accurate. In addition, SVM can also handle non-linearly separable data by mapping the original features to a higher-dimensional space, where a linear hyperplane can be used for classification. :param training_data: :param features: :return: ML Trained model """ # Split the data into features and labels X = training_data[features] y = training_data['user'] # Train an SVM model on the data svm_model = SVC() svm_model.fit(X, y) # Save the trained model to disk svm_model_name = 'models/svm_model.joblib' joblib.dump(svm_model, svm_model_name)   Дополнительное чтение:   https://towardsdatascience.com/https-medium-com-pupalerushikesh-svm-f4b42800e989?source=post_page-----e0665bc18cad--------------------- -----------&embedable=true  Случайный лес   def train_random_forest(training_data, features): """ Random Forest is a type of machine learning algorithm that belongs to the family of ensemble learning methods. It is used for classification, regression, and other tasks that involve predicting an output value based on a set of input features. The algorithm works by creating multiple decision trees, where each tree is built using a random subset of the input features and a random subset of the training data. Each tree is trained independently, and the final output is obtained by combining the outputs of all the trees in some way, such as taking the average (for regression) or majority vote (for classification). :param training_data: :param features: :return: ML Trained model """ import joblib from sklearn.ensemble import RandomForestClassifier # Split the data into features and labels X = training_data[features] y = training_data['user'] # Train a Random Forest model on the data rf_model = RandomForestClassifier() rf_model.fit(X, y) # Save the trained model to disk rf_model_name = 'models/rf_model.joblib' joblib.dump(rf_model, rf_model_name)   Дополнительное чтение:   https://towardsdatascience.com/random-forest-in-python-24d0893d51c0?source=post_page-----e0665bc18cad----------------------- ---------&embedable=true   Экстремальное повышение градиента   def train_xgboost(training_data, features): import joblib import xgboost as xgb from sklearn.preprocessing import LabelEncoder """ XGBoost stands for Extreme Gradient Boosting, which is a type of gradient boosting algorithm used for classification and regression analysis. XGBoost is an ensemble learning method that combines multiple decision trees to create a more powerful model. Each tree is built using a gradient boosting algorithm, which iteratively improves the model by minimizing a loss function. XGBoost has several advantages over other boosting algorithms, including its speed, scalability, and ability to handle missing values. :param training_data: :param features: :return: ML Trained model """ # Split the data into features and labels X = training_data[features] label_encoder = LabelEncoder() y = label_encoder.fit_transform(training_data['user']) # Train an XGBoost model on the data xgb_model = xgb.XGBClassifier() xgb_model.fit(X, y) # Save the trained model to disk xgb_model_name = 'models/xgb_model.joblib' joblib.dump(xgb_model, xgb_model_name)   Дополнительное чтение:   https://towardsdatascience.com/xgboost-extreme-gradient-boosting-how-to-improve-on-regular-gradient-boosting-5c6acf66c70a?embedable=true  Также опубликовано  здесь.  Если вам понравилась статья и вы хотите меня поддержать, обязательно:   🔔 Следуй за мной  Богдан Тудораке   🔔 Свяжитесь со мной:   |  LinkedIn Реддит

This story contains new, firsthand information uncovered by the writer.

Autonomous content aggregator platform

Read My Stories

Этот звук создан на языке оригинала истории!

Применение моделей машинного обучения для распознавания пользователей с помощью динамики нажатия клавиш

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Рост криптовалют: создание эффективных образов пользователей

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Рост криптовалют: создание эффективных образов пользователей

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps