Работа с Wav2vec2. Часть 1. Точная настройка XLS-R для автоматического распознавания речи

Введение Meta AI представила в конце 2021 года. XLS-R — это модель машинного обучения («ML») для изучения межъязыковых речевых представлений; и оно было обучено на более чем 400 000 часов общедоступных речевых аудиозаписей на 128 языках. После своего выпуска модель представляла собой скачок по сравнению с межъязыковой моделью от Meta AI, которая обучалась примерно на 50 000 часов речевого звука на 53 языках. wav2vec2 XLS-R («XLS-R») XLSR-53 В этом руководстве описаны шаги по точной настройке XLS-R для автоматического распознавания речи («ASR») с помощью . Модель будет настроена на чилийский испанский язык, но можно выполнить общие шаги, чтобы настроить XLS-R на другие языки, которые вы желаете. Kaggle Notebook Выполнение вывода на точно настроенной модели будет описано в сопутствующем руководстве, которое делает это руководство первой из двух частей. Я решил создать отдельное руководство, посвященное выводам, поскольку это руководство по точной настройке стало немного длинным. Предполагается, что у вас есть опыт работы с машинным обучением и вы понимаете основные концепции ASR. Новичкам может быть трудно следовать/понимать этапы сборки. Немного информации о XLS-R Исходная модель wav2vec2, представленная в 2020 году, была предварительно обучена на 960 часах речевого звука набора данных и примерно 53 200 часах речевого звука набора данных . После выпуска были доступны модели двух размеров: модель с 95 миллионами параметров и модель с 317 миллионами параметров. Librispeech LibriVox БАЗОВАЯ БОЛЬШАЯ XLS-R, с другой стороны, был предварительно обучен на многоязычном речевом звуке из 5 наборов данных: : Всего около 372 000 часов аудиоречевых речей Европейского парламента на 23 европейских языках. VoxPopuli : в общей сложности ~50 000 часов речевого аудио на восьми европейских языках, большая часть (~ 44 000 часов) аудиоданных на английском языке. Многоязычная либриспич : около 7000 часов речевого аудио на 60 языках. CommonVoice : всего около 6600 часов речевого аудио на 107 языках на основе контента YouTube. VoxLingua107 : Всего около 1100 часов аудиозаписи на 17 африканских и азиатских языках, основанной на разговорной телефонной речи. BABEL Существует 3 модели XLS-R: с 300 миллионами параметров, с 1 миллиардом параметров и с 2 миллиардами параметров. В этом руководстве будет использоваться модель XLS-R (0.3B). XLS-R (0,3B) XLS-R (1B) XLS-R (2B) Подход Есть несколько замечательных статей о том, как точно настроить модели , и, возможно, является своего рода «золотым стандартом». Конечно, общий подход здесь имитирует подход, который вы найдете в других руководствах. Вы будете: wav2vev2 эта статья Загрузите набор обучающих данных аудиоданных и связанных текстовых транскрипций. Создайте словарь из текстовых транскрипций в наборе данных. Инициализируйте процессор wav2vec2, который будет извлекать функции из входных данных, а также преобразовывать текстовые транскрипции в последовательности меток. Точная настройка wav2vec2 XLS-R на обработанных входных данных. Однако есть три ключевых различия между этим руководством и другими: В руководстве не содержится столько «встроенного» обсуждения соответствующих концепций ML и ASR. Хотя каждый подраздел отдельных ячеек записной книжки будет содержать подробную информацию об использовании/цели конкретной ячейки, предполагается, что у вас есть опыт работы в машинном обучении и вы понимаете основные концепции ASR. Блокнот Kaggle, который вы создадите, организует служебные методы в ячейках верхнего уровня. Хотя многие блокноты для точной настройки, как правило, имеют своего рода макет типа «поток сознания», я решил объединить все служебные методы вместе. Если вы новичок в wav2vec2, этот подход может вас сбить с толку. Однако, повторюсь, я изо всех сил стараюсь четко объяснять назначение каждой ячейки в специальном подразделе каждой ячейки. Если вы только изучаете wav2vec2, вам может быть полезно взглянуть на мою статью HackerNoon . wav2vec2 для автоматического распознавания речи на простом английском языке В этом руководстве описаны только этапы точной настройки. Как упоминалось во , я решил создать отдельное сопутствующее руководство о том, как выполнить вывод на точно настроенной модели XLS-R, которую вы сгенерируете. Это было сделано для того, чтобы это руководство не стало слишком длинным. введении Предварительные условия и перед началом работы Для завершения руководства вам потребуется: Существующая . Если у вас нет существующей учетной записи Kaggle, вам необходимо ее создать. учетная запись Kaggle Существующая . Если у вас нет существующей учетной записи Weights and Biases, вам необходимо ее создать. учетная запись Weights and Biases («WandB») Ключ API WandB. Если у вас нет ключа API WandB, выполните действия, описанные . здесь Среднее знание Python. Умение работать с Kaggle Notebooks на среднем уровне. Среднее знание концепций ML. Базовые знания концепций ASR. Прежде чем приступить к созданию блокнота, возможно, будет полезно просмотреть два подраздела ниже. Они описывают: Набор обучающих данных. Показатель частоты ошибок в словах («WER»), используемый во время обучения. Набор обучающих данных Как упоминалось во , модель XLS-R будет настроена на чилийский испанский язык. Конкретным набором данных является разработанный Геварой-Рукозом и др. Он доступен для скачивания на . Набор данных состоит из двух поднаборов данных: (1) 2636 аудиозаписей говорящих на чилийском языке мужчин и (2) 1738 аудиозаписей говорящих на чилийском языке женщин. введении набор данных чилийской испанской речи, OpenSLR Каждый поднабор данных включает индексный файл . Каждая строка каждого индексного файла содержит пару имен аудиофайлов и транскрипцию аудио в связанном файле, например: line_index.tsv clm_08421_01719502739 Es un viaje de negocios solamente voy por una noche clm_02436_02011517900 Se usa para incitar a alguien a sacar el mayor provecho del dia presente Для удобства я загрузил набор данных чилийской испанской речи в Kaggle. Существует один набор данных Kaggle для и один набор данных Kaggle для . Эти наборы данных Kaggle будут добавлены в блокнот Kaggle, который вы создадите, следуя инструкциям в этом руководстве. записей чилийских мужчин записей чилийских женщин Коэффициент ошибок в словах (WER) WER — это один из показателей, который можно использовать для измерения производительности моделей автоматического распознавания речи. WER предоставляет механизм измерения того, насколько близок текстовый прогноз к текстовой ссылке. WER достигает этого, записывая ошибки трех типов: ): ошибка замены фиксируется, когда предсказание содержит слово, отличное от аналогичного слова в ссылке. Например, это происходит, когда прогноз неправильно пишет слово в ссылке. замены ( S ): ошибка удаления записывается, когда прогноз содержит слово, которого нет в ссылке. удаления ( D ): ошибка вставки записывается, когда предсказание не содержит слова, присутствующего в ссылке. вставки ( I Очевидно, что WER работает на уровне слов. Формула показателя WER выглядит следующим образом: WER = (S + D + I)/N where: S = number of substition errors D = number of deletion errors I = number of insertion errors N = number of words in the reference Простой пример WER на испанском языке выглядит следующим образом: prediction: "Él está saliendo." reference: "Él está saltando." Визуализировать ошибки прогноза помогает таблица: ТЕКСТ СЛОВО 1 СЛОВО 2 СЛОВО 3 прогноз Эль это сальендо ссылка Эль это сальтандо правильный правильный замена Прогноз содержит 1 ошибку замены, 0 ошибок удаления и 0 ошибок вставки. Итак, WER для этого примера: WER = 1 + 0 + 0 / 3 = 1/3 = 0.33 Должно быть очевидно, что коэффициент ошибок в словах не обязательно говорит нам о том, какие именно ошибки существуют. В приведенном выше примере WER определяет, что содержит ошибку в прогнозируемом тексте, но не сообщает нам, что символы и в прогнозе неверны. Другие показатели, такие как частота ошибок символов («CER»), можно использовать для более точного анализа ошибок. СЛОВО 3 i e Создание блокнота точной настройки Теперь вы готовы приступить к созданию блокнота для точной настройки. и помогут вам настроить среду Kaggle Notebook. Шаг 1 Шаг 2 поможет вам создать сам блокнот. Он содержит 32 подэтапа, представляющих 32 ячейки блокнота точной настройки. Шаг 3 поможет вам запустить блокнот, отслеживать обучение и сохранить модель. Шаг 4 Шаг 1. Получите ключ API WandB. Ваш блокнот Kaggle должен быть настроен для отправки данных тренировочного запуска в WandB с использованием вашего ключа API WandB. Для этого вам нужно его скопировать. Войдите в WandB на . www.wandb.com Перейдите по адресу . www.wandb.ai/authorize Скопируйте ключ API для использования на следующем шаге. Шаг 2. Настройка среды Kaggle Шаг 2.1 — Создание нового блокнота Kaggle Войдите в Каггл. Создайте новый блокнот Kaggle. Конечно, название записной книжки можно изменить по желанию. В этом руководстве используется имя ноутбука . xls-r-300m-chilean-spanish-asr Шаг 2.2. Настройка ключа API WandB будет использоваться для безопасного хранения вашего ключа API WandB. Секрет Kaggle Нажмите в главном меню Kaggle Notebook. «Дополнения» Выберите во всплывающем меню. «Секрет» Введите метку в поле и введите ключ API WandB для этого значения. WANDB_API_KEY «Метка» Убедитесь, что флажок слева от поля метки установлен. «Прикреплено» WANDB_API_KEY Нажмите . Готово Шаг 2.3 — Добавление наборов обучающих данных был загружен в Kaggle в виде двух отдельных наборов данных: Набор речевых данных чилийского испанского языка Записи чилийских динамиков-мужчин Записи выступлений чилийских женщин Добавьте оба этих набора данных в свой блокнот Kaggle. Шаг 3. Создание блокнота точной настройки Следующие 32 подэтапа строят каждую из 32 ячеек блокнота точной настройки по порядку. Шаг 3.1. ЯЧЕЙКА 1. Установка пакетов. Первая ячейка блокнота тонкой настройки устанавливает зависимости. Установите первую ячейку: ### CELL 1: Install Packages ### !pip install --upgrade torchaudio !pip install jiwer Первая строка обновляет пакет до последней версии. будет использоваться для загрузки аудиофайлов и повторной выборки аудиоданных. torchaudio torchaudio Вторая строка устанавливает пакет , который необходим для использования метода библиотеки HuggingFace , который будет использоваться позже. jiwer load_metric Datasets Шаг 3.2. ЯЧЕЙКА 2. Импорт пакетов Python Вторая ячейка импортирует необходимые пакеты Python. Установите вторую ячейку: ### CELL 2: Import Python packages ### import wandb from kaggle_secrets import UserSecretsClient import math import re import numpy as np import pandas as pd import torch import torchaudio import json from typing import Any, Dict, List, Optional, Union from dataclasses import dataclass from datasets import Dataset, load_metric, load_dataset, Audio from transformers import Wav2Vec2CTCTokenizer from transformers import Wav2Vec2FeatureExtractor from transformers import Wav2Vec2Processor from transformers import Wav2Vec2ForCTC from transformers import TrainingArguments from transformers import Trainer Вероятно, вы уже знакомы с большинством этих пакетов. Их использование в тетради будет объяснено по мере построения последующих ячеек. Стоит отметить, что библиотека HuggingFace и связанные с ней классы обеспечивают основу функциональности, используемой для точной настройки. transformers Wav2Vec2* Шаг 3.3. ЯЧЕЙКА 3. Загрузка метрики WER Третья ячейка импортирует метрику оценки HuggingFace WER. Установите третью ячейку на: ### CELL 3: Load WER metric ### wer_metric = load_metric("wer") Как упоминалось ранее, WER будет использоваться для измерения производительности модели на основе оценочных/отложенных данных. Шаг 3.4 — CELL 4: Вход в WandB Четвертая ячейка извлекает ваш секрет , который был установлен на . Установите четвертую ячейку: WANDB_API_KEY шаге 2.2 ### CELL 4: Login to WandB ### user_secrets = UserSecretsClient() wandb_api_key = user_secrets.get_secret("WANDB_API_KEY") wandb.login(key = wandb_api_key) Ключ API используется для настройки Kaggle Notebook, чтобы данные обучающего запуска отправлялись в WandB. Шаг 3.5 — ЯЧЕЙКА 5: Установка констант Пятая ячейка задает константы, которые будут использоваться во всей записной книжке. Установите пятую ячейку на: ### CELL 5: Constants ### # Training data TRAINING_DATA_PATH_MALE = "/kaggle/input/google-spanish-speakers-chile-male/" TRAINING_DATA_PATH_FEMALE = "/kaggle/input/google-spanish-speakers-chile-female/" EXT = ".wav" NUM_LOAD_FROM_EACH_SET = 1600 # Vocabulary VOCAB_FILE_PATH = "/kaggle/working/" SPECIAL_CHARS = r"[\d\,\-\;\!\¡\?\¿\।\'\'\"\–\'\:\/\.\“\”\৷\…\‚\॥\\]" # Sampling rates ORIG_SAMPLING_RATE = 48000 TGT_SAMPLING_RATE = 16000 # Training/validation data split SPLIT_PCT = 0.10 # Model parameters MODEL = "facebook/wav2vec2-xls-r-300m" USE_SAFETENSORS = False # Training arguments OUTPUT_DIR_PATH = "/kaggle/working/xls-r-300m-chilean-spanish-asr" TRAIN_BATCH_SIZE = 18 EVAL_BATCH_SIZE = 10 TRAIN_EPOCHS = 30 SAVE_STEPS = 3200 EVAL_STEPS = 100 LOGGING_STEPS = 100 LEARNING_RATE = 1e-4 WARMUP_STEPS = 800 В блокноте не отражены все мыслимые константы в этой ячейке. Некоторые значения, которые могли быть представлены константами, остались встроенными. Использование многих из приведенных выше констант должно быть самоочевидным. Если это не так, их использование будет объяснено в следующих подэтапах. Шаг 3.6. ЯЧЕЙКА 6. Служебные методы для чтения индексных файлов, очистки текста и создания словаря Шестая ячейка определяет служебные методы для чтения индексных файлов набора данных (см. подраздел выше), а также для очистки текста транскрипции и создания словаря. Установите шестую ячейку на: «Набор обучающих данных» ### CELL 6: Utility methods for reading index files, cleaning text, and creating vocabulary ### def read_index_file_data(path: str, filename: str): data = [] with open(path + filename, "r", encoding = "utf8") as f: lines = f.readlines() for line in lines: file_and_text = line.split("\t") data.append([path + file_and_text[0] + EXT, file_and_text[1].replace("\n", "")]) return data def truncate_training_dataset(dataset: list) -> list: if type(NUM_LOAD_FROM_EACH_SET) == str and "all" == NUM_LOAD_FROM_EACH_SET.lower(): return else: return dataset[:NUM_LOAD_FROM_EACH_SET] def clean_text(text: str) -> str: cleaned_text = re.sub(SPECIAL_CHARS, "", text) cleaned_text = cleaned_text.lower() return cleaned_text def create_vocab(data): vocab_list = [] for index in range(len(data)): text = data[index][1] words = text.split(" ") for word in words: chars = list(word) for char in chars: if char not in vocab_list: vocab_list.append(char) return vocab_list Метод считывает индексный файл набора данных и создает список списков с именем аудиофайла и данными транскрипции, например: read_index_file_data line_index.tsv [ ["/kaggle/input/google-spanish-speakers-chile-male/clm_08421_01719502739", "Es un viaje de negocios solamente voy por una noche"] ... ] Метод усекает данные файла индекса списка, используя константу , установленную на . В частности, константа используется для указания количества аудиосэмплов, которые должны быть загружены из каждого набора данных. Для целей данного руководства число установлено равным что означает, что в конечном итоге будет загружено в общей сложности аудиосэмплов. Чтобы загрузить все образцы, установите для строковое значение . truncate_training_dataset NUM_LOAD_FROM_EACH_SET шаге 3.5 NUM_LOAD_FROM_EACH_SET 1600 3200 NUM_LOAD_FROM_EACH_SET all Метод используется для удаления каждой текстовой транскрипции символов, указанных в регулярном выражении, присвоенном на . Эти символы, включая знаки препинания, можно исключить, поскольку они не несут никакой семантической ценности при обучении модели изучению сопоставлений между звуковыми функциями и транскрипцией текста. clean_text SPECIAL_CHARS шаге 3.5 Метод создает словарь из чистой текстовой транскрипции. Проще говоря, он извлекает все уникальные символы из набора очищенных текстовых транскрипций. Вы увидите пример сгенерированного словаря на . create_vocab шаге 3.14 Шаг 3.7 — CELL 7: Служебные методы для загрузки и повторной выборки аудиоданных Седьмая ячейка определяет служебные методы, использующие для загрузки и повторной выборки аудиоданных. Установите седьмую ячейку: torchaudio ### CELL 7: Utility methods for loading and resampling audio data ### def read_audio_data(file): speech_array, sampling_rate = torchaudio.load(file, normalize = True) return speech_array, sampling_rate def resample(waveform): transform = torchaudio.transforms.Resample(ORIG_SAMPLING_RATE, TGT_SAMPLING_RATE) waveform = transform(waveform) return waveform[0] Метод загружает указанный аудиофайл и возвращает многомерную матрицу аудиоданных вместе с частотой дискретизации аудио. Все аудиофайлы в обучающих данных имеют частоту дискретизации Гц. Эта «исходная» частота дискретизации фиксируется константой на . read_audio_data torch.Tensor 48000 ORIG_SAMPLING_RATE шаге 3.5 Метод используется для понижения частоты дискретизации аудиоданных с частоты дискретизации от до . wav2vec2 предварительно обучается на аудио, выбранном с частотой Гц. Соответственно, любой звук, используемый для точной настройки, должен иметь одинаковую частоту дискретизации. В этом случае примеры аудио необходимо уменьшить с Гц до Гц. Гц фиксируется константой на . resample 48000 16000 16000 48000 16000 16000 TGT_SAMPLING_RATE шаге 3.5 Шаг 3.8 — ЯЧЕЙКА 8: Служебные методы для подготовки данных для обучения Восьмая ячейка определяет служебные методы, которые обрабатывают данные аудио и транскрипции. Установите восьмую ячейку: ### CELL 8: Utility methods to prepare input data for training ### def process_speech_audio(speech_array, sampling_rate): input_values = processor(speech_array, sampling_rate = sampling_rate).input_values return input_values[0] def process_target_text(target_text): with processor.as_target_processor(): encoding = processor(target_text).input_ids return encoding возвращает входные значения из предоставленной обучающей выборки. process_speech_audio кодирует каждую текстовую транскрипцию как список меток, то есть список индексов, ссылающихся на символы в словаре. Вы увидите образец кодировки на . process_target_text шаге 3.15 Шаг 3.9 — ЯЧЕЙКА 9: Служебный метод для расчета частоты ошибок в словах Девятая ячейка является последней ячейкой служебного метода и содержит метод расчета частоты ошибок в словах между эталонной транскрипцией и прогнозируемой транскрипцией. Установите девятую ячейку на: ### CELL 9: Utility method to calculate Word Error Rate def compute_wer(pred): pred_logits = pred.predictions pred_ids = np.argmax(pred_logits, axis = -1) pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id pred_str = processor.batch_decode(pred_ids) label_str = processor.batch_decode(pred.label_ids, group_tokens = False) wer = wer_metric.compute(predictions = pred_str, references = label_str) return {"wer": wer} Шаг 3.10 — ЯЧЕЙКА 10: Чтение обучающих данных Десятая ячейка считывает индексные файлы обучающих данных для записей выступающих мужчин и записей говорящих женщин с использованием метода определенного на . Установите десятую ячейку: read_index_file_data шаге 3.6 ### CELL 10: Read training data ### training_samples_male_cl = read_index_file_data(TRAINING_DATA_PATH_MALE, "line_index.tsv") training_samples_female_cl = read_index_file_data(TRAINING_DATA_PATH_FEMALE, "line_index.tsv") Как видно, на данный момент данные обучения хранятся в двух списках с разбивкой по полу. Данные будут объединены на после усечения. шаге 3.12 Шаг 3.11 — ЯЧЕЙКА 11: Усечение обучающих данных Одиннадцатая ячейка усекает списки обучающих данных с помощью метода определенного на . Установите одиннадцатую ячейку на: truncate_training_dataset шаге 3.6 ### CELL 11: Truncate training data ### training_samples_male_cl = truncate_training_dataset(training_samples_male_cl) training_samples_female_cl = truncate_training_dataset(training_samples_female_cl) Напомним, что константа , установленная на определяет количество сохраняемых выборок из каждого набора данных. В этом руководстве для константы установлено значение , всего выборок. NUM_LOAD_FROM_EACH_SET шаге 3.5, 1600 3200 Шаг 3.12. ЯЧЕЙКА 12: Объединение данных обучающих выборок Двенадцатая ячейка объединяет усеченные списки обучающих данных. Установите двенадцатую ячейку: ### CELL 12: Combine training samples data ### all_training_samples = training_samples_male_cl + training_samples_female_cl Шаг 3.13 — ЯЧЕЙКА 13: Тест на очистку транскрипции Тринадцатая ячейка перебирает каждую выборку обучающих данных и очищает связанный текст транскрипции с помощью метода определенного на . Установите тринадцатую ячейку на: clean_text шаге 3.6 for index in range(len(all_training_samples)): all_training_samples[index][1] = clean_text(all_training_samples[index][1]) Шаг 3.14 — ЯЧЕЙКА 14: Создание словаря Четырнадцатая ячейка создает словарь, используя очищенные транскрипции из предыдущего шага и метод определенный в . Установите четырнадцатую ячейку на: create_vocab шаге 3.6 ### CELL 14: Create vocabulary ### vocab_list = create_vocab(all_training_samples) vocab_dict = {v: i for i, v in enumerate(vocab_list)} Словарь хранится в виде словаря с символами в качестве ключей и индексами словаря в качестве значений. Вы можете напечатать , который должен выдать следующий результат: vocab_dict {'l': 0, 'a': 1, 'v': 2, 'i': 3, 'g': 4, 'e': 5, 'n': 6, 'c': 7, 'd': 8, 't': 9, 'u': 10, 'r': 11, 'j': 12, 's': 13, 'o': 14, 'h': 15, 'm': 16, 'q': 17, 'b': 18, 'p': 19, 'y': 20, 'f': 21, 'z': 22, 'á': 23, 'ú': 24, 'í': 25, 'ó': 26, 'é': 27, 'ñ': 28, 'x': 29, 'k': 30, 'w': 31, 'ü': 32} Шаг 3.15 — ЯЧЕЙКА 15: Добавление разделителя слов в словарь Пятнадцатая ячейка добавляет символ-разделитель слов к словарю. Установите пятнадцатую ячейку на: | ### CELL 15: Add word delimiter to vocabulary ### vocab_dict["|"] = len(vocab_dict) Символ-разделитель слов используется при токенизации транскрипции текста в виде списка меток. В частности, он используется для определения конца слова и при инициализации класса , как будет показано в . Wav2Vec2CTCTokenizer шаге 3.17 Например, следующий список кодирует с использованием словаря из : no te entiendo nada шага 3.14 # Encoded text [6, 14, 33, 9, 5, 33, 5, 6, 9, 3, 5, 6, 8, 14, 33, 6, 1, 8, 1] # Vocabulary {'l': 0, 'a': 1, 'v': 2, 'i': 3, 'g': 4, 'e': 5, 'n': 6, 'c': 7, 'd': 8, 't': 9, 'u': 10, 'r': 11, 'j': 12, 's': 13, 'o': 14, 'h': 15, 'm': 16, 'q': 17, 'b': 18, 'p': 19, 'y': 20, 'f': 21, 'z': 22, 'á': 23, 'ú': 24, 'í': 25, 'ó': 26, 'é': 27, 'ñ': 28, 'x': 29, 'k': 30, 'w': 31, 'ü': 32, '|': 33} Естественно может возникнуть вопрос: «Почему необходимо определять символ-разделитель слов?» Например, в письменном английском и испанском языках конец слов отмечается пробелом, поэтому использовать пробел в качестве разделителя слов не составит труда. Помните, что английский и испанский — всего лишь два языка из тысяч; и не во всех письменных языках для обозначения границ слов используется пробел. Шаг 3.16 — ЯЧЕЙКА 16: Экспорт словаря Шестнадцатая ячейка записывает словарь в файл. Установите шестнадцатую ячейку на: ### CELL 16: Export vocabulary ### with open(VOCAB_FILE_PATH + "vocab.json", "w", encoding = "utf8") as vocab_file: json.dump(vocab_dict, vocab_file) Файл словаря будет использоваться на следующем шаге, , для инициализации класса . шаге 3.17 Wav2Vec2CTCTokenizer Шаг 3.17 — ЯЧЕЙКА 17: Инициализация токенизатора Семнадцатая ячейка инициализирует экземпляр . Установите семнадцатую ячейку на: Wav2Vec2CTCTokenizer ### CELL 17: Initialize tokenizer ### tokenizer = Wav2Vec2CTCTokenizer( VOCAB_FILE_PATH + "vocab.json", unk_token = "[UNK]", pad_token = "[PAD]", word_delimiter_token = "|", replace_word_delimiter_char = " " ) Токенизатор используется для кодирования текстовых транскрипций и декодирования списка меток обратно в текст. Обратите внимание, что инициализируется с помощью , назначенного для , и назначенного для , причем первый используется для представления неизвестных токенов в текстовых транскрипциях, а второй используется для дополнения транскрипций при создании пакетов транскрипций разной длины. Эти два значения будут добавлены в словарь токенизатором. tokenizer [UNK] unk_token [PAD] pad_token Инициализация токенизатора на этом этапе также добавит в словарь два дополнительных токена, а именно и , которые используются для разграничения начала и конца предложений соответственно. / на этом этапе явно присваивается , чтобы отразить, что символ вертикальной черты будет использоваться для обозначения конца слов в соответствии с добавлением символа в словарь на . символ — это значение по умолчанию для . Таким образом, его не нужно было задавать явно, но это было сделано для ясности. | word_delimiter_token шаге 3.15 | word_delimiter_token Как и в случае с , для явно назначается один пробел, что отражает тот факт, что символ вертикальной черты будет использоваться для замены пробелов в текстовых транскрипциях. Пустое пространство является значением по умолчанию для . Таким образом, его также не нужно было задавать явно, но это было сделано для ясности. word_delimiter_token replace_word_delimiter_char | replace_word_delimiter_char Вы можете распечатать полный словарь токенизатора, вызвав метод в . get_vocab() tokenizer vocab = tokenizer.get_vocab() print(vocab) # Output: {'e': 0, 's': 1, 'u': 2, 'n': 3, 'v': 4, 'i': 5, 'a': 6, 'j': 7, 'd': 8, 'g': 9, 'o': 10, 'c': 11, 'l': 12, 'm': 13, 't': 14, 'y': 15, 'p': 16, 'r': 17, 'h': 18, 'ñ': 19, 'ó': 20, 'b': 21, 'q': 22, 'f': 23, 'ú': 24, 'z': 25, 'é': 26, 'í': 27, 'x': 28, 'á': 29, 'w': 30, 'k': 31, 'ü': 32, '|': 33, ' ': 34, ' ': 35, '[UNK]': 36, '[PAD]': 37} Шаг 3.18 — ЯЧЕЙКА 18: Инициализация средства извлечения функций Восемнадцатая ячейка инициализирует экземпляр . Установите восемнадцатую ячейку: Wav2Vec2FeatureExtractor ### CELL 18: Initialize feature extractor ### feature_extractor = Wav2Vec2FeatureExtractor( feature_size = 1, sampling_rate = 16000, padding_value = 0.0, do_normalize = True, return_attention_mask = True ) Средство извлечения признаков используется для извлечения признаков из входных данных, которыми в данном случае, конечно же, являются аудиоданные. Вы загрузите аудиоданные для каждого образца обучающих данных на . шаге 3.20 Все значения параметров, передаваемые инициализатору , являются значениями по умолчанию, за исключением , который по умолчанию имеет значение . Значения по умолчанию показаны/передаются для ясности. Wav2Vec2FeatureExtractor return_attention_mask False Параметр определяет размерность входных объектов (т. е. функций аудиоданных). Значение этого параметра по умолчанию — . feature_size 1 сообщает экстрактору функций частоту дискретизации, с которой аудиоданные должны быть оцифрованы. Как обсуждалось в , wav2vec2 предварительно обучается на аудио, выбранном с частотой Гц, и, следовательно, является значением по умолчанию для этого параметра. sampling_rate шаге 3.7 16000 16000 Параметр указывает значение, которое используется при дополнении аудиоданных, что требуется при пакетной обработке аудиосэмплов различной длины. Значение по умолчанию — . padding_value 0.0 используется, чтобы указать, следует ли преобразовать входные данные к стандартному нормальному распределению. Значение по умолчанию . В документации класса отмечается, что «[нормализация] может помочь значительно улучшить производительность некоторых моделей». do_normalize True Wav2Vec2FeatureExtractor Параметры указывают, следует ли передавать маску внимания или нет. Для этого варианта использования установлено значение . return_attention_mask True Шаг 3.19 — ЯЧЕЙКА 19: Инициализация процессора Девятнадцатая ячейка инициализирует экземпляр . Установите девятнадцатую ячейку на: Wav2Vec2Processor ### CELL 19: Initialize processor ### processor = Wav2Vec2Processor(feature_extractor = feature_extractor, tokenizer = tokenizer) Класс объединяет и из и соответственно в один процессор. Wav2Vec2Processor tokenizer feature_extractor шагов 3.17 3.18 Обратите внимание, что конфигурацию процессора можно сохранить, вызвав метод в экземпляре класса . save_pretrained Wav2Vec2Processor processor.save_pretrained(OUTPUT_DIR_PATH) Шаг 3.20 — ЯЧЕЙКА 20: Загрузка аудиоданных Двадцатая ячейка загружает каждый аудиофайл, указанный в списке . Установите двадцатую ячейку на: all_training_samples ### CELL 20: Load audio data ### all_input_data = [] for index in range(len(all_training_samples)): speech_array, sampling_rate = read_audio_data(all_training_samples[index][0]) all_input_data.append({ "input_values": speech_array, "labels": all_training_samples[index][1] }) Аудиоданные возвращаются в виде и сохраняются в в виде списка словарей. Каждый словарь содержит аудиоданные для определенного образца, а также текстовую транскрипцию аудио. torch.Tensor all_input_data Обратите внимание, что метод также возвращает частоту дискретизации аудиоданных. Поскольку мы знаем, что в этом случае частота дискретизации для всех аудиофайлов составляет Гц, частота дискретизации на этом этапе игнорируется. read_audio_data 48000 Шаг 3.21. ЯЧЕЙКА 21: преобразование в кадр данных Pandas all_input_data Двадцать первая ячейка преобразует список в DataFrame Pandas, чтобы упростить манипулирование данными. Установите двадцать первую ячейку на: all_input_data ### CELL 21: Convert audio training data list to Pandas DataFrame ### all_input_data_df = pd.DataFrame(data = all_input_data) Шаг 3.22 — ЯЧЕЙКА 22: обработка аудиоданных и текстовой транскрипции Двадцать вторая ячейка использует , инициализированный на для извлечения признаков из каждого образца аудиоданных и кодирования каждой текстовой транскрипции в виде списка меток. Установите двадцать вторую ячейку на: processor шаге 3.19, ### CELL 22: Process audio data and text transcriptions ### all_input_data_df["input_values"] = all_input_data_df["input_values"].apply(lambda x: process_speech_audio(resample(x), 16000)) all_input_data_df["labels"] = all_input_data_df["labels"].apply(lambda x: process_target_text(x)) Шаг 3.23. ЯЧЕЙКА 23: разделение входных данных на наборы данных обучения и проверки. Двадцать третья ячейка разбивает DataFrame на наборы данных обучения и оценки (проверки), используя константу из . Установите двадцать третью ячейку на: all_input_data_df SPLIT_PCT шага 3.5 ### CELL 23: Split input data into training and validation datasets ### split = math.floor((NUM_LOAD_FROM_EACH_SET * 2) * SPLIT_PCT) valid_data_df = all_input_data_df.iloc[-split:] train_data_df = all_input_data_df.iloc[:-split] В этом руководстве значение равно что означает, что 10 % всех входных данных будут храниться для оценки, а 90 % данных будут использоваться для обучения/тонкой настройки. SPLIT_PCT 0.10 Поскольку всего имеется 3200 обучающих выборок, 320 выборок будут использоваться для оценки, а остальные 2880 образцов будут использоваться для точной настройки модели. Шаг 3.24. ЯЧЕЙКА 24: преобразование наборов данных обучения и проверки в объекты Dataset Двадцать четвертая ячейка преобразует кадры данных и в объекты . Установите двадцать четвертую ячейку на: train_data_df valid_data_df Dataset ### CELL 24: Convert training and validation datasets to Dataset objects ### train_data = Dataset.from_pandas(train_data_df) valid_data = Dataset.from_pandas(valid_data_df) Объекты используются экземплярами класса HuggingFace , как вы увидите на . Dataset Trainer шаге 3.30 Эти объекты содержат метаданные о наборе данных, а также сам набор данных. Вы можете распечатать и , чтобы просмотреть метаданные для обоих объектов . train_data valid_data Dataset print(train_data) print(valid_data) # Output: Dataset({ features: ['input_values', 'labels'], num_rows: 2880 }) Dataset({ features: ['input_values', 'labels'], num_rows: 320 }) Шаг 3.25 — ЯЧЕЙКА 25: Инициализация предварительно обученной модели Двадцать пятая ячейка инициализирует предварительно обученную модель XLS-R (0,3). Установите двадцать пятую ячейку на: ### CELL 25: Initialize pretrained model ### model = Wav2Vec2ForCTC.from_pretrained( MODEL, ctc_loss_reduction = "mean", pad_token_id = processor.tokenizer.pad_token_id, vocab_size = len(processor.tokenizer) ) Метод , вызываемый в указывает, что мы хотим загрузить предварительно обученные веса для указанной модели. from_pretrained Wav2Vec2ForCTC Константа была указана на и имела значение что соответствует модели XLS-R (0.3). MODEL шаге 3.5 facebook/wav2vec2-xls-r-300m Параметр указывает тип сокращения, применяемого к выходным данным функции потерь коннекционистской временной классификации («CTC»). Потери CTC используются для расчета потерь между непрерывным вводом, в данном случае аудиоданными, и целевой последовательностью, в данном случае транскрипцией текста. Если установить значение , выходные потери для пакета входов будут разделены на целевые длины. Затем рассчитывается среднее значение по партии, и уменьшение применяется к значениям потерь. ctc_loss_reduction mean указывает токен, который будет использоваться для заполнения при пакетной обработке. Ему присваивается идентификатор , установленный при инициализации токенизатора на . pad_token_id [PAD] шаге 3.17 Параметр определяет размер словаря модели. Это размер словаря после инициализации токенизатора на , который отражает количество узлов выходного уровня прямой части сети. vocab_size шаге 3.17 Шаг 3.26. ЯЧЕЙКА 26: замораживание весов экстрактора функций Двадцать шестая ячейка замораживает предварительно обученные веса экстрактора признаков. Установите двадцать шестую ячейку на: ### CELL 26: Freeze feature extractor ### model.freeze_feature_extractor() Шаг 3.27 — ЯЧЕЙКА 27: Установка аргументов обучения Двадцать седьмая ячейка инициализирует аргументы обучения, которые будут переданы экземпляру . Установите двадцать седьмую ячейку на: Trainer ### CELL 27: Set training arguments ### training_args = TrainingArguments( output_dir = OUTPUT_DIR_PATH, save_safetensors = False, group_by_length = True, per_device_train_batch_size = TRAIN_BATCH_SIZE, per_device_eval_batch_size = EVAL_BATCH_SIZE, num_train_epochs = TRAIN_EPOCHS, gradient_checkpointing = True, evaluation_strategy = "steps", save_strategy = "steps", logging_strategy = "steps", eval_steps = EVAL_STEPS, save_steps = SAVE_STEPS, logging_steps = LOGGING_STEPS, learning_rate = LEARNING_RATE, warmup_steps = WARMUP_STEPS ) Класс принимает более . TrainingArguments 100 параметров Параметр , имеющий значение указывает, что точно настроенная модель должна быть сохранена в файле вместо использования формата . save_safetensors False pickle safetensors Параметр , когда указывает, что образцы примерно одинаковой длины должны быть сгруппированы вместе. Это сводит к минимуму заполнение и повышает эффективность тренировки. group_by_length True устанавливает количество выборок на обучающий мини-пакет. Для этого параметра установлено значение с помощью константы назначенной на . Это подразумевает 160 шагов за эпоху. per_device_train_batch_size 18 TRAIN_BATCH_SIZE шаге 3.5 устанавливает количество выборок на мини-пакет оценки (удержания). Для этого параметра установлено значение с помощью константы назначенной на . per_device_eval_batch_size 10 EVAL_BATCH_SIZE шаге 3.5 устанавливает количество эпох обучения. Для этого параметра установлено значение с помощью константы назначенной на . Это подразумевает 4800 общих шагов во время тренировки. num_train_epochs 30 TRAIN_EPOCHS шаге 3.5 Параметр , когда помогает экономить память путем расчета градиента контрольных точек, но приводит к более медленным обратным проходам. gradient_checkpointing True Если для параметра установлено значение это означает, что оценка будет выполняться и регистрироваться во время обучения с интервалом, указанным параметром . evaluation_strategy steps eval_steps Если для параметра установлено значение это означает, что статистика обучающего запуска будет записываться с интервалом, указанным параметром . logging_strategy steps logging_steps Если для параметра установлено это означает, что контрольная точка точно настроенной модели будет сохраняться с интервалом, указанным параметром . save_strategy steps save_steps устанавливает количество шагов между оценками контрольных данных. Для этого параметра установлено значение с помощью константы , назначенной на . eval_steps 100 EVAL_STEPS шаге 3.5 устанавливает количество шагов, после которых сохраняется контрольная точка точно настроенной модели. Для этого параметра установлено значение с помощью константы , назначенной на . save_steps 3200 SAVE_STEPS шаге 3.5 устанавливает количество шагов между журналами статистики обучающего запуска. Для этого параметра установлено значение с помощью константы , назначенной на . logging_steps 100 LOGGING_STEPS шаге 3.5 Параметр устанавливает начальную скорость обучения. Этот параметр имеет значение с помощью константы , назначенной на . learning_rate 1e-4 LEARNING_RATE шаге 3.5 Параметр задает количество шагов для линейного повышения скорости обучения от 0 до значения, установленного . Этот параметр имеет значение с помощью константы , назначенной на . warmup_steps learning_rate 800 WARMUP_STEPS шаге 3.5 Шаг 3.28 — ЯЧЕЙКА 28: Определение логики сопоставления данных Двадцать восьмая ячейка определяет логику динамического заполнения входных и целевых последовательностей. Установите двадцать восьмую ячейку на: ### CELL 28: Define data collator logic ### @dataclass class DataCollatorCTCWithPadding: processor: Wav2Vec2Processor padding: Union[bool, str] = True max_length: Optional[int] = None max_length_labels: Optional[int] = None pad_to_multiple_of: Optional[int] = None pad_to_multiple_of_labels: Optional[int] = None def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]: input_features = [{"input_values": feature["input_values"]} for feature in features] label_features = [{"input_ids": feature["labels"]} for feature in features] batch = self.processor.pad( input_features, padding = self.padding, max_length = self.max_length, pad_to_multiple_of = self.pad_to_multiple_of, return_tensors = "pt", ) with self.processor.as_target_processor(): labels_batch = self.processor.pad( label_features, padding = self.padding, max_length = self.max_length_labels, pad_to_multiple_of = self.pad_to_multiple_of_labels, return_tensors = "pt", ) labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100) batch["labels"] = labels return batch Пары входных меток обучения и оценки передаются мини-пакетами в экземпляр , который будет инициализирован на мгновение на . Поскольку входные последовательности и последовательности меток различаются по длине в каждом мини-пакете, некоторые последовательности необходимо дополнить, чтобы все они имели одинаковую длину. Trainer шаге 3.30 Класс динамически дополняет мини-пакетные данные. Параметр , если ему присвоено значение указывает, что более короткие последовательности функций аудиовхода и последовательности меток должны иметь ту же длину, что и самая длинная последовательность в мини-пакете. DataCollatorCTCWithPadding padding True Функции аудиовхода дополняются значением установленным при инициализации экстрактора функций на . 0.0 шаге 3.18 Входные метки сначала дополняются значением заполнения, установленным при инициализации токенизатора на . Эти значения заменяются на , поэтому эти метки игнорируются при вычислении метрики WER. шаге 3.17 -100 Шаг 3.29 — ЯЧЕЙКА 29: Инициализация экземпляра сопоставителя данных Двадцать девятая ячейка инициализирует экземпляр средства сортировки данных, определенного на предыдущем шаге. Установите двадцать девятую ячейку на: ### CELL 29: Initialize instance of data collator ### data_collator = DataCollatorCTCWithPadding(processor = processor, padding = True) Шаг 3.30 — CELL 30: Инициализация трейнера Тридцатая ячейка инициализирует экземпляр класса . Установите тридцатую ячейку на: Trainer ### CELL 30: Initialize trainer ### trainer = Trainer( model = model, data_collator = data_collator, args = training_args, compute_metrics = compute_wer, train_dataset = train_data, eval_dataset = valid_data, tokenizer = processor.feature_extractor ) Как видно, класс инициализируется с помощью: Trainer Предварительно обученная , инициализированная на . model шаге 3.25 Устройство сортировки данных, инициализированное на . шаге 3.29 Аргументы обучения, инициализированные на . шаге 3.27 Метод оценки WER, определенный в . шаге 3.9 Объект из . Dataset train_data шага 3.24 Объект из . Dataset valid_data шага 3.24 Параметр назначается и работает с для автоматического дополнения входных данных до входных данных максимальной длины каждого мини-пакета. tokenizer processor.feature_extractor data_collator Шаг 3.31 — ЯЧЕЙКА 31: Точная настройка модели Тридцать первая ячейка вызывает метод экземпляра класса для точной настройки модели. Установите тридцать первую ячейку на: train Trainer ### CELL 31: Finetune the model ### trainer.train() Шаг 3.32 — ЯЧЕЙКА 32: Сохраните настроенную модель. Тридцать вторая ячейка — последняя ячейка блокнота. Он сохраняет настроенную модель, вызывая метод в экземпляре . Установите тридцать вторую ячейку на: save_model Trainer ### CELL 32: Save the finetuned model ### trainer.save_model(OUTPUT_DIR_PATH) Шаг 4 — Обучение и сохранение модели Шаг 4.1 — Обучение модели Теперь, когда все ячейки блокнота собраны, пришло время приступить к тонкой настройке. Настройте ноутбук Kaggle для работы с ускорителем . NVIDIA GPU P100 Зафиксируйте блокнот на Kaggle. Отслеживайте данные тренировочного прогона, войдя в свою учетную запись WandB и найдя соответствующий прогон. Обучение в течение 30 эпох должно занять около 5 часов с использованием ускорителя NVIDIA GPU P100. WER для неактивных данных должен упасть до ~0,15 в конце обучения. Это не совсем современный результат, но точно настроенная модель по-прежнему достаточно полезна для многих приложений. Шаг 4.2 — Сохранение модели Точно настроенная модель будет выведена в каталог Kaggle, указанный константой указанной в . Выходные данные модели должны включать следующие файлы: OUTPUT_DIR_PATH шаге 3.5 pytorch_model.bin config.json preprocessor_config.json vocab.json training_args.bin Эти файлы можно загрузить локально. Кроме того, вы можете создать новую используя файлы модели. будет использоваться вместе с сопутствующим руководством по выводу для выполнения вывода на основе точно настроенной модели. модель Kaggle, Модель Kaggle Войдите в свою учетную запись Kaggle. Нажмите > . «Модели» «Новая модель» Добавьте заголовок для вашей точно настроенной модели в поле . «Название модели» Нажмите « . Создать модель» Нажмите « . Перейти на страницу сведений о модели» Нажмите в разделе . «Добавить новый вариант» «Вариации модели» Выберите в меню выбора . Трансформеры Framework Нажмите . «Добавить новый вариант» Перетащите файлы точно настроенной модели в окно . Либо нажмите кнопку , чтобы открыть окно проводника и выбрать файлы точно настроенной модели. «Загрузить данные» «Обзор файлов» После загрузки файлов в Kaggle нажмите , чтобы создать . «Создать» модель Kaggle Заключение Поздравляем с тонкой настройкой wav2vec2 XLS-R! Помните, что вы можете использовать эти общие шаги для точной настройки модели на других языках, которые вам нужны. Сделать вывод на основе точно настроенной модели, созданной в этом руководстве, довольно просто. Этапы вывода будут изложены в отдельном сопутствующем руководстве к этому руководству. Пожалуйста, выполните поиск по моему имени пользователя HackerNoon, чтобы найти сопутствующее руководство.