Введение  Это сопутствующее руководство по   («Руководство по части 1»). Я написал руководство Части 1 о том, как точно настроить модель Meta AI   на чилийском испанском языке. Предполагается, что вы выполнили это руководство и создали собственную настроенную модель XLS-R. В этом руководстве будут описаны шаги по выполнению   на вашей точно настроенной модели XLS-R с помощью   . работе с wav2vec2. Часть 1. Точная настройка XLS-R для автоматического распознавания речи wav2vec2 XLS-R («XLS-R») вывода Kaggle Notebook  Предварительные условия и перед началом работы  Для завершения руководства вам потребуется:  Точно настроенная модель XLS-R для испанского языка.  Существующая   . учетная запись Kaggle  Среднее знание Python.  Умение работать с Kaggle Notebooks на среднем уровне.  Среднее знание концепций ML.  Базовые знания концепций ASR.  Создание блокнота для вывода  Шаг 1. Настройка среды Kaggle  Шаг 1.1 — Создание нового блокнота Kaggle  Войдите в Каггл.  Создайте новый блокнот Kaggle.  Название блокнота можно изменить по желанию. В этом руководстве используется имя записной книжки   . spanish-asr-inference  Шаг 1.2. Добавление наборов тестовых данных  В этом руководстве в качестве источника тестовых данных используется   . Как и   , набор данных о говорящих на перуанском языке также состоит из двух поднаборов данных: 2918 записей мужчин, говорящих на перуанском языке, и 2529 записей женщин, говорящих на перуанском языке. набор данных перуанской испанской речи набор данных о чилийской испанской речи  Этот набор данных был загружен в Kaggle как два отдельных набора данных:   Записи говорящих на перуанском языке мужчин   Записи выступлений перуанских женщин  Добавьте оба этих набора данных в свой блокнот Kaggle, нажав «   . Добавить ввод»  Шаг 1.3 — Добавление точно настроенной модели  Вы должны были сохранить свою точно настроенную модель на   руководства   как   . шаге 4 «Работа с wav2vec2, часть 1 — точная настройка XLS-R для автоматического распознавания речи» модель Kaggle  Добавьте свою настроенную модель в свой блокнот Kaggle, нажав «   . Добавить входные данные»  Шаг 2. Создание блокнота для вывода  Следующие 16 подэтапов строят каждую из 16 ячеек блокнота вывода по порядку. Вы заметите, что здесь используются многие из тех же служебных методов из руководства, часть 1.  Шаг 2.1. ЯЧЕЙКА 1. Установка пакетов.  Первая ячейка блокнота вывода устанавливает зависимости. Установите первую ячейку:   ### CELL 1: Install Packages ### !pip install --upgrade torchaudio !pip install jiwer  Шаг 2.2. ЯЧЕЙКА 2. Импорт пакетов Python  Вторая ячейка импортирует необходимые пакеты Python. Установите вторую ячейку:   ### CELL 2: Import Python packages ### import re import math import random import pandas as pd import torchaudio from datasets import load_metric from transformers import pipeline  Шаг 2.3. ЯЧЕЙКА 3. Загрузка метрики WER  Третья ячейка импортирует метрику оценки HuggingFace WER. Установите третью ячейку на:   ### CELL 3: Load WER metric ### wer_metric = load_metric("wer")  WER будет использоваться для измерения производительности точно настроенной модели на тестовых данных.  Шаг 2.4 — ЯЧЕЙКА 4: Установка констант  Четвертая ячейка задает константы, которые будут использоваться во всем блокноте. Установите четвертую ячейку:   ### CELL 4: Constants ### # Testing data TEST_DATA_PATH_MALE = "/kaggle/input/google-spanish-speakers-peru-male/" TEST_DATA_PATH_FEMALE = "/kaggle/input/google-spanish-speakers-peru-female/" EXT = ".wav" NUM_LOAD_FROM_EACH_SET = 3 # Special characters SPECIAL_CHARS = r"[\d\,\-\;\!\¡\?\¿\।\'\'\"\–\'\:\/\.\“\”\৷\…\‚\॥\\]" # Sampling rates ORIG_SAMPLING_RATE = 48000 TGT_SAMPLING_RATE = 16000  Шаг 2.5. ЯЧЕЙКА 5. Служебные методы для чтения индексных файлов, очистки текста и создания словаря  Пятая ячейка определяет служебные методы для чтения индексных файлов набора данных, а также для очистки текста транскрипции и генерации случайного набора выборок из тестовых данных. Установите пятую ячейку на:   ### CELL 5: Utility methods for reading index files, cleaning text, random indices generator ### def read_index_file_data(path: str, filename: str): data = [] with open(path + filename, "r", encoding = "utf8") as f: lines = f.readlines() for line in lines: file_and_text = line.split("\t") data.append([path + file_and_text[0] + EXT, file_and_text[1].replace("\n", "")]) return data def clean_text(text: str) -> str: cleaned_text = re.sub(SPECIAL_CHARS, "", text) cleaned_text = cleaned_text.lower() return cleaned_text def get_random_samples(dataset: list, num: int) -> list: used = [] samples = [] for i in range(num): a = -1 while a == -1 or a in used: a = math.floor(len(dataset) * random.random()) samples.append(dataset[a]) used.append(a) return samples  Метод   считывает индексный файл набора данных   и создает список списков с именем аудиофайла и данными транскрипции, например: read_index_file_data line_index.tsv   [ ["/kaggle/input/google-spanish-speakers-chile-male/clm_08421_01719502739", "Es un viaje de negocios solamente voy por una noche"] ... ]  Метод   используется для удаления каждой текстовой транскрипции символов, указанных в регулярном выражении, присвоенном   на   . Эти символы, включая знаки препинания, можно исключить, поскольку они не несут никакой семантической ценности при обучении модели изучению сопоставлений между звуковыми функциями и транскрипцией текста. clean_text SPECIAL_CHARS шаге 2.4  Метод   возвращает набор случайных тестовых выборок с количеством, заданным константой   на   . get_random_samples NUM_LOAD_FROM_EACH_SET шаге 2.4  Шаг 2.6 — CELL 6: Служебные методы для загрузки и повторной выборки аудиоданных  Шестая ячейка определяет служебные методы, использующие   для загрузки и повторной выборки аудиоданных. Установите шестую ячейку на: torchaudio   ### CELL 7: Utility methods for loading and resampling audio data ### def read_audio_data(file): speech_array, sampling_rate = torchaudio.load(file, normalize = True) return speech_array, sampling_rate def resample(waveform): transform = torchaudio.transforms.Resample(ORIG_SAMPLING_RATE, TGT_SAMPLING_RATE) waveform = transform(waveform) return waveform[0]  Метод   загружает указанный аудиофайл и возвращает многомерную матрицу   аудиоданных вместе с частотой дискретизации аудио. Все аудиофайлы в обучающих данных имеют частоту дискретизации   Гц. Эта «исходная» частота дискретизации фиксируется константой   на   . read_audio_data torch.Tensor 48000 ORIG_SAMPLING_RATE шаге 2.4  Метод   используется для понижения частоты дискретизации аудиоданных с частоты дискретизации   до целевой частоты дискретизации   . resample 48000 16000  Шаг 2.7 — ЯЧЕЙКА 7: Чтение тестовых данных  Седьмая ячейка считывает индексные файлы тестовых данных для записей выступающих мужчин и записей говорящих женщин с использованием метода   определенного на   . Установите седьмую ячейку: read_index_file_data шаге 2.5   ### CELL 7: Read test data ### test_data_male = read_index_file_data(TEST_DATA_PATH_MALE, "line_index.tsv") test_data_female = read_index_file_data(TEST_DATA_PATH_FEMALE, "line_index.tsv")  Шаг 2.8 — ЯЧЕЙКА 8: Создание списков случайных тестовых образцов  Восьмая ячейка генерирует наборы случайных тестовых выборок с использованием метода   определенного на   . Установите восьмую ячейку: get_random_samples шаге 2.5   ### CELL 8: Generate lists of random test samples ### random_test_samples_male = get_random_samples(test_data_male, NUM_LOAD_FROM_EACH_SET) random_test_samples_female = get_random_samples(test_data_female, NUM_LOAD_FROM_EACH_SET)  Шаг 2.9 — ЯЧЕЙКА 9: Объединение тестовых данных  Девятая ячейка объединяет тестовые образцы мужского и женского пола в единый список. Установите девятую ячейку на:   ### CELL 9: Combine test data ### all_test_samples = random_test_samples_male + random_test_samples_female  Шаг 2.10 – ЯЧЕЙКА 10: Тест на очистку транскрипции  Десятая ячейка перебирает каждый образец тестовых данных и очищает связанный текст транскрипции с помощью метода   определенного на   . Установите десятую ячейку: clean_text шаге 2.5   ### CELL 10: Clean text transcriptions ### for index in range(len(all_test_samples)): all_test_samples[index][1] = clean_text(all_test_samples[index][1])  Шаг 2.11 — ЯЧЕЙКА 11: Загрузка аудиоданных  Одиннадцатая ячейка загружает каждый аудиофайл, указанный в списке   . Установите одиннадцатую ячейку на: all_test_samples   ### CELL 11: Load audio data ### all_test_data = [] for index in range(len(all_test_samples)): speech_array, sampling_rate = read_audio_data(all_test_samples[index][0]) all_test_data.append({ "raw": speech_array, "sampling_rate": sampling_rate, "target_text": all_test_samples[index][1] })  Аудиоданные возвращаются в виде   и сохраняются в   в виде списка словарей. Каждый словарь содержит аудиоданные для определенного семпла, частоту дискретизации и текстовую транскрипцию аудио. torch.Tensor all_test_data  Шаг 2.12 — ЯЧЕЙКА 12: Передискретизация аудиоданных  Двенадцатая ячейка выполняет повторную дискретизацию аудиоданных до целевой частоты дискретизации   . Установите двенадцатую ячейку на: 16000   ### CELL 12: Resample audio data and cast to NumPy arrays ### all_test_data = [{"raw": resample(sample["raw"]).numpy(), "sampling_rate": TGT_SAMPLING_RATE, "target_text": sample["target_text"]} for sample in all_test_data]  Шаг 2.13. ЯЧЕЙКА 13: Инициализация экземпляра конвейера автоматического распознавания речи  Тринадцатая ячейка инициализирует экземпляр класса   библиотеки   HuggingFace. Установите тринадцатую ячейку на: pipeline transformer   ### CELL 13: Initialize instance of Automatic Speech Recognition Pipeline ### transcriber = pipeline("automatic-speech-recognition", model = "YOUR_FINETUNED_MODEL_PATH")  В качестве параметра   необходимо указать путь к   настроенной модели, добавленной в блокнот Kaggle на   , например: model вашей шаге 1.3   transcriber = pipeline("automatic-speech-recognition", model = "/kaggle/input/xls-r-300m-chilean-spanish/transformers/hardy-pine/1")  Шаг 2.14 — ЯЧЕЙКА 14: Создание прогнозов  Четырнадцатая ячейка вызывает   , инициализированный на предыдущем этапе на тестовых данных, для генерации текстовых прогнозов. Установите четырнадцатую ячейку на: transcriber   ### CELL 14: Generate transcriptions ### transcriptions = transcriber(all_test_data)  Шаг 2.15. ЯЧЕЙКА 15. Расчет показателей WER  Пятнадцатая ячейка вычисляет баллы WER для каждого прогноза, а также общий балл WER для всех прогнозов. Установите пятнадцатую ячейку на:   ### CELL 15: Calculate WER metrics ### predictions = [transcription["text"] for transcription in transcriptions] references = [transcription["target_text"][0] for transcription in transcriptions] wers = [] for p in range(len(predictions)): wer = wer_metric.compute(predictions = [predictions[p]], references = [references[p]]) wers.append(wer) zipped = list(zip(predictions, references, wers)) df = pd.DataFrame(zipped, columns=["Prediction", "Reference", "WER"]) wer = wer_metric.compute(predictions = predictions, references = references)  Шаг 2.16 — ЯЧЕЙКА 16: Печать метрик WER  В шестнадцатой и последней ячейке просто печатаются расчеты WER, полученные на предыдущем шаге. Установите шестнадцатую ячейку на:   ### CELL 16: Output WER metrics ### pd.set_option("display.max_colwidth", None) print(f"Overall WER: {wer}") print(df)  WER-анализ  Поскольку блокнот генерирует прогнозы на основе случайных выборок тестовых данных, выходные данные будут меняться при каждом запуске блокнота. Следующие выходные данные были созданы при запуске блокнота с   , установленным на   , всего для 6 тестовых образцов: NUM_LOAD_FROM_EACH_SET 3   Overall WER: 0.013888888888888888 Prediction \ 0 quiero que me reserves el mejor asiento del teatro 1 el llano en llamas es un clásico de juan rulfo 2 el cuadro de los alcatraces es una de las pinturas más famosas de diego rivera 3 hay tres cafés que están abiertos hasta las once de la noche 4 quiero que me recomiendes una dieta pero donde uno pueda comer algo no puras verduras 5 cuántos albergues se abrieron después del terremoto del diecinueve de setiembre Reference \ 0 quiero que me reserves el mejor asiento del teatro 1 el llano en llamas es un clásico de juan rulfo 2 el cuadro de los alcatraces es una de las pinturas más famosas de diego rivera 3 hay tres cafés que están abiertos hasta las once de la noche 4 quiero que me recomiendes una dieta pero donde uno pueda comer algo no puras verduras 5 cuántos albergues se abrieron después del terremoto del diecinueve de septiembre WER 0 0.000000 1 0.000000 2 0.000000 3 0.000000 4 0.000000 5 0.090909  Как видно, модель справилась со своей задачей на отлично! Он допустил только одну ошибку в шестом образце (индекс   ), неправильно написав слово   как   . Конечно, повторный запуск ноутбука с другими тестовыми образцами и, что более важно, с большим количеством тестовых образцов даст другие и более информативные результаты. Тем не менее, эти ограниченные данные позволяют предположить, что модель может хорошо работать на разных диалектах испанского языка — то есть она была обучена на чилийском испанском языке, но, похоже, хорошо работает на перуанском испанском языке. 5 septiembre setiembre  Заключение  Если вы только учитесь работать с моделями wav2vec2, я надеюсь, что руководство   и это руководство были для вас полезны. Как уже упоминалось, уточненная модель, созданная в руководстве Части 1, не совсем современна, но все же должна оказаться полезной для многих приложений. Приятного строительства! «Работа с wav2vec2, часть 1 — точная настройка XLS-R для автоматического распознавания речи»

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Read My Stories

Этот звук создан на языке оригинала истории!

Слишком долго; Читать

Make resilience your competitive advantage

Работа с wav2vec2. Часть 2. Выполнение вывода на точно настроенных моделях ASR

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Нажмите, чтобы заработать: Telegram может привлечь следующие 10 миллиардов пользователей криптовалюты до Соланы

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Нажмите, чтобы заработать: Telegram может привлечь следующие 10 миллиардов пользователей криптовалюты до Соланы

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps