-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path03_intro.tex
81 lines (55 loc) · 23.9 KB
/
03_intro.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
\documentclass[12pt]{book}
\usepackage[utf8]{inputenc}
\usepackage[T1,T2A]{fontenc}
\usepackage{graphicx}
\usepackage{setspace}
\usepackage{enumitem}
\setstretch{1.0}
\usepackage{geometry}
\usepackage{caption}
\usepackage[labelsep=period]{caption}
\geometry{a4paper, portrait, left=30mm, right=15mm, top=20mm, bottom=20mm, bindingoffset=0mm}
\usepackage[english,russian]{babel}
\usepackage[export]{adjustbox}
\usepackage{xcolor}
\usepackage{titlesec}
\titleformat{\chapter}[block]{\large\bfseries\filcenter}{}{1em}{}
\titlespacing*{\chapter}{0pt}{0.0ex}{3.0ex}
\usepackage{indentfirst}
\usepackage{fancyhdr}
\fancyhf{}
\fancyfoot[C]{\large\thepage}
\renewcommand{\headrulewidth}{0pt}
\pagestyle{fancy}
\clearpage
\setcounter{page}{3}
\begin{document}
\chapter{\textsc{Введение}}
\thispagestyle{fancy}
\large{Известно, что голос человека содержит персональные характеристики диктора, зависящие от уникальных органов произношения и манеры речи говорящего, например, уникальные форма голосового тракта, размер гортани, акцент и ритм. Поэтому существует возможность идентифицировать диктора по его голосу автоматически с помощью компьютера. Эта технология называется \textit{автоматическим распознаванием диктора}\footnote{Bai Z., Zhang X.L. Speaker recognition based on deep learning: an overview // Neural Networks. -- 2021. -- V.~140. -- P.~65-99.}, которое является основной темой настоящей книги. \textit{Распознавание диктора} (англ. speaker recognition или voice recognition) или по-другому \textit{голосовая биометрия} (англ. voice biometrics) является фундаментальной задачей обработки речевых сигналов, которая находит применение в реальных практических кейсах. В качестве примера можно привести аутентификацию личности по голосу в персональных умных устройствах таких, как сотовые телефоны, планшеты, ноутбуки и т.п. Использование технологии голосовой биометрии гарантирует безопасность банковских транзакций, находит широкое применение в криминалистике при определении виновности/невиновности подозреваемого, является важным в системах информационного поиска, основанных на использовании аудио, а также может выступать вспомогательным элементом систем автоматического транскрибирования совещаний с несколькими говорящими.}
\large{Первые исследования в области голосовой биометрии можно датировать 60-ми годами 20-го века. В последующие сорок лет многие передовые технологии способствовали развитию области распознавания диктора. К ним можно отнести появление различных видов акустических признаков, например, мел-частотных кепстральных коэффициентов\footnote{Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Trans. Acoustics, Speech, and Signal Processing. -- 1980. -- V. 28. -- No.~4. -- P. 357-366.} (англ. mel-frequency cepstral coefficients, MFCCs), а также подходов сравнения голосовых шаблонов, основанных, например, на алгоритме динамической трансформации временной шкалы\footnote{Bellman R., Kalaba R. On adaptive control processes // IRE Trans. Automatic Control. -- 1959. -- V.~4. -- No.~2. -- P. 1–9.} (англ. dynamic time warping, DTW). Предложенная Дугласом Рэйнолдсом идея построения универсальной фоновой модели\footnote{Reynolds D.A. Comparison of background normalization methods for text-independent speaker verification // European Conf. Speech Communication and Technology (EUROSPEECH). -- 1997. -- P.~963-966.}, основанной на использовании модели гауссовой смеси (англ. gaussian mixture model based universal background model, GMM-UBM), заложила прочный фундамент для развития систем распознавания диктора в рамках первого и начала второго десятилетий 2000-х гг. Использование универсальной фоновой модели позволило разработать несколько мощных подходов к решению задачи распознавания диктора, основанных на применении машин опорных векторов\footnote{Campbell W.M., Sturim D.E., Reynolds D.A. Support vector machines using GMM supervectors for speaker verification // IEEE Signal Processing Letters. – 2006. -- V. 13. -- No. 5. -- P. 308-311.} (англ. support vector machines, SVM) и совместного факторного анализа\footnote{Kenny P., Dumouchel P. Disentangling speaker and channel effects in speaker verification // IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP). -- 2004. -- V. 1. -- P. I-37.} (англ. joint factor analysis, JFA). Пиком использования универсальной фоновой модели в задаче распознавания диктора явились алгоритмы построения голосовых шаблонов на основе i-векторов\footnote{Dehak N. et al. Support vector machines and joint factor analysis for speaker verification // IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP). -- 2009. -- P. 4237-4240.} (англ. i-vector), а также подходы к их сравнению, основанные на использовании вероятностного линейного дискриминатного анализа\footnote{Ioffe S. Probabilistic linear discriminant analysis // 9\textsuperscript{th} European Conf. Computer Vision (ECCV). -- 2006. -- Part IV 9. -- P. 531-542.} (англ. probabilistic linear discriminant analysis, PLDA). Голосовые шаблоны на основе i-векторов можно рассматривать в качестве первого эффективного описания голоса диктора, представленного в виде компактного высокоуровневого вектора, которые в течение нескольких лет позволяли получать лучшие результаты в рамках типовых бенчмарков до наступления эры глубокого обучения в области распознавания диктора. В период 2016--2018 гг. начали появляться первые научные публикации, в которых были предложены эффективные решения к построению голосовых шаблонов или дикторских эмбеддингов (англ. speaker embbeding), вычисляемых с помощью глубоких нейронных сетей\footnote{Snyder D. et al. X-vectors: robust DNN embeddings for speaker recognition // IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP). -- 2018. -- P. 5329-5333.}. Использование подходов глубокого обучения в области распознавания диктора привело к существенному улучшению качества работы систем голосовой биометрии, применяемых в сложных акустических условиях при наличии различных шумов и помех, в ситуациях, когда длительность речевого сигнала является достаточно короткой, а язык, на котором говорят дикторы, является произвольным. В~рамках настоящей книги представлен детальный обзор применения методов глубокого обучения по отношению к~решению задачи голосовой биометрии.}
\large{Распознавание диктора по голосу предполагает под собой решение двух основных задач\footnote{Hansen J.H.L., Hasan T. Speaker recognition by machines and humans: a tutorial review // IEEE Signal Processing Magazine. -- 2015. -- V. 32. -- No. 6. -- P. 74-99.\label{ftn:habsen_2015}}: получение биометрических образцов голоса от конечных пользователей и дальнейшее использование этих биометрических образцов. При этом можно выделить следующие режимы работы\textsuperscript{\ref{ftn:habsen_2015}} системы распознавания диктора:
\begin{itemize}[topsep=1pt] \itemsep0.1em
\item верификация (аутентификация) и идентификация;
\item распознавание на закрытом и открытом множествах;
\item текстозависимое и текстонезависимое распознавание.
\end{itemize}
В случае \textit{верификации} (англ. verification) диктор выдает себя за определенную личность, установление идентичности в данном случае выполняется с помощью оценки схожести между голосами в двух фонограммах (звукозаписях), что определяет этот режим сравнения как «один к одному». Выходом при этом является ответ «да» или «нет» об аутентичности голосов в двух фонограммах. В случае \textit{идентификации} (англ. identification) требуется отнести неизвестного диктора к одному из известных. Сравнение выполняется по принципу «один ко многим», а выходом является метка известного диктора, к которому отнесен неизвестный.
Когда все дикторы внутри заданного множества фонограмм являются известными, говорят о \textit{распознавании на закрытом множестве} (англ. close-set recognition). Если анализируемая тестовая фонограмма связана с диктором, который не принадлежит заранее определенной группе дикторов, говорят о \textit{распознавании на открытом множестве} (англ. open-set recognition). В случае, когда диктору требуется произнести некоторую заранее определённую фразу, необходимую для принятия решения биометрической системой, говорят о \textit{текстозависимом распознавания} (англ. англ. text-dependent recognition), иначе -- о \textit{текстонезависимом} (англ. text-independent recognition).
}
\large{Входом системы голосовой биометрии является некоторая звукозапись, которая претерпевает предварительную обработку в виде шумоочистки, определения областей речевой активности, выделения акустических признаков, например, мел-частотных кепстральных коэффициентов и т.п. В случае необходимости в общий конвейер может быть включен блок диаризации\footnote{Park T.J. et al. A review of speaker diarization: recent advances with deep learning // Computer Speech and Language. -- 2022. -- V. 72. – P. 101317.}, позволяющий разделить речевой сигнал на сегменты, в каждом из которых присутствует голос только одного диктора. При этом сегменты, связанные с одним и тем же диктором, маркируются на выходе блока диаризации общей меткой. Блок построения дикторской модели выполняет формирование некоторого дескриптора/эмбеддинга, привязанного к сегментам речи конкретного диктора анализируемой звукозаписи. Сформированные дикторские модели сравниваются с некоторым эталоном/некоторыми эталонами моделей дикторов, сохраненными в определённой базе данных. На основе результатов сравнений биометрическая система принимает итоговое решение.}
Материал настоящей книги охватывает подробное описание работы основных блоков конвейера голосовой биометрии. Каждая глава детально описывает работу одного из блоков конвейера. Необходимо отметить, что последовательность изложения материала в главах не всегда соответствует порядку следования блоков в конвейере голосовой биометрии. Например, устройство блока дикторской диаризации, который расположен практически в самом начале конвейера, разбирается ближе к концу книги. Последнее связано с тем, что устройство данного блока тесно связано с алгоритмами вычисления дикторских моделей, которые по материалу книгу излагаются раньше для удобства читателя.
\textbf{В первой главе} представлено общее введение в биометрические системы, сформулирована базовая терминология, позволяющая лучше понимать основное содержание книги. Кратко разбирается устройство конвейера голосовой биометрии. Сформулированы основные проблемы и нерешённые задачи в области распознавания диктора.
\textbf{Во второй главе} описаны алгоритмы предобработки данных, подаваемых на вход конвейера голосовой биометрии. Описана базовая терминология, связанная с предобработкой оцифрованных речевых сигналов во временной и частотной областях. Отдельное внимание уделено вычислению акустических признаков, а также устройству детектора речевой активности. Вводится понятие аугментации применительно к речевым сигналам.
\textbf{В третьей и четвёртой главах} рассматриваются классические алгоритмы вычисления дикторских моделей, построенные на базе универсальной фоновой модели, основанной на использовании модели гауссовой смеси, а также современные алгоритмы, базирующиеся на использовании глубоких нейронных сетей. Отдельное внимание уделяется описанию процедуры обучения нейронных сетей применительно к задаче распознавания диктора, а также процедуре построения дикторских моделей на основе трансформерных нейросетевых претрейнов.
\textbf{Пятая глава} посвящена описанию процедур сравнения дикторских моделей, основанных на использовании обычной косинусной метрики, а также более сложных подходов на основе вероятностного линейного дискриминантного анализа. Представлено описание процедуры сравнения дикторских моделей для нескольких эталонов и тестов.
\textbf{В шестой главе} представлены подходы к автоматическому выбору порога для принятия биометрического решения. Базовая терминология из теории принятия решений адаптирована под решение задачи распознавания диктора. Описаны основные критерии принятия решения.
\textbf{Седьмая глава} вводит основные метрики оценки качества, которые могут быть использованы для решения некоторых задач в области распознавания диктора. Даются определения субъективной и объективной оценок качества. Формулируется понятие протокола тестирования системы голосовой биометрии.
\textbf{Восьмая глава} посвящена обсуждению вопросов доменной адаптации, позволяющей выполнить точную настройку системы распознавания диктора под конкретный практический кейс для небольшого объёма обучающей выборки.
\textbf{В девятой главе} обсуждается вопрос калибровки системы голосовой биометрии. Вводится определение оптимального порога принятия решения, описывается значимость калиброванных оценок сравнения эталонных и тестовых дикторских моделей, а также приводится описание алгоритмов калибровки системы распознавания диктора.
\textbf{Десятая глава} посвящена изучение задачи дикторской диаризации. Рассматриваются классические подходы дикторской диаризации, основанные на использовании алгоритмов кластеризации, а также более современные, основанные на использовании нейронных сетей.
\textbf{Одиннадцатая глава} посвящена рассмотрению перспективные направлений развития голосовой биометрии, позволяя сформировать некоторый дополнительный кругозор у читателя настоящей книги.
\large{Книга обобщает многолетний опыт авторов и их коллег по разработке систем голосовой биометрии в ходе практической деятельности в Группе компаний ЦРТ, а также преподавания курса «Распознавание диктора» студентам факультета информационных технологий и программирования (ФИТиП) Университета ИТМО и является теоретическим дополнением к лабораторному практикуму\footnote{Методические указания к выполнению лабораторных работ по курсу
«Распознавание диктора» / В.А. Волохов [и др.] -- СПб: Университет ИТМО, 2022. -- 86 с.} указанного курса. Материал может быть использован при решении задач курсового и дипломного проектирования, для выполнения научных работ студентов и аспирантов, а также может быть полезен специалистам, заинтересованным в практическом использовании систем голосовой биометрии.}
\large{\textbf{Благодарности.} Выражаем благодарность нашим коллегам за помощь при создании книги. Мы благодарны Пеховскому Т.С., Шулипе~А.К., Козлову А.В., Румянцеву Д.А., Котову Т.О., которые оказали значительное влияние на формирование взглядов авторов в данном научном направлении. Эти взгляды формировались также в совместной работе с нашими коллегами Гусевым А.Е., Авдеевой А.С., Виноградовой А.Р., Корсуновым~И.С., Волковой М.В., Аусевым Е.В., Байкаловым Р.А., Дарьян~В.О., Логуновым А.А., Рязановым М.С., Малых С.Ю., Аникиным А.А., Кореневской А.М., Зорькиной А.А., Шаньгиной Е.А. Всем им авторы признательны за совместную научно-исследовательскую работу. Отдельно хочется поблагодарить Пояркову Н.В. за создание иллюстрации к обложке книги.}
\end{document}