О глоссарии
В этом глоссарии собраны ключевые термины и понятия, связанные с оцифровкой языков, обработкой естественного языка и языковыми технологиями. Глоссарий поможет вам лучше понять материалы нашей базы знаний и ориентироваться в технической документации.
Каждый термин сопровождается кратким и понятным объяснением, а также отнесен к одной или нескольким тематическим категориям. Для удобства навигации используйте алфавитный указатель или поиск по ключевым словам.
Термины и определения
А
ASR (Automatic Speech Recognition)
Автоматическое распознавание речи — технология, преобразующая устную речь в текст. Используется в голосовых помощниках, системах диктовки и голосовых интерфейсах. Современные системы ASR основаны на нейронных сетях и глубоком обучении, в частности на моделях типа Wav2Vec2 и Whisper.
Attention (Механизм внимания)
Ключевой компонент современных языковых моделей, позволяющий нейронной сети фокусироваться на разных частях входных данных с разной степенью интенсивности. В моделях трансформеров используется механизм самовнимания (self-attention), который позволяет каждому токену "обращать внимание" на все другие токены в последовательности.
Б
BERT (Bidirectional Encoder Representations from Transformers)
Языковая модель, разработанная Google, которая использует двунаправленное обучение трансформеров для более глубокого понимания контекста слов. BERT предобучается на задачах маскированного языкового моделирования и предсказания следующего предложения, что позволяет ей лучше понимать контекст и значение слов в тексте.
В
Выравнивание (Alignment)
Процесс сопоставления соответствующих элементов в параллельных данных. В машинном переводе это сопоставление предложений на разных языках, в синтезе речи — сопоставление фрагментов текста с соответствующими фрагментами аудио. Качественное выравнивание критично для обучения точных моделей перевода и синтеза речи.
Г
GPT (Generative Pre-trained Transformer)
Семейство генеративных языковых моделей на основе архитектуры трансформер, разработанное OpenAI. Модели GPT предобучаются на больших объемах текстовых данных для предсказания следующего слова в контексте и могут генерировать связные тексты, переводить, отвечать на вопросы и решать различные языковые задачи.
Д
Дообучение (Fine-tuning)
Процесс адаптации предварительно обученной модели к конкретной задаче или домену данных. В контексте языковых моделей дообучение позволяет специализировать общую модель для определенного языка, диалекта или предметной области с использованием относительно небольшого набора специализированных данных.
К
Корпус (Corpus)
Структурированная коллекция текстов на определенном языке, используемая для различных лингвистических исследований и обучения моделей обработки естественного языка. Корпуса могут быть общего назначения (отражающие широкий спектр языковых явлений) или специализированные (фокусирующиеся на конкретной предметной области или типе текста).
Л
LLM (Large Language Model)
Большая языковая модель — это современная нейронная сеть, обученная на огромных массивах текстовых данных для понимания и генерации естественного языка. LLM могут переводить тексты, отвечать на вопросы, создавать различные типы контента и выполнять множество других задач, связанных с языком. Примеры LLM включают GPT-4, Claude, Gemini и Llama.
М
Машинный перевод (Machine Translation, MT)
Автоматизированный процесс перевода текста с одного языка на другой с помощью компьютерных алгоритмов. Современный машинный перевод основан на нейронных сетях (NMT, Neural Machine Translation) и использует архитектуру энкодер-декодер с механизмом внимания. Примеры систем: Google Translate, DeepL, Яндекс.Переводчик.
О
OCR (Optical Character Recognition)
Оптическое распознавание символов — технология, позволяющая преобразовывать различные типы документов (сканированные бумажные документы, PDF-файлы, изображения) в редактируемый и поддающийся поиску текст. Современные OCR-системы используют глубокое обучение и компьютерное зрение для более точного распознавания текста, включая сложные шрифты и рукописный текст.
П
Параллельный корпус (Parallel Corpus)
Коллекция текстов, содержащая оригинальные тексты и их переводы на один или несколько языков, где каждый текст выровнен со своими переводами на уровне предложений или абзацев. Параллельные корпуса являются ключевым ресурсом для обучения систем машинного перевода, позволяя моделям изучать соответствия между языками.
Промпт-инжиниринг (Prompt Engineering)
Методика создания эффективных инструкций (промптов) для языковых моделей, которые направляют модель на выполнение определенных задач. Включает в себя структурирование запросов, использование примеров (few-shot learning), и другие техники, которые помогают получить от модели желаемый результат без изменения самой модели.
С
Синтез речи (Text-to-Speech, TTS)
Технология преобразования текста в естественно звучащую речь. Современные системы синтеза речи используют нейронные сети для создания человекоподобного голоса с правильной интонацией, ударениями и эмоциональной окраской. Популярные архитектуры включают Tacotron, Fastspeech и VITS.
Т
Токенизация (Tokenization)
Процесс разделения текста на минимальные значимые единицы, называемые токенами, для обработки языковыми моделями. Токены могут быть словами, частями слов или отдельными символами. Современные модели часто используют подсловную токенизацию (например, BPE или WordPiece), которая разбивает редкие слова на более мелкие фрагменты.
Трансферное обучение (Transfer Learning)
Методика машинного обучения, при которой модель, обученная на одной задаче, используется как стартовая точка для другой задачи. В контексте языковых технологий это позволяет адаптировать большие модели, обученные на многоязычных данных, к конкретным языкам или диалектам, используя значительно меньшие объемы данных.
Трансформер (Transformer)
Архитектура нейронной сети, представленная в статье «Attention Is All You Need» (2017), которая произвела революцию в обработке естественного языка. Ключевой особенностью трансформеров является механизм самовнимания (self-attention), позволяющий моделировать зависимости между всеми словами в предложении. На основе трансформеров созданы такие модели как BERT, GPT, T5.
TTS (Text-to-Speech)
Смотрите "Синтез речи".
У
Unicode
Международный стандарт кодирования символов, обеспечивающий единообразное представление текста независимо от платформы, программы или языка. Unicode включает более 140,000 символов, охватывающих большинство письменных языков мира, а также математические символы, эмодзи и другие знаки. Для языков, не представленных в Unicode, существует процедура подачи заявки на добавление новых символов.
Х
Hugging Face
Платформа и сообщество для разработки и обмена моделями машинного обучения для обработки естественного языка. Hugging Face предоставляет библиотеку Transformers для работы с предобученными моделями, хранилище Models Hub для публикации и скачивания моделей, и Datasets для доступа к набору данных для обучения. Платформа стала стандартом для обмена моделями NLP в открытом доступе.
Э
Эмбеддинги (Embeddings)
Векторные представления слов, предложений или текстов в многомерном пространстве, где семантически близкие элементы располагаются рядом. Эмбеддинги позволяют моделям "понимать" значение и контекст текста, улавливать смысловые отношения между словами. Используются в различных задачах обработки естественного языка, включая поиск, классификацию и генерацию текста.