Введение
Зачем нужна оцифровка языка?
Узнайте о важности цифрового присутствия для сохранения и развития языков в современном мире.
ЧитатьОбщий обзор процесса
Посмотрите на весь путь оцифровки языка: от начальной идеи до готовых технологических продуктов.
ЧитатьГлоссарий терминов
Не знакомы с терминами ASR, TTS, корпус, Hugging Face? Здесь мы объясняем основные понятия.
ЧитатьЭтап 1: Шрифты и Клавиатуры
Символы Unicode
Инструкция: как проверить наличие символов вашего языка в Unicode и куда обращаться для их добавления.
Читать руководствоСоздание клавиатур (Desktop)
Пошаговые инструкции по созданию раскладок клавиатуры для Windows, macOS и Linux.
Читать руководствоЗаказ мобильных клавиатур
К кому обратиться для создания клавиатур для iOS и Android, что для этого нужно и примерные расценки.
Читать руководствоЭтап 2: Сбор и Подготовка Данных
Оцифровка текстов (OCR)
Как превратить бумажные книги и документы в цифровой текст с помощью FineReader, Vision LLM и других ML-моделей.
Читать руководствоСоздание монокорпуса
Очистка и форматирование оцифрованных текстов для создания качественного текстового корпуса.
Читать руководствоПараллельные корпуса
Где искать параллельные тексты и как использовать инструменты для автоматического выравнивания предложений.
Читать руководствоВалидация выравнивания
Быстрая проверка качества автоматически выровненных параллельных текстов с помощью волонтеров (например, через Telegram-бот).
Читать руководствоЗапись аудио для TTS
Требования к оборудованию, помещению, дикции и процессу записи голоса для синтеза речи.
Читать руководствоСбор данных для ASR
Методы сбора аудио для распознавания речи: использование Common Voice, запись по готовым текстам.
Читать руководствоЗагрузка на Hugging Face
Как подготовить и загрузить ваши датасеты (текстовые и аудио) на платформу Hugging Face. (Есть платный инструмент для автоматизации!).
Читать руководствоЭтап 3: Обучение Моделей (Своими руками)
Обучение ASR (Распознавание речи)
Обзор популярных моделей (Wav2Vec2, Whisper), ссылки на код и инструкции для самостоятельного обучения.
Читать руководствоОбучение TTS (Синтез речи)
Обзор подходов (Tacotron, VITS), их плюсы/минусы, ссылки на код и инструкции по обучению.
Читать руководствоОбучение MT (Машинный перевод)
Основы нейронного машинного перевода (NMT), ссылки на код и пошаговые инструкции.
Читать руководствоСоздание спелчекеров
Подходы и инструменты для создания систем проверки орфографии для вашего языка.
Читать руководствоУпростите обучение!
Для всех этих задач (ASR, TTS, MT) у нас есть платные инструменты, которые позволяют обучать модели без программирования, просто указав датасет.
Узнать об инструментахЭтап 4: Применение Технологий
Идеи и возможности
Обзор того, как созданные модели ASR, TTS и MT могут быть использованы: умные помощники, перевод контента, образовательные приложения и т.д.
ЧитатьГотовые решения
Узнайте о наших готовых продуктах (умная колонка, перевод видео), которые могут использовать ваши обученные модели.
Посмотреть продукты