База Знаний - КодОдин

Введение

Зачем нужна оцифровка языка?

Узнайте о важности цифрового присутствия для сохранения и развития языков в современном мире.

Читать

Общий обзор процесса

Посмотрите на весь путь оцифровки языка: от начальной идеи до готовых технологических продуктов.

Читать

Глоссарий терминов

Не знакомы с терминами ASR, TTS, корпус, Hugging Face? Здесь мы объясняем основные понятия.

Читать

Этап 1: Шрифты и Клавиатуры

Символы Unicode

Инструкция: как проверить наличие символов вашего языка в Unicode и куда обращаться для их добавления.

Читать руководство

Создание клавиатур (Desktop)

Пошаговые инструкции по созданию раскладок клавиатуры для Windows, macOS и Linux.

Читать руководство

Заказ мобильных клавиатур

К кому обратиться для создания клавиатур для iOS и Android, что для этого нужно и примерные расценки.

Читать руководство

Этап 2: Сбор и Подготовка Данных

Оцифровка текстов (OCR)

Как превратить бумажные книги и документы в цифровой текст с помощью FineReader, Vision LLM и других ML-моделей.

Читать руководство

Создание монокорпуса

Очистка и форматирование оцифрованных текстов для создания качественного текстового корпуса.

Читать руководство

Параллельные корпуса

Где искать параллельные тексты и как использовать инструменты для автоматического выравнивания предложений.

Читать руководство

Валидация выравнивания

Быстрая проверка качества автоматически выровненных параллельных текстов с помощью волонтеров (например, через Telegram-бот).

Читать руководство

Запись аудио для TTS

Требования к оборудованию, помещению, дикции и процессу записи голоса для синтеза речи.

Читать руководство

Сбор данных для ASR

Методы сбора аудио для распознавания речи: использование Common Voice, запись по готовым текстам.

Читать руководство

Загрузка на Hugging Face

Как подготовить и загрузить ваши датасеты (текстовые и аудио) на платформу Hugging Face. (Есть платный инструмент для автоматизации!).

Читать руководство

Этап 3: Обучение Моделей (Своими руками)

Обучение ASR (Распознавание речи)

Обзор популярных моделей (Wav2Vec2, Whisper), ссылки на код и инструкции для самостоятельного обучения.

Читать руководство

Обучение TTS (Синтез речи)

Обзор подходов (Tacotron, VITS), их плюсы/минусы, ссылки на код и инструкции по обучению.

Читать руководство

Обучение MT (Машинный перевод)

Основы нейронного машинного перевода (NMT), ссылки на код и пошаговые инструкции.

Читать руководство

Создание спелчекеров

Подходы и инструменты для создания систем проверки орфографии для вашего языка.

Читать руководство

Упростите обучение!

Для всех этих задач (ASR, TTS, MT) у нас есть платные инструменты, которые позволяют обучать модели без программирования, просто указав датасет.

Узнать об инструментах

Этап 4: Применение Технологий

Идеи и возможности

Обзор того, как созданные модели ASR, TTS и MT могут быть использованы: умные помощники, перевод контента, образовательные приложения и т.д.

Читать

Готовые решения

Узнайте о наших готовых продуктах (умная колонка, перевод видео), которые могут использовать ваши обученные модели.

Посмотреть продукты