На главнуюНа главную
Технический срез · для C-level
Единый AI-pipeline
33 AI-фичи строятся на трёх слоях. Один транскрипт работает и на автора (главы, обложки, шортсы), и на зрителя (поиск, чат, дубляж) — не дублируя инфраструктуру.
Layer 1 · Inputs
Видео автора
Загрузка через кабинет
Запрос зрителя
Поиск, чат, помощник
Layer 2 · Единый AI-стек · 15+ ML-моделей
ASR
Speech-to-text 50+ языков
NMT
Neural machine translation
TTS + Voice Clone
Lip-sync на 30+ языков
Embeddings + RAG
Векторный поиск, чат
CV + CTR-predict
Обложки, hook-детекция
LLM
Названия, главы, тезисы
Layer 3 · 33 продуктовых фичи
Главы и таймкоды
Зритель + автор
A15 · V10
Семантический поиск
Поиск внутри видео
V01 · V07
AI-чат и суммаризация
Вопрос → ответ
V02 · V08 · A09
Дубляж и субтитры
90+ языков
V03 · A03 · A17
Обложки + предикт
4 варианта, A/B
A02 · A08
Шортсы и нарезка
5–7 клипов 9:16
A04 · A12
Названия и описания
AI-публикация
A01 · A14
Денойз и стилизация
Качество звука / эффекты
A06 · A11
Почему это технически реалистично
Один стек, не 33 проекта
Все фичи переиспользуют общий ASR-пайплайн и общую инфраструктуру эмбеддингов. Это снижает суммарный TCO на ~40%.
Горизонтальное масштабирование
Каждая ML-модель — независимый сервис. Volume → шардинг по аудитории, без переписывания кода фич.
Готовые модели + fine-tuning
Стартуем на собственном ASR RUTUBE + open-source NMT (NLLB) и TTS (ElevenLabs API), к Q2 2027 — собственные модели на данных RUTUBE.
Технологический стек
ML / AI
- · Собственный ASR RUTUBE
- · NLLB / Marian (NMT)
- · ElevenLabs / Bark (TTS + voice clone)
- · OpenAI / Anthropic / Yandex GPT (LLM)
- · OpenCLIP / VideoLLaVA (VLM)
- · pgvector / Qdrant (Vector DB)
Инфраструктура
- · GPU-кластер (А100/H100, ~8 нод на старт)
- · Object storage для аудио и эмбеддингов
- · Kafka / RabbitMQ для очередей обработки
- · Kubernetes + автоскейлинг
- · Triton / vLLM (inference)
- · Prometheus + Grafana (мониторинг)