Технический срез · для C-level

Единый AI-pipeline

33 AI-фичи строятся на трёх слоях. Один транскрипт работает и на автора (главы, обложки, шортсы), и на зрителя (поиск, чат, дубляж) — не дублируя инфраструктуру.

Layer 1 · Inputs

Видео автора

Загрузка через кабинет

Запрос зрителя

Поиск, чат, помощник

Layer 2 · Единый AI-стек · 15+ ML-моделей

ASR

Speech-to-text 50+ языков

NMT

Neural machine translation

TTS + Voice Clone

Lip-sync на 30+ языков

Embeddings + RAG

Векторный поиск, чат

CV + CTR-predict

Обложки, hook-детекция

LLM

Названия, главы, тезисы

Layer 3 · 33 продуктовых фичи

Главы и таймкоды

Зритель + автор

A15 · V10

Семантический поиск

Поиск внутри видео

V01 · V07

AI-чат и суммаризация

Вопрос → ответ

V02 · V08 · A09

Дубляж и субтитры

90+ языков

V03 · A03 · A17

Обложки + предикт

4 варианта, A/B

A02 · A08

Шортсы и нарезка

5–7 клипов 9:16

A04 · A12

Названия и описания

AI-публикация

A01 · A14

Денойз и стилизация

Качество звука / эффекты

A06 · A11

Почему это технически реалистично

Один стек, не 33 проекта

Все фичи переиспользуют общий ASR-пайплайн и общую инфраструктуру эмбеддингов. Это снижает суммарный TCO на ~40%.

Горизонтальное масштабирование

Каждая ML-модель — независимый сервис. Volume → шардинг по аудитории, без переписывания кода фич.

Готовые модели + fine-tuning

Стартуем на собственном ASR RUTUBE + open-source NMT (NLLB) и TTS (ElevenLabs API), к Q2 2027 — собственные модели на данных RUTUBE.

Технологический стек

ML / AI

· Собственный ASR RUTUBE
· NLLB / Marian (NMT)
· ElevenLabs / Bark (TTS + voice clone)
· OpenAI / Anthropic / Yandex GPT (LLM)
· OpenCLIP / VideoLLaVA (VLM)
· pgvector / Qdrant (Vector DB)

Инфраструктура

· GPU-кластер (А100/H100, ~8 нод на старт)
· Object storage для аудио и эмбеддингов
· Kafka / RabbitMQ для очередей обработки
· Kubernetes + автоскейлинг
· Triton / vLLM (inference)
· Prometheus + Grafana (мониторинг)

На главную