⚡ WHATTOINFER_V1.0

▤ КАК_ЗАРАБОТАТЬ_НА_AI-ИНФЕРЕНСЕ

ПОЛНЫЙ_ГАЙД: ОТ_ВЫБОРА_ЖЕЛЕЗА_ДО_ПЕРВОГО_ЗАРАБОТКА

🤖 ЧТО_ТАКОЕ_AI-ИНФЕРЕНС?

AI-инференс — это процесс запуска обученных нейросетей (LLM) на своём оборудовании для генерации текста, кода или изображений. Проще говоря: вы устанавливаете модель на свой компьютер с мощной видеокартой и «продаёте» её вычислительную мощность через API.

Когда пользователь отправляет запрос — ваша GPU обрабатывает его и генерирует ответ. За каждый обработанный токен (примерно 4 символа текста) вы получаете оплату.

Это похоже на майнинг криптовалют, но вместо хешей вы генерируете текст. И спрос на AI-инференс растёт быстрее, чем на майнинг.

💰 КАК_НА_ЭТОМ_ЗАРАБАТЫВАЮТ?

Есть несколько способов монетизации своего GPU через инференс:

  • API-провайдеры — подключаетесь к платформам вроде OpenRouter, Together AI или Runpod и обрабатываете запросы пользователей. Оплата за токены.
  • Собственный API — поднимаете vLLM или Ollama сервер и продаёте доступ напрямую.
  • Децентрализованные сети — Akash, Render Network, io.net — присоединяете своё GPU к пулу и получаете вознаграждение.

АНАЛОГИЯ_С_МАЙНИНГОМ: Вместо решения математических задач ваше GPU генерирует текст. Вместо блок-реварда вы получаете оплату за токены. Вместо пула майнеров — API-провайдер.

🖥️ КАКОЕ_ЖЕЛЕЗО_НУЖНО?

Самое важное — VRAM (видеопамять). Чем больше VRAM, тем более крупные и дорогие модели вы можете запускать. Скорость генерации (tokens/sec) зависит от пропускной способности памяти (bandwidth).

ТОП-5 GPU ДЛЯ НАЧИНАЮЩИХ:

Больше GPU → ПОЛНЫЙ_КАТАЛОГ_ЖЕЛЕЗА

🏆 КАКИЕ_МОДЕЛИ_САМЫЕ_ПРИБЫЛЬНЫЕ?

Прибыльность модели зависит от цены за токен на рынке и скорости генерации на вашем GPU. Вот топ-5 моделей по стоимости выходных токенов:

Цены указаны в $ за 1 миллион выходных токенов (OpenRouter).

📋 ПОШАГОВЫЙ_ГАЙД

1

УСТАНОВИТЕ_RUNTIME

Выберите один из популярных runtime для запуска моделей:

  • Ollama — самый простой вариант. Одна команда для установки и запуска.
  • vLLM — максимальная производительность. Paged Attention, continuous batching.
  • llama.cpp — для CPU или маломощных GPU. Квантизация GGUF.

# Установка Ollama

curl -fsSL https://ollama.com/install.sh | sh

# Запуск модели

ollama run llama3.1:8b

2

ВЫБЕРИТЕ_МОДЕЛЬ

Модель должна помещаться в VRAM вашей видеокарты. Используйте квантизацию (q4, q8) для экономии памяти:

  • 8-12 ГБ VRAM: модели до 7B (Llama 3.1 8B, Qwen 3 8B, Gemma 2 9B)
  • 16-24 ГБ VRAM: модели до 13B (Llama 3.1 13B, Command R)
  • 48+ ГБ VRAM: модели 70B+ (Llama 3.1 70B, Mistral Large)
3

ПОДКЛЮЧИТЕСЬ_К_API-ПРОВАЙДЕРУ

Зарегистрируйтесь на платформе и начните получать запросы:

  • OpenRouter — крупнейший маркетплейс моделей, легко начать
  • Together AI — ориентирован на open-source модели
  • Runpod — аренда и предоставление GPU для инференса
  • io.net — децентрализованная GPU-сеть
4

НАСТРОЙТЕ_СЕРВЕР

# vLLM — запуск OpenAI-совместимого сервера

pip install vllm

vllm serve meta-llama/Llama-3.1-8B-Instruct \

--port 8000 --max-model-len 8192

5

МОНИТОРЬТЕ_ПРОФИТ

Отслеживайте доход, расход электричества и ROI. Используйте наш калькулятор для оценки прибыльности разных конфигураций.

☁ ОБЛАЧНЫЙ_ИНФЕРЕНС_В_РОССИИ

Если нет собственного GPU — можно арендовать в российских облаках. Это также подходит для масштабирования: запустить несколько инстансов с мощными A100/H100.

🏦

Cloud.ru (Сбер)

ML Space, суперкомпьютер Christofari. A100, V100, T4.

💻

Selectel

Bare-metal GPU серверы. A100, H100. Полный контроль.

🟡

Yandex Cloud

DataSphere для ML. A100, V100, T4. YandexGPT API.

Подробное сравнение цен и фич → ОБЛАЧНЫЕ_ПРОВАЙДЕРЫ

⚡ РАССЧИТАЙТЕ_ВАШ_ПРОФИТ

Выберите ваше GPU, модель и стоимость электричества — и узнайте, сколько можно заработать на AI-инференсе.

ОТКРЫТЬ_КАЛЬКУЛЯТОР →