tutoriales

Cómo correr tu propia IA local en 2026: guía paso a paso con Ollama y LM Studio (sin pagar un peso de suscripción)

tutoriales · 8 min de lectura (actualizado)

Cómo correr tu propia IA local en 2026: guía paso a paso con Ollama y LM Studio (sin pagar un peso de suscripción)

Tutorial completo para instalar y correr modelos de IA en tu PC sin internet, sin suscripciones y sin que nadie lea tus prompts. Desde el hardware que necesitas hasta tu primer chat local.

Cómo correr tu propia IA local en 2026: guía paso a paso con Ollama y LM Studio (sin pagar un peso de suscripción)

Imagínate tener tu propio ChatGPT corriendo en tu máquina, sin pagar suscripción, sin que nadie lea tus conversaciones y sin depender de que los servidores de OpenAI estén de buenas. En 2026 eso ya no es ciencia ficción: es un tutorial de 15 minutos.

La neta, la IA local ha madurado un chingo en el último año. Herramientas como Ollama (que acaba de soltar su versión 0.18.1 este mismísimo 18 de marzo) y LM Studio hacen que correr un modelo de lenguaje en tu PC sea tan fácil como instalar Spotify. Y no estamos hablando de modelos chafas: según la guía de SitePoint, los modelos locales de 8B parámetros ya rinden al 85-90% de lo que hace GPT-4 en tareas cotidianas.

¿La cereza del pastel? Tu información nunca sale de tu computadora. Cero nube, cero empresas leyendo tus prompts, cero drama.

¿Qué necesitas? El hardware mínimo (y el ideal)

Antes de emocionarte, hay que ser honestos: correr IA local no es gratis en términos de hardware. Pero tampoco necesitas vender un riñón.

Lo mínimo para empezar

ComponenteMínimoRecomendado
GPU (VRAM)8 GB12-16 GB
RAM del sistema16 GB32 GB DDR5
AlmacenamientoSSD NVMe 256 GBSSD NVMe 512 GB+
CPU6 núcleos8+ núcleos (Ryzen 7/Core i7)

La regla de oro según Nodiso es que la VRAM es el componente más crítico. No importa que tu GPU sea la más rápida del mundo si no tiene suficiente memoria para cargar el modelo. Con 8 GB de VRAM corres modelos de 7 mil millones de parámetros sin pedos. Con 12-16 GB ya entras al terreno de los modelos de 13-14B que son bastante más capaces.

¿Y en lana mexicana cuánto sale?

Según lo que encontramos en Amazon México y Mercado Libre en marzo 2026:

  • RTX 3060 12GB: desde $5,899 MXN en Mercado Libre (usada) hasta ~$8,300 MXN nueva en Amazon México. Esta es la opción calidad-precio para empezar.
  • RTX 4060 8GB: desde $6,500 MXN en tiendas como Zegucom, hasta ~$10,500 MXN en Amazon México dependiendo del modelo.
  • RTX 4060 Ti 16GB: el sweet spot si quieres correr modelos más grandes sin sufrir.

Si ya tienes una PC gamer con una RTX 3060 o superior, ya la hiciste. No necesitas comprar nada extra.

¿Y si tienes Mac? Buenas noticias: Apple Silicon (M1, M2, M3, M4) es sorprendentemente bueno para esto. Según datos de Dev.to, un chip Apple Silicon puede procesar modelos de ~30B parámetros a más de 10 tokens por segundo. No es lo más rápido, pero jala.

Opción 1: Ollama (la más fácil, punto)

Ollama es como el Docker de los modelos de IA. Descargas, corres, listo. Sin configuraciónes locas ni dependencias del infierno. Según su página oficial, ya va en la versión 0.18.1 lanzada hoy, 18 de marzo de 2026.

Instalación

En Linux o macOS (una línea en la terminal):

curl -fsSL https://ollama.com/install.sh | sh

En Windows: baja el instalador .exe desde ollama.com/download y dale siguiente, siguiente, siguiente. Como instalar cualquier programa.

Tu primer chat con IA local

Una vez instalado, abre tu terminal y escribe:

ollama run qwen3:8b

Eso es todo. Ollama va a descargar el modelo Qwen 3 de 8B parámetros (~5 GB) y te va a abrir un chat directo en la terminal. Puedes preguntarle lo que quieras: que te ayude a programar, que te explique un concepto, que te escriba un correo. Todo procesado localmente.

Comandos esenciales

ollama list          # Ver qué modelos tienes instalados
ollama run llama3.3  # Correr Llama 3.3 de Meta
ollama rm qwen3:8b   # Borrar un modelo que ya no quieres
ollama pull gemma3    # Descargar sin ejecutar

El poder secreto: la API local

Ollama levanta automáticamente una API REST en localhost:11434 que es compatible con el SDK de OpenAI. Esto significa que puedes conectar cualquier app que use la API de OpenAI a tu modelo local solo cambiando la URL base. Así de sencillo.

Opción 2: LM Studio (para los que prefieren interfaz gráfica)

Si la terminal te da hueva o simplemente prefieres algo más visual, LM Studio es tu opción. Es básicamente un ChatGPT local con interfaz bonita.

Instalación

Baja el instalador desde lmstudio.ai. Disponible para Windows, macOS y Linux. La app trae un buscador integrado de modelos de Hugging Face donde puedes descargar lo que quieras con un click.

¿Por qué elegir LM Studio?

  • Tiene una interfaz de chat tipo ChatGPT
  • Puedes ajustar parámetros como temperatura, top-p y contexto con sliders visuales
  • Navega y descarga modelos directo desde Hugging Face sin tocar la terminal
  • Levanta un servidor local compatible con OpenAI en localhost:1234

La limitante

A diferencia de Ollama, LM Studio solo sirve un modelo a la vez. No puedes tener varios modelos corriendo simultáneamente. Para la mayoría de usuarios esto no es problema, pero vale la pena saberlo.

¿Cuál modelo descargo primero?

Esta es la pregunta del millón. Según el ranking de Javadex actualizado a marzo 2026, estos son los mejores modelos para correr localmente según tu hardware:

Si tienes 8 GB de VRAM o menos

ModeloParámetrosVRAM (Q4)VelocidadIdeal para
Qwen 3 7B7B5.5 GB~80 tok/sChat rápido, uso general
Gemma 3 9B9B6.5 GB~70 tok/sChat en español, Q&A
Llama 3.3 8B8B~5 GB60-80 tok/sUso general, instrucciones

Si tienes 12-16 GB de VRAM

ModeloParámetrosVRAM (Q4)VelocidadIdeal para
Phi-414B9 GB~50 tok/sRazonamiento, matemáticas
DeepSeek-Coder-V216B11 GB~45 tok/sProgramación (300+ lenguajes)

Si tienes 24+ GB de VRAM (o Apple Silicon con 32+ GB)

ModeloParámetrosVRAM (Q4)VelocidadIdeal para
Qwen 3 72B72B48 GB~10 tok/sEl más completo, excelente español
Llama 3.3 70B70B40 GB~12 tok/sChat avanzado, razonamiento

Mi recomendación para empezar: Qwen 3 7B o Gemma 3 9B. Son rápidos, capaces y corren en prácticamente cualquier GPU moderna. Como dirían los argentinos, están “re piola”.

El stack definitivo: Ollama + LM Studio juntos

La neta, muchos devs usan las dos herramientas. Según Forgenex, el stack más potente que puedes armar en 2026 es:

  1. LM Studio para explorar y probar modelos nuevos (la interfaz visual te deja comparar rápido)
  2. Ollama como motor de inferencia para desarrollo real (la API es más estable y flexible)
  3. AnythingLLM conectado a Ollama para RAG, agentes y productividad en equipo

No tienes que elegir uno u otro: se complementan bien.

Tips para que tu IA local vuele

  • Usa modelos cuantizados Q4_K_M: es el balance perfecto entre calidad y rendimiento. La diferencia con el modelo original es mínima pero consume mucha menos VRAM.
  • Cierra Chrome antes de correr modelos grandes: ese navegador se come la RAM como si no hubiera mañana y puede hacer que tu modelo vaya lento.
  • Si tienes SSD NVMe, pon ahí los modelos: la velocidad de carga del modelo al iniciar depende directamente de tu disco.
  • Empieza con modelos chicos: no te vayas directo al modelo de 70B. Prueba con uno de 7-8B, entiende cómo funciona, y luego sube.

¿Para qué sirve tener IA local en la vida real?

No es solo por el flex. Hay casos donde la IA local es objetivamente mejor que ChatGPT o Claude en la nube:

  • Privacidad: si trabajas con datos sensibles (contratos, código propietario, información médica), tu data nunca sale de tu máquina.
  • Sin internet: funciona offline. En el avión, en el rancho de tu abuela, en el metro sin señal.
  • Sin costos recurrentes: después de la inversión inicial en hardware, cada consulta es gratis. Cero suscripciones mensuales.
  • Personalización: puedes hacer fine-tuning con tus propios datos para que el modelo se adapte a tu caso de uso específico.
  • Desarrollo: si estás construyendo apps con IA, tener un servidor local compatible con la API de OpenAI te ahorra una lana en tokens.

Veredicto: ¿vale la pena en 2026?

A huevo. Si tienes una PC gamer o una Mac con Apple Silicon, literalmente ya tienes todo lo que necesitas. La instalación toma 5 minutos y en 10 más ya estás chateando con tu propia IA. Hace dos años esto era un pedo de configuración que solo los más nerds se aventaban. Hoy es “instala y corre”.

¿Reemplaza a ChatGPT o Claude para todo? No. Los modelos de frontera siguen siendo superiores para tareas muy complejas. Pero para el 80% de las cosas que haces día a día: escribir, resumir, programar, analizar datos… un modelo local de 8B parámetros te resuelve la vida sin pagar $20 dólares al mes.

¿Ya probaste correr IA local? ¿Qué modelo te late más? Aviéntate a los comentarios y cuéntanos tu experiencia. Y si te atoraste en algún paso, también ahí nos echamos la mano.

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar