Ollama es una de las herramientas más populares para instalar modelos de IA en tu ordenador. Pero aunque un modelo de IA local tiene muchas ventajas, como más privacidad y control sobre tus datos, también tiene algún inconveniente. El principal, el uso intensivo de hardware. Así que, aunque quieras instalar varios modelos de IA en tu computadora y probarlos todos a la vez, te encontrarás con un problema: que tu PC no pueda. Así que, para evitar sorpresas como quedarte sin memoria o que tu CPU o GPU se saturen, te proponemos algunos consejos para elegir modelo de IA con Ollama.

Para empezar, Ollama es compatible con la mayoría de modelos LLM que hay en el mercado. Solo hay que ver esta impresionante lista con nombres como DeepSeek, Granite, Kimi, Mistral, Gemma, Qwen, GLM, Nemotron, Olmo o GPT-OSS. En la actualidad, puedes elegir entre un variado surtido de modelos de IA local o en la nube. E incluso probar modelos especializados o con pensamiento profundo para tareas complejas. Y dentro de cada modelo, puedes seleccionar su tamaño en parámetros. A más parámetros, más compleja es la IA. Pero, al mismo tiempo, más espacio ocupa y más RAM, CPU y/o GPU necesitará para funcionar.

En resumen. El problema no es tanto qué modelo de IA local elegir. La clave está en elegir un modelo de IA con Ollama que pueda ejecutarse en tu ordenador. Y te sea útil respondiendo a tus preguntas y realizando las tareas que le encomiendes. Veamos en qué tienes que fijarte para elegir bien y así evitar que te encuentres con un modelo de IA que no funciona una vez lo has descargado.

Medir un modelo de IA por parámetros

Elegir modelo de IA con Ollama

Para determinar el tamaño de un modelo LLM o modelo de IA, hay muchos factores a tener en cuenta. Si hablamos de números para comparar de manera objetiva, destacan los parámetros y el contexto. Luego hay otros factores, como los datos de entrenamiento o la técnica de entrenamiento que ha recibido el modelo, que son más difíciles de cuantificar. Si nos centramos en cuánto ocupará el modelo de IA local que quieres instalar en tu PC y cuánta RAM, CPU y GPU necesitará, ten en cuenta parámetros y contexto.

El parámetro o número de parámetros es un número ajustable dentro del modelo de IA. Tal y como explica IBM, “cuantos más parámetros se utilicen, más precisos serán los modelos a la hora de capturar patrones de datos matizados”. Un mismo modelo de IA puede tener distintos parámetros, lo que da al modelo un tamaño concreto. El número de parámetros determina la potencia y el coste del modelo de IA. Es decir, que lo deseable es tener cuantos más parámetros, mejor. Pero esto significa consumir más recursos de hardware y electricidad

De ahí que se faciliten modelos pequeños con menos parámetros para dispositivos móviles, modelos medianos para hardware modesto y, finalmente, modelos grandes para máquinas más potentes en un contexto más profesional. Aunque no hay unas cifras exactas, para hacernos una idea, podemos acotar los modelos pequeños entre 1.000 millones y 3.000 millones de parámetros (1B-3B en inglés por la B de billion), los modelos medianos entre 7B y 13B, aunque también pueden superar los 20B o 20.000 millones de parámetros. Y los modelos grandes suelen superar los 70B.

Medir un modelo de IA por contexto

Elegir modelo de IA con Ollama

El segundo factor cuantificable que define el tamaño de un modelo de IA es el contexto, ventana de contexto o longitud de contexto. Se trata de la “cantidad de texto que el modelo puede considerar o recordar en cualquier momento”. Según explica IBM, “una ventana de contexto más grande permite que un modelo de IA procese entradas más largas e incorpore una mayor cantidad de información”. 

Este concepto se mide en tokens. A más cantidad de tokens, más contexto. Lo que “se traduce en una mayor precisión, menos alucinaciones, respuestas de modelo más coherentes, conversaciones más largas y una mayor capacidad para analizar secuencias de datos más largas”. Por contra, también se traduce en que tarde más en responder y en que la máquina consuma más electricidad.

En la documentación oficial de Ollama encontramos unas cifras aproximadas de cuánta memoria VRAM necesita un modelo de IA local para funcionar en función de su ventana de contexto. Para un contexto de 4k o 4.000 tokens, bastan menos de 24 GB de VRAM. Para 32k o 32.000 tokens, se necesitan entre 24 y 48 GB de VRAM. Y, finalmente, para un contexto de 256k o 256.000 tokens, necesitaríamos 48 GB de VRAM o más. La app de Ollama permite acotar la longitud de contexto en función de tus necesidades y de las capacidades de tu PC. Solo tienes que ir a sus ajustes y elegir una cifra entre 4k, 8k, 16k, 32k, 64k, o 128k.

Elegir modelo de IA con Ollama

Elegir modelo de IA con Ollama

Ollama te lo pone muy fácil para descargar e instalar un modelo de IA. Basta con un simple comando de texto. Pero, como hemos visto, no todos los modelos son adecuados para tu ordenador. Dependerá del espacio que tengas disponible, de la cantidad de memoria RAM, de tu procesador y su cantidad de núcleos y, claro está, de la potencia de tu GPU o procesador gráfico. En este sentido, Ollama nos da pocas pistas. Aunque, para evitar problemas, suele configurar el modelo de IA en un contexto de 4k, es decir, el mínimo. Luego tú puedes subirlo si crees que tu PC lo aguantará.

La popularidad de Ollama ha hecho que surjan páginas y proyectos relacionados. En el caso que nos ocupa, OllamaModels es un sitio web que resuelve la duda sobre elegir modelo de IA con Ollama. Su objetivo es detectar tu hardware (RAM, CPU y GPU) y decirte qué modelo de IA local te conviene. La lista muestra una práctica ficha técnica con los modelos compatibles, su tamaño en disco, cantidad de RAM y VRAM necesarios, contexto máximo asumible, etc. Incluso muestra el comando necesario para instalar ese modelo en tu PC o Mac a través de Ollama.