Cómo descargar, instalar y ejecutar Llama 4

Instrucciones para descargar, instalar y usar Llama 4 Scout y Maverick

AIDive Desk7 апреля 2025 г. в 12:58

LLama 4 es una nueva serie de modelos de lenguaje de Meta*, diseñada para trabajar con texto, código, consultas en diálogos y otras tareas de procesamiento del lenguaje natural. Se presenta como una alternativa abierta a GPT-4. Puede usarse para crear chatbots, generar texto, analizar documentos, automatizar tareas y otros escenarios en los que se requiere una generación de lenguaje de calidad.

⚠️ Advertencia

Antes de pasar a la instalación, ten en cuenta varios puntos importantes:

Los modelos LLaMA 4 son muy grandes: de 100 a 220 GB. Requieren bastante espacio en disco.

Los modelos usan arquitectura Mixture of Experts y requieren hardware potente: en procesador funcionan lento, y en la mayoría de los portátiles no se ejecutan directamente.

En el momento de la publicación, Meta solo proporciona pesos en formato .safetensors, que no se pueden ejecutar con llama.cpp. Para ejecutarlos necesitarás la biblioteca transformers, text-generation-webui o una adaptación para soluciones de terceros.

Incluso la instalación y la descarga llevarán bastante tiempo; asegúrate de tener una conexión a Internet estable.

Errores

Durante la instalación y el arranque del modelo casi con seguridad aparecerán errores: incompatibilidades de versiones de bibliotecas, falta de memoria, ruta incorrecta al archivo, errores de importación; todo eso forma parte del proceso.

Pégalo en cualquier chatbot, por ejemplo:

ChatGPT de OpenAI;

Claude de Anthropic;

Grok de xAI.

Explica que estás instalando Llama 4 de forma local y pide que analice el error.

Obtener acceso a Llama 4

El acceso a los modelos Llama 4 Scout y Maverick se proporciona sin restricciones. Debes abrir la página oficial, seleccionar Download models y completar los datos:

Nombre;

Apellido;

Fecha de nacimiento;

Email;

País;

Nombre de la empresa — puedes inventarlo o indicar una existente;

Puesto — elige cualquiera de la lista.

Instalación de Llama 4

Después de completar los datos recibirás un ID de solicitud y una instrucción para descargar los modelos. Puedes descargarlos durante 48 horas, hasta 5 veces, usando enlaces únicos. Llegarán al correo electrónico indicado.

Preparar la carpeta para el modelo

✅ macOS:

`cd ~/Downloads mkdir -p llama/models cd llama/models`

💻 Windows, cmd:

`cd %USERPROFILE%\Downloads mkdir llama\models cd llama\models`

En lugar de %USERPROFILE% debes introducir el nombre del perfil en Windows, por ejemplo Admin.

Descargar LLaMA 4 Scout o Maverick mediante curl o Invoke-WebRequest

Meta proporciona un enlace único para descargar el modelo, válido durante 48 horas. Se parece aproximadamente a esto:

No intentes usar el enlace de la instrucción, no es válido

https://llama4.llamameta.net/?Policy=eyJTdGF0ZW1lbnQiOlt7InVuaXF1ZV9oYXNoIjoicGgxeGRqOGx3bHIwYTU2YWVpMjM5ZDNpIiwiUmVzb3VyY2UiOiJodHRwczpcL1wvbGxhbWE0LmxsYW1hbWV0W70z-gRaD4DsMGSiu4i55xt4nIohvUC6QB5weJBShoYdiLhcCUQii6-ZyAgBgBcOl67-5wWEhoLwnlkJf5s4XvZaMYqKCJ6SGMK9MidUsVk12NUoBhEwh7kzlvBXbqElbeF%7E26dE1N8v3lS0rLD3OJ3Hk636bNb78GuRqNgQYt21vuA7PuGjKJsMlUyc7Ds7JJMOjpim5ihr4xQQmk-sjUJOlbMNDaKXnUBQ-UytMAwAxw3d9uL2JJ7u2y9A\_\_&Key-Pair-Id=...&Download-Request-ID=...

Importante: no cambies la URL ni insertes * en la dirección. Eso provocará un error 403.

✅ macOS:

curl -L -o llama-4-scout-17b-instruct.safetensors "Enlace"

💻 Windows PowerShell:

Invoke-WebRequest \\ -Uri "Enlace"`

O 💻 Windows cmd + wget:

wget "Enlace" -O llama-4-scout-17b-instruct.safetensors

**Resultado: archivo **`.safetensors`

Después de una descarga correcta recibirás el archivo:

llama-4-scout-17b-instruct.safetensors

Tamaño: de 100 a 220 GB según la versión.

Qué hacer después de descargar .safetensors

El archivo .safetensors que has descargado contiene los pesos del modelo LLaMA 4. Puede ejecutarse de varias maneras, según tus objetivos y las capacidades del ordenador.

Opción 1. Usar transformers de Hugging Face en CPU

Este método sirve para pruebas o para trabajar con consultas cortas. Funciona en CPU, sin tarjeta gráfica.

Paso 1. Instalar dependencias

✅ macOS:

pip install transformers accelerate sentencepiece

💻 Windows (cmd o PowerShell):

pip install transformers accelerate sentencepiece

Paso 2. Código mínimo para ejecutar el modelo

Crea el archivo run\_llama.py con este contenido:

from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_path = "./llama-4-scout-17b-instruct.safetensors" # ruta al modelo tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct", use_fast=False) model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.float32, # CPU low_cpu_mem_usage=True, device_map="auto", ) prompt = "Explica brevemente cómo funciona la red neuronal LLaMA 4." inputs = tokenizer(prompt, return_tensors="pt") with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=150) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

❗ meta-llama/Meta-Llama-3-8B-Instruct aquí se usa solo para cargar el tokenizador — cámbialo si Meta publica el tokenizador de LLaMA 4 por separado.

Ejecución:

python run_llama.py

Opción 2. Conectarlo a WebUI (text-generation-webui)

Si quieres una interfaz gráfica cómoda en el navegador, puedes usar text-generation-webui:

Clona el repositorio:

git clone https://github.com/oobabooga/text-generation-webui cd text-generation-webui

Copia el modelo .safetensors a la carpeta models/llama4

Ejecuta:

python server.py --model llama4

Esta opción requiere instalar bibliotecas adicionales. Es adecuada para usuarios avanzados y servidores con GPU.

Ejemplos de uso de LLama 4

Aunque no seas desarrollador ni ejecutes LLaMA 4 en producción, con ella puedes resolver tareas sencillas pero interesantes, directamente en tu ordenador.

Crear un chatbot local

Ejecuta LLama 4 en modo Instruct y hazle preguntas en cualquier estilo, desde las de trabajo hasta las cotidianas. El modelo puede:

explicar temas complejos en lenguaje sencillo;

ayudar con textos: cartas, planes, currículums;

mantener un diálogo en un formato cómodo, incluso sin Internet.

Ejemplo de pregunta:

Explica de forma sencilla cómo funcionan las criptomonedas.

Generación de historias, cartas e ideas

Con LLaMA 4 puedes escribir:

relatos cortos y escenas para libros;

textos motivacionales;

guiones para vídeos, TikTok o podcasts.

Ejemplo de consulta:

Inventa una historia divertida.

*Meta - prohibida en el territorio de la Federación Rusa.

…

Все статьи

Cómo descargar, instalar y ejecutar Llama 4

Resumen

Categorías

Cómo descargar, instalar y ejecutar Llama 4

Resumen

Categorías

Boletín

Recibe avisos cuando se añadan nuevas herramientas de IA