Hướng dẫn chạy AI Llama 3 "Miễn Phí" ngay trên máy tính (Local LLM với Python)

AI Hunter · Lúc 13:23:56

Bạn đã chán ngấy việc trả 20$/tháng cho ChatGPT? Hay bạn lo ngại gửi dữ liệu nhạy cảm của khách hàng lên server nước ngoài?
Giải pháp là Local LLM.

Trong bài viết này, tôi sẽ hướng dẫn bạn cách cài đặt Llama 3 (phiên bản 8 tỷ tham số) lên máy tính và điều khiển nó bằng Python.

Hướng dẫn chạy AI Llama 3 Miễn Phí ngay trên máy tính (Local LLM với Python).jpg

1. Tại sao nên chạy AI Local?

Riêng tư tuyệt đối (Privacy): Dữ liệu của bạn không bao giờ rời khỏi máy tính. Rất phù hợp để phân tích tài liệu nội bộ, email, code dự án.
Miễn phí (Cost): Chỉ tốn tiền điện, không tốn tiền API token.
Offline: Hoạt động ngay cả khi đứt cáp quang.

2. Yêu cầu cấu hình

Llama 3 bản 8B (8 Billion parameters) khá nhẹ, nhưng bạn vẫn cần một chút "cơ bắp":

RAM: Tối thiểu 8GB (Khuyên dùng 16GB).
CPU: Chip đời mới (Apple M1/M2/M3 chạy cực ngon).
GPU (Card màn hình): NVIDIA RTX (Nếu có thì trả lời cực nhanh, không có thì chạy bằng CPU vẫn được nhưng chậm hơn).

3. Cài đặt Ollama (Core)

Chúng ta không cài thủ công phức tạp. Hãy dùng Ollama - phần mềm giúp chạy AI dễ như cài Chrome.

Tải về tại: https://ollama.com/ (Hỗ trợ Windows, macOS, Linux).
Cài đặt xong, mở Terminal (hoặc CMD) và gõ lệnh để tải "bộ não" Llama 3 về:
Mã:
```
ollama run llama3
```
Đợi máy tải khoảng 4.7GB. Sau khi xong, bạn có thể chat trực tiếp với nó ngay trong cửa sổ dòng lệnh.

4. Kết nối Python với Llama 3

Bây giờ chúng ta sẽ viết code Python để "sai bảo" Llama 3 làm việc cho các tool khác (như Bot trả lời XenForo).

Cài thư viện:

Mã:

pip install ollama

File code mẫu (`local_ai.py`):

Python:

import ollama
import time

def chat_with_llama(prompt):
    print("🦙 Llama 3 đang suy nghĩ...")
    start_time = time.time()
   
    # Gọi API đến Ollama đang chạy ngầm trên máy
    response = ollama.chat(model='llama3', messages=[
        {
            'role': 'user',
            'content': prompt,
        },
    ])
   
    end_time = time.time()
    duration = end_time - start_time
   
    print(f"⏱️ Xử lý trong: {duration:.2f} giây")
    return response['message']['content']

# --- TEST THỬ ---
if __name__ == "__main__":
    while True:
        user_input = input("\nBạn: ")
        if user_input.lower() in ['exit', 'quit']:
            break
       
        # Thử hỏi một câu tiếng Việt
        # Lưu ý: Llama 3 gốc tiếng Việt chưa quá xuất sắc, nhưng vẫn hiểu tốt.
        reply = chat_with_llama(user_input)
       
        print(f"Llama 3: {reply}")

5. Nâng cao: Tinh chỉnh "Nhân cách" (System Prompt)

Bạn muốn biến Llama 3 thành một chuyên gia XenForo? Hãy dùng `System Prompt` (Lời nhắc hệ thống).

Python:

response = ollama.chat(model='llama3', messages=[
    {
        'role': 'system', # Đây là phần cài đặt nhân cách
        'content': 'Bạn là một Admin diễn đàn khó tính. Hãy trả lời cộc lốc và luôn nhắc thành viên đọc nội quy.'
    },
    {
        'role': 'user',
        'content': 'Làm sao để đăng bài vậy ad?',
    },
])

6. So sánh OpenAI vs Local Llama 3

Tiêu chí	OpenAI (GPT-4)	Local (Llama 3)
Thông minh	10/10	7.5/10
Tiếng Việt	Rất tốt	Khá
Chi phí	Tốn kém (theo token)	Miễn phí (trọn đời)
Bảo mật	Gửi lên Cloud	Tại máy (Offline)

7. Kết luận

Với code trên, bạn có thể quay lại các dự án trước (Bot trả lời Forum, Bot phân tích chứng khoán) và thay thế đoạn code gọi `client.chat.completions.create` (của OpenAI) bằng `ollama.chat`.
Chúc mừng! Bạn đã sở hữu một hệ thống AI hoàn toàn miễn phí của riêng mình.

Hướng dẫn chạy AI Llama 3 "Miễn Phí" ngay trên máy tính (Local LLM với Python)

AI Hunter

Member

1. Tại sao nên chạy AI Local?​

2. Yêu cầu cấu hình​

3. Cài đặt Ollama (Core)​

4. Kết nối Python với Llama 3​

5. Nâng cao: Tinh chỉnh "Nhân cách" (System Prompt)​

6. So sánh OpenAI vs Local Llama 3​

7. Kết luận​