AI Hunter
Member
Đã đến lúc "cai nghiện" OpenAI.
Tại sao bạn phải trả tiền cho từng token, trong khi phần cứng máy tính của bạn hoàn toàn đủ sức chạy những mô hình trí tuệ nhân tạo mạnh mẽ không kém?
Ollama là một công cụ mã nguồn mở giúp bạn tải và chạy các LLM (Llama 3, Mistral, Gemma...) chỉ bằng 1 dòng lệnh duy nhất. Nó tự động tối ưu hóa phần cứng, giúp AI chạy mượt mà ngay cả trên máy không có GPU xịn.
Cài đặt như phần mềm bình thường.
Sau khi cài xong, mở Terminal (hoặc CMD/PowerShell) và gõ:
Nếu thấy hiện version là bạn đã thành công.
Để tải và chạy nó, bạn gõ:
Lần đầu tiên, máy sẽ tải khoảng 4.7 GB dữ liệu. Đây là bản Llama-3-8B-Instruct đã được nén (Quantization 4-bit) để chạy nhẹ hơn.
Sau khi tải xong, bạn có thể chat trực tiếp trên màn hình đen của Terminal.
Mẹo: Nếu máy bạn yếu (RAM < 8GB), hãy thử model nhẹ hơn của Microsoft:
Cài thư viện:
Code mẫu:
Hoặc nếu bạn dùng LangChain, việc chuyển đổi còn dễ hơn. Chỉ cần thay `ChatOpenAI` bằng `ChatOllama`:
Hãy cài ngay Ollama và cảm nhận quyền lực của việc sở hữu một bộ não số trong máy tính của mình.
Tại sao bạn phải trả tiền cho từng token, trong khi phần cứng máy tính của bạn hoàn toàn đủ sức chạy những mô hình trí tuệ nhân tạo mạnh mẽ không kém?
Ollama là một công cụ mã nguồn mở giúp bạn tải và chạy các LLM (Llama 3, Mistral, Gemma...) chỉ bằng 1 dòng lệnh duy nhất. Nó tự động tối ưu hóa phần cứng, giúp AI chạy mượt mà ngay cả trên máy không có GPU xịn.
1. Cài đặt Ollama
Truy cập trang chủ: https://ollama.com và tải bộ cài cho Windows, Mac hoặc Linux.Cài đặt như phần mềm bình thường.
Sau khi cài xong, mở Terminal (hoặc CMD/PowerShell) và gõ:
Bash:
ollama --version
2. Chạy Llama 3 (Meta)
Llama 3 hiện là model mã nguồn mở mạnh nhất thế giới của Meta (Facebook).Để tải và chạy nó, bạn gõ:
Bash:
ollama run llama3
Lần đầu tiên, máy sẽ tải khoảng 4.7 GB dữ liệu. Đây là bản Llama-3-8B-Instruct đã được nén (Quantization 4-bit) để chạy nhẹ hơn.
Sau khi tải xong, bạn có thể chat trực tiếp trên màn hình đen của Terminal.
Mẹo: Nếu máy bạn yếu (RAM < 8GB), hãy thử model nhẹ hơn của Microsoft:
Bash:
ollama run phi3
3. Tích hợp vào Python (Thay thế OpenAI API)
Ollama tuyệt vời ở chỗ nó có thể đóng vai một Server API. Bạn có thể code Python để gọi vào Ollama thay vì gọi lên ChatGPT.Cài thư viện:
Bash:
pip install ollama
Code mẫu:
Python:
import ollama
response = ollama.chat(model='llama3', messages=[
{
'role': 'user',
'content': 'Tại sao bầu trời lại có màu xanh?',
},
])
print(response['message']['content'])
Hoặc nếu bạn dùng LangChain, việc chuyển đổi còn dễ hơn. Chỉ cần thay `ChatOpenAI` bằng `ChatOllama`:
Python:
from langchain_community.chat_models import ChatOllama
# Thay vì dùng OpenAI, ta dùng Ollama
llm = ChatOllama(model="llama3")
print(llm.invoke("Kể cho tôi nghe một câu chuyện cười."))
4. Yêu cầu phần cứng
Máy bạn cần bao nhiêu RAM để chạy mượt?| Model | Tham số (Size) | RAM yêu cầu (Tối thiểu) | Tốc độ (trên CPU) |
|---|---|---|---|
| Llama 3 | 8 Billion (4.7GB) | 8 GB | Khá nhanh |
| Mistral | 7 Billion (4.1GB) | 8 GB | Nhanh |
| Gemma (Google) | 2 Billion (1.5GB) | 4 GB | Siêu nhanh |
| Llama 3 (Bản to) | 70 Billion (40GB) | 64 GB (Cần GPU khủng) | Rất chậm |
5. Tại sao nên dùng Local LLM?
- Riêng tư tuyệt đối: Dữ liệu chat không bao giờ rời khỏi máy bạn. Phù hợp để phân tích hợp đồng, dữ liệu tài chính, y tế.
- Miễn phí: Chạy 24/7 không tốn xu nào (trừ tiền điện).
- Offline: Mang lên máy bay, mang ra đảo hoang vẫn code được với AI.
- Không bị kiểm duyệt: Một số model "Uncensored" (của cộng đồng Dolphin/Wizard) cho phép trả lời các câu hỏi nhạy cảm mà ChatGPT từ chối.
Kết luận
Ollama đã dân chủ hóa AI. Bạn không còn là "khách hàng" thuê API của Big Tech nữa, bạn là "chủ sở hữu" của mô hình trí tuệ nhân tạo.Hãy cài ngay Ollama và cảm nhận quyền lực của việc sở hữu một bộ não số trong máy tính của mình.
Bài viết liên quan