Chạy một mô hình ngôn ngữ lớn (LLM) trên máy tính của bạn bây giờ dễ dàng hơn bao giờ hết. Bạn không còn cần đăng ký đám mây hoặc máy chủ lớn.Với chỉ PC của bạn, bạn có thể chạy các mô hình như Llama, Mistral, hoặc Phi, riêng tư và ngoại tuyến. Hướng dẫn này sẽ chỉ cho bạn cách thiết lập một LLM nguồn mở tại địa phương, giải thích các công cụ liên quan và hướng dẫn bạn thông qua cả UI và phương pháp cài đặt dòng lệnh. Những gì chúng tôi sẽ bao gồm Hiểu về Open Source LLMs Chọn một nền tảng để chạy LLM tại địa phương Cài đặt Ollama Cài đặt và chạy LLM thông qua Command Line Quản lý các mô hình và tài nguyên Sử dụng Ollama với các ứng dụng khác Giải quyết vấn đề và các vấn đề chung Tại sao chạy LLM tại địa phương quan trọng Kết luận Hiểu về Open Source LLMs Một mô hình ngôn ngữ nguồn mở lớn là một loại AI có thể hiểu và tạo ra văn bản, giống như ChatGPT. Bạn có thể tải xuống các tập tin mô hình, chạy chúng trên máy của bạn và thậm chí điều chỉnh chúng cho các trường hợp sử dụng của bạn. Các dự án như Llama 3, Mistral, Gemma và Phi đã cho phép chạy các mô hình phù hợp với phần cứng tiêu dùng. Chạy các mô hình này tại địa phương cung cấp cho bạn quyền riêng tư, kiểm soát và linh hoạt. Nó cũng giúp các nhà phát triển tích hợp các tính năng AI vào các ứng dụng của họ mà không phụ thuộc vào các API đám mây. Chọn một nền tảng để chạy LLM tại địa phương Để chạy một mô hình mã nguồn mở, bạn cần một nền tảng có thể tải nó, quản lý các thông số của nó, và cung cấp một giao diện để tương tác với nó. Ba lựa chọn phổ biến cho thiết lập địa phương là: Ollama – một hệ thống thân thiện với người dùng chạy các mô hình như OpenAI GPT OSS, Google Gemma với một lệnh. LM Studio — một ứng dụng máy tính để bàn đồ họa cho những người thích một giao diện điểm và nhấp chuột. Gpt4All – một ứng dụng GUI phổ biến khác. Chúng tôi sẽ sử dụng Ollama như một ví dụ trong hướng dẫn này vì nó được hỗ trợ rộng rãi và dễ dàng tích hợp với các công cụ khác. Cài đặt Ollama cung cấp một trình cài đặt một cú nhấp chuột thiết lập mọi thứ bạn cần để chạy các mô hình cục bộ. Ollama Truy cập trang web chính thức của Ollama và tải xuống trình cài đặt Windows. Sau khi tải xuống, bấm đúp vào tệp để bắt đầu cài đặt. trình hướng dẫn cài đặt sẽ hướng dẫn bạn qua quá trình, chỉ mất một vài phút. Khi cài đặt kết thúc, Ollama sẽ chạy trong nền như một dịch vụ cục bộ. Bạn có thể truy cập nó thông qua giao diện đồ họa máy tính để bàn của nó hoặc bằng cách sử dụng dòng lệnh. Sau khi cài đặt Ollama, bạn có thể mở ứng dụng từ Start Menu. UI giúp người mới bắt đầu dễ dàng bắt đầu tương tác với các mô hình địa phương. Bên trong giao diện Ollama, bạn sẽ thấy một hộp văn bản đơn giản, nơi bạn có thể gõ lời nhắc và nhận câu trả lời. Để tải xuống và sử dụng một mô hình, chỉ cần chọn nó từ danh sách. Ollama sẽ tự động lấy trọng lượng mô hình và tải chúng vào bộ nhớ. Lần đầu tiên bạn đặt câu hỏi, nó sẽ tải xuống mô hình nếu nó không tồn tại. . Mô hình trang tìm kiếm Tôi sẽ sử dụng các mô hình, đó là mô hình nhỏ nhất có sẵn ở Ollama. Đầm 270m Bạn có thể thấy mô hình được tải xuống khi được sử dụng lần đầu tiên.Tùy thuộc vào kích thước mô hình và hiệu suất của hệ thống, điều này có thể mất vài phút. Sau khi tải, bạn có thể bắt đầu trò chuyện hoặc chạy các tác vụ trực tiếp trong giao diện người dùng. nó được thiết kế để trông và cảm thấy giống như một cửa sổ trò chuyện bình thường, nhưng mọi thứ đều chạy cục bộ trên PC của bạn. Bạn không cần kết nối internet sau khi mô hình đã được tải xuống. Cài đặt và chạy LLM thông qua Command Line Nếu bạn thích kiểm soát nhiều hơn, bạn có thể sử dụng giao diện dòng lệnh Ollama (CLI). Điều này hữu ích cho các nhà phát triển hoặc những người muốn tích hợp các mô hình cục bộ vào các kịch bản và dòng công việc. Để mở dòng lệnh, hãy tìm "Command Prompt" hoặc "PowerShell" trong Windows và chạy nó.Bây giờ bạn có thể tương tác với Ollama bằng các lệnh đơn giản. Để kiểm tra xem cài đặt có hoạt động hay không, hãy nhập: ollama --version Nếu bạn thấy một số phiên bản, Ollama đã sẵn sàng. Tiếp theo, để chạy mô hình đầu tiên của bạn, sử dụng lệnh kéo: ollama pull gemma3:270m Điều này sẽ tải xuống mô hình Gemma vào máy của bạn. Khi quá trình kết thúc, hãy bắt đầu với: ollama run gemma3:270m Ollama sẽ khởi động mô hình và mở một lời nhắc tương tác, nơi bạn có thể gõ tin nhắn. Mọi thứ xảy ra cục bộ, và dữ liệu của bạn không bao giờ rời khỏi máy tính của bạn. Bạn có thể dừng mô hình bất cứ lúc nào bằng cách gõ . /bye Quản lý các mô hình và tài nguyên Mỗi mô hình bạn tải xuống mất không gian đĩa và bộ nhớ. Các mô hình nhỏ hơn như Phi-3 Mini hoặc Gemma 2B nhẹ hơn và phù hợp với hầu hết các máy tính xách tay tiêu dùng. các mô hình lớn hơn như Mistral 7B hoặc Llama 3 8B đòi hỏi GPU mạnh mẽ hơn hoặc CPU cao cấp. Bạn có thể liệt kê tất cả các mô hình được cài đặt bằng cách sử dụng: ollama list Và loại bỏ một khi bạn không còn cần nó: ollama rm model_name Nếu máy tính của bạn có RAM hạn chế, hãy thử chạy các mô hình nhỏ hơn trước.Bạn có thể thử nghiệm với các mô hình khác nhau để tìm sự cân bằng đúng giữa tốc độ và độ chính xác. Sử dụng Ollama với các ứng dụng khác Một khi bạn đã cài đặt Ollama, bạn có thể sử dụng nó ngoài giao diện trò chuyện. Các nhà phát triển có thể kết nối với nó bằng cách sử dụng API và cổng cục bộ. Ollama chạy một máy chủ địa phương trên Điều này có nghĩa là bạn có thể gửi yêu cầu từ các kịch bản hoặc ứng dụng của riêng bạn. http://localhost:11434 Ví dụ, một kịch bản Python đơn giản có thể gọi mô hình địa phương như thế này: import requests, json # Define the local Ollama API endpoint url = "http://localhost:11434/api/generate" # Send a prompt to the Gemma 3 model payload = { "model": "gemma3:270m", "prompt": "Write a short story about space exploration." } # stream=True tells requests to read the response as a live data stream response = requests.post(url, json=payload, stream=True) # Ollama sends one JSON object per line as it generates text for line in response.iter_lines(): if line: data = json.loads(line.decode("utf-8")) # Each chunk has a "response" key containing part of the text if "response" in data: print(data["response"], end="", flush=True)This setup turns your computer into a local AI engine. You can integrate it with chatbots, coding assistants, or automation tools without using external APIs. Giải quyết vấn đề và các vấn đề chung Nếu bạn gặp vấn đề khi chạy một mô hình, trước tiên hãy kiểm tra tài nguyên hệ thống của bạn. mô hình cần đủ RAM và không gian đĩa để tải đúng cách. đóng các ứng dụng khác có thể giúp giải phóng bộ nhớ. Đôi khi, phần mềm diệt virus có thể chặn các cổng mạng cục bộ.Nếu Ollama không khởi động, hãy thêm nó vào danh sách các chương trình được phép. Nếu bạn sử dụng CLI và thấy lỗi về trình điều khiển GPU, hãy đảm bảo rằng trình điều khiển đồ họa của bạn được cập nhật. Ollama hỗ trợ cả CPU và GPU, nhưng có trình điều khiển được cập nhật cải thiện hiệu suất. Tại sao chạy LLM tại địa phương quan trọng Chạy LLM tại địa phương thay đổi cách bạn làm việc với AI. Bạn không còn bị ràng buộc bởi chi phí API hoặc giới hạn tỷ lệ. nó là lý tưởng cho các nhà phát triển muốn tạo nguyên mẫu nhanh chóng, các nhà nghiên cứu khám phá điều chỉnh tinh tế, hoặc những người đam mê đánh giá cao sự riêng tư. Các mô hình địa phương cũng tuyệt vời cho các môi trường ngoại tuyến. Bạn có thể thử nghiệm với thiết kế nhanh, tạo nội dung hoặc thử nghiệm các ứng dụng được hỗ trợ bởi AI mà không cần kết nối internet. Khi phần cứng được cải thiện và cộng đồng mã nguồn mở phát triển, AI địa phương sẽ tiếp tục trở nên mạnh mẽ và dễ tiếp cận hơn. Kết luận Với các công cụ như Ollama và LM Studio, bạn có thể tải xuống một mô hình, chạy nó cục bộ và bắt đầu tạo văn bản trong vài phút. UI làm cho nó thân thiện với người mới bắt đầu, trong khi dòng lệnh cung cấp quyền kiểm soát đầy đủ cho các nhà phát triển. Cho dù bạn đang xây dựng một ứng dụng, thử nghiệm ý tưởng, hoặc khám phá AI để sử dụng cá nhân, chạy các mô hình tại địa phương đặt mọi thứ vào tay của bạn, làm cho nó nhanh chóng, riêng tư và linh hoạt. Hy vọng bạn thích bài viết này. Đăng ký bản tin miễn phí của tôi TuringTalks.ai để biết thêm hướng dẫn thực hành về AI. Đăng ký bản tin miễn phí của tôi TuringTalks.ai để biết thêm hướng dẫn thực hành về AI. Thảo luận.ai