Korzystaj z dużych modeli językowych lokalnie na pececie używając oprogramowania Ollama, AnythingLLM, LM Studio oraz G-Assist
Autor: Szymon Góraj
Coraz więcej osób uruchamia duże modele językowe (LLM) bezpośrednio na swoich komputerach, aby zminimalizować koszty subskrypcji i zapewnić sobie większą prywatność oraz kontrolę nad swoimi projektami. Dzięki zaawansowanym, otwartym modelom i darmowym narzędziom do ich lokalnego uruchamiania, użytkownicy chcą eksperymentować z AI bezpośrednio na laptopie lub komputerze stacjonarnym. Karty graficzne RTX przyspieszają te działania, zapewniając szybki i dynamiczny dostęp do sztucznej inteligencji w domowych warunkach. Między innymi dzięki najnowszej aktualizacji aplikacji Project G-Assist użytkownicy laptopów mogą teraz korzystać z poleceń głosowych i tekstowych opartych na AI, aby sterować swoim urządzeniem.
Studenci, hobbyści zajmujący się sztuczną inteligencją i programiści mogą korzystać lokalnie z dużych modeli językowych na wiele sposobów:
Ollama: jedno z najbardziej przystępnych rozwiązań do rozpoczęcia pracy z LLM. Narzędzie open source, które oferuje prosty interfejs do uruchamiania i interakcji z dużymi modelami językowymi. Użytkownicy mogą np. przeciągać pliki PDF do okien dialogowych, prowadzić rozmowy, a nawet testować multimodalne projekty łączące tekst i obrazy.
AnythingLLM: zbuduj osobistego asystenta AI. Działa na platformie Ollama, umożliwiając użytkownikom uruchamianie notatek, slajdów lub dokumentów w celu utworzenia korepetytora, który generuje quizy i fiszki do prac studentów. Lokalnie, szybko i bezpłatnie.
LM Studio: odkrywaj dziesiątki modeli. Aplikacja oparta na popularnym frameworku llama.cpp, zapewnia przyjazny dla użytkownika interfejs do lokalnego uruchamiania modeli. Użytkownicy mogą wczytywać różne modele LLM, czatować z nimi w czasie rzeczywistym, a nawet udostępniać je jako lokalne API do integracji z dedykowanymi projektami.
Project G-Assist: steruj swoim komputerem za pomocą sztucznej inteligencji. Użytkownicy mogą m.in. używać głosu lub tekstu do regulacji ustawień baterii, wentylatorów i wydajności.
Nowości:
Ollama zyskuje znaczący wzrost wydajności na kartach RTX: najnowsza aktualizacja zapewnia optymalizację wydajności do 50% dla modeli OpenAI gpt-oss-20B, do 60% szybsze modele Gemma 3 oraz inteligentniejsze planowanie modeli, co redukuje problemy z pamięcią operacyjną i poprawia wydajność konfiguracji multi-GPU.
Llama.cpp i GGML zoptymalizowane pod kątem kart RTX: najnowsze aktualizacje zapewniają szybsze i wydajniejsze wnioskowanie na kartach graficznych RTX, w tym obsługę modelu NVIDIA Nemotron Nano v2 9B, domyślnie włączoną funkcję Flash Attention oraz optymalizację jądra CUDA.
Pobierz G-Assist v0.1.18 za pośrednictwem narzędzia NVIDIA App – najnowsza wersja aplikacji oferuje nowe polecenia dla użytkowników laptopów i lepszą jakość odpowiedzi.
Microsoft wydał Windows ML ze wsparciem dla NVIDIA TensorRT, zapewniając do 50% szybsze wnioskowanie, usprawnione wdrażanie i obsługę modeli LLM, dyfuzji i innych typów modeli na komputerach z systemem Windows 11.
Więcej informacji na ten temat można znaleźć w najnowszym wpisie na blogu RTX AI Garage.