Ollama įrankis, leidžiantis paleisti didelės kalbos modeliai (LLM) lokaliai, savo serveryje. Jis leidžia lengvai atsisiųsti, valdyti ir naudoti AI modelius be priklausomybės nuo išorinių cloud paslaugų. Visi duomenys lieka jūsų VPS.
Šioje pamokoje parodoma, kaip įdiegti ir naudoti Ollama Debian/Ubuntu bei RHEL pagrindu veikiančiose sistemose (AlmaLinux, Rocky Linux).
0. Reikalavimai
Operacinės sistemos reikalavimai
Ubuntu 22.04 arba naujesnė
Debian 11 arba naujesnė
AlmaLinux 8 arba 9
Rocky Linux 8 arba 9
Kiti reikalavimai
Mažiausiai 8 GB RAM (rekomenduojama 16 GB arba daugiau)
Mažiausiai 20 GB laisvos disko vietos; rekomenduojama 50–100 GB, nes modelių failai užima didžiąją dalį vietos
SSH prieiga prie serverio
Root arba sudo teisės
Interneto ryšys modeliams atsisiųsti
Pastaba: pagal nutylėjimą Ollama veikia naudodama CPU. Našumas labai priklauso nuo turimos RAM ir procesoriaus resursų.
1. Ollama diegimas
Skirtingai nei daugelis kitų aplikacijų, Ollama nereikalauja pridėti jokių išorinių APT repozitorijų. Diegimas atliekamas naudojant oficialų diegimo scriptą.
1.1 Atnaujinkite sistemą
Debian/Ubuntu sistemose paleiskite šią komandą sistemos atnaujinimui:
apt update && apt upgrade -y
RHEL (AlmaLinux, Rocky Linux) sistemose paleiskite šią komandą:
dnf update -y
1.2 Atsisiųskite ir paleiskite Ollama diegimo scriptą
Paleiskite šią komandą:
curl -fsSL https://ollama.com/install.sh | sh
Šis scriptas:
Atsisiųs Ollama binary
Įdiegs ją sistemoje
Sukurs systemd servisą
Automatiškai paleis Ollama
Diegimas dažniausiai užtrunka kelias sekundes.
Kai kuriose distribucijose galite pamatyti klaidą:
Jei matote šią klaidą, paleiskite siūlomą komandą pagal savo OS.
Debian/Ubuntu:
apt-get install zstd
RHEL:
dnf install zstd -y
Tada pakartokite diegimo komandą:
curl -fsSL https://ollama.com/install.sh | sh
Po diegimo galite pamatyti pranešimą:
WARNING: No NVIDIA AMD GPU detected. Ollama will run in CPU-only mode.
Tai normalu, nes VPS aplinkoje GPU nėra palaikomas. Ollama automatiškai persijungia į CPU režimą ir toliau veikia korektiškai.
1.3 Patikrinkite diegimą
Patikrinkite, ar Ollama įdiegta teisingai:
ollama --version
Jei parodomas versijos numeris, Ollama sėkmingai įdiegta.
2. Ollama valdymas
Ollama veikia fone per systemd.
2.1 Patikrinkite Ollama būseną
systemctl status ollama
Turėtumėte matyti, kad Ollama yra active (running).
2.2 Paleiskite Ollama (jei reikia)
Jei Ollama neaktyvi, paleiskite jį šia komanda:
systemctl start ollama
Kad Ollama automatiškai pasileistų kartu su serveriu, įjunkite paleidimą startuojant sistemai:
systemctl enable ollama
3. Modelių valdymas
3.1 Paleiskite pirmą modelį
Pavyzdžiui, paleiskite populiarų bendros paskirties modelį:
ollama run llama3
Pirmą kartą paleidus:
• Modelis bus automatiškai atsisiųstas.
• Atsisiuntimas gali užtrukti kelias minutes. Tikslus laikas priklauso nuo modelio dydžio.
• Modelių failai gali užimti kelis gigabaitus disko vietos. Llama 3 dydis yra apie 4.7 GB.
Kai atsisiuntimas baigsis, su modeliu galėsite bendrauti tiesiai terminale.
3.2 Kaip naudoti modelį
Kai modelis užsikraus, pamatysite prompt, pavyzdžiui:
>>>
Tai reiškia, kad modelis paruoštas.
Įrašykite klausimą paprasta anglų kalba ir paspauskite Enter, pvz.:
Explain what a Linux service is in simple terms.
Modelis sugeneruos atsakymą tiesiai terminale.
Kol sesija aktyvi, modelis prisimena pokalbio kontekstą.
Kai baigsite, klaviatūroje paspauskite:
Ctrl + D
Tai uždaro sesiją, tačiau pati Ollama ir toliau veikia fone.
3.3 Paleiskite kitus modelius
Pavyzdžiai:
ollama run mistral
ollama run gemma
ollama run codellama
ollama run phi
Mažesni modeliai rekomenduojami VPS serveriams su ribotais resursais.
Mistral yra universalus modelis, kuris gerai veikia VPS be GPU. Jis pakankamai greitas kasdieniam naudojimui ir duoda geros kokybės atsakymus paaiškinimams, santraukoms bei baziniam programavimui. Jei norite vieno modelio, kuris padengtų daug užduočių ir nebūtų per sunkus, Mistral dažniausiai yra saugus pasirinkimas.
Mistral paprastai reikia apie 6–8 GB RAM.
Gemma yra lengvesnis ir greitesnis, skirtas sistemoms su ribotais resursais. Jis atsako greitai ir naudoja mažiau atminties, tačiau atsakymai paprastai būna paprastesni ir trumpesni. Geriausiai tinka baziniams klausimams, nedidelėms automatizavimo užduotims ir situacijoms, kai greitis svarbiau nei gylis.
Gemma dažniausiai gerai veikia su maždaug 3–4 GB RAM.
Code Llama yra orientuotas į programavimą. Jis naudingas kodo rašymui, scriptų paaiškinimui ir paprastų bug’ų taisymui, tačiau nėra skirtas bendram pokalbiui. Šis modelis turi prasmę, jei pagrindinis tikslas yra coding pagalba serveryje.
Code Llama paprastai reikia apie 6–8 GB RAM.
Phi 3 Mini yra labai mažas, bet stebėtinai pajėgus savo dydžiui. Jis greitai veikia net silpnesniuose VPS ir gerai tinka aiškiems paaiškinimams, paprastam reasoning ir lengvoms coding užduotims. Jei resursų mažai, dažnai tai yra geriausias modelis startui.
Phi 3 Mini gali veikti net su 2–3 GB RAM.
Visus prieinamus Ollama modelius rasite oficialioje Ollama model library svetainėje.
3.4 Peržiūrėkite įdiegtus modelius
ollama list
Ši komanda parodo visus modelius, kurie šiuo metu jau atsisiųsti į serverį:
3.5 Pašalinkite modelį
Jei reikia atlaisvinti disko vietos, modelį galite pašalinti šia komanda:
ollama rm llama3
4. Ollama API prieiga
Ollama automatiškai atidaro lokalų API endpoint:
http://localhost:11434
Šį API galite naudoti tam, kad:
Matytumėte prieinamus modelius
Siųstumėte prompt’us programiškai
Integruotumėte Ollama su savo aplikacijomis
Norėdami patikrinti, ar Ollama API veikia teisingai, ir pamatyti, kurie AI modeliai yra įdiegti ir prieinami sistemoje, paleiskite:
curl http://localhost:11434/api/tags
Svarbu: pagal nutylėjimą API klausosi tik ant localhost. Iš išorės jis nepasiekiamas, ir tai yra saugiausia konfigūracija.
5. Ugniasienės aspektai
Jei planuojate naudoti Ollama tik lokaliai VPS serveryje, jokių firewall pakeitimų nereikia.
Jei ketinate API padaryti pasiekiamą iš išorės:
Apsaugokite jį autentifikacija
Apribokite prieigą pagal IP
Neatidarykite jo tiesiai į viešą internetą
Atidaryti API be apsaugos nerekomenduojama.
6. Dažniausios problemos
6.1 Nepakanka RAM
Požymiai:
Modelis neužsikrauna
Ollama procesas būna nutraukiamas (killed)
Serveris tampa neatsakus
Sprendimai:
Naudokite mažesnį modelį
Pridėkite SWAP failą
6.2 Lėti atsakymai
CPU režime tai yra normalu. Ollama VPS serveryje labiausiai tinka:
Testavimui
Mokymuisi
Vidiniams įrankiams
Nedidelio kiekio automatizacijai



