Ollama įrankis, leidžiantis paleisti didelės kalbos modeliai (LLM) lokaliai, savo serveryje. Jis leidžia lengvai atsisiųsti, valdyti ir naudoti AI modelius be priklausomybės nuo išorinių cloud paslaugų. Visi duomenys lieka jūsų VPS.

Šioje pamokoje parodoma, kaip įdiegti ir naudoti Ollama Debian/Ubuntu bei RHEL pagrindu veikiančiose sistemose (AlmaLinux, Rocky Linux).

0. Reikalavimai

Operacinės sistemos reikalavimai

Ubuntu 22.04 arba naujesnė
Debian 11 arba naujesnė
AlmaLinux 8 arba 9
Rocky Linux 8 arba 9

Kiti reikalavimai

Mažiausiai 8 GB RAM (rekomenduojama 16 GB arba daugiau)
Mažiausiai 20 GB laisvos disko vietos; rekomenduojama 50–100 GB, nes modelių failai užima didžiąją dalį vietos
SSH prieiga prie serverio
Root arba sudo teisės
Interneto ryšys modeliams atsisiųsti

Pastaba: pagal nutylėjimą Ollama veikia naudodama CPU. Našumas labai priklauso nuo turimos RAM ir procesoriaus resursų.

1. Ollama diegimas

Skirtingai nei daugelis kitų aplikacijų, Ollama nereikalauja pridėti jokių išorinių APT repozitorijų. Diegimas atliekamas naudojant oficialų diegimo scriptą.

1.1 Atnaujinkite sistemą

Debian/Ubuntu sistemose paleiskite šią komandą sistemos atnaujinimui:

apt update && apt upgrade -y

RHEL (AlmaLinux, Rocky Linux) sistemose paleiskite šią komandą:

dnf update -y

1.2 Atsisiųskite ir paleiskite Ollama diegimo scriptą

Paleiskite šią komandą:

curl -fsSL https://ollama.com/install.sh | sh

Šis scriptas:

Atsisiųs Ollama binary
Įdiegs ją sistemoje
Sukurs systemd servisą
Automatiškai paleis Ollama

Diegimas dažniausiai užtrunka kelias sekundes.

Kai kuriose distribucijose galite pamatyti klaidą:

Jei matote šią klaidą, paleiskite siūlomą komandą pagal savo OS.

Debian/Ubuntu:

apt-get install zstd

RHEL:

dnf install zstd -y

Tada pakartokite diegimo komandą:

curl -fsSL https://ollama.com/install.sh | sh

Po diegimo galite pamatyti pranešimą:

WARNING: No NVIDIA AMD GPU detected. Ollama will run in CPU-only mode.

Tai normalu, nes VPS aplinkoje GPU nėra palaikomas. Ollama automatiškai persijungia į CPU režimą ir toliau veikia korektiškai.

1.3 Patikrinkite diegimą

Patikrinkite, ar Ollama įdiegta teisingai:

ollama --version

Jei parodomas versijos numeris, Ollama sėkmingai įdiegta.

2. Ollama valdymas

Ollama veikia fone per systemd.

2.1 Patikrinkite Ollama būseną

systemctl status ollama

Turėtumėte matyti, kad Ollama yra active (running).

2.2 Paleiskite Ollama (jei reikia)

Jei Ollama neaktyvi, paleiskite jį šia komanda:

systemctl start ollama

Kad Ollama automatiškai pasileistų kartu su serveriu, įjunkite paleidimą startuojant sistemai:

systemctl enable ollama

3. Modelių valdymas

3.1 Paleiskite pirmą modelį

Pavyzdžiui, paleiskite populiarų bendros paskirties modelį:

ollama run llama3

Pirmą kartą paleidus:

• Modelis bus automatiškai atsisiųstas.
• Atsisiuntimas gali užtrukti kelias minutes. Tikslus laikas priklauso nuo modelio dydžio.
• Modelių failai gali užimti kelis gigabaitus disko vietos. Llama 3 dydis yra apie 4.7 GB.

Kai atsisiuntimas baigsis, su modeliu galėsite bendrauti tiesiai terminale.

3.2 Kaip naudoti modelį

Kai modelis užsikraus, pamatysite prompt, pavyzdžiui:

>>>

Tai reiškia, kad modelis paruoštas.

Įrašykite klausimą paprasta anglų kalba ir paspauskite Enter, pvz.:

Explain what a Linux service is in simple terms.

Modelis sugeneruos atsakymą tiesiai terminale.

Kol sesija aktyvi, modelis prisimena pokalbio kontekstą.

Kai baigsite, klaviatūroje paspauskite:

Ctrl + D

Tai uždaro sesiją, tačiau pati Ollama ir toliau veikia fone.

3.3 Paleiskite kitus modelius

Pavyzdžiai:

ollama run mistral
ollama run gemma
ollama run codellama
ollama run phi

Mažesni modeliai rekomenduojami VPS serveriams su ribotais resursais.

Mistral yra universalus modelis, kuris gerai veikia VPS be GPU. Jis pakankamai greitas kasdieniam naudojimui ir duoda geros kokybės atsakymus paaiškinimams, santraukoms bei baziniam programavimui. Jei norite vieno modelio, kuris padengtų daug užduočių ir nebūtų per sunkus, Mistral dažniausiai yra saugus pasirinkimas.
Mistral paprastai reikia apie 6–8 GB RAM.

Gemma yra lengvesnis ir greitesnis, skirtas sistemoms su ribotais resursais. Jis atsako greitai ir naudoja mažiau atminties, tačiau atsakymai paprastai būna paprastesni ir trumpesni. Geriausiai tinka baziniams klausimams, nedidelėms automatizavimo užduotims ir situacijoms, kai greitis svarbiau nei gylis.
Gemma dažniausiai gerai veikia su maždaug 3–4 GB RAM.

Code Llama yra orientuotas į programavimą. Jis naudingas kodo rašymui, scriptų paaiškinimui ir paprastų bug’ų taisymui, tačiau nėra skirtas bendram pokalbiui. Šis modelis turi prasmę, jei pagrindinis tikslas yra coding pagalba serveryje.
Code Llama paprastai reikia apie 6–8 GB RAM.

Phi 3 Mini yra labai mažas, bet stebėtinai pajėgus savo dydžiui. Jis greitai veikia net silpnesniuose VPS ir gerai tinka aiškiems paaiškinimams, paprastam reasoning ir lengvoms coding užduotims. Jei resursų mažai, dažnai tai yra geriausias modelis startui.
Phi 3 Mini gali veikti net su 2–3 GB RAM.

Visus prieinamus Ollama modelius rasite oficialioje Ollama model library svetainėje.

3.4 Peržiūrėkite įdiegtus modelius

ollama list

Ši komanda parodo visus modelius, kurie šiuo metu jau atsisiųsti į serverį:

3.5 Pašalinkite modelį

Jei reikia atlaisvinti disko vietos, modelį galite pašalinti šia komanda:

ollama rm llama3

4. Ollama API prieiga

Ollama automatiškai atidaro lokalų API endpoint:

http://localhost:11434

Šį API galite naudoti tam, kad:

Matytumėte prieinamus modelius
Siųstumėte prompt’us programiškai
Integruotumėte Ollama su savo aplikacijomis

Norėdami patikrinti, ar Ollama API veikia teisingai, ir pamatyti, kurie AI modeliai yra įdiegti ir prieinami sistemoje, paleiskite:

curl http://localhost:11434/api/tags

Svarbu: pagal nutylėjimą API klausosi tik ant localhost. Iš išorės jis nepasiekiamas, ir tai yra saugiausia konfigūracija.

5. Ugniasienės aspektai

Jei planuojate naudoti Ollama tik lokaliai VPS serveryje, jokių firewall pakeitimų nereikia.

Jei ketinate API padaryti pasiekiamą iš išorės:

Apsaugokite jį autentifikacija
Apribokite prieigą pagal IP
Neatidarykite jo tiesiai į viešą internetą

Atidaryti API be apsaugos nerekomenduojama.

6. Dažniausios problemos

6.1 Nepakanka RAM

Požymiai:

Modelis neužsikrauna
Ollama procesas būna nutraukiamas (killed)
Serveris tampa neatsakus

Sprendimai:

Naudokite mažesnį modelį
Pridėkite SWAP failą
Pereikite į galingesnį VPS planą

6.2 Lėti atsakymai

CPU režime tai yra normalu. Ollama VPS serveryje labiausiai tinka:

Testavimui
Mokymuisi
Vidiniams įrankiams
Nedidelio kiekio automatizacijai

Susiję straipsniai

Tinklo greičio testavimas naudojant iPerf3 Windows serveryje

Kaip įdiegti Grafana Ubuntu sistemose

Kaip įdiegti Grafana AlmaLinux ir Rocky Linux sistemose

Kaip naudojant FreeRDP prisijungti prie Windows serverio per komandinę eilutę

Kaip naudojant MobaXterm prisijungti prie serverio per SSH ir RDP

Kaip įdiegti Ollama Linux sistemose