Nezaradené

Viete ako fungujú vyhľadávače Google, Bing alebo Seznam?

Každý deň vyhľadávače (napr. Google a Bing) prechádzajú milióny stránok na internete a rozhodujú, či je stránka dobrá alebo zlá a na aké slovo je odpoveďou. Vyhľadávač hľadá vždy čo najrelevantnejšie odpovede a čo najkvalitnejšiu stránku na zadaný vyhľadávací dopyt. S fulltextovými vyhľadávačmi preto pracujeme každý deň – výrazne nám urýchľujú prácu s informáciami. V dnešnom článku sa pozrieme na to, ako vyhľadávač funguje a ako optimalizovať svoju stránku tak, aby bola videná.

Ako funguje vyhľadávač

Aby boli vyhľadávače schopné v reálnom čase prehľadávať internet, musia najprv prejsť čo najviac stránok a predpripraviť si dátovú štruktúru – tzv. index. Fulltextové vyhľadávače teda pri zadaní kľúčového slova vyhľadávajú až v tomto indexe.

Principiálne vyhľadávače fungujú v troch krokoch:

  1. crawlovanie (zbieranie dát do databázy vyhľadávača)
  2. indexácia (príprava indexu)
  3. výsledky vyhľadávania
  4. Crawler

Crawler je program, ktorý prechádza internetové dokumenty a ukladá si o nich dôležité dáta ako ich obsah (text), metadáta (dátum stiahnutia dokumentu, hash dokumentu, či došlo k zmene dokumentu od poslednej návštevy a pod.), prípadne informácie o spätných odkazoch.

Crawler si tiež ukladá hypertextové odkazy (tj. obsah HTML atribútov src a href) na ďalšie dokumenty, ktoré bude sťahovať v budúcnosti. Z toho vyplýva, že ako prvotný vstup je potrebné crawlerovi dodať niekoľko URL adries, na ktorých môže nájsť ďalšie adresy (práve preto sú dôležité kvalitné a relevantné spätné odkazy – backlinky).

Vytvára si tak zoznam URL adries, ktoré sa budú ďalej sťahovať. Dáta sa ukladajú na pevné disky s vysokou kapacitou. Na internete je teoreticky nekonečne veľa webových stránok – aj na jednom webe možno totiž dynamicky vytvárať veľké množstvo stránok, ktoré majú unikátny (ale často nezmyselný) obsah.

Napriek tomu, že sa dnes ceny pevných diskov pohybujú v rádoch korún za GB, nie je v reálnych schopnostiach crawlerov stiahnuť všetky stránky na internete. Musí sa teda rozhodnúť, ktoré stránky sú dostatočne kvalitné a mali by sa vyskytovať v indexe. Pri tomto rozhodovaní používa výberovú funkciu, kde sú vstupy parametre dokumentu a výstupom je, či sa bude dokument sťahovať alebo nie.

Duplicitný obsah a vyhľadávače

Ak sa na viac ako jednej URL adrese vyskytuje rovnaký obsah, ide z pohľadu vyhľadávača o duplicitné obsah. Duplicitný obsah je nežiaduci jav – ak by mal vyhľadávač v indexe dva úplne (alebo aj čiastočne) totožné dokumenty iba by zaberali miesto. Cieľom vyhľadávačov je poskytovať kvalitne triedené dokumenty používateľom, čo duplicitný obsah rozhodne nie je.

 

V rámci webov vznikajú často prirodzené duplicity, ktoré majú tvary:

V prípade URL adries s niekoľkými parametrami vznikajú prirodzené duplicity tiež pri rôznom poradí parametrov. Ak je napríklad URL adresa s parametrami:

http://www.example.com/?x=1&y=2

tak prirodzená duplicita je URL v tvare

http://www.example.com/?y=2&x=1

Z množiny prirodzených duplicít crawler vyberie jedného zástupcu – tzv. kánonickú stránku, ktorú považuje za najdôležitejšiu. Pre označenie kanonickej stránky existuje zápis rel=canonical, ktorú podporuje ako Google, tak aj Seznam.cz.

Dávajte si pozor na 404 a úpravu URL stránok

Crawler tiež musí vedieť pracovať s presmerovaním a ďalšími stavovými kódmi. Častým stavovým kódom je 404 Not found. Ak takúto stránku crawler navštívi prvýkrát, tak si ju neukladá. Ak však táto stránka vracala skôr 200 OK a teraz hlási 404 Not found, nie je vhodné ju hneď odstrániť ako z databázy vyhľadávača, tak aj z indexu.

V týchto prípadoch sa len odstráni z výdaja a v databáze vyhľadávača naďalej zostáva. Crawler ju teda v budúcnosti navštívi ešte niekoľkokrát. Ak stránka aj naďalej vracia kód 404, tak sa odstráni aj z databázy. Stránka s odstránenou URL adresou sa však na serveri môže objaviť v budúcnosti znova. V tejto chvíli ju však crawler aj index vníma ako úplne novú stránku. Z tohto dôvodu je zásadné nemeniť raz vytvorené URL adresy, pretože tým prichádzate o pracne budovanú hodnotu danej URL. Ide o jednu zo základných vecí pri optimalizácii pre vyhľadávače (SEO).

Podobné situácie často nastávajú pri zmene redakčného systému na webe. Preto je potrebné presmerovať všetky staré URL adresy na nové a predovšetkým tento proces dôsledne skontrolovať. Pozrite sa napríklad, ako bola naplánovaná zmena domény MOZu.

Ako zakázať prístup vyhľadávacím robotom

Ako prevádzkovateľ webstránky máte možnosť vyhľadávacím robotom zakázať prístup. Zakázať možno prístup buď na celý web, alebo len pre vybrané adresáre či časti webu. V praxi sa zákaz pre roboty využíva napríklad pri stránkach, na ktorých sa nachádza administrácia webu.

Robots Exclusion Protocol – robots.txt

Súbor robots.txt je jednoduchý spôsob, ako zakázať robotom vstup na web. Ide o malý textový súbor, ktorý musí byť umiestnený v koreňovom adresári webu (napr. http://www.idcrew.sk/robots.txt) a byť pomenovaný malými písmenami.

Zakaždým keď robot vyhľadávača príde na web, mal by si najprv stiahnuť robots.txt a zistiť, či má alebo nemá prístup k požadovanému dokumentu. Najväčšie internetové vyhľadávače (Google, Seznam.cz, Bing a pod.) sa týmto protokolom naozaj riadia. Vytvorenie robots.txt však nie je nutné, ak nie je potrebné niečo robotom zakazovať. Robots.txt však slúži napríklad aj na uvedenie odkazu na súbor sitemap.xml (takto to máme napríklad aj my).

Meta tag robots

Indexáciu možno zakázať aj priamo v HTML kóde konkrétnej stránky pomocou meta tagu robots. Ten sa umiestňujemedzi tagy <head> a </head>. Určite ste sa stretli aj s podobnými hodnotami:

  • index, noindex – povoľuje, respektíve zakazuje, indexáciu danej stránky robotom.
  • follow, nofollow – povoľuje, respektíve zakazuje, robotom nasledovať odkazy z daného dokumentu na ďalšie stránky. V rámci SEO a linkbuldingu je pre vás lepšie získavať follow odkazy, než nofollow odkazy.
  • noarchive – zabráni uchovanie kópie dokumentu vo vyrovnávacej pamäti vyhľadávača

Ďalší bod po crawlovaní, ktorý musíte pochopiť, ak chcete presne vedieť ako fungujú vyhľadávače, je indexácia.

Indexácia

Indexácia je proces vytvárania dátovej štruktúry, ktorá sa v súvislosti s vyhľadávačmi nazýva index. Ide o invertovaný zoznam, niekedy tiež označovaný ako fulltextový index, kde sú kľúčom slová, ktoré sa vyskytujú v jednotlivých dokumentoch.

Ku každému slovu sú v indexe priradené dokumenty, ktoré toto slovo obsahujú, a pozície daného slova v dokumente. Index si možno jednoducho predstaviť ako register v knihe. Pre každé slovo, ktoré má vyhľadávač zaindexované, existuje jeden taký index.

Vytváranie indexu

Pri vytváraní indexu sa ukladajú dôležité informácie, ktoré následne slúžia pre rozhodovanie, ktoré stránky sa zobrazia vo výsledkoch vyhľadávania a na ktorej pozícii.

Ide predovšetkým o tieto dáta:

  • holý text (plain text) rozložený na slová – pre každé slovo má vyhľadávač vlastný index,
  • téma,
  • spätné odkazy, ktoré mieria na dokument (web), a k nim napríklad text odkazu (anchor text), titulok, téma odkazujúcej stránky a pod.,
  • ranky stránky (S-rank a pod.),
  • jazyk stránky,
  • typ stránky,
  • informácie o doméne, na ktorej je dokument umiestnený.

Ak sa na tieto dáta pozrieme z iného pohľadu, možno ich tiež rozdeliť na on-page faktory (tie, ktoré sa nachádza priamo na webe) a off-page faktory (mimo webu – spätné odkazy a podobne).

Aktualizácia indexu

Už teda lepšie chápete ako funguje vyhľadávač Google a ako sa tvoria výsledky vyhľadávania? Je nutné dodať, že crawler sa jednak vracia na už skôr navštívené stránky, ale tiež sťahuje stránky nové. Z toho vyplýva, že sa musí aktualizovať aj index, inak by vyhľadávače nemohli ponúkať najnovšie stránky, ktoré crawler práve stiahol. Teda vaše nové pridané články by sa vo výsledkoch vyhľadávania (po anglicky Search Engine Result Page – skratka SERP), nikdy nezobrazili.

Vo všeobecnosti môže aktualizácia prebiehať 2 spôsobmi:

  1. prírastková aktualizácia

Prírastková metóda je založená na tom, že sa nové dáta z databázy vyhľadávača pridávajú do súčasného indexu. V tomto prípade je však nutné dáta zaradiť na správne miesto v indexe.

  1. hromadná aktualizácia

U hromadnej metódy sa skontroluje, ktoré stránky pribudli v databáze vyhľadávača. Z nich sa vytvorí nový menší index. K spojeniu týchto indexov teda dochádza až počas samotného vyhľadávania.

Ako sa zobrazovať vo vyhľadávačoch na prvých pozíciách?

Keď už chápete ako fungujú vyhľadávače typu Google či Seznam, tak je na mieste otázka – môžem sa dostať na prvé pozície? Ako? Máte 2 možnosti.

Nastavenie reklamy v Google AdWords

Ten jednoduchší spôsob ako sa dostať na prvé miesta v Google/Sezname je zaplatiť si reklamu v Google AdWords, resp. v sieti Sklik. Aj spoločnosti vlastniace vyhľadávače musia z niečoho žiť a pokrývať náklady na obrovské datacentrá, takže umožňujú zobrazovať reklamu na prvých miestach nad organickými výsledkami vyhľadávania.

Dávajte si však pozor, amatérske nastavenie kampane vám môže peniaze z peňaženky zobrať a nových zákazníkov nezískate. Aj preto v rámci našich služieb poskytujeme profesionálnu pomoc s Google AdWords. Nám môžete naozaj dôverovať, keďže sme certifikovaný pre reklamu AdWords od samotnej spoločnosti Google.

 

 

Optimalizácia pre vyhľadávače

Druhou možnosťou je kvalitná optimalizácia webovej stránky s ohľadom na on-page a off-page faktory. Je to beh na dlhú trať, ale pokiaľ sa budete snažiť, tak môžete dobehnúť oveľa ďalej ako len s platenou reklamou.

Search Engine Optimization (skratka SEO) – cieľom je získať viac relevantných užívateľov a objednávok z organického vyhľadávania. Ide o súbor činností, ktoré sa aplikujú na samotných vstupných stránkach webu aj na portáloch, ktoré na ne odkazujú. Predovšetkým neverte SEO mýtom od „akože odborníkov“ a naučte sa SEO robiť poctivo. Ak to nezvládnete, tak nás pokojne kontaktujte, radi vám pomôžeme.

Idcrew radí: Pozrite sa na SEO trendy v roku 2017 a optimalizujte svoj web moderne.

Rada na záver – jedno slovo môže mať rôzne znenia

Veľmi dôležitá je teda aj ekvivalentnosť. Slovenčina má ohromné množstvo synoným, pádov a prevzatých slov. A teda čo zákazník, to originál. Rôzni jednotlivci môžu jednu vec pomenovávať množstvom rôznych výrazov. Jeden napíše do vyhľadávača magazín, druhý časopis, ale obaja chcú to isté. Má teda oveľa väčší zmysel používať ekvivalenty než omieľať tie isté výrazy dookola.

Zapamätajte si, že vyhľadávač sa vždy snaží nájsť čo najrelevantnejšiu stránku voči vyhľadávaciemu dopytu. Vyhodnotenie toho, ktorá stránka je najrelevantnejšia, je zložitý proces, ktorému môžete pomôcť najmä jednou vecou – tvorte prirodzený obsah pre vašich používateľov a získavajte relevantné odkazy.

Prečítajte si aj: Ako optimalizovať web pre vyhľadávače a zároveň používateľa?