Vizija kompanije Google definisana je u rečenici: „Naša želja je da na jedan klik obezbedimo pristup svim svetskim informacijama“. Ambiciozno, ali se čini da Google nije daleko od tog cilja.
Danas ovaj pretraživač poseduje podatke sa 130 triliona Web stranica, a svakoga dana saopšti 3,5 milijarde rezultata pretrage. Možda je najbolja ilustracija koliko je Google dominantan pretraživač podatak da se svake sekunde izvrši oko 40.000 pretraga.
Kako Google radi? Kao i za sve druge proizvode i usluge, tako i za pretraživanje, Google ima jednostavan odgovor iskazan jednom rečenicom: pronalaženje sadržaja, indeksiranje i saopštavanje rezultata. Google-ov robot putuje Internetom, prati veze (linkove) između stranica i uzima pronađeni sadržaj koji potom analizira u svojim data centrima. Tokom analize stranica se parsira, odnosno raščlanjuje na bitne elemente. Na primer, u želji da dođe do sadržaja vesti sa određene stranice Web portala, algoritam mora da eliminiše navigacione elemente te stranice, sve reklame, sve srodne vesti, elemente zaglavlja i podnožja. Kada Google izdvoji šta je sa tog URL-a bitno, sadržaj se indeksira i upisuje u Google-ovu bazu podataka, odakle se uzimaju rezultati pretrage. Tek tada, za dati URL, tj. Web adresu, Google ima sadržaj koji može da saopšti u rezultatima pretrage.
Konačno, ako je sadržaj relevantan korisnikovom upitu, URL stranice biće prikazan u rezultatima pretrage. Saopštavanje rezultata je kompleksan proces. Njega kontroliše algoritam koji za svaku pretragu sadržaje iz indeksa analizira s više od 200 faktora rangiranja. Da li će vaš sadržaj biti prvi ili dvadeset prvi nije slučajnost.
Indeksiranje je restriktivno
Internet, nažalost, nije idealno mesto: spam, maliciozni sadržaj, kopiran i dupli sadržaj, netačan i nepouzdan sadržaj (fake news) često se sreću. Google ima odgovornost prema korisnicima da ih zaštiti od ovakvog sadržaja, ali s druge strane, ima i „sebične“ razloge zbog kojih želi da se obračuna sa ovim problemom – ne želi da troši svoje hardverske kapacitete na čuvanje terabajta i terabajta zlonamernih podataka, ne želi da troši svoju procesorsku snagu na obradu nebitnih i malicioznih stvari. Zato je primenio brojne algoritamske filtere koji automatski eliminišu ove stvari iz indeksa. Po njihovim rečima, između 25 odsto i 30 odsto sadržaja već je ranije indeksirano, odnosno gotovo je sigurno da je četvrtina sadržaja na Internetu dupli sadržaj.
Google Panda je naziv nadogradnje algoritma koji se bavi problemom duplog sadržaja. Ranije se Panda primenjivala nekoliko puta godišnje, a danas radi u realnom vremenu. To je posebno bitno za sadržaje na srpskom jeziku pošto mnogi naši sajtovi poseduju sadržaj na oba pisma – latinici i ćirilici.
Uzmimo primer sajta nekog fakulteta. Google-ov robot putuje Internetom i na sajtu univerziteta pronalazi link koji vodi na ćiriličnu verziju sajta našeg fakulteta. Google prolazi kroz sajt i u jednom trenutku nailazi na link u zaglavlju sajta koji vodi na latiničnu verziju. Može se vrlo lako dogoditi da Google ovu situaciju protumači na sledeći način: „Ovo je sadržaj na .rs domenu, dakle relevantan je korisnicima u Srbiji. Ovo je sadržaj na srpskom jeziku, definitivno vredan korisnicima u Srbiji. Ali šta je ovo? Našao sam još jednu verziju istog sadržaja, sve je isto od reči do reči. Pa ovo je dupli sadržaj!“ I konačno, cela verzija sajta na jednom pismu (na primer, na latinici) ne bude indeksirana. Ako nije indeksirana, neće biti prikazana u rezultatima pretrage i, što se Googlea tiče, kao da ne postoji na Internetu. Što nije u redu, posebno zato što korisnici u Srbiji imaju jednako pravo da koriste oba pisma.
Primenite Hreflang
Krajem 2011. Google je objavio da prihvata novo obeležavanje višejezičnog i lokalizovanog sadržaja pomoću rel=“alternate“ hreflang link elementa. Hreflang je pre svega sugestija, a ne direktiva. To znači da Google nije dužan da isprati vrednosti koje mu hreflang saopštava, ali ih može koristiti kada je potrebno da korisnici dobiju prilagođene rezultate i bolje iskustvo.
Hreflang je predviđen da definiše isključivo jezik. Na primer, rel=“alternate“ hreflang=“sr“ definiše sadržaj na srpskom jeziku. hreflang se može dopuniti i podacima o lokaciji. Tako rel=“alternate“ hreflang=“sr-rs“ definiše srpski sadržaj koji je namenjen korisnicima u Srbiji. Slično tome, rel=“alternate“ hreflang=“en-gb“ definiše sadržaj na engleskom namenjen korisnicima u Velikoj Britaniji, ali rel=“alternate“ hreflang=“en-ie“ definiše sadržaj na engleskom namenjen korisnicima u Irskoj, a rel=“alternate“ hreflang=“en-ca“ sadržaj na engleskom namenjen korisnicima u Kanadi.
Veoma velika korist od primene. Međutim, hreflang taga jeste sprečavanje problema duplog sadržaja, jer će Google indeksirati sve varijante istog sadržaja. Osim toga, Google će znati i kome je koja varijanta sadržaja namenjena (lokalizacija). S obzirom na to da je korisnicima lokalizovan sadržaj mnogo vredniji od nelokalizovanog, česti su slučajevi da nakon ispravne implementacije hreflang taga sajt dobije više saobraćaja.
Stopa odbitka sa strane (bounce rate) može se drastično smanjiti kada se korisnicima prikazuje lokalizovan sadržaj u prvoj poseti, bez potrebe za biranjem odgovarajuće jezičke verzije ili pisma. Time se istovremeno povećava mogućnost konverzije tog istog korisnika iz posetioca u kupca ili korisnika usluga koje nudimo na sajtu.
Latinica i ćirilica
Koje vrednosti je potrebno uneti u hreflang ako želimo da definišemo sadržaj stranica na srpskom jeziku, koje su izrađene za korisnike u Srbiji, a napisane na latinici i ćirilici? Nelogično je da obe stranice imaju rel=“alternate“ hreflang=“sr-rs“. Google ne bi validirao takav hreflang kao ispravan i verovatno bi ignorisao čitavo jedno pismo.
Rešenje je u korišćenju ISO-15924 međunarodnog standarda za označavanje pisma. Tako za ćirilicu koristimo sr-Cyrl, a za latinicu sr-Latn. Sadržaj na latinici, lokalizovan za Srbiju, ima hreflang rel=“alternate“ hreflang=“sr-Latn-rs, a sadržaj na ćirilici, lokalizovan za Srbiju, ima hreflang rel=“alternate“ hreflang=“sr-Cyrl-rs.
Brojnim testiranjima potvrđeno je funkcionisanje izloženog rešenja u praksi. Konačni rezultat je potpuno indeksiranje sadržaja na oba pisma iako je reč o istom sadržaju.
Tekst je pripremljen u saradnji sa RNIDS-om, Registrom nacionalnog internet domena Srbije
|