SEO Блогът на Lilacor

Оптимизация за търсачки и интернет маркетинг (Search Engine Optimization & Marketing). АБВ-то на SEO-то!

Ахрив за 02.05.2008

Паякът и индексът

Публикувано от lilacor на 2 май, 2008

Паякът (Crawler, Spider)

Паякът прави точно каквото предполага името му. Той претърсва мрежата, следвайки линковете, ъпдейтва (обновява) страниците и добавя нови, когато попадне на такива. Всяка търсачка има периоди на „дълбоко” и „плитко” търсене. Съществува и индексен механизъм, който не позволява на паяка да претоварва сървърите и който му посочва кои документи да обхожда и колко често да ги обхожда.

Често променящите се или много важни документи биват обхождани по-често. Честотата на обхода няма директно отношение към релевантността на търсенето, тя просто помага на търсачките да поддържат актуално съдържанието в техния индекс (списък). Например, страницата на CNN (www.CNN.com) може да бъде обхождана веднъж на всеки 10 минути. Популярните, бързо разрастващи се форуми биват обхождани десетки пъти на ден. Един статичен сайт, с ниска линкова популярност (от англ. link popularity) и рядко променящо се съдържание, може да бъде обновяван от търсачките по един два пъти месечно.

Най-голямата полза, от това да имате често обхождана от паяците страница, се състои в това, че можете да я линкнете (свържете посредством линкове) към някой нов сайт, страница или проект, като по този начин и те ще бъдат обхождани по-често от търсещите машини.

Индексът (The Index)

Индексът (още наричан каталог) е мястото, където събираната от паяците информация бива складирана. Когато извършите търсене посредством голяма търсачка (напр. Google или Yahoo!), вие не претърсвате цялата мрежа, а само кеш паметта на мрежата, съдържаща се в каталога на съответната търсачка.

Обратен индекс (Reverse Index)

Търсещите машини организират своето съдържание по метод наречен обратен индекс. Когато търсите с Google и ви излезе резултат 1-10 out of 143,000 websites, това означава, че съществуват приблизително 143 000 уеб страници, които или съдържат търсените от вас ключови думи в себе си, или имат вътрешни връзки (линкове), които ги съдържат. Също така, забележете, че търсачките не складират пунктуация, само думи!

Следващото е пример за обратно индексиране и демонстрира как типичните търсачки класифицират съдържанието (контента). Имайте предвид, че това е крайно опростена версия на действителността, но илюстрира метода достатъчно ясно. Представете си, че всяко от следващите две изречения представлява съдържанието на една уникална страница:

The dog ate the cat.

The cat ate the mouse.

Word Document # Position #
The 1,2 1-1, 1-4, 2-1, 2-4
Dog 1 2
Ate 1,2 1-3, 2-3
Cat 1,2 1-5, 2-2
Mouse 2 5

Очаквайте продължение…

Публикувано в SEO на български | Tagged: , , | Leave a Comment »