SEO Блогът на Lilacor

Оптимизация за търсачки и интернет маркетинг (Search Engine Optimization & Marketing). АБВ-то на SEO-то!

Публикации с етикет “Оптимизация и популяризиране”

Паякът и индексът (четвърта последна част)

Публикувано от lilacor на 5 май, 2008

Keyword Density, Term Frequency & Term Weight

Повтаряемостта на изразите (Term Frequency – TF) е мерна единица за това колко често се появява определена дума в даден документ (уеб страница). Изразите, които са употребявани най-често в даден текст, се считат за най-важните в него. Ако една дума се среща във всеки (или почти във всеки) документ, тогава едва ли можете да научите кой знае колко за цялостното съдържание на страницата от нея. Следователно, често повтарящите се думи в уеб страниците имат малка или никаква стойност за търсачките, тъй като те ги игнорират по подобие на стоп-фразите (например: the, and, или or).

Рядко употребяваните думи и изрази, такива, които присъстват по-рядко в цялостното съдържание на уеб сайта, имат много по-голям signal-to-noise рейтинг. Този рейтинг представлява най-общо съотношението между качествения контент и боклука (реклами, банери, повтарящо се съдържание) и може в най-голяма степен да ви ориентира за какво се отнася съответният документ.

Инверсионната честота (Inverse Document Frequency IDF) може да бъде използвана за по-нататъшно определяне на стойността на повтаряемостта на изразите (TF), преценявайки колко начесто са разположени те в съдържанието на документа. Думите и изразите, които са по-малко на брой, и съответно се срещат по-рядко в съдържанието на сайта, обикновено могат да ви кажат много повече за него, отколкото тези, които се срещат почти навсякъде из страниците му.

Когато хората преценяват честотата на употреба на дадени думи или фрази, те обикновено пропускат да забележат други важни фактори, като например описаните дотук Inverse Document Frequency, Index Normalization, Word Proximity , докато търсещите машини отчитат различните видове елементи: удебелен шрифт, заглавия, линкове и др.

Търсачките може също да използват други технологии, например скритото семантично индексиране (latent semantic indexing), което представлява математичен модел за оценка на обвързаността на страниците. Google сканира милиони книги от университетски библиотеки. Колкото идеята на този процес е да се помага на хората в търсенето и намирането на информация, толкова и то помага на Google да „разбере” лингвистичните (словесен) модели.

Ако създадете нарочно уеб страница натъпкана от горе до долу с една и съща ключова дума или израз, без да добавяте никакво друго съдържание в нея, много е вероятно да се окаже, че няма да можете да я намерите с нито една търсачка или в най-добрия случай ще я намерите, но накрая на резултатите, тъй като търсещите машини ще е оценят като крайно нерелевантна. Идеята е да пишете по естествен начин, като използвате различни синоними на избраните от вас ключови думи и да структурирате добре страниците на сайта си.

Multiple Reverse Indexes (Многократни обратни индекси)

Търсачките могат да използват многократни обратни индекси (Multiple Reverse Indexes) за различен контент. Повечето от настоящите търсещи алгоритми са склонни да отдават по-голямо значение на заглавията на страниците и на линк текстовете, отколкото на останалите части от уеб съдържанието.

За повечето търсения, търсещите машини могат да намерят отговор на запитването ви само като обходят заглавията и линковете в документите, без да имат нужда да да губят излишно време и да обхождат цялостното им съдържание. Всичко, което може да спести време от компютърни цикли, без това да се отрази негативно на релевантността на резултатите, е нещо, за което можете изцяло да се доверите на търсачките.

След като най-релевантните документи са събрани, те могат да бъдат сортирани повторно на база на взаимната им обвързаност или други фактори. Около 50 % от запитванията, отправени към търсачките, са уникални и по-дълги, отколкото е необходимо, което налага да се поддържа огромна база от аналогични съвпадащи документи, които да удовлетворят всякакви желания от страна на интернет потребителите.

Очаквайте следващата тема Search Interface (Търсещ интерфейс)

Публикувано в SEO на български | Tagged: , , | Leave a Comment »

Паякът и индексът (част трета)

Публикувано от lilacor на 4 май, 2008

Proximity (Съседство)

Складирайки местоположението на изразите, търсачките могат да „разбират” колко близки са те едни с други. Като цяло, колкото по-близки са думите помежду си, толкова по-вероятно е страницата с резултатите от търсенето да задоволи запитването ви. Ако използвате важна група от думи само веднъж, уверете се, че те се намират близо една до друга. Ако думите са разпръснати по естествен начин из страницата на много места, няма да е нужно да се опитвате да пренаписвате съдържанието, за да разположите ключовите изрази близо едни от други. Естественото звучене на текста винаги е най-доброто решение!

Stop Words (Стоп-фрази)

Думи, които са много често употребявани, не помагат на търсещите машини да „разберат” документа. Пример за такава дума е “the”, която още е наричана стоп-фраза. Търсачките индексират такива стоп-фрази, но те по никакъв начин не помагат в оценяването на релевантността на страницата в търсещите алгоритми. Ако търсите по израза the Cat in the Hat, търсещите машини ще разглеждат запитването ви като * cat * * hat.

Index Normalization (Индекс нормализация)

Всяка страница е стандартизирана по размер. Това не позволява на по-дългите страници да получат несправедливо предимство (тъй като в тях има повече пространство за повторение на ключови фрази) пред по-късите такива. Също така, не позволява на по-късите страници да получат по-добър резултат, поради това, че съдържанието им е съставено от по-голям процент ключови фрази. Следователно, няма идеална дължина за уеб страниците, която да се котира най-добре в търсачките.

Уникалността на съдържанието на една страница е много по-важно от нейната дължина. Това съдържание има 3 основни цели:

  • Да бъде достатъчно уникално, за да бъде индексирано и оценено (ранкнато) в резултатите от търсенето;
  • Да е достатъчно интересно, за да искат потребителите да се линкват към него;
  • Да привлича посетителите на страницата да се абонират за нея, да купуват от нея и да кликат по текстовите реклами и банери поместени в нея.

Не всяка страница би могла да реализира продажби или да бъде достатъчно привлекателна, за да искат посетителите да се линкват към нея. Но ако много от страниците във вашия уеб сайт са с качествено съдържание, което остава такова с течение на времето, това неминуемо ще повиши ранга на почти всяка страница от сайта ви.

Очаквайте последната част от „Паякът и индексът“ – Keyword Density, Term Frequency, Term Weight & Multiple Reverse Indexes

Публикувано в SEO на български | Tagged: , , | Leave a Comment »

Паякът и индексът (част втора)

Публикувано от lilacor на 3 май, 2008

Складирани атрибути (Storing Attributes)

Тъй като търсачките „виждат” страниците откъм техния изходен код (от англ. source code) в линеен формат, най-добре е да преместите JavaScript-а и другите допълнителни кодове във външни файлове, за да помогнете с преместването на копието на страницата по-нагоре в изходния код.

Някои хора предпочитат да използват т. нар каскадни стилови таблици (от англ. Cascading Style Sheets (CSS)) или празна клетка от таблица, за да разположат съдържанието на страницата преди навигацията. За да могат търсещите машини да преценят кои думи са първи, те „оглеждат” как са разположени думите в изходния код. Не съм се занимавал специално да тествам дали си струва усилията да направите кода на вашата страница да е разположен преди навигацията, но в случай, че това няма да ви отнеме много време и усилия, нищо не пречи да опитате. Линк анализът (който ще разгледаме подробно по-нататък) е много по-важен отколкото подредбата на думите в сорс кода, но всяко дребно нещо може да се окаже от полза.

Гугъл са наели група служители от Мозила и е много вероятно да работят върху задачата да помогнат на своите паяци да разберат по-добре начина, по който браузърите интерпретират (тълкуват) страниците. Майкрософт публикуваха проучване, което може да се окаже много полезно за Гугъл в опитите им да разберат коя част от съдържанието на уеб страницата е най-важно.

Освен да складират позицията на думата, търсачките могат също така да „запомнят” как са складирани данните. Например, къде е разположена съответната дума в заглавието на страницата (page title)? Част от заглавие ли е (heading)? Какво заглавие (H1, H2… H6)? С удебелен шрифт ли е написана? Подчертана ли е? Намира ли се в текст на линк? и т.н.

Думите, които са в заглавие или са отделени по друг начин от нормалния текст на страницата, могат да получат допълнителна тежест в много търсещи алгоритми. Имайте предвид, обаче, че може да се стори подозрително на търсачките, ако дадени ключови фрази се появяват многократно с удебелен шрифт или под формата на заглавия, без да участват в останалата част от съдържанието на страницата. Също така, ако страницата ви изглежда твърде тясно обвързана с дадена тема, т.е. има много голяма гъстота на ключовите думи, тогава тя може да получи по-ниска оценка за релевантност, отколкото страница с по-малка наситеност с ключови думи, но звучаща по-естествено.

Следващият път очаквайте: Proximity, Stop Words и Index Normalization

Публикувано в SEO на български | Tagged: , , | Leave a Comment »