Cfare eshte Robots.txt dhe perse duhet ne websitin tuaj?

Robots.txt

A nuk eshte vertete e mrekullueshe qe motoret e kerkimit vizitojne shume shpesh faqe tende te internetit dhe indeksojne komplet permbajtjen e saj? Por, ka raste qe indeksimi behet dhe ne disa pjese te faqes qe nuk duhet. Per shembull, nese ke dy versione te nje faqjeje (nje per navigim ne browser dhe nje per printim) do te preferoje sigurisht qe versioni per printim te mos “lexohet” nga motoret e kerkimit perndryshe mund te penalizohesh per permbajtje te duplikuar. Gjithashtu nese ke te dhena sensitive ne faqen tende dhe nuk deshiron qe publiku ti shohi ato, nuk deshiron qe motoret e kerkimit ti indeksojne keto faqe (megjithate menyra me e sigurt per te mbajt faqe te tilla private dhe te fshehura nga publiku eshte ti mbash ato offline ne nje pajisje tjeter). Pervec kesaj, per te kursyer pak bandwidth duke perjashtuar skedaret me fotot, stylesheets dhe javascript nga indeksimi, do te duhet ti tregosh merimangave* te motoreve te kerkimit qe te rrine larg nga keto skedare dhe mos ti lexojne.

*spiders = jane programe qe vizitojne faqet e internetit dhe i loexojne ato per te krijuar rekorde indeksimi per motoret e kerkimit.

Nje menyre per te diktuar motoreve te kerkimit cfare skedaresh dhe cfare folderash te perjashtojne nga indeksimi qe bejne eshte perdorimi i metatag-ut te Robots. Por jo te gjithe motoret e kerkimit i njohin keto metatags. Nje menyre me e mire per te informuar motoret e kerkimit per keto gjera eshte te perdoresh nje skedari robots.txt.

Cfare eshte Robots.txt?

Robots.txt eshte nje skedar teksti (jo HTML) qe vendoset ne direktorine kryesore te nje faqe web dhe i dikton roboteve te kerkimit cilat faqe lejohet (ose jo) te lexojne per indeksim! Robots.txt nuk eshte nje rregull me detyrim per motoret e kerkimit por ne pergjithesi respektohet nga ato. Eshte e rendesishme te theksoj qe robots.txt nuk eshte nje menyre per parandaluar motoret e kerkimit nga indeksimi i faqes tende (kurresesi nuk nuk luan rolin te nje firewall dhe as nuk e zevendeson ate). Keshtu qe nese faqja jote permban te dhena sensitive eshte shume naive e gabuar ti vendosesht keto faqe ne robots.txt (ne forme rregullash “disallow”) sepse ka menyra qe mund te zbulohen keto URL nga hackersat…

Vendosja e robots.txt eshte shume e rendesishme. Duhet te jete ne direktorine kryesore te faqes perndryshe motoret e kerkimit nuk kane si ta gjejne sepse ata nuk kerkojne te gjithe faqen per ta gjetur skedarin robots.txt. Ne vend te kesaj ato kerkojne se pari te direktoria kryesore (psh. http://faqja-ime.com/robots.txt) dhe nese nuk e gjejne atje thjesht supozojne qe kjo faqe nuk ka nje skedar te tille dhe indeksojne gjithcka qe gjejne.

Pra nese nuk tregohesh i kujdesshem me vendodhjen e robots.txt ne faqen tende mos u suprizo qe motoret e kerkimit do te indeksojne komplet faqen tende pa asnje perjashtim.

Koncepti dhe struktura e robots.txt ka me shume se 10 vjet qe eshte zhvilluar. Nese je i interesuar qe te mesosh me shume rreth kesaj vizito faqen zyrtare http://www.robotstxt.org ose thjesht kliko “Standard for Robot Exclusion” sepse ne kete postim do trajtoj vetem aspektet me te rendesishme te ketij skedari.

Struktura e Robots.txt

Struktura e robots.txt eshte shume e thjesht dhe fleksibel. Ajo perbehet nga nje list regullash te cilat lejojne ose jo motoret e kerkimit te aksesojne dhe te indeksojne direktorite e ndryshme ne website. Ne parim sintaksa eshte keshtu:

User-agent:

Disallow:

“User-agent” jane merimangat (crawlers) e motoreve te kerkimit dhe “disallow” eshte lista e direktorive te faqes qe deshiron te perjashtohen nga indeksimi. Ketu ke mundesine te shkruash dhe komente duke vendosur simbolin “#” ne fillim te fjalise:

 

#All user agents are disallowed to see the /temp directory.

User-agent: *

Disallow: /temp/

 

Sintaksa dhe rregullat e Robots.txt

Kur vjen momenti qe duhet te krijosh skedare te komplikuar – psh. te lejosh qe user agents-at te aksesojne skedar te ndryshem secili – atehere fillojne problemet nese nuk tregohesh i kujdesshem me strukturimin e robots.txt. Gabimet e zakonshme lidhen me sintaksen dhe me rregullat kontradiktore. Gabimet e sintakses kane te bejne me shkrimin e gabuar te direktorive, shkrimin e gabuar te user-agents mungesen e “:” pas “User-agents” dhe “Disallow” si dhe mungesa e “/” ne URL-te ne “Disallow”. Keto gabime jane ndonjehere te veshtira per tu identifikuar dhe per kete arsye perdoren disa programe verifikimi per ndihme.

Problemet me serioze jane ato qe kane te bejne me rregullat logjike. Si pershembull:

User-agent: *

Disallow: /temp/

User-agent: Googlebot

Disallow: /images/

Disallow: /temp/

Disallow: /cgi-bin/

Ky shembull eshte nga nje robots.txt i cili lejon te gjithe motoret e kerkimit (User-agent: *) te indeksojne gjithcka ne faqe pervec direktorise /temp. Deri ketu gjithcka eshte ne rregull por ka dhe nje rregull me poshte i cili specifikon (User-agent: Googlebot) Google si motorin e vetem te kerkimit qe lejohet te indeksoje faqen. Pra, ne momentin qe Googlebot do te filloi te “lexoi” skedarin e robots.txt do te shikoje qe te gjithe user-agents kane leje (rrjeshti i pare User-agent: *) te indeksojne komplet faqen perjashtuar direktorise /temp. Kjo mjafton per rastin e Googlebot, sepse nuk eshte nevoja qe te “lexoje” te gjithe skedarin e robots.txt deri ne fund dhe do te indeksoi gjithcka ne website pervec direktorive /temp (perfshire /images/ dhe /cgi-bin/). Pra e shikoni cfare gabimesh mund te ndodhin duke vendosur rregulla kontradiktore me njera tjetren. Gjithesesi, struktura e robots.txt eshte relativisht e lehte por pa kujdesin e duhur mund te ndodhin probleme serioze.

Programe per Gjenerimin dhe Verifikimin te nje skedari Robots.txt

Duke patur parasysh regullat dhe sintaksen te nje skedari robots.txt mundesh ta lexosh disa here per tu siguruar nese cdo gje eshte OK dhe nuk ke bere gabime, por vertete eshte shume me e thjesht te perdoresh nje program qe do kryeje kete verifikim per ty. Nje program i tille eshte http://tool.motoricerca.info/robots-checker.phtml. Keto programe te raportojne menjehere per gabimet kryesore ne sintaksen e robots.txt, si per shembull:

User agent: *

Disallow: /temp/

Ka gabim sepse midis “User” dhe “agent” mungon nje “-”

Cfare eshte Robots.txt - Verifikimi i skedarit Robots.txt - www.dorianqose.com

Verifikimi i skedarit Robots.txt – www.dorianqose.com

 

Cfare eshte Robots.txt - Verifikimi i skedarit Robots.txt - www.dorianqose.com

Verifikimi u krye me sukses! – www.dorianqose.com

Ne rastet qe ke nje skedar robots.txt me kompleks per te krijuar do te duhet te japesh aksese te ndryshme ne direktorite te ndryshme per secilin User-agent. Por mos u be merak, ka disa programe qe mund te krijojne nje robots.txt per ty sado e nderlikuar qe te jete. Nje nga keto programe eshte Server-Side Robots Generator ku duke shkruar direktorite (URL) qe nuk deshiron te indeksohen gjeneron automatikisht nje robots.txt te plote dhe pa asnje gabim!

Cfare eshte Robots.txt -Gjenerimi i nje skedari Robots.txt - www.dorianqose.com

Gjenerimi i nje skedari Robots.txt – www.dorianqose.com

 

Cfare eshte Robots.txt -Gjenerimi i nje skedari Robots.txt - www.dorianqose.com

Robots.txt gati per tu uploadur ne server – www.dorianqose.com