爬行廣義上是指慢慢地向前行走,但是在網(wǎng)絡(luò )術(shù)語(yǔ)中卻并不是這個(gè)意思。爬行一詞來(lái)源于百度蜘蛛,特指百度蜘蛛通過(guò)網(wǎng)站并留下痕的過(guò)程筆者曾經(jīng)在做谷歌搜索引擎時(shí)發(fā)現,谷歌很容易做收錄,那是因為谷歌搜索引擎在爬行并判斷方面做得沒(méi)有百度那么嚴謹。而百度蜘蛛也會(huì )做至快速收錄并展示的效果,但是它卻不會(huì )急于展示出來(lái),而是通過(guò)一段時(shí)間的審核才會(huì )展示在搜索引擎上。確定式爬行是指當你的網(wǎng)站進(jìn)行更新之后,百度蜘蛛會(huì )來(lái)你的網(wǎng)沾進(jìn)行第一次爬行,并確定你的網(wǎng)站定位,但是不會(huì )馬上就將收錄的頁(yè)面展現出來(lái)。穩定式爬行般是該河北百度愛(ài)采購上線(xiàn)了一段時(shí)間,如半年左右并且成功地渡過(guò)了沙盒期。
百度蜘蛛此時(shí)就會(huì )每天到該網(wǎng)站進(jìn)行爬行,并在第一時(shí)間展示和收錄該網(wǎng)站的頁(yè)面。3爆發(fā)式爬行這種模式般會(huì )出現百度重新定義算法,對所有網(wǎng)站進(jìn)行大洗牌的時(shí)候。百度剔除不符合規則的網(wǎng)站,并將一些高質(zhì)量的網(wǎng)站給予更好的排名。4爬行與抓取通過(guò)詞匯我們可以知道是先爬行后抓取。百度蜘蛛在爬行網(wǎng)站的時(shí)候,往往會(huì )優(yōu)先判斷 robots文件里的內容,判斷哪些文件是禁止抓取的。而這個(gè) robots文件的定義是根據國際規范標準而定的,正所謂無(wú)規矩不成方圓,百度也不例外。百度蜘蛛爬行的軌跡往往從河北百度愛(ài)采購的首頁(yè)開(kāi)始,而且會(huì )根據首頁(yè)的鏈接進(jìn)行抓取。根據Ⅵ3C規則,所有的網(wǎng)站分為三個(gè)板塊,分別是頭部、正文和底部。而首頁(yè)頭部的導航部分則會(huì )引導百度蜘蛛進(jìn)行欄目頁(yè)的抓取,首頁(yè)的文章列表部分則會(huì )引導百度蜘蛛抓取文章頁(yè)為了保證全站的暢通性,于是百度給出了網(wǎng)站內鏈(即內部鏈接)和錨文本的定義。