在爬蟲抓取網(wǎng)頁(yè)時(shí),如果根本不知道你的網(wǎng)頁(yè)內(nèi)容是什么,那基本上是不會(huì)被百度收錄的。所以讓爬蟲識(shí)別到我們網(wǎng)頁(yè)的內(nèi)容也是較為關(guān)鍵的一個(gè)問題。
爬蟲抓取的四大可識(shí)別性
1、robots協(xié)議的封禁
robots是一個(gè)txt文件,放置于網(wǎng)站的根目錄下。可以通過www.xxx.com/robots.txt進(jìn)行訪問打開。如果你的robots文件封禁了百度爬蟲,那么收錄簡(jiǎn)直是不可能的。
因?yàn)閞obots協(xié)議文件是搜索引擎與網(wǎng)站之間的協(xié)議文件。是網(wǎng)站告知搜索引擎爬蟲,哪些內(nèi)容你可以抓取,哪些內(nèi)容你是不可以抓取。所以你都告訴爬蟲不讓它抓取了,他還怎么會(huì)抓取呢?
2、影響網(wǎng)站收錄的ajax技術(shù)
js的ajax技術(shù),其實(shí)很多做SEO的都知道不能使用js,但這并不完全是。因?yàn)榕老x抓取的是網(wǎng)頁(yè)源代碼,只要你源代碼中有這些內(nèi)容就是可以的。但通過js實(shí)現(xiàn)異步加載的內(nèi)容就不行了。
這里解釋一下什么是異步加載,就是當(dāng)前網(wǎng)頁(yè)源代碼沒有的內(nèi)容。通過觸發(fā)網(wǎng)頁(yè)某個(gè)事件,js通過ajax技術(shù)動(dòng)態(tài)加載出來的內(nèi)容。例如典型的瀑布流網(wǎng)頁(yè),當(dāng)你鼠標(biāo)滾動(dòng)到最底部,
然后地步就會(huì)出現(xiàn)更多新的內(nèi)容。多數(shù)是采用這個(gè)ajax技術(shù)。
那被異步加載出來的內(nèi)容爬蟲是看不到的。
3、圖片、導(dǎo)航、ALT
圖片類型的導(dǎo)航,現(xiàn)在基本很少見了。但這里還是要說一下,如果你的導(dǎo)航(主導(dǎo)航)使用圖片,在這個(gè)寸土寸金的位置上,搜索引擎根本不知道你說了什么,所以這時(shí)候需要我們使用alt標(biāo)簽進(jìn)行設(shè)置。
當(dāng)然了,alt屬性并不單單可以應(yīng)用在圖片導(dǎo)航中。所有你認(rèn)為重要的圖片,都可以進(jìn)行設(shè)置,并合理的融入關(guān)鍵詞。像一些素材圖片就可以不用設(shè)置alt屬性了。
4、網(wǎng)站訪問速度慢
如果你的網(wǎng)站打開速度很慢的話,也會(huì)很大程度上的影響收錄。我們舉個(gè)例子,爬蟲每天抓取你網(wǎng)站就給10分鐘時(shí)間,你的網(wǎng)站訪問一次需要1秒鐘,和需要100毫秒。這完全是兩個(gè)層次上的結(jié)果。
內(nèi)容質(zhì)量對(duì)收錄的三大影響
單純解決了爬蟲的抓取問題之后,還要更多的關(guān)注到內(nèi)容質(zhì)量本身
1、內(nèi)容的原創(chuàng)性
你的內(nèi)容本身是不是原創(chuàng)的,原創(chuàng)內(nèi)容更有機(jī)會(huì)被收錄這個(gè)是眾所周知的。本文不討論怎么寫原創(chuàng)文章,所以原創(chuàng)怎么搞,在這里只能說自己弄明白了,然后用自己的語(yǔ)言組織一下寫出來。
2、內(nèi)容的可讀性
你的網(wǎng)頁(yè)是不是會(huì)對(duì)用戶造成一定的體驗(yàn)影響,例如廣告遮擋主體內(nèi)容。主要的內(nèi)容沒有在電腦首評(píng)出現(xiàn)。字體大小、字體顏色與背景色過于接近等。
3、內(nèi)容的需求滿足度
標(biāo)題和內(nèi)容是不是提問相符的。且真正解決了用戶的需求。并不是掛羊頭賣狗肉,或者語(yǔ)句不通順等行為。