全國咨詢熱線:400-618-4000

PHP開發爬蟲

創建時間:2019年01月18日13時48分

爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。

我們平常使用搜索引擎瀏覽網頁,有很多和預期的信息不匹配的結果;并且信息量巨大,有了結果以后還需要花費很大的精力進行篩選信息。爬蟲應運誕生,我們可以寫一段腳本或程序,讓他根據我們的需求按照設定的規則進行抓取網頁信息,并篩選出我們需要的結果。

首先,在PHP中可以獲取萬維網頁面的函數有很多,例如:file_get_contents()或者curl擴展,再或者還有獲取緩沖的ob_get_contents()等,最實用也是最常用的就是file_get_contents()了。例:

所以,我們可以利用file_get_contents()來進行爬蟲的開發。

步驟:

1. 分析url規則

2. 根據規則進行循環爬取內容

3. 根據需求進行正則匹配需要的內容(可以根據實際要求進行)

4. 整合結果(寫入文件)

代碼:

結果:

打開其中前兩頁的效果:

好看的玄幻小说