第35章 來啊,幹活啊(第2/2 頁)
網咖得到的使用者需求和自己的努力蒐集,在自己的筆記本上記錄了足足5000多個網址。有感於李前輩的艱辛努力,陸道升自己從重生後確定要截胡hao1開始到現在,也零零散散地蒐集了大概300多個常用網址。
但300多個常用網址是撐不起一個網址導航網站的,所以一定要想辦法蒐集到更多的網址。
李興平蒐集的方式是透過聽人講加自己查的方式一條條積累出來了足夠多的實用網址,但陸道升即沒有李興平那樣當網管近距離接觸草根網民的條件,又沒有李興平那麼多可以投入到蒐集網址的時間,所以想靠模仿李興平的路線得到那麼多實用網址對陸道升來說是行不通的。
於是陸道升寫了套網路爬蟲系統(包括爬取網頁的爬蟲和後續內容處理的模組)。
1998年,谷歌也才剛在今年成立,爬蟲技術尚未非常普及,在中國國內連專業程式設計師都沒幾個人會寫,李興平是初中畢業,打工及建立hao1的早期都不具備很強的計算機程式設計能力,自然沒有使用網路爬蟲這個選項可選。
但對陸道升來說,寫套爬蟲系統不在話下。即便在1998年很多常用的基礎庫尚未出現,憑藉他紮實的基本功,陸道升也能實現個七七八八出來,足夠支援他把爬蟲系統寫出來。
有了爬蟲系統,就能高效地利用網頁中巢狀的超連結來進一步獲得更多的網址。比如在hu的頁面裡,會有很多文章和其他網站的連結,這些連結對應的網頁下載後,又能在下載的網頁上看到新的超連結,不斷蒐集下去,就幾乎可以把大部分的網址給一網打盡。
也幸虧1998年,中國網際網路才剛剛開始發展,整個網路上沒有多少內容,陸道升才能藉助韓教授實驗室的機器完成爬取工作,這要是到了未來資訊爆炸的年代,一千臺伺服器都能因為內容太多下不完而爆掉。
但只有爬蟲系統把網址蒐集下來是不夠的,還需要開發一些過濾器和篩選演算法,最後人工稽核,才能最終得到一份可用的網址,這就需要拉上左文杏這個寶貴的戰力了。
……
本章未完,點選下一頁繼續。