第十一章 資料海洋和爬蟲(第2/2 頁)
最新都市言情小說:
七零農村大旱,我家挖出地下暗河、
遊戲亂入現實、
在變異的世界當裝備大師、
鄉村振興:提桶回家開民宿、
美食:烤腸夾肉包,熱芭瘋狂安利、
末世:禁忌祝由、
飄渺星蹤:呂布護我戰外星、
開局覺醒十尾,召喚天礙震星!、
域魔降臨、
律師:拐賣判五年?給我滿族抄斬、
假扮男友,被高冷美女總裁盯上了、
仕途雄心:征服巔峰、
上三休四,炮灰們不讓龍王害我、
娛樂:讓你頂替嘉賓你唱壁上觀?、
混官場是要講背景的,而我正好有、
決不能讓女超凡者知道我的秘密、
嘰裡咕嚕說什麼呢?開殺!、
腦海一片林,異能全靠砍、
人在外地出差,家裡老婆叛變!、
都市特種兵王、
才算完。
因為整個網際網路的網狀結構,使它具備網狀互通性,所以等爬蟲將所有url遍歷了,一般來說它就已經將整個國際網際網路所有連結全部訪問了一遍,這注定是一個比環球旅行更加令人歎為觀止的行為。
而莫回既然想弄這個股神10,他想要蒐集海量資料,那麼他要做的事情其實和搜尋引擎要做的事情很像,只不過搜尋引擎是所有資訊都要蒐集,而莫回只需要關注股票相關的資訊就行了。
這樣的話,莫回的爬蟲就必須在具備遍歷能力的同時,還得具備篩選的能力。
遍歷的能力解釋起來很簡單,就是你不能走回頭路和冤枉路,遊歷過的url就犯不著再走第二遍了。一條新的url被發現,首先需要判斷這條url是否已經走過,其次需要判斷這條url被安排在什麼次序去走。一個是重複性問題,一個是最最佳化問題,這就需要獨特的遍歷演算法來解決。
而篩選功能就是通用爬蟲和專用爬蟲之間的主要區別,莫回的爬蟲需要具備一定的識別能力,能夠辨別某個url中的內容是否具備相關性,如果不具備那麼就跳過,如果具備就將其中的內容複製回來待用。
這個篩選功能同樣需要一大堆的演算法來解決,不僅如此,它還需要具備自然語言處理能力,就是說它得具備對語言文字的理解和解析的能力,它得能夠識別哪些文字內容是與股票相關的,哪些是無用的。
僅僅識別文字還是不夠的,它還得能夠識別其他格式的資料,比如它得能夠識別圖案,像是股票相關的各種k線圖、柱狀圖之類的,爬蟲必須能夠將其與風景畫或者自拍照區別開。
除了圖片,其他的像是影片、音訊、各類資料庫之類的,爬蟲都需要一一辨別出來,確定是否屬於相關內容。
這裡面將會有無數個技術難題需要解決,如果這個工作讓莫回一個人來完成,幾乎是不可想象的。
本章未完,點選下一頁繼續。