會員書架
首頁 > 都市言情 > 絕對掌控一口氣看完 > 第十一章 資料海洋和爬蟲

第十一章 資料海洋和爬蟲(第2/2 頁)

目錄
最新都市言情小說: 七零農村大旱,我家挖出地下暗河遊戲亂入現實在變異的世界當裝備大師鄉村振興:提桶回家開民宿美食:烤腸夾肉包,熱芭瘋狂安利末世:禁忌祝由飄渺星蹤:呂布護我戰外星開局覺醒十尾,召喚天礙震星!域魔降臨律師:拐賣判五年?給我滿族抄斬假扮男友,被高冷美女總裁盯上了仕途雄心:征服巔峰上三休四,炮灰們不讓龍王害我娛樂:讓你頂替嘉賓你唱壁上觀?混官場是要講背景的,而我正好有決不能讓女超凡者知道我的秘密嘰裡咕嚕說什麼呢?開殺!腦海一片林,異能全靠砍人在外地出差,家裡老婆叛變!都市特種兵王

才算完。

因為整個網際網路的網狀結構,使它具備網狀互通性,所以等爬蟲將所有url遍歷了,一般來說它就已經將整個國際網際網路所有連結全部訪問了一遍,這注定是一個比環球旅行更加令人歎為觀止的行為。

而莫回既然想弄這個股神10,他想要蒐集海量資料,那麼他要做的事情其實和搜尋引擎要做的事情很像,只不過搜尋引擎是所有資訊都要蒐集,而莫回只需要關注股票相關的資訊就行了。

這樣的話,莫回的爬蟲就必須在具備遍歷能力的同時,還得具備篩選的能力。

遍歷的能力解釋起來很簡單,就是你不能走回頭路和冤枉路,遊歷過的url就犯不著再走第二遍了。一條新的url被發現,首先需要判斷這條url是否已經走過,其次需要判斷這條url被安排在什麼次序去走。一個是重複性問題,一個是最最佳化問題,這就需要獨特的遍歷演算法來解決。

而篩選功能就是通用爬蟲和專用爬蟲之間的主要區別,莫回的爬蟲需要具備一定的識別能力,能夠辨別某個url中的內容是否具備相關性,如果不具備那麼就跳過,如果具備就將其中的內容複製回來待用。

這個篩選功能同樣需要一大堆的演算法來解決,不僅如此,它還需要具備自然語言處理能力,就是說它得具備對語言文字的理解和解析的能力,它得能夠識別哪些文字內容是與股票相關的,哪些是無用的。

僅僅識別文字還是不夠的,它還得能夠識別其他格式的資料,比如它得能夠識別圖案,像是股票相關的各種k線圖、柱狀圖之類的,爬蟲必須能夠將其與風景畫或者自拍照區別開。

除了圖片,其他的像是影片、音訊、各類資料庫之類的,爬蟲都需要一一辨別出來,確定是否屬於相關內容。

這裡面將會有無數個技術難題需要解決,如果這個工作讓莫回一個人來完成,幾乎是不可想象的。

本章未完,點選下一頁繼續。

目錄
娛樂我家恐怖屋良心吧鬼都是真的
返回頂部