會員書架
首頁 > 都市言情 > 絕對掌控漫畫 > 第十一章 資料海洋和爬蟲

第十一章 資料海洋和爬蟲(第1/2 頁)

目錄
最新都市言情小說: 遲來的溫暖母愛成為仙帝后,回到地球只想擺爛!櫻花樹下的約定了重生77被離婚後,女大學生瘋狂求複合剛想藝考你說我跑了半輩子龍套?分手後女總裁非要嫁給我穿成反派只想苟,不料女主成為我舔狗巍然712黑脈多問幾個為什麼高武:升級從殺蚊子開始修仙之後,三拳打爆你的異能夢亂世魅魔詩行日記跨江大橋坍塌之謎睜眼1988一間破土房倆沒娘娃東邪物語職場之記我用AI製造神藥重生之都市修仙:仙界篇

資料分析模組是股神10的大腦,除了這個大腦之外它還需要其他幾個關鍵性模組。既然做大資料分析,那麼這個資料來源就需要有一個功能模組來解決,它專門負責資料的收集。

這個資料收集模組就像是股神的手腳,負責從網路上收集對應的資料,這個模組一個關鍵的組成部分就是爬蟲。

國際網際網路發展到今天,變成了體系龐雜內容浩繁的網狀系統,這個系統上的資訊節點規模數以十億計,這些節點可能包括桌上型電腦、筆記本、伺服器、大規模群組、智慧手機、平板、智慧導航終端、各類資訊採集終端、資訊發射終端等等等等。

只要能夠連結上網際網路,能夠與網際網路進行資料互動的,都可以視為一個資訊節點,比如遍佈城市的各類監控探頭,各類通訊基站,嚴格來說都屬於節點之一。

這些節點為網際網路提供的資料型別也各種各樣,有文字,有資料,有圖表,有文件,有影片,有音訊,有資料庫;它們的表現形式各式各樣,有通用格式,有專用格式;所有這些資訊加在一起,共同組成了沉積在國際網際網路中浩瀚的資料海洋。

這個資料海洋是動態的,它時刻處在在運動和更新之中,就好像各種洋流和浪濤一樣,永不停息。

整個資料海洋分散在無數個資訊節點之中,這些資訊節點被各種通訊協議連結起來,讓它們可以相互通訊。各種通訊協議中,有我們最熟悉的一種,就是url,也就是我們總會遇到的網站連結。

如果將整個資料海洋比喻成我們的地球,那麼每個資料節點就是一個房間,而節點內的資料資訊就是我們人類,所有的資訊節點組合起來,構成了地球上的無數個城市,無數個大廈,無數個房屋。

各種各類的資料連結模式,就是承載人們出行的道路,而url不過是道路的一種,算是各個城市之間,各個主要的商業大廈之間互通的鐵路和公路。它主要出現在公共伺服器之間,就是說只要有了url,理論上來說它對所有資料訪客都是開放的,任何人都可以抵達這個伺服器,只不過它有沒有門禁就是另外一回事了。

既然有公共空間,那相對應的肯定有非公共空間,除了url,還有很多連結模式,這些連結模式裡,資訊節點就像是私人住宅或者軍事禁區一樣,它並不是開放給公眾的,雖然它同樣存在於資料海洋中,但你是無法隨便訪問的。

當面對如此龐大浩繁的資料海洋時就存在一個問題了,世界這麼大,我該如何找到目標,比如我想找感冒藥相關的資料資訊,我該怎麼辦?

正是這種需求催生了搜尋引擎,搜尋引擎可以幫助你快速找到目標,它就像一個找路指南一樣,你只要告訴它想去哪,這個目的地大概什麼特徵,它就會幫助你找到無數個可能合適的目的地,並且把對方的url提供給你。

搜尋引擎每天的訪問量都是海量的,每一秒同時併發的搜尋請求都是數以十萬計的,在這麼多請求面前,如果來一個請求它搜一遍網際網路,這肯定是不現實的,不僅速度慢效率低,而且僅僅這類搜尋請求就足讓整個國際網際網路陷入擁堵狀態。

為了解決這個問題,搜尋引擎就有了它特有的工作模式,它先儘可能多的將資料海洋裡的資訊全部找出來,然後儲存在自己的伺服器群組中,一旦有了搜尋請求,它只要在自己的伺服器裡進行檢索就行了。

而幫助搜尋引擎完成找這個動作的就是爬蟲。

因為國際網際網路中的資訊節點都是相互關聯的,是網狀聯絡的,每個節點上都會有很多個url。所以爬蟲的工作模式就是遍歷,當它開始工作時,它會以一個資訊節點為,然後挨個訪尋與這個節點相連的所有節點,當下一層節點還有url連結時,它就不斷訪問下去,直到將所有url遍歷一次

目錄
熱血傳奇之開局簽到隱身戒指靈氣復甦:重生帶著大家一起飛
返回頂部