HOME

 

 

那福忠,知名電子出版專家、網路作家。
   
  網上蜘蛛
  那福忠 September 10, 1997
  請把你的想法寫信給我: Frank.Na@Gmail.com
   

   Lycos公司宣佈即將獲得美國的專利,項目是「蜘蛛爬行」(spidering)技術。所謂「蜘蛛」,是網上「爬虫類」(crawler)的另一個名稱,又稱之網上機器人,即電腦軟體自動收集各網站資料而製作索引,供我們查詢。Lycos對我們並不陌生。

Lycos是拉丁文,意指「狼蜘蛛」(Wolf Spider),為美國Carnegie Mellon大學電腦學院的Michael Mauldin博士早期製作的網站查詢軟體。1994年Netscape推出其網頁瀏覽器,即選擇Lycos為其查詢引擎。自此Lycos名聲日廣,最後Mauldin博士與學校商議,組成Lycos公司,股票在店頭市場上市。Mauldin博士酷愛蜘蛛,在辦公室媮椈i了一隻大黑蜘蛛。

查詢引擎的濫觴Mauldin博士為知名的人工智慧專家,從小就著迷軟體的寫作,網路發達以後,他曾寫程式企圖把全球資訊網給畫出來,結果導致Lycos的發展成功。Lycos有700個網上蜘蛛,對3000萬個網站、數以億計的網頁,每年作兩次的爬行(收集資料);沒有這些蜘蛛,也就沒有所謂的查詢引擎,上網的動作就不是今天這樣便利了。

網上爬虫類當然不止Lycos一種(尚有RBSE Spider, Web Crawler, WWW Worm, JumpStation等),但其運作大同小異:
A.設立一個存放網頁網址的Queue,其中至少有一個網址,作為「爬行」(搜尋)的開始。

B.
從Queue中取出一個網址,連接到網站,將網頁取回分析。

C.取回的網頁中如有連結,則將其網址存入Queue中。

D.從網頁的Title, Header, Keyword, 乃至Body內文中提取字彙及相關資料,存入資料庫建立索引,供人查詢。

E.從Queue取出下一個網址,重複b,c,d的動作。

以上的動作固然單純,但就從網站的那一頁開始搜尋資料,以及用網頁中的那些資料建立查詢索引,則是每個爬虫類的區別所在。

例如從一網頁中找到幾十個連結,那麼下一頁應該是從這幾十頁的第一頁開始搜尋,還是從這幾十頁的最後一頁開始搜尋?事實上兩者各有利弊,也是龐大費事的工程,但Lycos卻用了簡單的經驗法則,即僅從「熱門」的網頁開始搜尋。

爬虫類的索引智慧

「熱門」的定義很簡單,與外在(External)網站連結愈多,就愈熱門,如果一個外在連結都沒有,就是冷門,就不必管他了。這種經驗法則不但節省搜尋時間,而且所連結的外在網站也多為Homepage,而不是一層資料,所以更能符合查詢的目標。

爬虫類的另一個智慧是從網頁中提取那些資料來作索引,以及如何回覆讀者的查詢。如果僅從Title, Header, Keyword等項目中提取,其中多為不連貫的字彙,直接回覆讀者並不恰當;如果從內文(Body)提取,不但耗時,也不能抄襲部份內文回覆讀者,因為可能觸及著作權法規。

Lycos的策略是用內文的前段(約五分之一頁),然後用Mauldin博士的專長-人工智慧-分析,再自動編輯成「摘要」(Abstract),這樣沒有版權的因擾,也給讀者貼切的參考。

網上技術固然日新月異,但莫不是前人心血的傳承,基礎科學的研究仍然是根本,蜘蛛及其同類即是最好的例子。


上一篇   下一篇 索 引