網上蜘蛛

那福忠，知名電子出版專家、網路作家。

	網上蜘蛛
	那福忠 September 10, 1997
	請把你的想法寫信給我： Frank.Na@Gmail.com

Lycos公司宣佈即將獲得美國的專利，項目是「蜘蛛爬行」（spidering）技術。所謂「蜘蛛」，是網上「爬虫類」（crawler）的另一個名稱，又稱之網上機器人，即電腦軟體自動收集各網站資料而製作索引，供我們查詢。Lycos對我們並不陌生。

Lycos是拉丁文，意指「狼蜘蛛」（Wolf Spider），為美國Carnegie Mellon大學電腦學院的Michael Mauldin博士早期製作的網站查詢軟體。1994年Netscape推出其網頁瀏覽器，即選擇Lycos為其查詢引擎。自此Lycos名聲日廣，最後Mauldin博士與學校商議，組成Lycos公司，股票在店頭市場上市。Mauldin博士酷愛蜘蛛，在辦公室裏還養了一隻大黑蜘蛛。

查詢引擎的濫觴Mauldin博士為知名的人工智慧專家，從小就著迷軟體的寫作，網路發達以後，他曾寫程式企圖把全球資訊網給畫出來，結果導致Lycos的發展成功。Lycos有700個網上蜘蛛，對3000萬個網站、數以億計的網頁，每年作兩次的爬行（收集資料）；沒有這些蜘蛛，也就沒有所謂的查詢引擎，上網的動作就不是今天這樣便利了。

網上爬虫類當然不止Lycos一種（尚有RBSE Spider, Web Crawler, WWW Worm, JumpStation等），但其運作大同小異：A.設立一個存放網頁網址的Queue，其中至少有一個網址，作為「爬行」（搜尋）的開始。

B.從Queue中取出一個網址，連接到網站，將網頁取回分析。

C.取回的網頁中如有連結，則將其網址存入Queue中。

D.從網頁的Title, Header, Keyword, 乃至Body內文中提取字彙及相關資料，存入資料庫建立索引，供人查詢。

E.從Queue取出下一個網址，重複b,c,d的動作。

以上的動作固然單純，但就從網站的那一頁開始搜尋資料，以及用網頁中的那些資料建立查詢索引，則是每個爬虫類的區別所在。

例如從一網頁中找到幾十個連結，那麼下一頁應該是從這幾十頁的第一頁開始搜尋，還是從這幾十頁的最後一頁開始搜尋？事實上兩者各有利弊，也是龐大費事的工程，但Lycos卻用了簡單的經驗法則，即僅從「熱門」的網頁開始搜尋。

爬虫類的索引智慧

「熱門」的定義很簡單，與外在（External）網站連結愈多，就愈熱門，如果一個外在連結都沒有，就是冷門，就不必管他了。這種經驗法則不但節省搜尋時間，而且所連結的外在網站也多為Homepage，而不是一層資料，所以更能符合查詢的目標。

爬虫類的另一個智慧是從網頁中提取那些資料來作索引，以及如何回覆讀者的查詢。如果僅從Title, Header, Keyword等項目中提取，其中多為不連貫的字彙，直接回覆讀者並不恰當；如果從內文（Body）提取，不但耗時，也不能抄襲部份內文回覆讀者，因為可能觸及著作權法規。

Lycos的策略是用內文的前段（約五分之一頁），然後用Mauldin博士的專長－人工智慧－分析，再自動編輯成「摘要」（Abstract），這樣沒有版權的因擾，也給讀者貼切的參考。

網上技術固然日新月異，但莫不是前人心血的傳承，基礎科學的研究仍然是根本，蜘蛛及其同類即是最好的例子。

│

索引