資料分類

那福忠，知名電子出版專家、網路作家。

	資料分類
	那福忠 May 30, 2002
	請把你的想法寫信給我： Frank.Na@Gmail.com

在資訊時代，資料太少固然活動不起來，資料太多也同樣是一大困擾。據業界估計，各大企業與機構，每天來往的電子資料，至少有 80% 是未經結構的零散資料，每人工作時間的 25% 是花耗在「找」資料上，而不是在用資料上。這也許不算是浪費，因為資料本性就是如此，問題是如何在需要的那一刻、找到所需要那一丁點的資料？

要資料有結構，並不在格式、而在內容結構：屬於那類資料、用那些關鍵詞查詢、說的是什麼事、裏面有那些人名地名、與那些別的資料關連，如果都能說楚，就能在需要的時候，立刻找到。但說歸說，要實際做到，除了極少數的專業資料製作機構外，一般人寫一封電子郵件，有誰列出這封郵件有那些關鍵詞、或其中提到幾個人名字？

既然資料的製作不能加入結構的元素，唯一的希望，恐怕就是自動由有智慧的軟體來做的這件事，而第一個步驟，就是資料的分類 (Taxonomy) 。分類對資料的儲存，可以知道存放在那裏以及用什麼標題，好像圖書館把一本書上架，知道放在那裏。分類對日後的使用，也同樣的知道到那裏去找。全文檢索固然是很好的工具，但僅限於狹窄的資料範圍，對相關但不含檢索詞句的資料則排除在外。分類，是一更自然的方式，而且也可以適應資料量的不斷成長。

資料的自動分類，正由多家軟體公司激烈競爭發展，把焦點放在文字資料的語意處理 (Semantic Processing)、把資料分門別類，希望能把資料自動存放在適當的位置，而不影響正常營運，也不需增加人力。分類軟體如能與內容管理 (CM) 軟體結合，無疑的成為 CM 的重要部份，而目前也正由 CM 公司與這些分類公司洽商合作。

以位於美國矽谷 Sunnyvale 的 Inxight 為例，就號稱可以自動處理自然語言，用事情的主題把資料分類，能處理幾千種資料類別與上百萬份文件，並能辨識 12 種語文。Inxight 系統也能自動把組織好的資料，自動傳送給的智慧庫與個人，對靠資訊營生的企業有節省成本的立即效應。

Inxight 的 MeatText 伺服機，是把沒有結構的資料加上結構，從文件中擷取文件的標題、摘要、人名、地名、東西、事務名稱、與別的資料相似處，然後連接到企業的知識管理、企業入口系統、CRM 系統，使企業資訊能量與能力增大。這些事也許人力也能做，但系統千百倍於人力，而且較人力更準確，對跨國機構來說，更能處理多國語言。MetaText 伺服機提供一個 XML 格式的 API、傳遞文件的結構資料。可處理文件的檔類別則有 Word、Power Point、PDF、XML、HTML、純文字。

Inxight 另一伺服機 VizServer，是較特別的產品，把資料作特別的視覺 (Visualization) 展現，讓人直覺性的吸資訊。這個作法，是根據 Xerox PARC 多年研究結果。第一個叫 Star Tree，用圖畫把資料的結構清楚展現，好像到圖書館先看書架位置圖，要找那類的書就走到那一區去找（讀者可到展示區 Porsche 寶時捷汔車網頁一試）。第二個叫 Table Lens，是個交叉的參照表，可以看出不同類別、時間、其他變數裏的型態、趨勢、變化與關連（例：美國 1990 與 2000 年普查）。VizServer 與 MetaText Server 未必有直接關係，但 MetaText 的結果仍能以 VizServer 展現，把 80% 的結構不良的資料，變的有條理、很容易找到。

Inxight 僅是目前眾多類似軟體公司中的一個，專家預估，這類資料整理的軟體，勢將成為軟體主流之一，而電子出版業也成為首期的顧客。電腦剛發明的時候，就用「資料」這個名詞，以後演變成「資訊」、「知識」。姑且不論定義怎麼寫，如不能處理得為我們所用，都是垃圾。