網站優化服務介紹 |
|
|
Google優化 |
|
|
Yahoo優化 |
|
|
百度優化 |
|
|
優化案例 |
|
|
|
| 首頁 >> 網站優化資訊 >> Yahoo優化 >> 搜索引擎Yahoo的分類體系及性能評價 |
| 搜索引擎Yahoo的分類體系及性能評價 |
| |
| 發表時間︰2007-03-04 15:00:21 瀏覽人數︰98 |
目前很多的搜索引擎都是將人工編制的等級式主題目錄和計算機檢索軟件 提供的關鍵詞等檢索手段結合起來,完成網絡信息資源的組織任務。Yahoo就 是這種等級式主題指南類搜索引擎的典型代表。 Yahoo的魅力,就在于它的可瀏覽式等級主題索引。按照主題建立分類索 引,提供全面的分類體系結構,並結合高質量的檢索軟件,Yahoo成功地建立 起了一套獨特的信息管理和組織機制,使得對網絡信息的全面檢索變成現實。 現對Yahoo的類目體系、分類原理、檢索方式、性能評價等作進一步的探討。
■ 一、類目體系 Yahoo由14個基本大類組成,包括Art&Humanities(藝術與人文)、Business &Economy(商業與經濟)、Computers&Internet(電腦與網際網路/網絡)、 Education(教育)、Entertainment(娛樂)、Government(政府)、Health(健 康與醫藥)、News&Media(新聞與媒體)、Recreation&Sports(休閑與運動)、 Reference(參考資料)、Regional(國家與地區)、Science(科學)、 SocialScience(社會科學)、Society&Culture(社會與文化)。
根據其擁有的信息或網站的多寡及知識組織的需要程度,每一個基本類 目下細分不同層次的次類目或子類目,愈往下的子類目中的網站其主題愈特 定。它建立了一個由類目、子類目等構成的可供瀏覽的相當詳盡的目錄等級 結構。其類目設計合理,結構完整、全面,類目等級層次鮮明,各級詳略、 寬泛程度不一,從而為網上豐富的信息資源的歸類,尤其是確切歸類提供了 基礎。
■ 二、分類原理 InternetScoutProject的分類專家AimeeGlassel認為,“印度著名分類 專家和圖書館專家阮崗納贊的冒號分類法理論體系與Yahoo網絡信息資源的主 體目錄之間存在著密切的聯系”,從而揭示了Yahoo應用分面分析方法進行網 絡信息資源的分類實質。具體說來,可從以下幾點來深入地理解Yahoo的分面 分類原理或基本過程。
1.采用寬泛的主題領域建立分類索引
為了使其分類體系既具有無限的容納性,又具有相當的專指性,Yahoo采用 較為寬泛的主題領域,通過分析兼綜合的方法建立較為完整的分類索引。這 與分面分類的思想不謀而合,因為將知識分為寬泛的類目即分面,多方面地 反映主題內容以避免列舉式類表的線性單向式的結構正是阮崗納贊冒號分類 法的主要原則所在。
2.根據上下文進行信息內容的組合
從Yahoo的分類結構外表看,也許會認為它與敘詞表很相近,因為Yahoo 也是使用詞匯而非符號來組成相應的概念詞串。但是,從組合類目的能力看, 它遠遠比普通的敘詞表復雜得多。通過分析Web頁面的內容特征,得到由 Yahoo分類體系結構中某些類目詞組成的概念詞串或標引詞串,將其放入相應 的類目層次中。在Yahoo的概念詞串或檢索詞串中包含的獨立的詞匯都含有自 身的名字,但是一旦與其它詞組合,則產生了一個上下文關系,擁有了一深 層次的涵義。從這一點上說來,與分面分類法也是極為相似的。
3.利用冒號標記信息內容
現以“20世紀60年代印度在肺結核治療方面的研究”作為待分類標引的信息 內容來具體考察兩者的標記制度︰
在阮崗納贊的冒號分類法中,該內容標引為︰L,45;421;6;253;f.44 ‘N5
用詞代替相應的符號,則為︰
Medicine,Lungs;Tuberculosis:Treatment;X-ray:Research.India ‘1950
如果將分面公式中的相應標點符號用冒號代替,由此所形成的字符串形 式就是在Yahoo中用于描述信息內容的 方法,相應地表示為︰
Health:DiseasesandConditions:Tuberculosis
可見兩者在信息描述上何其相似!Yahoo利用冒號作為統一的分隔符進 行了信息內容的組織和描述,既保留了原先的分面標記的特點,又在一定 程度上簡化了標記制度,從而極大地提高了信息分類標引的效率。
4.提供不同的分類路徑入口
“虛擬的信息集合”是Yahoo的一大優點,體現在其擁有的概念模式和 引用次序(即分面排列次序)的靈活性上。在傳統的圖書館中,一本書只能 放在書架的某一固定位置上。但在數字化的世界里,電子信息資源卻不用 再限制在唯一的物理位置上。我們可以將某一信息源分到類目結構的不同 位置上。通過將分面分析方法應用到網絡信息資源的組織中,Yahoo能夠為 某一信息源在其巨大的分類等級結構中提供不同的路徑分支入口,這樣就 使其能夠從不同的路徑,為檢索相同內容的不同用戶提供服務,從而完成 查詢。
例如,現欲查找美國Wisconsin-Madison大學所在的網頁,Yahoo就 能提供如下幾種分類或檢索路徑︰
(1)若從Regional:類目入手,則相應的分類路徑為︰Regional:U.S.States:Wisconsin:Cities:Madison:Education: CollegesandUniversities: UniversityofWisconsin-Madison。
(2)若從Education類目入手,開始的幾級路徑為︰Education: HigherEducation:CollegesandUniversities,在CollegesandUniversities 目錄下選擇地理區域的子類目“UnitedStates@”後,可以看到,又返回到 Regional目錄下,之後就與上述路徑相同了。其中的奧妙就在于符號“@” 的運用,它提供類似于相關參照(crossreference)的作用,能夠指引用戶由 某一子類目進入Yahoo的瀏覽性等級結構的其它分支中。
■ 三、檢索方式 Yahoo能夠提供簡單檢索和細節檢索。前者主要檢索其分類結構中的一 級目錄,後者可使用關鍵詞構成布爾邏輯式進行檢索,其檢索軟件主要由 OpenText公司提供。兩者的結合堪稱珠聯壁合︰一個提供強大的高質量的 主題指南目錄,另一個則提供高水平的檢索工具。而且,Yahoo在檢索時, 也不光檢索自身的主題目錄,同時也會相應地檢索OpenText公司提供的收 有100萬Web文件的OpenText數據庫。
誠然,Yahoo在檢索方式上上存在著一些缺陷,如︰只能進行關鍵詞 檢索,並且只支持布爾算符and和or,未提供near等,但通過在其主頁的 末尾提供了其它引擎如ALTAVISTA、LYCOS等的超鏈接,指引用戶進入這些 地方去搜索,從而彌補了Yahoo的若干缺陷。因此,從總體上說來,Yahoo 仍然是WWW上最流行的查詢工具之一。
■ 四、性能評價 作為主題指南類搜索引擎的典範,Yahoo具有以下優點︰
1.主題目錄與檢索軟件的完美結合
采用分面分析的方法,由信息管理專家編制主題目錄,反映了人們在 選擇和組織信息時的知識和智慧,提高了目錄編制的質量。同時,按照主 題目錄以人工為主對提交的網頁進行篩選、歸類和組織,也能不斷克服單 純由搜索軟件自動完成分類的缺陷,增強分類的條理性。嵌入相應的檢索 軟件或工具,並與之相集成,提供高質、高效的檢索服務,從而加快了系 統的反映速度,提高了檢索的準確性,使得檢索結果更接近用戶的信息需 求。
2.信息檢索難度的降低
Yahoo的數據庫按照14個大類(各大類下又包含數量不等的小類)組織, 其分類體系非常詳盡,因此是進行寬泛主題檢索的良好起點,特別是對于 那些新用戶和模糊需求的用戶而言,選擇瀏覽可逐級展開的主題索引比構 造檢索式要自然得多。並且,在用戶所在的類目下,顯示了該級別的類目 包含的條目數,如果用戶認為數量過多,還可在此範圍內使用關鍵詞檢索。 Yahoo的目錄特征和利用上下文的服務使得能夠實現快速和容易的檢索,從 而在一定程度上降低了互聯網信息檢索的難度,提高了系統的用戶友好性。
3.檢索結果的分類選擇
Yahoo由分類路徑入手,最終將檢索結構分成類目輸出,從而將極大地 推動信息的選擇。它還對結果列表中的相應內容進行必要加工,加上一些 描述的詞組或句子,方便用戶瀏覽並選擇︰如︰﹝*﹞或﹝cool﹞標記表 明該結果項在內容和版面設計都優于其他項;﹝new﹞表明是最近3日內收 錄的最新內容;以及上述提及過的以“@”表示相關參照,以括號里的數字 表示收錄的文件數量等等。另外,Yahoo增加了結果顯示的類型,可以以相 關網站、相關網頁、新聞等形式輸出相應的檢索結果。總而言之,為了更好 地實現為用戶服務的目的,Yahoo正不斷開發新的途徑和方法用以改善信息 檢索服務。
在總結Yahoo所具有的優勢的同時,也應注意它的缺陷,這些缺陷往往 也正是主題指南類搜索引擎的共同弊病所在︰
1、由于互聯網信息的迅猛增長,使得采集信息的速度遠遠比不上網絡 資源的增長速度,更勿論編制主題目錄的速度了。這就造成了所建立的數據 庫規模較小,且在某些類目下收集的文件數量有限等缺點,使得用戶經常 “乘興而來,敗興而歸”,滿足不了相應的信息需求。
2、簡單檢索表中檢索詞之間缺省設置為“.or.”,且內含的自動截詞 功能,使得在檢索中往往會出現許多不相關的文件,導致查準率降低。
3、為了適應不同用戶的查詢或檢索需求,Yahoo對相同的信息內容往往 能提供不同的路徑入口,並以符號“@”建立相應的參照。這一方面加大了 分類工作的難度,另一方面也使得其分類的一致性難以得到確切保障,所以, 經常出現從某一路徑入手,卻無法查到Yahoo中所包含的信息內容的現象。
4、待收錄的網頁或其它信息內容的復雜度的增加也在無形之中加大了 確切分類的難度,如與ActiveX技術相關的文獻就很難在Yahoo中確切歸類。
5、為了編制高質量的主題目錄並跟上網絡資源發展的速度,必須投入 相當大的人力、物力和財力,且對從事該項工作的人員的素質要求也日漸提 高。否則,將無法很好地保證其主題目錄的質量,也就從根本上無法提供優 質的服務。
■ 五、啟示和建議 Yahoo最關鍵也是最成功之處就在于它為搜索引擎,尤其是主題指南類 的搜索引擎的設計和開發樹立了“摸板”。借鑒Yahoo先進的搜索引擎經驗, 進一步完善網絡信息資源尤其是中文信息資源的組織和管理,是歷史賦予我 們的責任。現就建立網上中文信息資源的高質、高效的“導航器”,提出以 下幾點建議︰
1、Yahoo在數字化信息的組織中成功地應用分面分析的思想,建立起了 一套完整、全面、等級層次鮮明的主題目錄體系以提高信息組織的質量,這 一點值得我們借鑒與學習。
目前,國內的許多中文引擎或者因沒有分類路徑入口,而不能跟上未來 形勢的發展;或者因目錄體系缺乏必要的分類主題理論基礎,而給信息的確 切歸類和準確檢索帶來了一系列的困難。我們並不一定要照搬Yahoo的分類模 式。在具體的編制過程中,應從中國人的思維習慣、檢索習慣出發,結合國內 已有的主題分類的理論體系(如︰《中圖法》等),建立所需的分類框架。
2、應逐步增大數據庫的規模,從而奠定成功的信息檢索的物質基礎。建 議可以通過兩種方式補充數據庫的內容︰一是鼓勵用戶將自己網頁的地址(URL) 通過聯機表格遞交,二是由自身的巡視軟件不斷去發現網上新出現的文件,將 之歸入數據庫,在補充的過程中,也應注意數據庫內容的定期更新。關于這一 點,現在的一些中文搜索引擎做得還很不夠,往往只知盲目地填充信息,卻缺 乏對庫內容應有的維護工作,導致數據庫龐大臃腫,檢索效率低,信息內容陳 舊,查準率差。
3、鑒于單純依賴手工進行信息歸類效率低的缺陷,應在這方面加強研究, 考慮是否可將目前在文本環境中已經實現並在進一步完善的自動分類、自動標 引和自動文摘等處理信息內容的手段用到網絡信息資源的組織上來。手工和機 器輔助的結合,定能提高工作效率,改善信息組織、管理的質量。
另外,應繼續加強檢索軟件的研制和開發工作。WWW網頁內容多由圖像、 動畫、聲音、視頻等多媒體信息構成。應積極探索這一類信息的檢索途徑, 而不僅限于關鍵詞檢索方式。目前,對多媒體信息的存儲,標引和檢索正日 益引起計算機和信息管理領域人士的注意。應密切跟蹤這方面技術的發展, 並將其切實應用到中文引擎的檢索軟件的編制上來。
4、參與信息采集、篩選和組織工作的人員素質的高低將直接或間接影 響到編制的主題分類體系的質量。因此,各個從事網絡信息服務業的部門或 企業,尤其是開發中文搜索引擎的部門或企業,應切實加強人員的培訓,特 別是加強他們在信息分類組織、計算機檢索等方面的能力。網絡信息資源的 組織和開發是一項艱難而又富有前途的工作,廣大的圖書情報界人士、信息 管理和計算機領域的專家應盡快轉變觀念,加入到開發的行列中來,從而不 斷提高隊伍的素質。
|
|
|
|