20世紀90年代以來,Internet(互聯(lián)網(wǎng)絡(luò))迅速興起并且得到普及。它從根本上改變了人類信息的生產(chǎn)、流通、分配和利用模式,為人類創(chuàng)造了最先進快捷的信息傳播和交流方式。網(wǎng)絡(luò)信息資源是指放置在互聯(lián)網(wǎng)上能滿足人們信息需求的信息集合,它具有數(shù)據(jù)量大,更新快速,無序性和關(guān)聯(lián)度強等特點,這些都為網(wǎng)絡(luò)環(huán)境下的信息檢索技術(shù)提出了新的要求。 網(wǎng)絡(luò)信息檢索有三個組成要素,即站點資源、瀏覽器和具有收集、檢索功能的搜索引擎。搜索引擎是以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導航目的的網(wǎng)絡(luò)檢索工具。
一、搜索引擎的工作原理
搜索引擎的工作原理可以看作三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁、建立索引數(shù)據(jù)庫、在索引數(shù)據(jù)庫中搜索排序。
1.從互聯(lián)網(wǎng)上抓取網(wǎng)頁 利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider(蜘蛛)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其他網(wǎng)頁,重復這一過程,并把爬過的所有網(wǎng)頁收集回來。搜索引擎的Spider程序一般要定期重新訪問所有網(wǎng)頁,更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁文字的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁文字和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體文字變化情況就會反映到用戶查詢的結(jié)果中。
2.建立索引數(shù)據(jù)庫 由分析索引系統(tǒng)程序?qū)κ占木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息,根據(jù)一定的相關(guān)度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中的每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
3.在索引數(shù)據(jù)庫中搜索排序 當用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。并按相關(guān)網(wǎng)頁針對該關(guān)鍵詞和相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。 用頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶,搜索過程宣告結(jié)束。
二、搜索引擎的類型
隨著搜索引擎技術(shù)和市場的不斷發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了多種不同類型的搜索,但從搜索引擎的工作原理和組織形式劃分,基本上可劃分為目錄式搜索引擎、全文式搜索引擎和元搜索引擎三類。
1.目錄式搜索引擎 目錄式搜索引擎主要通過人工發(fā)現(xiàn)信息,并依靠標引人員對信息進行分析和分類,由專業(yè)人員手工建立關(guān)鍵詞索引,建立目錄分類體系。這種“搜索引擎”并不采集網(wǎng)站描述等資料,經(jīng)過人工審核編輯后,如果符合網(wǎng)站登錄的條件,則輸入數(shù)據(jù)庫以供查詢。該類搜索引擎因為加入了人工智能,所以信息準確、導航質(zhì)量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎中最具代表性的是Yahoo!。分類目錄的好處是,用戶可以根據(jù)目錄有針對性地逐級查詢自己需要的信息,而不是像技術(shù)性搜索引擎一樣同時反饋大量的信息,而這些信息之間的關(guān)聯(lián)性并不一定符合用戶的期望。
2.全文式搜索引擎 全文式搜索引擎是由檢索程序(如Spider)以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引數(shù)據(jù)庫,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法計算出各網(wǎng)頁的信息關(guān)聯(lián)程度,然后根據(jù)關(guān)聯(lián)程度高低,按順序?qū)⑦@些網(wǎng)頁鏈接制成索引返回給用戶。這類搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進行篩選。這類搜索引擎的代表是Google。
3.元搜索引擎 元搜索引擎是一種調(diào)用其他獨立搜索引擎的引擎,亦稱“搜索引擎之母(the Mother of Search Engines)”。這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果進行重復排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。元搜索引擎雖沒有網(wǎng)頁搜尋機制,亦無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)支持。目前元搜索引擎技術(shù)主要有并行處理式和串行處理式兩大類。并行式元搜索引擎運行時是將查詢請求同時發(fā)向各個獨立搜索引擎,然后將結(jié)果按特定的順序呈現(xiàn)給用戶;串行式元搜索引擎運行時是將查詢請求先發(fā)向某個獨立搜索引擎,待其返回結(jié)果后再將請求發(fā)往另一個獨立搜索引擎。這類搜索引擎的代表是InfoSpace。
三、搜索技術(shù)基礎(chǔ)
互聯(lián)網(wǎng)上的信息多而雜,如何準確快速地找到自己所需要的信息,掌握一些基本的網(wǎng)上搜索策略和搜索技巧是必要的。
1.搜索策略 搜索策略是為實現(xiàn)搜索目標而制定的全盤計劃或方案,是對整個搜索過程的謀劃與指導。有效的搜索策略由以下幾個過程組成。
(1)明確搜索目標 在正式搜索之前,要確切了解搜索的背景和目的,明確所需要的信息類型(全文、摘要;中文、外文;DOC、PDF、TXT)、檢索范圍、檢索方式、時間跨度等。
(2)選擇合適的搜索工具 各種搜索引擎在查詢范圍、檢索功能等方面各有千秋,不同目的的檢索應(yīng)選擇不同的搜索引擎。選擇合適的搜索工具主要從工具的類型、收錄范圍、檢索問題的類型、檢索具體要求等方面綜合考慮。花一點時間選擇合適的搜索工具是有必要的,可以借助于各搜索引擎的主頁與聯(lián)機幫助進行了解和評判。通常,優(yōu)秀的搜索工具有以下幾條判斷標準: ①快速; ②準確; ③易用; ④強勁。
(3)抽取適當?shù)年P(guān)鍵詞 應(yīng)盡量選專指詞、特定概念或?qū)I(yè)術(shù)語作為關(guān)鍵詞,避免選普通詞和泛指詞。
(4)正確構(gòu)造檢索式 檢索式是搜索過程中用來表達搜索提問的一種邏輯運算式,又稱檢索表達式或檢索提問式。它由關(guān)鍵詞和搜索引擎允許使用的各種運算符組合而成,是搜索策略的具體體現(xiàn)??梢哉J為檢索式就是輸入搜索引擎搜索框中的文字和符號。許多搜索引擎都提供簡單查詢和高級查詢,建議使用后者,如組合使用布爾邏輯運算符、雙引號、括號、大小寫,可使檢索結(jié)果控制在一定范圍之內(nèi)。
(5)根據(jù)結(jié)果及時調(diào)整檢索策略 搜索通常不是一蹴而就的,而是一個多步驟的過程,需要逐步接近目標。要觀察每次返回的搜索結(jié)果,及時調(diào)整檢索策略。
當檢索結(jié)果為零或過少時,需要擴大檢索范圍。 ①使用同義詞、近義詞或相關(guān)詞,用布爾邏輯運算符or連接關(guān)鍵詞;或逐漸減少最不重要的概念詞,或使用較普遍的詞,或改用上位詞。 ②使用截詞技術(shù)可檢索出以某幾個字母開頭的所有單詞,某詞的單數(shù)及復數(shù)形式及其同根詞。 ③利用某些搜索引擎的自動擴檢功能進行相關(guān)檢索。如某些搜索引擎在檢索結(jié)果頁面上有“More Like This”鍵,或“更多結(jié)果”或“相關(guān)結(jié)果”鍵,在此可獲得與檢索式相關(guān)的一些推薦性網(wǎng)址,而這些站點可能是上述檢索策略不能直接檢索出來的結(jié)果,借此擴大與豐富檢索范圍。 ④使用多個搜索引擎。因為沒有哪兩個搜索引擎是完全相同的,每一個搜索引擎都有自己的檢索特色,都有自己的索引,都以不同的方式在網(wǎng)上搜尋網(wǎng)址,出現(xiàn)不同的檢索結(jié)果不足為奇。從不同的搜索引擎的檢索結(jié)果中,可以綜合出最符合要求的答案。 ⑤使用元搜索引擎。當用戶已知檢索詞,但對獨立搜索引擎不熟悉或想節(jié)省在多個搜索引擎之間的轉(zhuǎn)換時間,可選用元搜索引擎作試探性的起始檢索,了解網(wǎng)上是否有相關(guān)信息以及在哪里可找到這些信息,再利用獨立搜索引擎進行更全面、深入的搜索。
如果得到的檢索結(jié)果太多,或檢索結(jié)果不相關(guān),則需要縮小檢索范圍,具體方法如下: ①使用邏輯“與”。用布爾邏輯運算符and(+)連接幾個關(guān)鍵詞,或增加概念詞。 ②使用邏輯“非”。用布爾邏輯運算符not把不需要查找的關(guān)鍵詞排除在檢索結(jié)果之外。 ③使用位置算符。使用鄰近操作符把檢索范圍縮小到網(wǎng)頁的某個部分。 ④固定詞組檢索(短語檢索)。 ⑤使用縮寫的全稱。只用詞組的縮寫進行檢索,會把那些和主題不相關(guān)的文獻檢索出來,從而產(chǎn)生誤檢,使用全稱則不會出現(xiàn)這一情況。 ⑥利用某些搜索引擎的進階檢索功能(Refine,Revise,Search again,二次檢索),限制查詢范圍。搜索引擎提供的范圍限制類型一般包括:類目的分類范圍、地域范圍、時間范圍及其他特殊類型范圍,如域名后綴(.com,.gov,.org)、文件類型。這些范圍限制實現(xiàn)的方法不同,有些是通過在關(guān)鍵詞前加特殊的符號實現(xiàn)的,有些是通過下拉菜單實現(xiàn)的。
2.搜索技巧 各個搜索引擎都提供一些方法來幫用戶精確地查詢信息,使之符合用戶的要求。不同的搜索引擎,提供的查找技巧和實現(xiàn)的方法各有不同,但一些常見的技巧是可以通用的。
(1)注意詞的不同形式。 在利用關(guān)鍵詞進行檢索時,為了對需求主題進行全面系統(tǒng)的檢索,必須要考慮詞的變化。通常主題詞有4種變化:等同詞(同義詞)、上位詞、下位詞和相關(guān)詞(同類詞)。表達同一個明確的概念、互相等同的詞稱為等同詞;概念上外延更廣的詞為上位詞;概念上內(nèi)涵更窄的詞為下位詞。要想結(jié)果查找得更全面、系統(tǒng),就要考慮把詞的幾種形式都用上,但網(wǎng)絡(luò)信息太多、太泛,因而對檢索結(jié)果的精確度要求較高,能使用下位詞時就不要使用上位詞。
(2)布爾邏輯語的使用。 邏輯“與”,其常用的表示方法為“and”或“+”。其含義是只有含“與”的關(guān)鍵詞全部出現(xiàn)時,所搜索到的結(jié)果才算符合條件。 邏輯“或”,其常用的表示方法為“or”。其含義是只要“或”的關(guān)鍵詞中有任何一個出現(xiàn),所搜索到的結(jié)果就算符合條件。 邏輯“非”,其常用的表示方法為“not”或“-”。其含義是搜索的結(jié)果中不應(yīng)含有“非”后面的關(guān)鍵詞。 在輸入漢字作關(guān)鍵詞的時候,不要隨意加空格,因為許多搜索引擎把空格認作特殊操作符,其作用有的與“and”一樣,有的與“or”一樣;有的搜索引擎查詢時以“&”代表and,以“|”或“,”代表or,以“!”代表not,具體是哪一種用法,要根據(jù)具體的搜索引擎來定。
(3)精確檢索的應(yīng)用。 精確檢索符引號(“”)通常表示用戶希望把輸入的結(jié)果不管字符有多長都作為一個完整的詞進行檢索,如“中文搜索引擎的檢索技巧”,檢索的結(jié)果中必須有把引號內(nèi)的內(nèi)容作為一個完整檢索項的表達。檢索結(jié)果的量相對較少,但比較準確,但若沒有引號,則只要結(jié)果中出現(xiàn)了包含“中文”、“搜索引擎”、“檢索”、“技巧”這幾個詞的信息內(nèi)容都會被檢索出來,檢索到的信息量大,但檢準率較低。
(4)通配符“*”或“?”號的使用。 在大多數(shù)搜索引擎中,可以把“*”號作為通配符使用,可用它代替任意幾個字符。例如:在搜索引擎的關(guān)鍵詞輸入框中輸入“電腦*”,它可以代表關(guān)鍵詞“電腦硬件”、“電腦軟件”等。在有些搜索引擎中,其關(guān)鍵詞輸入框邊已設(shè)有“與”、“或”按鈕,只要選中相應(yīng)的按鈕,在輸入的各類關(guān)鍵詞間插入空格,按下“搜索”按鈕后搜索引擎會自動在各關(guān)鍵詞間加“與”、“或”符號。
(5)字段檢索。 網(wǎng)絡(luò)信息實際上不分字段,但有的搜索引擎設(shè)計了類似于字段檢索的功能,運用字段設(shè)置,可以把檢索詞限制在一定位置范圍內(nèi)。 “檢索詞site:網(wǎng)站地址”表示把結(jié)果限制在某個網(wǎng)站或者是網(wǎng)站頻道,或者是某個域名之內(nèi);“intitle:檢索詞”表示檢索詞應(yīng)該在網(wǎng)頁標題中出現(xiàn);“inurl:檢索詞”表示檢索詞應(yīng)該在網(wǎng)址中出現(xiàn);“link:網(wǎng)站地址”表示檢索某網(wǎng)頁被誰鏈接。
(6)位置檢索。 部分搜索引擎運用了位置算符,位置檢索是表示詞與詞位置和距離關(guān)系的符號,通常運用“nW”、“nN”兩種,前者表示所連接的兩個詞之間的距離相隔不超過n個單詞的距離且順序不變,而后者表示所連接的兩個詞之間的距離相隔不超過n個單詞的距離但順序可以變換。
(7)找不同類型的信息。 有些搜索引擎還用“filetype:”這個語法來對搜索對象作限制,冒號后是文檔格式,如PDF、DOC、XLS等,如“科技報告filetype:pdf”表示要找PDF格式的科技報告文檔。
四、常用學術(shù)搜索引擎
(1)Google Scholar(http://scholar.google.com/) Google推出的免費學術(shù)搜索工具,可以幫助用戶快速查找學術(shù)資料,包括來自學術(shù)著作出版商、專業(yè)性社團、預印本、各大學及其他學術(shù)組織的經(jīng)同行評論的文章、論文、圖書、摘要和技術(shù)報告。 2006年,Google Scholar擴展至中文學術(shù)文獻領(lǐng)域。作為此次擴展的一部分,Google Scholar在索引中涵蓋了來自多方面的信息,信息來源包括萬方數(shù)據(jù)資源系統(tǒng)、維普資訊、主要大學發(fā)表的學術(shù)期刊、公開的學術(shù)期刊、中國大學的論文、中國國家數(shù)字圖書館的館藏圖書以及網(wǎng)上可以搜索到的各類文章。Google Scholar同時提供了中文版界面,供中國用戶更方便的搜索全球的學術(shù)科研信息。 Google Scholar具有以下特點: ①每一條搜索結(jié)果會提供文章標題、作者、引用者、相關(guān)文章以及出版、收藏情況等編目信息,有些還會提供鏈接。 ②搜索結(jié)果的排序會考慮到每篇文章的全文內(nèi)容、作者影響度、發(fā)表文章刊物的權(quán)威性以及該文章被其他學術(shù)著作引用的次數(shù)等要素。 ③搜索不僅僅針對文字信息,還包括評論等其他方面。
(2)SCIRUS(http://www.scirus.com/) SCIRUS是由愛思唯爾科學公司(Elsevier Science)于2001年4月推出的迄今為止國際互聯(lián)網(wǎng)上最全面的科技信息專用搜索引擎。它以自身擁有的資源為主體,對網(wǎng)上具有科學價值的資源進行整合,集聚了帶有科學內(nèi)容的網(wǎng)站及與科學相關(guān)的網(wǎng)頁上的科學論文、科技報告、會議論文、專業(yè)文獻、預印本等。其目的是力求在科學領(lǐng)域內(nèi)做到對信息全面深入的收集,以統(tǒng)一的檢索模式面向用戶提供檢索服務(wù)。 SCIRUS覆蓋超過2億個與科技相關(guān)的網(wǎng)頁,包括5900萬個.edu站點,1800萬個.org站點,680萬個.ac.uk站點,1860萬個.com站點及500萬個.gov站點。這些信息源包括:Science Direct,IDEAL,MEDLINE on BioMedNet,Beilstein on ChemWeb,BioMed Central,US Patent Office,E-Print ArXiv,Chemistry Preprint Server,Mathematics Preprint Server,CogPrints和NASA等。 覆蓋的學科范圍包括:農(nóng)業(yè)與生物學,天文學,生物科學,化學與化工,計算機科學,地球與行星科學,經(jīng)濟、金融與管理科學,工程、能源與技術(shù),環(huán)境科學,語言學,法學,生命科學,材料科學,數(shù)學,醫(yī)學,神經(jīng)系統(tǒng)科學,藥理學,物理學,心理學,社會與行為科學,社會學等。 SCIRUS的檢索界面友好,簡潔方便,可分為基本檢索(Basic Search)和高級檢索(Advanced Search)兩種方式。默認方式為基本檢索。 SCIRUS基本檢索非常簡單,用戶僅需輸入檢索詞,按回車鍵,或單擊“Search”按鈕即可得到相關(guān)資料。在基本檢索的操作中,用戶可以選擇檢索結(jié)果的來源,如來自于期刊或來自于網(wǎng)絡(luò)。用戶還可以選擇檢索結(jié)果與輸入詞組是否精確匹配。 SCIRUS高級檢索支持邏輯檢索。“AND”表示檢索結(jié)果中必須包括所有的檢索詞、“OR”表示檢索結(jié)果中至少包含一個檢索詞、“ANDNOT”表示前面的檢索詞將一定包含于檢索結(jié)果中,而后面的檢索詞則一定不出現(xiàn)在檢索結(jié)果中。在高級檢索的操作中,用戶還可以選擇檢索字段、年限、信息來源等來限定檢索結(jié)果。 SCIRUS用戶可以進行個性化檢索設(shè)置,如每屏顯示的檢索結(jié)果數(shù)等。用戶可以保存檢索設(shè)置,以便在今后的檢索中繼續(xù)沿用此設(shè)置。
(3)ResearchIndex(http://citeseer.ist.psu.edu/) ResearchIndex又名CiteSeer,是NEC研究院在自動引文索引(Autonomous Citation Indexing,ACI)機制基礎(chǔ)上建設(shè)的一個學術(shù)論文數(shù)字圖書館,它提供了一種通過引文鏈接檢索文獻的方式,目標是從多個方面促進學術(shù)文獻的傳播與反饋。 ResearchIndex檢索互聯(lián)網(wǎng)上Postscript和PDF文件格式的學術(shù)論文。目前在其數(shù)據(jù)庫中可檢索到超過500000篇論文。主要涉及計算機科學領(lǐng)域,涉及的主題包括互聯(lián)網(wǎng)分析與檢索、數(shù)字圖書館與引文索引、機器學習、神經(jīng)網(wǎng)絡(luò)、語音識別、人臉識別、元搜索引擎、音頻/音樂等。ResearchIndex在網(wǎng)上提供完全免費的服務(wù)(包括下載PS或PDF格式的全文),系統(tǒng)已實現(xiàn)全天24小時實時更新。 ResearchIndex的常用功能包括: ①檢索相關(guān)文獻,瀏覽并下載PS或PDF格式的全文,ResearchIndex支持布爾檢索。 ②查看某一具體文獻的“引用”與“被引”情況。ResearchIndex可以列出該文獻的主要參考文獻,包括每條參考文獻的被引頻次、參考文獻在來源文獻中的上下文及參考文獻的全文;同時還可以獲得該文獻被其他后繼文獻引用的信息,包括的內(nèi)容同上。 ③查看某一文獻的相關(guān)文獻。ResearchIndex應(yīng)用特殊算法計算文獻相關(guān)度。默認的檢索結(jié)果排序方式為命中文獻的被引頻次。 ④圖表顯示某一主題文獻(或某一作者、機構(gòu)所發(fā)表文獻)的時間分布??梢来送茰y學科熱點和發(fā)展趨勢。 進入ResearchIndex的主頁,在檢索框內(nèi)輸入檢索式,單擊“Search Documents”就可以開始查詢。也可以點擊“Search Citations”查詢引文信息,點擊每條引文左側(cè)的“Context”會得到進一步的引文與全文信息。兩種查詢都使用全文檢索技術(shù)。 在查詢結(jié)果頁中,單擊其中一篇,就可以看到這篇文章的記錄。右上角可以瀏覽并下載該論文的多種格式的全文;在Abstract下面是論文的被引情況,通過這些引文鏈接可以了解有哪些后繼文獻引用了該論文。“Context of citations to this paper”中可以直接看到引文的上下文。所有引文都可以進一步查看其引用與被引情況,絕大部分可得到全文;“Active bibliography”列出了按照相關(guān)系數(shù)排序的該論文的相關(guān)文獻。 文章記錄頁面下方“Citations(may not include all citations)”列出了該論文主要的參考文獻,每條參考文獻前方的數(shù)字代表該參考文獻的被引次數(shù)。絕大多數(shù)可得到全文。參考文獻下方的圖表直觀地顯示該篇學術(shù)論文參考文獻的時間分布,但是只有當著錄的參考文獻中給出論文發(fā)表年時,才會在圖表中顯示出來。 在運用ResearchIndex進行查詢的時候,有幾點需要注意: ①ResearchIndex在進行引文統(tǒng)計時,通常單獨考慮作者自引的情況。 ②當兩個或多個相連的詞作為檢索詞輸入時,如果沒有“and”、“or”等布爾算符出現(xiàn),系統(tǒng)將其近似當成一個詞處理,即檢索詞出現(xiàn)的順序必須嚴格匹配。 ③若以作者為檢索詞,盡量只使用作者的last name。或列出在引文中所有可能出現(xiàn)的該作者的著錄形式,中間用“or”連接。
(4)INFOMINE(http://infomine.ucr.edu/) INFOMINE是為大學教師、學生和研究人員建立的網(wǎng)絡(luò)學術(shù)資源虛擬圖書館。它建于1994年,由加利福尼亞大學、威克福斯特大學、加利福尼亞州立大學、底特律-麥西大學等多家大學或?qū)W院的圖書館聯(lián)合建立。它擁有電子期刊、電子圖書、公告欄、郵件列表、圖書館在線目錄、研究人員人名錄,以及其他類型的信息資源40000多個。INFOMINE對所有用戶免費開放,但是它提供的資源站點并不都是免費的,能否免費使用,取決于用戶所在圖書館是否擁有該資源的使用權(quán)。 INFOMINE共包括12個數(shù)據(jù)庫:生物、農(nóng)業(yè)和醫(yī)學數(shù)據(jù)庫,商業(yè)和經(jīng)濟數(shù)據(jù)庫,多樣性文化及種族資源數(shù)據(jù)庫,電子期刊,政府信息數(shù)據(jù)庫,教育資源數(shù)據(jù)庫(K-12),教育資源數(shù)據(jù)庫(大學),Internet利用工具,地圖和地理信息系統(tǒng)(GIS)數(shù)據(jù)庫,物理、工程、計算機和數(shù)學數(shù)據(jù)庫,社會學和人類學數(shù)據(jù)庫,視覺藝術(shù)和表演藝術(shù)數(shù)據(jù)庫。INFOMINE報道款目的著錄內(nèi)容包括資源名稱、簡介、URL、相關(guān)資源鏈接、人工選擇或?qū)<疫x擇、收費情況,并為用戶提供了對資源發(fā)表評論的平臺。 INFOMINE的檢索界面友好,檢索方法簡單易用。檢索功能包括基本檢索、高級檢索和瀏覽三種方式。 基本檢索:在INFOMINE首頁的檢索框中直接輸入檢索詞(主題詞、作者、關(guān)鍵詞等),單擊“Search”或回車鍵就可以檢索出相關(guān)資料。 高級檢索:輸入檢索詞,可使用邏輯檢索(AND、OR、AND NOT)或特定符號(*、||、()、“”等)來擴大、縮小檢索范圍。在高級檢索中,通過點選菜單和下拉菜單的組合使用,可以限定檢索范圍(如關(guān)鍵詞、主題詞、資源描述、作者、標題等),限定檢索的數(shù)據(jù)庫范圍,限定資源的類型和路徑,以及檢索結(jié)果的顯示方式,每頁顯示的檢索結(jié)果數(shù)和檢索結(jié)果的排序方式。 瀏覽:對普通用戶而言,瀏覽是一種有效和常用的檢索方式。INFOMINE在基本檢索、高級檢索和每個數(shù)據(jù)庫的頁面下,都提供了瀏覽功能,可以從目次表、美國國會主題詞表、標題、關(guān)鍵詞和作者等途徑進行瀏覽,查找所需的資料。
(5)Intute(http://www.intute.ac.uk/) Intute是一個免費、便捷、強勁的搜索工具,由英國高等教育資助理事會下的信息系統(tǒng)聯(lián)合委員會(JISC)和藝術(shù)與人文研究委員會(AHRC)開發(fā)建立,專注于教學、研究方面的網(wǎng)絡(luò)資源。所收錄的信息資源都是經(jīng)過行業(yè)專家選擇和評審的,從而保證了其質(zhì)量。目前數(shù)據(jù)庫信息已達120060條。 Intute共設(shè)四大領(lǐng)域:科學與技術(shù)、藝術(shù)與人文、社會科學、健康與生命科學。各個領(lǐng)域下又包含諸多學科,以科學與技術(shù)類為例,覆蓋了天文、化學、物理、工程、計算、地理、數(shù)學、地球科學、環(huán)境以及交叉學科,信息達33806條。 Intute的檢索功能包括基本檢索、高級檢索和分學科瀏覽三種方式。Intute支持布爾邏輯語,可以用“and”,“or”,“not”限定檢索條件,檢索詞可以是題名、關(guān)鍵詞或領(lǐng)域描述。
(6)OAIster(http://www.oaister.org/) OAIster是密歇根大學開發(fā)維護的一個優(yōu)秀的開放存取搜索引擎,收集了來自536 家學術(shù)機構(gòu)的590萬篇文檔,包括開放使用期刊的文章、工作論文、討論文章、會議論文和學位論文。可按關(guān)鍵詞、題名、創(chuàng)作者、主題或資源類型進行檢索。檢索結(jié)果含資源描述和該資源鏈接。
(7)SciSeek Science Directory(http://www.sciseek.com/) SciSeek是一個專注于科學與自然領(lǐng)域的搜索工具,采取人工收集處理的方式,提供農(nóng)林、工程、化學、物理和環(huán)境方面的科技期刊及其他信息。
(8)Information Bridge(http://www.osti.gov/bridge/) Information Bridge是由美國能源部(DOE)下屬的科學與技術(shù)信息辦公室(OSTI)開發(fā)維護的搜索工具,提供美國能源部1994年以來研究成果的全文文獻和目錄索引,涉及的學科領(lǐng)域包括物理、化學、材料、生物、環(huán)境科學、能源技術(shù)、工程、計算機與情報科學和可再生能源等。檢索功能有基本檢索和高級檢索兩種。
(9)Find Articles(http://findarticles.com/) Information Find Articles提供多種頂極刊物的上千萬篇論文,涵蓋藝術(shù)與娛樂、汽車、商業(yè)與經(jīng)融、計算機與技術(shù)、健康與健身、新聞與社會、科學教育、體育等各個方面的內(nèi)容,大部分為免費全文資料,檢索操作簡單。
(10)百度文檔搜索(http://file.baidu.com/) Information 百度文檔搜索可以查找以Word、PowerPoint、PDF等格式存在的研究報告、論文、課件等各類文件。它支持對Office文檔(包括Word、Excel、Powerpoint)、Adobe PDF文檔、RTF文檔進行了全文搜索。搜索時,在檢索詞后面加一個“filetype:”來限定文檔類型。“filetype:”后面可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有這些文件類型。在搜索結(jié)果頁面,點擊結(jié)果標題,可以直接下載該文檔,也可以點擊標題后的“HTML版”快速查看該文檔的網(wǎng)頁格式內(nèi)容。
(11)萬方數(shù)據(jù)ilib(http://scholar.ilib.cn/) Information 萬方數(shù)據(jù)ilib是萬方數(shù)據(jù)股份有限公司旗下的專業(yè)學術(shù)搜索平臺,隸屬于萬方數(shù)據(jù)資源系統(tǒng)。它是Google Scholar和Yahoo!奇摩學術(shù)搜索重要的內(nèi)容提供者,平均每周新增文獻5萬余篇。 Information ilib提供一般檢索、關(guān)鍵詞檢索和按學科分類瀏覽三種檢索形式,檢索結(jié)果顯示標題、作者、出處、年期、關(guān)鍵詞、摘要及參考文獻等詳細信息,但是獲取全文需要付費。 參考書目: 1. 吳賢奇主編.《現(xiàn)代文獻信息檢索》.南京:東南大學出版社,2007 2. 王園春,李瑞斌主編;韓穎主審.《科技信息檢索與利用》.北京:石油工業(yè)出版社,2006 3. 李瞳主編.《信息檢索與利用》.南京:南京大學出版社,2006 (中國科技論文在線摘編) |