Homework3

一.GOOGLE簡介
Google( www.google.com )是一個搜尋引擎,由兩個斯坦福大學博士生Larry Page
與Sergey Brin於1998年9月發明,Google Inc. 于1999年創立。2000年7月份,Google
替代Inktomi成為Yahoo公司的搜尋引擎,同年9月份,Google成為中國網易公司的搜尋引擎
。98年至今,GOOGLE已經獲得30多項業界大獎。
1223.jpg
GOOGLE的成功得益於其強大的功能和獨到的特點

1.GOOGLE支援多達132種語言,包括繁體中文和簡體中文。
2.GOOGLE網站只提供搜尋引擎功能,沒有花裏胡哨的累贅。
3.GOOGLE速度極快,據說有10000多台伺服器,200多條T3級寬帶。
4.GOOGLE的專利網頁級別技術PageRank能夠提供高命中率的搜尋結果。
5.GOOGLE的搜尋結果摘錄查詢網頁的含有關鍵字的內容,而不僅僅是網站簡介。
6.GOOGLE智慧化的“好手氣”功能,提供可能最符合要求的網站。
7.GOOGLE的“頁庫存檔”功能,能從GOOGLE伺服器裏直接取出緩存的網頁。

二.搜尋入門
第一次進入GOOGLE,它會根據你的作業系統,確定語言介面。需要提醒的是,GOOGLE是通過
cookie來存儲頁面設定的,所以,如果你的系統禁用cookie,就無法對GOOGLE介面進行個人設
定了。
GOOGLE的首頁很清爽,LOGO下面,排列了四大功能模組:所有網頁、圖片、新聞群組和目錄服
務。默認是網站搜尋。現在進行第一次搜尋實踐,要查找所有關於“網路資源運用”的中文網站和網
頁。在搜尋框內輸入一個關鍵字“網路資源運用”,然後點擊下面的“google搜尋”按鈕,結果就出
來了。
ggg.jpg

三.初階搜尋

1.搜尋結果要求包含兩個及兩個以上關鍵字:

一般搜尋引擎需要在多個關鍵字之間加上“+”,而GOOGLE無需用明文的“+”來表示邏輯“與”操作,只要空格就可以了。

2.搜尋結果要求不包含某些特定資訊 :

GOOGLE用減號“-”表示邏輯“非”操作。
(注意):這裏的“+”和“-”號,是英文字元,而不是中文字元的“+”和“-”。此外,操作符與作用的關鍵字之間,不能有空格。

3.搜尋結果至少包含多個關鍵字中的任意一個 :

GOOGLE用大寫的“OR”表示邏輯“或”操作。假定你是布蘭妮和披頭四的歌迷,現在要查找所有關於布蘭妮和披頭四的中文網頁。
(注意):小寫的“or”,在查詢的時候將被忽略;這樣上述的操作實際上變成了一次“與”查詢。

4.“+”、“-”和“OR”的混合查詢

混合查詢涉及到邏輯操作符的順序問題。一般而言,搜尋引擎按照從左往右的順序讀取操作符號。如果只涉及“與”操作和“非”操
作,則不會產生順序問題,搜尋結果數量和關鍵字順序無關,不過,具體 搜尋的結果順序會視關鍵字的順序而定。單純的“或”操
作也同樣道理。但是,如果“或”查詢和其他兩種查詢混合在一起,問題就複雜了。現在我們做這樣的查詢:“所有關於Britney或
者Beatles、但是沒有Madonna相關資訊的中文網頁”。

5.用“+”和“-”減少冗餘資訊

通常情況下,用一個關鍵字查詢,會得到很多和查詢目的不相關的冗餘資訊。我們總是希望,搜尋結果的第一個條目中就包含所需
要的資訊。“+”和“-”很多時候就起到縮小 搜尋結果的範圍,以提高查詢結果命中率。

四.輔助搜尋

1.萬用字元問題

很多搜尋引擎支援萬用字元符號,如“*”代表一連串字元,“?”代表單個字元等。GOOGLE不支持萬用字元,只能做精確查詢,關
鍵字中的“*”或者“?”會被忽略掉。

2.關鍵字的字母大小寫

GOOGLE對英文字元大小寫不敏感,“GOD”和“god”搜尋的結果是一樣的。

3.搜尋整個句子

GOOGLE的關鍵字可以是片語(中間沒有空格),也可以是句子(中間有空格),但是,用句子做關鍵字,必須加英文引號。

4.搜尋引擎忽略的字元和辭彙

GOOGLE對一些網路上出現頻率極高的英文單詞,如“i”、“com”、“www”等,以及一些符號如“*”、“.”等,作忽略處理。

5.強制搜尋

如果要對忽略的關鍵字進行強制搜尋,則需要在該關鍵字前加上明文的“+”號。
(注意):大部分常用英文符號(如問號,句號,逗號等)無法成為搜尋關鍵字,加強制也不行。

五.進階搜尋

1.對搜尋的網站進行限制

“site”表示搜尋結果局限於某個具體網站或者網站頻道,如“sina.com.tw”、“edu.sina.com.tw”,或者是某個功能變數名稱,如
“com.tw”、“com”等等。如果是要排除某網站或者功能變數名稱範圍內的頁面,只需用“-網站/功能變數名稱”。

2.查詢某一類文件(往往帶有同一副檔名)

“filetype:”,這是個尚在測試階段的GOOGLE特色查詢,不過功能已經非常強大,可以做很多意想不到的事情哦。
最重要的文檔搜尋是PDF搜尋。PDF是ADOBE公司開發的電子文檔格式,現在已經成為互聯網的電子化出版標準。目前GOOGLE檢
索的PDF檔案大約有2500萬左右。PDF檔案通常是一些圖文並茂的綜合性 檔案,提供的資訊一般比較集中全面。

示例:搜尋關於電子商務(ECOMMERCE)的PDF檔案。
搜尋:“ecommerce filetypedf”
結果:已向網際網路搜尋ecommerce filetypedf. 共約有38,300項查詢結果,這是第91-100項 。 搜尋共費0.38秒。

下面是某項搜尋結果:

[PDF] www.ecommerce.gov/apec
檔案類型: PDF/Adobe Acrobat - HTML 版
Page 1. A Partnership of the Business Community With APEC Economies E-COMMERCE
READINESS ASSESSMENT GUIDE www.ecommerce.gov/apec Page 2. …
www.ecommerce.gov/apec/docs/readine…ess_guide_5.pdf - 類似網頁

可以看到,GOOGLE在PDF檔前加上了[PDF]的標記,而且,GOOGLE把PDF檔轉換成了文字檔,點擊“HTML 版”,可以粗略的查
看該PDF檔案的大致內容。當然,PDF原有的圖片以及格式是沒有了。

搜尋PDF檔案還可以用“inurl:”語法。比如上例,也可以用“inurldf ecommerce”。搜尋結果數量大致相同,不過查詢結果順序則有
很大差別。

注意,上述查詢均是對PDF內文的檢索,“ecommerce”這個關鍵字是包含在PDF檔案中的。

“filetype”的另一個強大用處則在圖片搜尋。下文將對GOOGLE的圖片搜尋功能作詳細說明,此處只是略提一下。
進入“ http://images.google.com/ ”,查找關於本拉登的JPG圖片。

3.搜尋的關鍵字包含在URL鏈結中

“inurl”語法返回的網頁鏈結中包含第一個關鍵字,後面的關鍵字則出現在鏈結中或者網頁檔案中。有很多網站把某一類具有相同屬性
的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”、“GALLARY”等,於是,就可以用INURL語法找到這些相關資源鏈結,然
後,用第二個關鍵字確定是否有某項具體資料。INURL語法和基本搜尋語法的最大區別在於,前者通常能提供非常精確的專題資料。

示例:查找MIDI曲“滄海一聲笑”。
搜尋:“inurl:midi 滄海一聲笑”
結果:已搜尋有關inurl:midi 滄海一聲笑的中文(繁體)網頁。 共約有22項查詢結果,這是第1-10項 。 搜尋共費0.16秒。

示例:查找微軟網站上關於windows2000的安全課題資料。
搜尋:“inurl:security windows2000 site:microsoft.com”
結果:已在microsoft.com內搜尋有關inurl:security windows2000 的網頁。 共約有459項查詢結果,這是第1-10項 。 搜尋
共費0.27秒。

注意:“inurl:”後面不能有空格,GOOGLE也不對URL符號如“/”進行搜尋。例如,GOOGLE會把“cgi-bin/phf”中的“/”當成空格處理。

“allinurl”語法返回的網頁的鏈結中包含所有作用關鍵字。這個查詢的關鍵字只集中於網頁的鏈結字串。

示例:查找可能具有PHF安全漏洞的公司網站。通常這些網站的CGI-BIN目錄中含有PHF script程式(這個script是不安全的),表現
在鏈結中就是“功能變數名稱/cgi-bin/phf”。
語法:“allinurl:"cgi-bin" phf +com”
搜尋:已向網際網路搜尋allinurl:"cgi-bin" phf +com. 共約有47項查詢結果,這是第1-10項 。 搜尋共費0.36秒。

4.搜尋的關鍵字包含在網頁標題中

“intitle”和“allintitle”的用法類似於上面的inurl和allinurl,只是後者對URL進行查詢,而前者對網頁的標題欄進行查詢。網頁標題,就
是HTML標記語言title中之間的部分。網頁設計的一個原則就是要把主頁的關鍵內容用簡潔的語言表示在網頁標題中。因此,只查詢標題
欄,通常也可以找到高相關率的專題頁面。

images.jpg