구글 서칭 팁



이 문서는 구글 검색엔진을 이용해서 문서를 더 잘 찾을 수 있는 기술들에 대한 내용을 담고 있다. 구글은 상당히 복잡한 검색옵션을 제공하는데, 여기에서는 그 중에서 간단하면서도 효율적인 몇 가지 방법에 대해서 소개할 것이다.
1. 쌍 따옴표

2개 이상의 쿼리 문장이 주어졌을 경우, 구글은 각 쿼리 글자간의 거리를 검사해서 score를 계산한다.
만약 socket api를 검색어로 입력했다면, socket 과 api 가 동시에 발견된 문서 중에서, 가능한한 가까이 붙어있는 문서가 우선 노출되는 방식이다. 그러나 노래 가사와 같은 경우에는 거리에 상관없이 반드시 붙어있어야 할 것이다.

예를 들어 harry potter를 검색할 경우, "harry potter" 로 검색하는게 원하는 결과를 얻을 확률이 높다.

harry potter를 검색어로 입력할 경우에는 [harry potter], [harry ant potter], [Im potter. your harry?] 등등이 검색될 수 있는데, 쌍따옴표로 묶어줄 경우 harry 다음에 potter이 포함된 문서만 검색하기 때문이다.

2. 키워드의 포함과 제외

Wireless Networking 로 검색을 한다고 가정해 보자. 우리가 원하는 정보는 무선 네트워크 기술이다.

이경우 Wireless와 Networking가 모두 포함된 문서가 상위에 검색될 확률이 높지만, 문서자체의 가중치에 의해서 Wireless와 Networking 둘 중 하나만 포함된 문서가 상위에 검색될 수도 있다. 그렇다면 가장 확실한 검색 방법은 따옴표로 묶는 방법이 될 것이다.


"Wireless Networking"

그러나 이 경우에는 검색되는 문서의 양이 너무 적어져서, 중요한 문서가 빠질 수도 있다. 그렇다면 쌍따옴표를 빼고 검색어를 만드는 방법이 있다.


Wireless NetWorking

이 경우에는 다양한 문서가 검색 되겠지만, Wireless와 NetWorking 둘 중 하나만 포함되어도 검색결과에 노출되므로, 쓸데 없는 문서까지 검색될 수 있다. 이를테면 Wireless phone, Wireless PDA 등이 무선 네트워크 장비 관련 정보들 까지 떠버린다. 우리가 중요한건 네트워크 기술이므로, Networking를 반드시 포함시키도록 하면, 좀더 좋은 결과를 얻을 수 있을 것이다. 이렇게 해당 검색어를 반드시 포함시키고자 할때에 +를 검색어 앞에 붙여주면 된다.


Wireless +NetWorking

키워드를 제외할 필요도 있을 것이다. 이경우에는 -를 사용하면 된다.


"Wireless NetWorking" -wired +routers

3. 필드 명령

검색엔진들은 필드검색이 가능하도록 색인테이블을 지원한다. 즉 site, contents (본문), link, title 별로 검색이 가능하도록 색인테이블을 작성한다. 이를 이용하면 특정 site내에서의 검색이라든지, 사이트의 제목에서만 검색하는 등의 검색작업을 수행할 수 있다. 다음은 <www.joinc.co.kr> 사이트내에서 "socket api" 문장을 포함한 문서를 찾는다.


site:www.joinc.co.kr.co "socket api"

또한 상위 도메인명을 필드로 지정할 수도 있다. 아래와 같이 하면 .co.kr 도메인을 가진 문서에 대해서 검색을 수행하게 된다.


site:.co.kr "socket api"

intitle: 를 이용하면 문서의 제목을 기준으로 검색을 한다. title에 joinc가 포함된 문서 중에서 wiki가 검색된 문서를 찾는다면 다음과 같이 하면 된다.


intitle:joinc wiki

filetype:를 이용하면 해당 파일타입을 기준으로 검색을 할 수 있다. 다음과 같이 하면 파일 타입이 xml인 문서중에서 pthread를 포함한 것을 검색하게 된다.


filetype:xml pthread

이러한 필드들은 몇개를 조합해서 사용할 수도 있다.


site:joinc.co.kr filetype:html 하드웨어

4. 기타

구글은 웹문서를 수집할 때, 해당 사이트에 있는 ROBOTS 파일을 읽어서 그 정책에 따라서 행동한다. 이 로봇파일에는 웹문서를 수집할 수 있는지, 수집하기 위해서 아이디와 패스워드가 필요한지 등에 대한 정보를 담고 있다.


<http://www.joinc.co.kr/robots.txt>


위 문서를 보면, 문서 수집을 허락하지 않는 파일과 디렉토리에 대한 정책이 있음을 확인할 수 있다.

아래와 같이 검색어를 입력하면, 각 사이트에 대한 robots.txt 정보를 검색할 수 있다.


inurl:"robots.txt" filetype:txt

 


[출처] Joinc Wiki - 더 좋은 구글 검색방법
<http://www.joinc.co.kr/modules/moniwiki/wiki.php/Site/Google/Service/Better_Search>

1. 우선 검색엔진이 웹페이지를 발견하기 쉽게 히는 작업이 필요하다. 매트 커츠는 검색엔진 최적화를 위해 검색엔진이 웹페이지를 수집하도록 하라고 조언했다. 방법은 이렇다. 웹 게시자는 robots.txt(로봇.txt) 파일을 만들어 웹서버의 루트 디렉토리에 배치한다. 로봇.txt는 인터넷 검색엔진 배제표준으로, 사이트의 어느 부분을 구글 색인에서 제외해야 하는지 혹은 수집해야 하는지를 알린다.
 
이 작업이 단순해 보이지만, 이게 없다면 검색 엔진이 해당 웹페이지를 수집하는 데 어려움을 겪는다고 매트 커츠는 설명했다. 일단은 검색엔진이 접근하게는 만들어야 한다는 이야기다. 구글코리아는 국내 웹사이트는 대체로 이 작업을 하지 않아, 검색엔진이 웹페이지를 수집하지 못하는 경우가 많다고 설명을 덧붙였다.
 
정부 관련 웹사이트 중에는 국세청, 대법원, 방송통신위원회, 문화재청, 외교통상부, 정부민원서비스, 고용노동부 워크넷, 보건복지부, 우정사업본부, 국립국어원, 국사편찬위원회 등이 검색엔진의 접근을 막아둔 곳이다.
 
2. 표준 HTML을 사용하는 것도 도움이 된다. 물론 표준 HTML은 검색엔진 최적화뿐 아니라, 다양한 기기와 웹브라우저에 웹사이트를 보여주는 데에도 유용하다. 사람들에게 보여주기 위해 이트를 운영한다면 표준 HTML을 적용해 웹사이트를 운영하라는 이야기다. 액티브X나 AJAX, 플래시를 반드시 사용해야 한다면 가장자리 링크는 HTML로 만드는 게 좋다고 매트 커츠는 강조했다.
 
3. 웹페이지에 제목을 입력하는 것을 잊지 말아야 한다. 매트 커츠는 짧게 보이는 검색 결과는 웹페이지 제목과 메타디스크립션에 의해 결정되는 경우가 많다고 말했다. 그런데 국내 웹사이트는 웹페이지 제목이 없거나 웹페이지마다 제목이 같다고 매트 커츠는 꼬집었다. 웹페이지에 제목을 입력하고 메타디스크립션을 만드는 것은 상점이 쇼윈도에 물건을 멋지게 전시하는 것에 비교할 수 있다. 웹페이지 제목이 매력적이고 유혹적이라면 클릭을 부른다는 게 매트 커츠의 설명이다.
 
구글이 운영하는 웹마스터 페이지를 방문하면 “검색결과의 첫 번째 행은 웹페이지의 제목”이라는 말이 있다. 웹페이지의 쇼윈도인 검색 결과에 웹페이지 정보를 잘 포장해서 보여주는 게 중요하다는 이야기다.
 
4. 글을 잘 활용해야 한다. 이 말은 3번과도 이어지는 설명이다. 검색엔진은 특정 웹페이지에 대한 정보를 웹페이지 제목, 메타디스크립션, 웹페이지 내 글로 파악한다. 특히 웹페이지를 이미지로 꾸밀 때에도 설명글(알트텍스트)은 필수다. 해당 이미지가 무엇에 대한 것인지는 글로 써야 검색엔진이 파악하기 좋다. 이미지와 동영상 파일을 검색엔진이 이해하는 게 아니라, 거기에 쓰인 설명을 바탕으로 검색 결과에 노출할 지를 정한다.
 
메타디스크립션이나 웹페이지 제목, 이미지 설명 등을 입력할 때는 사람들이 검색할 때 자주 쓰는 단어를 유념해야 한다고 매트 커츠는 강조했다. “미국에서는 USB 메모리를 메모리스토리지, 플래시드라이브, 섬드라이브 등 다양한 이름으로 부르는데 USB를 파는 쇼핑몰이 이 중에서 하나의 이름만 설명에 넣진 않을 것”이라는 설명은 웹페이지의 설명글이 얼마나 중요한지를 보여준다. 특히 페이지 내 정보가 글로도 잘 설명된 웹사이트는 시각장애인이 웹사이트를 둘러보기에도 좋다.
 
5. 매트 커츠는 웹상에 링크가 많이 돌아다니는 게 좋다고 말했다. 블로그를 쓰거나 소셜미디어에 웹페이지를 소개하는 것도 방법이다. 물론 링크를 여러 웹페이지에 심으려는 노력이 과도해 스팸이 되면 안 된다고 매트 커츠는 설명했다.
 
6. 마지막으로, 매트 커츠는 웹표준을 다시 한 번 강조했다. 인터넷 익스플로러만 지원하는 웹사이트가 있다고 치자. 매트 커츠는 “인터넷 익스플로러 점유율은 80%로 매우 높은 수준이지만, 인터넷 익스플로러만 지원한다면 전체 방문자의 20%는 배제하는 셈”이라며 “웹사이트는 웹브라우저에 상관 없이 구동돼야 한다”라고 말했다.