대부분의 사람들이 하는 방법은 이미지를 사용하는 거나 누가 만들어 놓은 환경을 이용하는 것(http://code.google.com/intl/ko-KR/edu/parallel/tools/hadoopvm/index.html) 이지만, 문제는 나 같은 경우 Main OS가 Mac인지라 Vmware player를 쓰기 힘들다는 것과 누가 만들어 놓은 환경을 쓸 수도 없다는 것. 다행히 Mac에 Single node를 설치하는 법을 찾아 설치 ( http://www.infosci.cornell.edu/hadoop/mac.html ) 그러나 최신의 Hadoop 버전은 사용불가라는 점도 확인.
eclipse설치 + MR plugin설치.(그런데 Plugin은 써본적이 없다;;)
WordCount예제( http://wiki.apache.org/hadoop/WordCount )를 가볍게 해보고 Lab 1~2를 스킵
Lab 3 PageRank는 이래저래 고난의 연속..결국 GG ㅠ_ㅠ 우선은 데이터들을 다시 돌려서 정리하는 것에 Hadoop과 아직 익숙하지 않은데 한표..PageRank와 관련된 문제들은 3개정도로 정리할 수 있었는데, 하나는 PageRank라는 것이 결국 Matrix의 곱의 극한값을 구하는 것이기 때문에, 몇번을 곱할 것인가 하는 문제. 그리고 node가 서로 값을 주고 받아 값이 왜곡되는 문제와, 외톨이 Node가 Rank를 독점하는 문제이다. 쉽지 않은 난이도라 하겠다..T_T 중간에 계단에서 넘어져 인대가 늘어나는 사고로 한 일주일 놀았고, 또 집과 서울을 가느니라 한 7일을 쓰기도 해서..결국 GG
대신한 것은 Apache log분석 11G짜리 apache 접속 로그를 가져다가(쩝..좀 더 크게 하고 싶었지만....)분석 시작.
우선 URL별로 MR을 한번 처리 한 다음에, 다시 정렬해서 가장 많이 접근한 URL을 구하고
중간에 처리된 MR을 가지고 GET값을 지우는 MR를 다시 실행해서 가장 많이 사용된 파일(물론 애매한 표현이긴하다)찾았다.
처음 MR의 결과값은 약 741MB였으며 실행시간은 32분(2.2GhzX2/2G/Mac)이었다. 나머지는 MR은 약 10~12분정도가 걸렸으며 결과물의 크기는 몇백 kb수준으로 작았다. HDD IO에 기반한 작업이다 보니..노트북으로 돌리면서 하드 고장날까 무서웠다-_-;(돈도 없는데)