블로그(글) 검색 랭킹 알고리즘

6 Comments

근래 올블로그의 블로그 검색을 조금 더 쓸만하게 만들어야겠다는 생각이 들어서 올블로그 검색엔진을 약간(많이?) 고치고 있는 중이다. (올블로그의 거의 모든 서비스가 검색으로 이루어져있어서 검색엔진이 후달리면 큰일난다;; )

원래 생각했던 구성으로까지 고치는 것은 구조를 완전히 바꿔야 해서 시간이 너무 많이 걸릴 것 같아서 중간단계를 일단 작성하고 있는데(그래도 너무 오래 걸리고 있다. 일주일이면 끝나야 되는건데.. ㅜㅜ), 작성하면서 일부 랭킹 알고리즘을 변화시켜보고 있다. (엔진쪽은 거의 완료 되었고, 이제 웹용 라이브러리를 만들고 인덱싱만 새로 하면 된다.)

뭐 구글은 커녕 국내의 다양한 블로그 검색 엔진들처럼 대단한 정도는 아니지만, 그래도 나름 키워드 매칭을 제외하고 약 십여가지정도의 변수를 통해 랭킹을 산정하도록 했는데(구글의 페이지랭크 개념은 사용하고 있지 않다. 링크들을 유효한 수준으로 많이 걸지 않아서 의미를 찾기가 좀 힘들다. -0-;; ), 하면 할 수록 영 불만스럽다.

이게 지식 검색이나, 웹사이트 검색이 아니라 블로그 검색이기 때문인데, 이는 블로그의 평판, 글의 평판이 다를 뿐더러, 평판을 안다고 해도 블로그의 정보는 대개 최신 정보가 가치가 높기 때문에 대개의 경우 최신 글들이 가장 만족스러운 결과를 주게 된다. 그래서 시간 가중치를 높게 주다보면 결국 시간순 정렬과 다를바가 없거나 또는 시간순보다 못한 경우도 많기 때문이다.

결국 할 수 있는 것은 키워드와 키워드에 따른 변수별 가중치를 평가하는 알고리즘을 만들거나 알바를 써서 때에 따라 가중치를 시시 때때로 바꿔줘야 한다. 이에 대해 완벽하진 않지만 어느정도 보완할 수 있는 몇 가지 시스템적 해결 방법을 생각해놓고는 있는데, 이것 역시 쉬운 일이 아니라.. 글쎄, 아직은 잘 모르겠다.(장비 걱정 없고, 다른일 하나 없이 검색엔진만 만들고 있다면 모를까..부하문제로 서비스에 영향을 주지 않으려면 인덱싱도 짬짬히 해야된다. ㅜㅜ)

이제 데이터가 넘쳐나는 이 시대에, 차세대 검색에서의 문제는 사용자가 과연 무엇을 의도하고 검색창문을 두드리냐를 파악해야하는 단계까지 와 있고(구글의 유니버셜 서치가 이를 준비하는 것일테고), 이 단계를 넘어서는 곳이 분명 2차 검색전쟁에서 승리할 것이라고 생각한다. (물론 알바를 이용해서 돈으로 바르면 되긴 한다. -_-b)

생각하면 생각할 수록 검색은 분명 돈이 되는 사업이지만, 여러모로 돈이 무지하게 필요한 사업이더라(닭이 먼저냐 알이 먼저냐?). 이 역시 영세 업체에게는 쉽지 않은 일이랄까..ㅜ.ㅡ;;

그래서 도널드 트럼프가 "부동산은 승리한다"라고 말한 것일까? (응?;;;)