올블로그 슈퍼 서치 #2

16 Comments

우역곡절 끝에 오늘 드디어 약 일주일전까지 글들의 인덱싱을 완료했습니다. 속도가 어떨지가 가장 큰 관건이었기에 결과가 상당히 많을 듯한 블로그라는 검색어로 둑은둑은하면서 검색을 해 봤더니만,


http://superman.allblog.net

90만개의 글 중 82792개의 글을 검색하는데 겨우 0.026초!! ㅠ_ㅠ)=b

검색기능이 알파에 알파에 알파버전이라서 시도 때도 없이 에러를 뱉을 수도 있거니와 검색 품질등에 있어서 검색 전문사이트와는 비교할 수 없겠지만 아쉬운대로 한 번 사용해보시기 바랍니다.

이것저것 테스트 하면서 인덱싱을 할 것이라서 새 글 갱신 속도등은 매우 느릴것이고, 또 여러분들의 평이 맘에 안든다거나 하면(…) 검색 페이지가 아예 없어질 수도 있으니(…) 페이지가 없어져도 너무 아쉬워하지 마시고 아직은 그냥 간단하게 재미로 사용하시면 좋겠네요.

그럼 저는 또 삽질하러 이만~*

꼬랑지. 여기서 문제! 이번 제 네이밍 센스는 어디서 나온 걸까요(…)

꼬랑지. 서버가 좀 좋은 놈이 있으면 금새 인덱싱을 할텐데, 서버가 많이 느려서 지금 인덱싱은 디비에서 맥북으로 가져와서 인덱싱한 후에 다시 서버로 옮기는 삽질을 하는데 그래도 그게 더 빠르네요-_-;; 역시 듀얼코어..ㅜ_ㅜ)=b (맥북 뽐뿌아님…)

16 Comments (+add yours?)

  1. 하늘이
    Jul 09, 2006 @ 05:54:25

    오호, 좋아요. 이번주내로 그럼 정식 검색 오픈하기로 해요. :)

  2. op2
    Jul 09, 2006 @ 05:54:55

    이제 올블에서 본문검색이 되는 거예요!! ^^

    그런데, 검색 부분은 직접 개발을 하신 것인가요?
    아니면 특정 툴(?)을 사용하신 것인가요?

  3. 골빈해커
    Jul 09, 2006 @ 06:13:29

    하늘이 / 정식 오픈이라뇨! 어이 그런 엄한말씀을-0-;;;

    op2 / 넵! 그토록 바라마지않던 본문검색인겁니다. ㅜ_ㅜ)=b 오픈소스 검색엔진인 Lucene 라이브러리를 썼고, 형태소 분석(?) 같은 부분들은 직접 만들었습니다. 언어는 펄을 이용했습니다. :-) 근데 아직도 하면 할 수록 이것저것 할게 너무 많아져서 머리가 아프네요.. 글 순서로 소팅을 먼저 구현해야 할텐데 어찌만들어야하나 고민입니다..쓰는 라이브러리가 아주 기본적인 기능들만 있는거라서…

  4. chang
    Jul 09, 2006 @ 08:51:17

    아, 정말 기다리고 기다리던 기능이었습니다.
    속성 별 sorting 도 가능하면 좋을텐데요. 예를 들어, 올블로그 이용자들이 메겨준 별점으로, 등록 날짜순으로, 관련 태그들의 태그 클라우드 등등.

    미친 요구사항이죠? -.-

    잘 쓸게요. 이제 네이버 들어갈 일 없겠네요. ;-)

  5. 뉴크
    Jul 09, 2006 @ 10:50:30

    오호 축하드립니다.. 이번에는 부디 rm -rf * 만 안하시면 ^^
    저번에 그이야기 듣고 안습의 쓰나미가 크흥~~~

  6. 9gle
    Jul 09, 2006 @ 11:36:53

    해코님을 수퍼맨으로 인정합니다. ^-^=b

  7. 네쯔
    Jul 09, 2006 @ 13:30:46

    속도 빠르고 잘되네요..^^
    오랜만에 제 닉네임넣고 검색해서 제 이름이 들어갔던 글들은 다 한번 둘러봤네요.
    정식 오픈 기대하겠습니다~아~ :)

  8. 아키라
    Jul 09, 2006 @ 13:44:07

    슈퍼맨 리턴즈!!!!!!! ㅎㅎㅎㅎㅎㅎㅎ

    그런데 블로그 칵테일이 정말 화채 먹고나서 지은거여요?? -ㅅ-;;;;

  9. 하늘이
    Jul 09, 2006 @ 13:48:25

    아키라님, 그럼요. ;) 진짜에요.

  10. Rantro
    Jul 09, 2006 @ 19:35:29

    제 닉네임 “Rantro”로 검색해보니 74개의 글을 0.045초만에 검색하네요. 다만, 지워진 글도 검색되군요. 그리고 “E=mc²”으로 검색했더니 1498개의 글을 0.026초 걸리는데 74개 검색한 것보다 더 짧게 걸리네요. 검색된 것 대부분이 가수들이고 E=mc² 공식과 관련된 글은 1498개 중에서 어떻게 찾아야 할지 난감하네요.

    일단 속도 면에서는 만족스럽습니다. 다만, 블로그의 특성상 전문용어, 공식등이 많기 때문에 정확도 면에서 조금 더 다듬어야 할 듯합니다.

  11. 골빈해커
    Jul 09, 2006 @ 21:33:31

    Rantro / 블로그에서 삭제한 글을 올블로그에서 자동으로 삭제하는 것이 계획은 있으나 아직까지 구현은 되어있지 않습니다. 죄송하구요. 블로그의 글을 삭제하셨다면 올블로그에서도 삭제해주시면 검색에는 잡히지 않습니다.

    그리고 어느 검색엔진에서나 검색 질의어에 따라서 결과가 많이 달라지는데요 검색하실 때 “E=mc² 공식” 으로 검색어를 조합해서 검색하시면 조금 더 나은 결과를 얻으실 수 있을겁니다.

    검색의 방법은 여러가지로 많이 확장해 나갈 예정이지만 정확도는 크게 신경을 안쓰려고 합니다. 검색 방법에 따라서 원하는 결과를 잘 얻을 수 있는 방향으로 가려구요. ^^;

  12. ASRAAM
    Jul 09, 2006 @ 22:31:13

    적어도 날짜별 정렬은 필요할거 같은데요. 최근 글 먼저 나오게요. ^^;
    그리고 올블 유저들이 매겨준 총 별점 숫자대로 정렬이라던가.. 이런것도 있으면 편리할것 같군요 ^^

  13. 나니
    Jul 10, 2006 @ 00:29:27

    사장님에게는 은근히 직원을 갈구는 힘이 있어요 (…..)
    해코님 화이팅 (?)

  14. 전설의에로팬더
    Jul 10, 2006 @ 01:05:21

    음 결론은 맥북이 좋다 질러라 이거군요 -_-;; 아 지르고 싶다.

  15. jclove0152
    Jul 10, 2006 @ 06:06:47

    슈퍼서치!!이름 좋아요.

  16. Rantro
    Jul 17, 2006 @ 21:36:36

    오늘 확인해보니 수퍼서치에서 제 글이 하나도 검색되지 않네요.

Leave a Reply