タグ

solrに関するseikennのブックマーク (8)

  • クックパッドの検索の裏側 - クックパッド開発者ブログ

    初めまして、インフラストラクチャー部の加藤 (@EugeneK) です。 クックパッドでは現在178万ものレシピが公開されていますが、目的のレシピを探すために検索機能を提供しています。 今回は検索機能の裏側の仕組みについて、インフラストラクチャーの観点からお話ししようと思います。 全ての検索機能を支えるSolrと周辺のアーキテクチャ クックパッドにはレシピの検索だけでなく様々な検索機能がありますが、その全てはSolrを活用して実装されています。 以前はMySQL Tritonnによる全文検索機能を使用していましたが、2011年頃からSolrに切り替わりました。 クックパッドではSolrをマスタ - スレーブ構成にすることで冗長性と負荷分散を実現しています。以下の構成図をご覧ください。 マスタとスレーブの間には、リピータと呼ばれる検索インデックスを中継するためだけの役割のサーバがいます。この

    クックパッドの検索の裏側 - クックパッド開発者ブログ
  • Fessで作るApache Solrベースの全文検索サーバー ~ 導入編

    はじめに ドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント(ファイル)をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

    Fessで作るApache Solrベースの全文検索サーバー ~ 導入編
  • 全文検索システム: Fess - オープンソース全文検索サーバー Fess (フェス)

    概要 現在表示されているサイトは旧サイトです。新サイトは http://fess.codelibs.org/ja/ です。 Fess は「5 分で簡単に構築可能な全文検索サーバー」です。Java 実行環境があればどの OS でも実行可能です。Fess は Apache ライセンスで提供され、無料 (フリーソフト) でご利用いただけます。 Seasar2 ベースで構築され、検索エンジン部分には 2 億ドキュメントもインデックス可能と言われる Solr を利用しています。 ドキュメントクロールには S2Robot を利用することで、Web やファイルシステムに対するクロールが可能になり、MS Office 系のドキュメントや zip などの圧縮ファイルも検索対象とすることができます。 特徴 5 分で簡単に構築可能な全文検索サーバー Apache ライセンスで提供 (フリーソフト) OS 非依存

  • Solrメモ書き2 - K52.NIKKI ver3.0

    Solrばりばり使ってます。大変便利です。 でもやっぱり日語情報が少ない。というわけで実戦投入までに調べたことを公開メモ。バージョンは3.x系です。 前のメモはこれ。 Too many open filesエラーが出る このエラー出まくった。 ファイルを大量に開くようなので、ファイルディスクリプタ(システムが開けるファイル数)の上限を65536とかにしておく。 普通は /etc/security/limits.conf あたりで指定するみたいだけど、サービスとして起動させておくプログラムに対しては有効にならないっぽい。 詳しくは下記記事参照。 ■ファイルディスクリプタ数の上限変更とlimits.confの罠 http://yumewaza.yumemi.co.jp/2010/07/limitsconf.html というわけで、/etc/security/limits.conf は使わず、

    seikenn
    seikenn 2012/10/14
  • オープンソースの全文検索エンジンSolrについてメモ - K52.NIKKI ver3.0

    オープンソースの全文検索エンジンをいろいろ調べてみて、 Solrってのがなんか良さそうだったのでインストールしたりしてみた。 オープンソースの全文検索エンジンにはいろいろあって、有名なのはNAMAZUとかSenna。 NAMAZUは小中規模向けっぽい。 SennaはMySQLを置き換える格好になるのでちょっと使いたくないなと思ってた。 で、Solrは単独で機能する上にかなり大規模までいけるらしい。20億インデクスくらいいけるとどっかに書いてあった。 ちなみにエンジンのコアはLuceneというやつで、それにいろいろくっつけて便利にしたのがSolr。さらにGUIとクローラーまでくっつけたFessというのもあって、これは日人が作ってたりする。クローラー付きのものにはNutchという海外産のものもある。 でもどれも全体的にドキュメントが少ない。今回試してみたけど、結局よくわからん部分も多く、実戦

  • apache solrでまじめな検索つくるよー! - 刺身の上にたんぽぽ乗せる日記

    なんだかんだで結構自分でも使ったりするので、真面目に作ることにしてみた。 一応目標は、 日付でソートされた結果 ブックマーク数によりフィルタリング 日付・ブックマーク数を利用した重み付け付きの検索結果 が出せればいいと思ってる。最後のはどういう式を使えばいいのかわかんないから、そのうち考えるかな、という感じだけど。 mysqlというかtritonnのデータを読み込んでindex作るところまでできた。 使ったのはapache-solr-3.1.0。 以下参考にした記事。 MySQLからインポート http://ochien.seesaa.net/article/153191074.html HTMLタグを削除する http://wiki.apache.org/solr/DataImportHandler#HTMLStripTransformer テキストを日語でindex http://d

    apache solrでまじめな検索つくるよー! - 刺身の上にたんぽぽ乗せる日記
    seikenn
    seikenn 2012/08/01
  • PHP から検索するときは使った方がいい Solr のオプション - Solr, Python, MacBook Air in Shinagawa Seaside

    PHP から Solr の検索をするときは solrconfig.xml に下のオプションを追加すると検索結果を受け取った後の処理がとても楽になります。 # <queryResponseWriter name="xslt" ... の下あたりに追記する <!-- for PHP --> <queryResponseWriter name="php" class="org.apache.solr.request.PHPResponseWrit er"/> <queryResponseWriter name="phps" class="org.apache.solr.request.PHPSerializedR esponseWriter"/>追記したら Tomcat等のサーブレットコンテナを再起動します。 こんな感じで検索できるようになります。 PHP の場合 $code = file_ge

    seikenn
    seikenn 2012/07/31
  • Solrの導入資料を公開します - Hatena Developer Blog

    こんにちは、 id:yanbe です。 全文検索エンジンLucene上に構築されたSolrという検索ミドルウェアがあります。拡張性・カスタマイズ性に富み、既存のデータのインポート機能が豊富なのもあって、広く利用されています。 参考: Solr - Wikipedia 国内のウェブサービスでのSolrの採用事例を挙げるとNAVERやCookpad、アメーバなどがありますが、はてなでも以前より一部のサービスでSolrを採用しています。 Solrの公式ドキュメント(英語)はwiki形式で提供されており、網羅的な情報はこちらで手に入ります。また、Solrの基的な使い方を学べるチュートリアルもありますが、「すでにある典型的なLAMP構成のウェブサービスにSolrによる検索機能を組み込む」までには、ここからさらに多くの情報を調べる必要があり、Solrの導入のハードルとなっていると感じました。 そこで

  • 1