タグ

hadoopに関するyokochieのブックマーク (29)

  • Yahoo HadoopからスピンアウトしたHortonworksが計画を発表

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    Yahoo HadoopからスピンアウトしたHortonworksが計画を発表
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    yokochie
    yokochie 2011/06/21
    おぉ、これはわかりやすい!
  • Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

    以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると

  • [O] Hadoop Conference Japan 2011 に参加してきました #hcj2011

    overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

  • 次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

    Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

  • HDFS File System Shell Guide

    The FileSystem (FS) shell is invoked by bin/hadoop fs <args>. All FS shell commands take path URIs as arguments. The URI format is scheme://autority/path. For HDFS the scheme is hdfs, and for the local filesystem the scheme is file. The scheme and authority are optional. If not specified, the default scheme specified in the configuration is used. An HDFS file or directory such as /parent/child can

  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • Amazon Elastic MapReduceに今さら入門してみた - nokunoの日記

    というわけで冬休み最後の自由研究として、Amazon Elastic MapReduce(EMR)を使ってみました。今なら公式ページもほぼ日語化していて楽チンです。Amazon Web Services (日語) Amazon Elastic MapReduceとはAmazon EMRは、Amazonのインフラ上で動作する仮想サーバーを使ったHadoopクラスタを時間単価で貸し出すサービスです。少々わかりにくいので、Amazon Web Service(AWS)の関連する製品群について整理しておきます。EC2 (Elastic Compute Cloud) EC2は、仮想マシンを時間単価で貸し出すサービスです。 EMRを使わずに、EC2に自前でHadoopをインストールして使うやり方もあります(EMRが出来る以前はそれしかなかった)。 EMRを使う場合でも、バックグラウンドでは自動的に

  • Hadoopソースコードリーディングの発表資料「検索エンジンのための転置インデックス構築」 - nokunoの日記

    Hadoopソースコードリーディング第6回 : ATND「Data Intensive Text Processing with MapReduce その2」ということで、前回に引き続きこのについて話させていただきました。Hadoopreading06 data intensive4View more presentations from nokuno.以下、他の人の発表メモです。 Hadoop World 2010報告 NTTデータ山下さん 参加者900人(去年の2倍)! BI関係が目立っていた? eBay: Ganglia, Nagios, HUE, Oozie, Mahout, Pig, Hive, SAML,... AOL: 広告、検索、コンテンツに利用。Mahoutでレコメンドとか Intelのベンチマーク:LZOやHyperThreadingの恩恵 GE:TwiterやYou

  • 「Application Performance2010」でご紹介したHadoop講演資料を公開します

    11月16日に「Application Performance2010」というイベントでHadoopについて講演させていただきました。 当日はたくさんの方におこしいただき、ありがとうございます。 ここでは、当日講演で使用したプレゼン資料をご紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括部 角田直行、吉田一星

    「Application Performance2010」でご紹介したHadoop講演資料を公開します
  • s4.io - 

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • オープンソースカンファレンスにてHadoopセミナーを行います

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間「オープンソースカンファレンス2010 Tokyo/Fall」が明星大学・日野キャンパスにて開催されます。オープンソースに関する最新情報を、オープンソースコミュニティや企業・団体によるセミナーや展示で提供するオープンソースの文化祭です。 カンファレンスでは、2日間で90コマ以上のセミナーが開催されますが、Yahoo! JAPANもHadoopについて講演させていただくことになりました。 Yahoo! JAPANによるセミナーの詳細は以下の通りです。 2010-09-10 (金) 16時15分~17時 Hadoop~Yahoo! JAPANの活用について~ 講師:角田

    オープンソースカンファレンスにてHadoopセミナーを行います
  • Hadoop Hack Night Vol. 2 … 技術評論社

    たくさんのお申し込みありがとうございました。 お申し込み期間:7月21日(水)~7月28日(水) 7月25日(日) 23時59分 お申し込みが早くも100名を超えたため,予定を切り上げて 25日23時59分で終了いたします。 お申し込み後,抽選となります。 プログラム 18:30 開場 19:00~19:05 オープニング 19:05~19:35 [オープニングセッション(30分)]Yahoo! JAPANにおけるHadoop利用について(仮) 講演者: 吉田 一星 氏,古宮 陽明 氏(ヤフー株式会社) 19:35~20:05 [メインセッション(30分)]新たな情報インフラとしてのHadoopの活用(仮) Hadoopがいま注目されている背景には,Hadoopが備えている「スケール・アウト性」「スループット重視」「ロバスト性」という特徴が,情報爆発時代に必要とされている新たなインフラとし

  • 第六回ドワンゴ技術勉強会に参加して発表してきました - (゚∀゚)o彡 sasata299's blog

    2010年07月17日01:08 勉強会 Hadoop 第六回ドワンゴ技術勉強会に参加して発表してきました ドワンゴ社にて行われた『第六回ドワンゴ技術勉強会』に参加して発表してきました。参考までに使用したスライドを置いておきます。 COOKPADでのHadoop利用View more presentations from Tatsuya Sasaki. 会社名のところがおかしかったり、スライドショーするのを忘れていたり(注:わざとですけどね!)。まぁ、そんなことは良いではないですか。記憶に残ったと思えば(笑) /) ///) /,.=゙''"/ /     i f ,.r='"-‐'つ____   こまけぇこたぁいいんだよ!! /      /   _,.-‐'~/⌒  ⌒\ /   ,i   ,二ニ⊃( ●). (●)\ /    ノ    il゙フ::::⌒(__人__)⌒::\ ,

  • Hadoopがスケール・アウトする仕組み

    前回の記事では、Hadoopが膨大なデータをバッチ処理するための「インフラ」としての性質を備えていること、情報爆発時代の新たなインフラとして普及しつつあることを説明しました。その中で、情報爆発時代に必要とされるインフラは、「スケール・アウトが可能であること」という条件を備えていなければならないことを示しました。サーバーの台数を増やすことで容易にシステムの処理性能が増やせることは、Hadoopの重要な特徴です。今回は、Hadoopがどのようにしてスケール・アウトを可能にしているかを、「分散ファイル・システム」と「MapReduceフレームワーク」の2つの観点から解説します。 スケール・アウトとは? コンピュータ・システムを新たに構築するときは、必ず「運用」のことを考えておく必要があります。システム・トラブルが発生した場合の対応策を決めたり、将来の仕様変更に備えてプログラムに拡張性を持たせたり

  • Hadoopを使いこなす(3)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括部の吉田です。 前回と前々回の記事では、Hadoopのカスタマイズポイントを解説しました。 単純な問題に対しては、map関数とreduce関数の組み合わせだけでも、処理を行うことができますが、ある程度複雑な問題に対しては、今までに解説したカスタマイズポイントの活用が重要になるという話でした。 今回は実際のサービスの事例を紹介し、カスタマイズポイントがどう活用されているか紹介したいと思います。 ABYSS ABYSSの事例を紹介しましょう。 ABYSSとは、検索サービスを簡単に構築できる社内プラットフォームのことで、詳しくは以下のTechBlog記事で紹介しています。先日無事に社内リリースされました。 新検索

    Hadoopを使いこなす(3)
  • クックパッドのデータ処理、たった5万円:日経ビジネスオンライン

    気になる記事をスクラップできます。保存した記事は、マイページでスマホ、タブレットからでもご確認頂けます。※会員限定 無料会員登録 詳細 | ログイン 月間ユニークユーザー数、884万人、月間ページビュー数、4億6000万(2010年3月)を誇る国内ナンバーワンの料理レシピの投稿・検索サイト「クックパッド」。 日常的に料理をする人はもちろんのこと、たまにしか包丁を握らない人でもクックパッドのウェブサイトを一度は訪れたことがあるのではないか。 2ちゃんねるTwitterを凌駕する それくらい、クックパッドレシピの投稿・検索サイトとして不動の地位を築いているように思える。なにしろ、母の日とカミサンの誕生日くらいしか、料理をしない筆者でさえも、クックパッドは何度かのぞき、お世話になったことがあるくらいだ。 ページビュー数の比較でいえば、この4億6000万という数字は、2ちゃんねるや今流行りのT

    クックパッドのデータ処理、たった5万円:日経ビジネスオンライン
  • Open TechTalk「Hadoop Hack Night」レポート

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、TechBlog担当の井野です。 3月8日に開催されたOpen TechTalk「Hadoop Hack Night」についてのレポートをお届けいたします。イベントは、思った以上に多くの方にご応募いただき抽選とさせていただきました。当日は、当選された100名の方々にお集まりいただきました。ありがとうございました。 さて、イベントですが、大きく分けて三部構成でお送りいたしましたので、各々ご紹介いたします。イベントのTwitterハッシュタグ『#hadoophn』も活発にやり取りされておりました。 イベントの詳細は、技術評論社さんの「gihyo.jp」にも掲載されておりますので、 あわせてご覧ください。 Hadoop

    Open TechTalk「Hadoop Hack Night」レポート
  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)