It looks like nothing was found at this location. Maybe try one of the links below or a search? Search for:
It looks like nothing was found at this location. Maybe try one of the links below or a search? Search for:
2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce
Once common feature in Social Network site is to recommend people connection. e.g. "People you may know" from Linkedin. The basic idea is very simple; if person A and person B doesn't know each other but they have a lot of common friends, then the system should recommend person B to person A and vice versa. From a graph theory perspective, for each person who is 2-degree reachable from person A, w
Apache Hadoop プロジェクトでは、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソースソフトウェアを開発しています。Hadoop には以下のサブプロジェクトがあります。 Hadoop Common: Hadoop のほかのサブプロジェクトをサポートする共通のユーティリティです。 Avro: 各種スクリプト言語に動的に組み込み可能なデータ直列化システムです。 Chukwa: 大規模分散システムを管理するためのデータ収集システムです。 HBase: 巨大テーブル用の構造化データストレージをサポートするスケーラブルな分散データベースです。 HDFS: アプリケーションデータに対して高いスループットでのアクセスを可能にする分散ファイルシステムです。 Hive: データ・サマライゼーションやアドホックなクエリー操作を可能にするデータウェアハウス・インフラストラクチャです
まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed
gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています
mrjob� mrjob lets you write MapReduce jobs in Python 2.6+/3.3+ and run them on several platforms. You can: Write multi-step MapReduce jobs in pure Python Test on your local machine Run on a Hadoop cluster Run in the cloud using Amazon Elastic MapReduce (EMR) Run in the cloud using Google Cloud Dataproc (Dataproc) Easily run Spark jobs on EMR or your own Hadoop cluster mrjob is licensed under the A
はじめに こんにちは。adingoの岩川です。第3回ではCloudFrontのログを解析するHadoopプログラムを書き、それをローカル環境上で実行するところまで解説しました。 うまく動作しましたか? 今回は、第3回のHadoopプログラムをEMR上で実行する手順を追っていきます。 Amazon Elastic MapReduce Ruby Client EMRは管理画面からも起動できますが、今回は定期バッチを想定して、コマンドラインツールを使うことにしましょう。 下準備として、下記のものを入手します。なお、Amazon Elastic MapReduce Ruby Clientを実行するにはRuby 1.8が必要です。 Amazon Elastic MapReduce Ruby Client Security Credentials キーペア Amazon Elastic MapRedu
How to Create and Debug an Amazon Elastic MapReduce Job Flow : Articles & Tutorials : Amazon Web Services http://aws.amazon.com/articles/3938 ==== Understanding Elastic MapReduce Job Flows Amazon EC2インスタンスのクラスタとして稼働するAmazon EMRにおいて、ジョブフローは( job flow)ユーザが定義するタスクである。JavaのJARファイルや、Python, Ruby, Perl, C++で書かれたHadoop Stremingプログラムで実装された MapReduceアルゴリズムが各ステップとなる。ステップの集合(である job flow)はAmazon EC2クラスタのマスター
AWS is updating the TLS configuration for all AWS API endpoints to a minimum version of TLS 1.2. Amazon EMR releases 3.10 and lower only support TLS 1.0/1.1 connections. After December 4, 2023, you won't be able to create clusters with Amazon EMR 3.10 and lower. If you use Amazon EMR 3.10 or lower, we recommend that you immediately test and migrate your workloads to the latest Amazon EMR release.
というわけで冬休み最後の自由研究として、Amazon Elastic MapReduce(EMR)を使ってみました。今なら公式ページもほぼ日本語化していて楽チンです。Amazon Web Services (日本語) Amazon Elastic MapReduceとはAmazon EMRは、Amazonのインフラ上で動作する仮想サーバーを使ったHadoopクラスタを時間単価で貸し出すサービスです。少々わかりにくいので、Amazon Web Service(AWS)の関連する製品群について整理しておきます。EC2 (Elastic Compute Cloud) EC2は、仮想マシンを時間単価で貸し出すサービスです。 EMRを使わずに、EC2に自前でHadoopをインストールして使うやり方もあります(EMRが出来る以前はそれしかなかった)。 EMRを使う場合でも、バックグラウンドでは自動的に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く