[B! hadoop] seikennのブックマーク

機械学習、どこから手を付ける？～初期コストゼロで試せるBigInsightsで、Hadoop＆Sparkのエコシステムをフル活用～ - はてなニュース

「大規模データ分析や機械学習を始めてみたい」と考えているチームは多いはずだ。情報システムや業務の現場が生み出すビッグデータを最新手法で分析することで、データに潜んでいた価値を発掘でき、それを新たなビジネス価値に結び付けられるとの期待が高まっているからだ。そこで出てくる問いは「いったいどこから始めたらいいのだろうか？」。（※この記事は、日本アイ・ビー・エム株式会社提供によるPR記事です）大量データ分析で名前が挙がるソフトウェアといえば、Apache HadoopとApache Sparkだ。そのエコシステムは高度で充実している。だからこそ「どこから手を付けるのか」に悩む人も多い。「Hadoop/Sparkのディストリビューションを利用できるIBM BigInsights試用版や、クラウドサービスBluemixを使えば、明日からでもHadoop/Sparkによるデータ分析や機械学習に取り組

seikenn 2016/11/23

リンク

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ

seikenn 2012/11/14

hadoop

リンク

日々進化するHadoop。これまでのおさらいと最近の動向（前編）

大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。この記事ではそのセッションの内容をダイジェストで紹介しましょう。日々進化するHadoopの「いま」 NTTデータ基盤システム事業部濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

seikenn 2012/08/27

hadoop

リンク

日々進化するHadoopの「いま」

第2回 NHNテクノロジーカンファレンス講演資料（2012年8月18日）日々進化するHadoopの「いま」株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービスシニアエキスパート濱野賢一朗（日本Hadoopユーザー会） NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

seikenn 2012/08/20

hadoop

リンク

第8回　コンテンツベースのレコメンドシステムのHadoop実装［後編］ | gihyo.jp

自分で確認してみたい場合前回紹介したMapReduceの第一段階のReducerの出力結果のデータ構造で <key value> は <単語id　単語idを含むアイテムidのリスト> でした。コンテンツベースのレコメンドは、アイテム間の類似性をそれぞれの内容（アイテムのメタデータや概要など）の類似性に基づいて計算するために単語を使います。一般に、ミススペルされた単語の出現頻度は他の単語に比べ非常に低く、それらを含むレビューおよび該当するアイテムは少ないと予想できます。また、冠詞などの単語はほとんど全てのレビューに出現するため、出現頻度は他の単語に比べて非常に高く、それらを含むレビューおよび該当するアイテムの数は非常に大きくなります。したがって、単語ごとのレビューやアイテムのリストの長さを見て、以降の処理で利用する単語を選択することができます。 TF/IDF TFはTerm Freq

seikenn 2012/08/09

リンク

“統計の基礎を無視している”Hadoop使いが考えるビッグデータ

Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長神林飛志氏に、その真意を聞いた。 Hadoop＝ビッグデータは大きな誤解ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」（神林氏）という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

seikenn 2012/05/10

hadoop

リンク

Hadoopのテスト環境はどうやるのがいいのか？

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 Hadoopで真に大事なのは、テスト環境だったりする。基本的に分散環境が前提になるので、どのレベルまでが単体テストなのか？どの程度までローカルでテストできなくてはいけないのか？というのは常に問題になるわけで。その意味ではCI含めた開発環境の重要性は以前よりも高いな、と今日思った。 2011-06-21 00:50:47 御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 HadoopのOS化ってのは一つの流れだとは思うけど、その場合、その上位のDSLが開発環境になるわけで。では、そのDSLにどこまで、どのようなテスト実行環境があるの？ってのは、やっぱり重要で。そもそも「プラットフォーム」って何って考えるところまで行く

seikenn 2011/09/05

hadoop

リンク

Hadoopの異端さが面白い - wyukawa's diary

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH（クロステック）またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH（クロステック）しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH（クロステック）日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH（

seikenn 2011/09/05

hadoop

リンク

ビッグデータ座談会前編--ビッグデータは新しい付加価値を生み出す

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます近年のITインフラにとって、ビッグデータの取扱いは極めて深刻な課題とされている。ビッグデータを迅速かつリアルタイムに処理することは、インターネット上に氾濫する情報のビジネスへの活用に直結するからだ。そこで注目されているのが大量かつ大容量のデータに対応した分散処理技術である。特にこの分野を牽引している「Hadoop」への期待は大きい。そこで今回、Hadoopへの取り組みを進めている3社に集まってもらった。導入を進めている企業の代表としてリクルート、システム開発事業に取り入れようとするNTTデータ、アセスメントサービスなどを提供する日立製作所の3社だ。それぞれ立場が異なるものの、「ビッグデータ」という課題から見たIT業界の現状や、Ha

seikenn 2011/07/20

hadoop

リンク

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています（@shiumachiさん、ありがとうございます！） Using Hadoop to Measure Influence | Apache Hadoop for the Enterprise | Cloudera ソーシャルメディア上の影響力測定サービス「Klout」とはKlout | The Standard for InfluenceKloutのゴールは影響力の数値化の分野でのスタンダードになることだ。近年のソーシャルメディアの普及により、多くの測定可能な友達関係に関する情報が手に入るようになってきている。Facebookユーザには、平均して130人の友達がいる

seikenn 2011/07/06

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

seikenn 2011/06/27

リンク

overlasting.net

overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

seikenn 2011/04/29

hadoop

リンク

TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記

Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇（大学教授が長期の休みを取れる制度）でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitter エンジニアの@squarecogさんと

seikenn 2011/04/22

hadoop

リンク

ページが見つかりません | 日本HP

ページが見つかりません。目的のページは、移動または削除によって無効になっている可能性があります。申し訳ありませんが、検索またはリンク先よりお探しください。

seikenn 2011/04/07

hadoop

リンク

第13回　Hadoopおまけ編─“Jadoop”作ってみました | gihyo.jp

MapReduceは強力なバッチ処理を行う分散システムですが、サーバもクライアントも専用のソフトウェアが必要となります。だからこそ、高効率な環境が構築できるという利点もありますが、入出力がキーとバリューであるという点に着目した場合、同じような動作をするシステムがWeb上で作れるのではないか？と思いました。現在はさまざまなシステムがWebサービスとして展開されており、あらゆるサービスを受けることができます。Webメール、スケジューラー、動画サイト、オフィスクローンなどなど…。Webブラウザが1つのプラットフォームとして進化し、またそれがOSの域にまで足を伸ばそうとしています。そして、それらの実装の多くにJavaScriptが使用されていますが、ブラウザとWebサービスの進化の両方が組み合わさったときに、単独のプラグインやランタイム環境を必要としないJavaScriptが使用されるのはもっ

seikenn 2011/03/12

hadoop

リンク

Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS

Mahoutシリーズ目次（随時更新）非分散レコメンデーション Apache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS （これ）レコメンデーションの簡単な原理を視覚的に把握してから実際に計算してみる - 都元ダイスケ IT-PRESS 機械学習における重大な"仮定"と、アルゴリズムの評価 - 都元ダイスケ IT-PRESS 分散レコメンデーション Mahoutで分散レコメンド(1) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(2) - 都元ダイスケ IT-PRESS Mahoutで分散レコメンド(3) - 都元ダイスケ IT-PRESS クラスタリング今度はMahoutでクラスタリング - 都元ダイスケ IT-PRESS 今度はMahoutでクラスタリング(ソース編) - 都元ダイスケ IT-PRESS では、本文いきます。 Apach

seikenn 2011/03/12

リンク

Mahout の開発環境を Maven+Eclipse で作る (2) Hadoop セットアップ - 木曜不足

Mahout はやっぱり Hadoop の上で使ってこそでしょ。というわけで開発用にも Hadoop をセットアップしなければならない。基本的に Hadoop は Linux で使うべき。Linux 上での疑似分散くらいまでなら結構簡単にセットアップできる。ネット上にいっぱい情報がある。Cloudera 使ってもいい(まだ使ったこと無いけど)。スタンドアローンなら Windows でもそんなには難しくない。けど、疑似分散になると途端にやっかい。そんなこんなで Windows 2008 x64 に Hadoop 0.21.0 を疑似分散でセットアップにチャレンジ。最初に結論から。 Hadoop 0.21.0 は使うな。 Windows で Hadoop は使うな。【追記】Mahout 0.4 が Hadoop 0.20.2 なので、最初からそれを使うのがベストだった。0.5-SNA

seikenn 2011/02/28

hadoop

リンク

Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る - 木曜不足

Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。でもうまくやれば、スタンドアローンモード限定だが、Eclipse から jar も作らずそのまま Map-Reduce ジョブを起動できる。デバッグ実行もできるので、ブレイクポイント入れてステップ実行とかも可能だ。今回はそういう環境の作り方の話。ずいぶん苦労したけど、出来るようになったら簡単。 Eclipse のセットアップなどは済んでいるものとする。Mahout の開発環境を Maven+Eclipse で作る (1) - Mi manca qualche giovedi`? 参照。なお、Hadoop を展開すると contrib/

seikenn 2011/02/28

hadoop

リンク

[O] Hadoop Conference Japan 2011 に参加してきました #hcj2011

overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

seikenn 2011/02/28

hadoop

リンク

連載: IBM Watson Workspace #鬼わかアプリケーション開発: 第 7 回: IBM Watson Workspace で AI を利用したアプリ連携の実現 #鬼わか解説（前編）

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

seikenn 2011/02/18

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

hadoopに関するseikennのブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス