[B! monitoring] yogasaのブックマーク

DevOps の能力 | Cloud アーキテクチャセンター | Google Cloud

デジタルトランスフォーメーションを加速お客様がデジタルトランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

yogasa 2021/04/29

リンク

RDSで接続数とメモリ消費量の調整事例 | 外道父の匠

RDS Auroraを使っているところで、OSの空きメモリが少なくなったアラートが出たので、それについて細かく考察したら、それなりの量になったのでまとめた感じです。別にAuroraじゃなくRDS MySQLでも、MySQL Serverでも同じ話なのですが、クラウドならではの側面もあるなということでタイトルはRDSにしております。 RDSのメトリクス監視 RDSはブラックボックスとはいえ、必要なメトリクスはだいたい揃っているので、CloudWatch を見たり……APIで取得してどっかに送りつけたりして利用します。なので、まずは接続数とメモリについて復習です。 SHOW STATUS 的には Threads_connected です。 CloudWatch Metrics 的には、DBInstanceIdentifier → DatabaseConnections です。見た感じ、ど

yogasa 2021/04/09

リンク

あと2時間でElastiCacheのメモリが枯渇！そのときあなたは何をしますか？

突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。さて、この状況におかれたあなたは何をしますか？はじめにモバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、どのような観点で問題を切り分けていったのか、トラブルシュートのプロセスどのような準備(負荷テスト)をしていれば防げるのかという話をし

yogasa 2020/12/19

リンク

sysloadや監視などの話（仮）

2. Copyright © GREE, Inc. All Rights Reserved. 自己紹介 ● わりとMySQLのひと ● 3.23.58 から使ってる ● むかしは Resource Monitoring も力入れてやってた ● ganglia & rrdcached の（たぶん）ヘビーユーザ ● 2010年くらいから使い始めた ● gmond は素のまま使ってる ● gmetad は欲しい機能がなかったので patch 書いた ● webfrontend はほぼ書き直した ● あとはひたすら python module 書いた ● ganglia じゃなくても良かったんだけど、とにかく rrdcached を使いたかった ● というわけで、自分は Monitoring を大事にする ● 一時期は Flare という OSS の bugfix などもやってた ● むかしあげた

yogasa 2020/10/14

monitoring

リンク

監視を育てよう！ /「入門監視」を読んだ - kakakakakku blog

今年1月に出版された「入門監視」を読んだ．出版前から予約をしていたけど，他に積読もあり，読み始めるのが少し遅れてしまった．評判通り素晴らしく，特に「監視」というテーマをうまく言語化している本だと感じた．目次を見るとわかる通り，「あれも監視！これも監視！」という幅の広さに気付くことができる．本書は1人で読んで終わりにするのではなく，チームで輪読会をしてディスカッションをするなど，改善に繋げるために継続的に読むと良さそう．さらに本書で学んだ内容に Dive Deep するために他の書籍も併読するべきだと思う．今回は関連する書籍も紹介しようと思う．入門監視 ―モダンなモニタリングのためのデザインパターン作者: Mike Julian,松浦隼人出版社/メーカー: オライリージャパン発売日: 2019/01/17メディア: 単行本（ソフトカバー）この商品を含むブログを見る目次と正誤表 1章

yogasa 2020/10/14

monitoring

リンク

大規模システムにおける5つのログ転送パターン

成功者がどのようにNew Relicを使用してKubernetesのパフォーマンスを4倍に向上させ、拡張性とスループットを改善したかをご覧ください。

yogasa 2020/07/25

リンク

Amazon Elasticsearch ServiceをつかったRDSのスロークエリの集計と監視 - クックパッド開発者ブログ

こんにちは、SREの菅原です。クックパッドの多くのシステムは AWS 上で稼動しており、そのWebサービスの多くはデータベースにAmazon RDSを使っています。 WebサービスがDBを使う場合、ボトルネックになりやすいDBのパフォーマンスを落とさないためにスロークエリの監視はとても重要です。そこで、Amazon Elasticsearch Serviceを使ったスロークエリの集計・監視システムを構築したので、それについて紹介したいと思います。 ※今のところMySQLエンジンのみを対象としていますシステム構成システムの構成は以下のようになります。また、社内のシステムと完全に同じ訳ではありませんが、同様の構成のSAMプロジェクト（Elasticsearch Serviceに保存するまでの部分）をGitHubで公開しています。 https://github.com/winebarre

yogasa 2020/07/25

リンク

我々は Kubernetes の何を監視すればいいのか？ / CloudNative Days Kansai 2019

yogasa 2020/07/25

リンク

はじめてのPostgreSQLモニタリング入門 / PostgreSQL 11 Monitoring

多言語化対応における TypeScript の型定義を通して開発のしやすさについて考えた / TSKaigi TypeScript Multilingualization

yogasa 2020/07/24

リンク

サーバレスアプリケーションの監視・運用 - Speaker Deck

ServerlessConf Tokyo 2018 の登壇資料です。 https://gs2.io/

yogasa 2019/08/26

リンク

Linuxのloadavgが約7時間ごとに上昇する現象の原因 - Mackerel お知らせ #mackerelio

Mackerelチームのエンジニアのid:itchynyです。「mackerel-agentを入れるとloadavgが7時間ごとに上昇する」先日、このような問い合わせを複数のお客さまから受けました。私も実験してみたところ、確かに再現しました。EC2 t2.microにmackerel-agentを入れて簡単なログ監視とプロセス監視を設定し、数日放置しました。確かに、約7時間ごとにloadavgが上昇しています。この周期のcronの設定はしておらず、またmackerel-agent内部でも7時間ごとに行う処理はありません。しかし、プラグインを多く入れるほどloadavgのピーク値も上がります。本エントリーでは、この現象の原因について説明します。 loadavgが上昇する原因を調べるには、まずloadavg自体がどう計算されているかを知る必要があります。まずは、Linuxがloada

yogasa 2018/06/13

リンク

Mackerelで家庭内ネットストーカーシステムを作ってみた - hnwの日記

本エントリはMackerel Advent Calendar 2017の23日目の記事です。自宅の無線LANの利用状況をMackerelで監視するようにしたところ、予想以上にキモい仕組みができました。たとえば、家族の誰か（正確には誰かのスマートフォン）が外出するとSlackに通知を飛ばすことができます。同じことをしている人は多くないと思うので、その知見を紹介します。システム概要まずは我が家のネットワーク構成を紹介します。インターネットに接続しているブロードバンドルータがあり、無線経由でスマートフォンやPCがぶら下がっているような、ごく普通のネットワーク構成です。唯一変わっている点は、ブロードバンドルータ上でLinuxおよびMackerelエージェントが動いていることでしょう。このルータの詳細は本稿では省きますが*1、ザックリ言うとRaspberry Pi 3を無線LANアクセス

yogasa 2017/12/24

リンク

PostgreSQLの内部構造と監視の話 - そーだいなるらくがき帳

Geeks Who DrinkとPostgreSQL Conference Japan 2017での資料です。 nulab.connpass.com PostgreSQL Conference Japan 2017 (2017-11-03) | 日本PostgreSQLユーザ会詳しく知りたい人は下記の本がおすすめです。ただし注意点は9.3相当なのでプロセスの仕組みがちょっと違います。待望の新刊出ました！10系ベースなのでぜひ読んでみてください。 ※2018/10/07 追記読み応えのある内容になったかなと思います。レベル感で言えばOSS DB Goldの試験出る範囲です。特に内部構造は覚えて置いて損は無いでしょう。 speakerdeck.com 内部構造の中で取り扱っていないところにAUTOVACUUM、TOASTとレプリケーションがあります。AUTOVACUUMはPostgre

yogasa 2017/11/04

リンク

理論を知って改めて監視と向き合おう /「ITインフラ監視[実践]入門」を読んだ - kakakakakku blog

先週発売された「ITインフラ監視[実践]入門」を読んだ．ちょうど業務で監視改善を検討しているところだったので，個人的に良いタイミングで読むことができた．あとお世話になってる @ariarijp が本書のレビューに参加されたってことで，すぐ読んでみようと思った．監視 is 何「監視」に対する理論や定石がまとまっていて，今までに無かった視点の本だなと感じた．一部 Mackerel の例も出てくるけど，あくまで実例の紹介という感じで，導入しているインフラ技術や監視サービスに依存せず読めた．「サービスの安定稼働」って言うのは簡単だけど，そのためには多岐にわたる戦略が必要で，本来ならここまで本腰を入れて監視に向き合うべきだよなーと改めて感じたりもした．閾値 (Threshold) 「閾値」を「しきいち」と読んでいるし，今までの現場でもそう読んでいたけど，本書では「いきち」と読みが振られていた．

yogasa 2016/01/25

monitoring

リンク

次世代Webカンファレンス「モニタリング」レポート #nextwebconf | DevelopersIO

こんにちは、虎塚です。 10月18日(日)、次世代 Web カンファレンスへ行ってきました。イベントの趣旨は「「次世代 Web カンファレンス」を開催します - Block Rockin’ Codes」で公開されています。最後のセッション「monitoring」に参加したので、レポートします。オーナー: @songmuさんはてなで監視サービスのMackerelを作っている @mikedaさんクックパッド株式会社のインフラ監視をしている @rrreeeyyyさんハートビーツ-でMSPをしている（サーバを預かって監視、構築など） @fujiwaraさんインフラや監視まわりのお仕事をしている監視とは何か mikedaさん：監視とは、サービスが正常に稼動しているかをみて、異常を検知したら収束させるという活動を含むもの。 fujiwaraさん：落ちたら困るので監視する。将来リソースが足

yogasa 2015/10/19

リンク

WEB系各社で使われている監視ツールまとめ - mikedaの日記

次世代 Web カンファレンスで監視について話すことになったので、ネタとしてWEB系各社で使っている監視ツールを調査中。うちはこれ使ってるよ！！！ってのがあったら@mikedaにメンションください！ Cookpad Zabbix 昔はNagios+muninだけど台数増えて性能的に破綻したビューはそのままじゃ辛いのでmunin風に表示するのを自作 StatusCake DataDog。サービス系、サーバに紐付かない系の監視に。DashBoard便利 waker。通知用。PagerDuty高い、と言ってryot_a_raiが秒で作ったらしい Kibana imon。独自のリアルタイムなサービス稼働状況表示ツール NewRelic 試し中なもの Real-User Monitoring : JSでbeacon飛ばしてfluentd -> BigQuery。Google SpreadShee

yogasa 2015/10/17

monitoring

リンク

Zabbix＋Pacemaker＋Fluentd＋Norikra＋Jenkinsで監視、クラスタリング、ログ収集／解析、バックアップ

Zabbix＋Pacemaker＋Fluentd＋Norikra＋Jenkinsで監視、クラスタリング、ログ収集／解析、バックアップ：Elasticsearch＋Hadoopベースの大規模検索基盤大解剖（終）（1/2 ページ）リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。最終回は、監視、クラスタリング、ログ収集／解析、バックアップに使っているOSS技術と、その使いどころを紹介する。連載目次リクルートの全社検索基盤「Qass」の事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する本連載。最終回となる今回は、前回の「AWS＋オンプレのハイブリッドクラウド

yogasa 2015/10/07

monitoring

リンク

クックパッドにおけるサーバ監視と運用の工夫 - クックパッド開発者ブログ

こんにちは。インフラストラクチャー部の加藤(@EugeneK)です。今回はWebサービスを運用する上で欠かせない、モニタリングをクックパッドでどうしているかという話をします。死活監視と性能監視 Webサービスを運用している以上、そのサービスを稼働しているサーバがあり、サーバには故障やトラブルが発生します。また、どれくらいのパフォーマンスが出ているか、リソースをどのくらい消費しているかなどのトレンドを把握することは、成長するサービスを支えていく上で欠かせません。故障やトラブルにいち早く気づくための仕組みを死活監視と言います。また、サーバリソースの時系列での推移を知るために、グラフとしてトレンドを可視化する仕組みを性能監視と言います。ポーリング監視の限界とZabbixのアクティブ監視クックパッドでは死活監視にNagios、性能監視にMuninを使用してきましたが、サーバ台数の増加

yogasa 2015/04/28

リンク

fluentdでつくる監視系 - Qiita

いつもアプリケーションの開発ばかりで、まじめに監視系を考えたことがなかったので、 fluentdを中心にした監視系を作ってみた。前提複数台のアプリケーションサーバ一台のログ収集サーバログにはエラーログとアクセスログの大きく2種類を用意するエラーログは更に複数のレベルでファイル単位にわかれている fatal error warn アプリケーションサーバとログ収集サーバは同一ネットワーク上にあるやりたいことメールで来ても絶対に気がつかない自信がある。異常の側から教えてくれる仕組みを目指す。 fatalログが出た場合は、電話による通知を行う全てのエラーログはchatツールに出力するログのバックアップログの分析・可視化この記事では1, 2, 3についてまとめる。構築 fluentdのインストール公式のドキュメントが一番わかり易い。 Installation | Flue