タグ

運用に関するmapk0yのブックマーク (30)

  • 「サーバー代に月7000万円かかると何が起きるのか」パルワールドのエンジニア、東大で講義

    ゲーム「パルワールド」のエンジニアを務めるポケットペアの中條博斗氏は4月10日、自身のXアカウントで、東京大学工学部の講義に講師として登壇することを明らかにした。同講義にはポケットペア代表の溝部拓郎氏も登壇するとしている。 中條氏によると講義はパルワールドに関するもので、内容は以下の3点。 ・サーバー代に月7000万円かかると何が起きるのか ・ワンオペで運用する会社はヤバいが結構よくある ・同時接続数100万人をワンオペ運用してたときの記憶がない件について 月7000万円のサーバーレンタル費や、ユーザーが急増するなかでサーバー運用を中條氏が1人(ワンオペ)でこなしていた件は、いずれも2024年1月のパルワールド発売時に話題となった出来事。同氏は明言していないが、講義では当時の内情も語られるものとみられる。 僭越ながら東京大学工学部で開講されている「技術とコンテンツ」という授業で、#パルワー

    「サーバー代に月7000万円かかると何が起きるのか」パルワールドのエンジニア、東大で講義
  • いかに運用作業に手を抜くかという話 - pospomeのプログラミング日記

    最近「いかに運用作業に手を抜くか」というのを考えているので、なんとなーくアウトプットしてみようと思う。 運用作業とは? 運用作業はゼロが理想だけど、そーもいかない 運用を頑張りすぎてしまうエンジニア pospomeはどうしているか? まとめ 運用作業とは? 自分が想定する "運用作業" というのは機能開発に関係ない作業全般である。 例えば以下の作業は "運用" にカテゴライズしていいと思う。 ソフトウェアのバージョンアップ ユニットテストの実装・保守 問い合わせ対応 リファクタリング 運用作業はゼロが理想だけど、そーもいかない 自分は運用作業がゼロになるのが理想だと思っている。 可能であれば、機能開発にすべての工数を投じて、自身が開発するプロダクトを進化させていきたい。 ただ、運用作業をゼロにするのは不可能である。 ソフトウェアのバージョンアップは定期的にしなければいけないし、リファクタリ

    いかに運用作業に手を抜くかという話 - pospomeのプログラミング日記
  • 僕が障害復旧対応時に考えていることを言語化してみる - Qiita

    これまで数多くのシステム障害を復旧してきました。 障害は無いに越したことは無いですし、起こらないように最善を尽くすのが我々エンジニアの使命です。 しかし、どれだけ最善を尽くしても起こる時には起こります。 今回は、これまで数多くの障害を復旧させてきたエンジニアが、復旧作業時に何を考えているのかを改めて言語化してみたいと思います。 こういう情報ってそれぞれのエンジニアの頭の中にあってあまり共有されないので、意外に参考になるかなと思います。 障害復旧対応の醍醐味 表現が適切かは分かりませんが、僕はシステム障害を復旧させるのが大好きです。目の前に起こっている事象からヒントを集め、地道に原因を切り分けてクリティカルヒットを見つけたときは名探偵になった爽快感があります。 加えて、動いているものを常に動かし続ける日頃の保守運用とは異なり、動いてないマイナスの状況を0まで戻すということで、復旧成功した際に

    僕が障害復旧対応時に考えていることを言語化してみる - Qiita
  • 人間によるKubernetesリソース最適化の”諦め” そこに見るリクガメの可能性

    Kubernetes活用の手引き 私たちの基盤構築・運用事例 Lunch LT https://findy.connpass.com/event/307447/

    人間によるKubernetesリソース最適化の”諦め” そこに見るリクガメの可能性
  • 障害対応で大切だと感じていることのまとめ - Qiita

    私個人の障害対応の経験と 一昨日参加したIncident Response Meetup vol.1での学びから 障害対応において大切だと感じていることをまとめる。 障害とは リリース後のシステムにおいてシステムの不具合やユーザーの操作ミスによってユーザー業務に影響が出ているもしくは出る恐れがあるもの。 障害対応の目的 システムを直すことではなく、ユーザー影響の回避・低減・早期回復をすること。 障害対応に対する心構え システムの信頼性の要である 障害への対応の仕方でユーザー影響が大きく変わる いつ発生するかわからないため特定の人が常に障害対応をするということは不可能である 素早く適切に行動するための備えが重要である 役割分担 障害対応では復旧対応、原因調査、ユーザーへの説明、社内調整などたくさんのことをやる必要がある。 またそれぞれの作業の難易度が高いことも多い。 一人の人間にできることは

    障害対応で大切だと感じていることのまとめ - Qiita
  • 運用に携わる人全員に見てほしい! Ops Guidesの紹介 - Qiita

    PagerDuty Advent Calendarの8日目! 今日はOps Guidesのお話です。 うちはこうだけど、他はどうやってるんだろう? 普段から運用に関わっていると、ふとした瞬間に「そういえば他の会社ではどういう運用をやっているんだろう?」と気になること、ありませんか? そのきっかけは「当になんとなく」といったものから「上手くいかない運用にフラストレーションが溜まって」というどす黒いものまで色々あると思いますが、いずれにせよ「他の会社の良いところを取り入れて、自分たちの運用を改善したい」という気持ちから来ているのは間違いないでしょう。 だからこそ、いろんなミートアップに参加して発表を聞いたり、懇親会で話してみたり、Xに垂れ流されているいろんなポストを読んで事例を学ぶわけです。 ベストプラクティスを学びたい! このような取り組みはとても良いことですし、是非とも継続して情報収集し

    運用に携わる人全員に見てほしい! Ops Guidesの紹介 - Qiita
  • 障害対応プロセスを改善してきた話 - 10X Product Blog

    障害プロセスを改善してきた話 こんにちは。Reliability & Securityチームに所属するSoftware Engineerの@sota1235です。 今回は10X内における障害対応プロセスの改善をご紹介します。 今が完成系ではなく道半ばではありますがこの半年 ~ 1年で大きく進化したので同じくらいのフェーズの会社で困ってる方がいたら参考にしてみてください! ちなみに私ごとですが去年の5/26にこんな投稿をしてたのでやっと伏線を回収する形となります(※ ドヤ顔ではありません)。 目次 こんな感じで紹介していきます。 目次 障害対応プロセスの改善に踏み切った背景 課題1. 障害の報告フォーマットが統一されていない 課題2. 障害報のクオリティの差異が大きく後から振り返りが難しい 課題3. 障害対応者が特定の人に偏る 第一の改善 改善1. 障害報告書のフォーマット更新 改善2. S

    障害対応プロセスを改善してきた話 - 10X Product Blog
  • 「お金のことはできるだけ考えたくない派」の私が始めた、資産運用と投資の話

    『イーデス』は、複数の企業と提携し情報を提供しており、当サイトを経由して商品への申込みがあった場合には、各企業から報酬を受け取ることがあります。ただし当サイト内のランキングや商品の評価に関して、提携の有無や報酬の有無が影響を及ぼすことはございません。 また当サイトで得た収益は、サイトを訪れる皆様により役立つコンテンツを提供するために、情報の品質向上・ランキング精度の向上等に還元しております。※提携機関一覧 将来のお金に関する漠然とした不安から、資産運用に興味はあるものの「何から始めればいいのか分からない」と感じている人は多いのではないでしょうか。 特に「投資」は複雑で難しそうな印象から、一歩を踏み出せないという人も少なくなさそうです。 今回寄稿いただいたエンジニアのSongmuさんも、投資に対し手続きや運用に手間がかかりそう、と長らく投資を始めてこなかったと語ります。 そんなSongmuさ

    「お金のことはできるだけ考えたくない派」の私が始めた、資産運用と投資の話
  • 普通の人が資産運用で 99 点をとる方法とその考え方 - hayato

    はじめに 資産運用で 99 点をとる方法とその考え方について説明します。この記事の対象はいわゆる「普通の人」です。 資産運用趣味ではない。 資産運用を始めてみたいが何をしてよいのかわからない。 資産運用をすでに行っているが毎年ころころと方針を変えてしまっている。 資産運用に無駄に時間ばかり費やしている。 今のところ資産はすべて銀行の普通口座や定期預金にいれている。このまますべて現金でおいておくのも何か損しているみたいでモヤモヤする。だけど難しいことは勉強したくないし時間も使いたくない。 といった人たちです。 記事では最初に結論、すなわち「やるべきこと」を述べます。資産運用で 99 点の投資効率を達成するためにはこの結論部分だけを実行するだけでよいです。 次に、それだけでどうして 99 点といえるのか、その裏付けとなる考え方や理論を中心に説明します。 99 点をとるにあたってこれらの知識を

    普通の人が資産運用で 99 点をとる方法とその考え方 - hayato
  • データセンター内のサーバーを液体冷却、冷却電力の94%減を達成 | KDDI News Room

    KDDI株式会社 三菱重工業株式会社 NECネッツエスアイ株式会社 KDDI株式会社 (社: 東京都千代田区、代表取締役社長: 髙橋 誠、以下 KDDI)、三菱重工業株式会社 (社: 東京都千代田区、代表取締役社長: 泉澤 清次、以下 三菱重工)、NECネッツエスアイ株式会社 (社: 東京都文京区、代表取締役執行役員社長: 牛島 祐之、以下 NECネッツエスアイ) は、2023年2月28日、脱炭素に貢献するサステナブルなデータセンターを目指し、液体でIT機器を冷却する液浸冷却装置の大規模構成での利用を想定した実証実験 (以下 実証) を行い、冷却設備におけるティア4 (注1) レベルでの安定稼働に成功しました。従来型のデータセンターと比較し、サーバー冷却のために消費される電力を94%削減 (注2)、データセンターの電力使用効率を示すPUE値1.05 (注3) を実現しました。なお、

    データセンター内のサーバーを液体冷却、冷却電力の94%減を達成 | KDDI News Room
  • TVerにおけるスケーリング運用について - TVer Tech Blog

    こんばんは。こんにちは! バックエンドエンジニアうつみです。 この記事はTVerメンバーによるアドベントカレンダーの22日目の記事です。 TVerにおけるサーバー負荷について 今回の記事は配信部分ではなく、アプリを構成するために必要なAPIサーバーの運用について書いていきたいと思います。(配信系期待されていたらごめんなさい 🙏 TVerではお陰様で毎日たくさんのユーザーの方が利用してくださっているので、サーバーへのアクセスもそこそこの規模になってきます。 地上波の見逃し配信やリアルタイム配信などといったサービス特性上、コンテンツの切り替わり時間などはアクセススパイクが日常的に発生しています。 そういった緩急の激しいアクセスパターンを安定して処理するためにAPIサーバーを適切にスケールアウト、スケールアップをする必要が出てきます。 この記事ではそういった日々の運用について書いていきます。

    TVerにおけるスケーリング運用について - TVer Tech Blog
  • 『システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション』は、誰が読み、実践すべきことが書かれているのか、その「誰」を考えながら読んでほしい1冊だった - Magnolia Tech

    システム運用アンチパターン ―エンジニアがDevOpsで解決する組織・自動化・コミュニケーション 作者:Jeffery D. SmithオライリージャパンAmazon いやー刺さりまくる名言のオンパレードみたいな1冊『システム運用アンチパターン 』。 こので最初に出てくる具体的な事例が「パターナリスト症候群」という内容なんですけど、これまでの技術書にありがちな「作業品質向上や、効率化のため」というより、組織のアジリティを下げてしまう「重い承認プロセス」を排除するために自動化しましょう、と言っているところが良い。 自動化をする理由が効率化とか、品質じゃなくて、重い承認プロセスを不要にするためである、というところが新しいし、アンチパターンに技術で立ち向かうところが、良い— magnoliak🍧 (@magnolia_k_) 2022年4月23日 なので、そもそも「承認プロセス」というのは何

    『システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション』は、誰が読み、実践すべきことが書かれているのか、その「誰」を考えながら読んでほしい1冊だった - Magnolia Tech
  • Shifting to Zero Touch Production | Mercari Engineering

    Author: Dylan Lau (@aidiruu), Platform DX Team Zero Touch Production (ZTP) is a concept where all changes made to production are done by automation, safe proxies or audited break-glass systems. There are many kinds of production outages that stem from human error, such as: Configuration errors Script errors Running commands in the wrong environment ZTP can mitigate the risk of outages from these e

    Shifting to Zero Touch Production | Mercari Engineering
  • バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

    こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSREの15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

    バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
    mapk0y
    mapk0y 2022/01/12
    解説が丁寧でとても良い
  • システム運用の超えられない壁 - orangeitems’s diary

    今日とても面白い気づきがあった。 システム運用の現場で、毎朝、アラート確認を行っている。どこでもやっていることだと思うが、業務時間外に出力されたアラートを毎朝確認し、対処が必要かどうか判断する。軽微なものまで目を通し、障害予兆を見逃さないのはとても大事な仕事だ。 あるアラートに対して、メンバーが確認をし、システムオーナーであるお客様に情報提供を行った。行ったのだがその文が私は気に入らなかった。「アラートが出ていますので、方法Aや方法Bなど、対応を検討ください」といった文だった。 お客様はシステム運用の専門家ではないので、これじゃ情報は足りない。自分がお客様としてこれを読んだ時に全部わかるのだろうか。わかるためにはもっと付加するべき情報、例えばアラートの意味。なぜこういうアラートが出るにいたったのか。もし放置するとどうなるか。必要な情報をわかりやすく伝える必要がある。 まずは見を見せようと

    システム運用の超えられない壁 - orangeitems’s diary
  • 星出さん搭乗のクルードラゴン運用2号機は何がすごい?注目ポイントを解説

    4月23日に軌道投入に成功したクルードラゴン運用2号機ですが、再使用ロケットの歴史において画期的なできごとでした。 今回用いられたクルードラゴンの人員搭乗カプセル部分は、2020年に打ち上げられた有人試験飛行(Demo-2)フライトで用いられた機体を再整備して使用しました。これまで有人宇宙機で再使用した機体を用いたのはアメリカのスペースシャトルが唯一でしたが、二例目の成功となります。また、民間が開発・運用する宇宙船での再使用は今回が初めてです。 【▲ ケネディー宇宙センターから打ち上げられたクルードラゴン宇宙船(Credit: SpaceX Youtube)】再使用するメリットは、コストの削減にあります。スペースシャトルを除く有人宇宙船と打ち上げロケットは、全て使い捨てです。有人ロケットの中で特に高価なのは宇宙船部分とエンジンですが、再使用できれば圧倒的なローコストを実現可能です。当然なが

    星出さん搭乗のクルードラゴン運用2号機は何がすごい?注目ポイントを解説
  • みずほ、日立に負担要求検討 外貨建て送金のトラブルで - 日本経済新聞

    3月11日夜から12日にかけて起きたシステム障害をめぐり、みずほ銀行がシステムの構築を請け負った日立製作所に負担の要求を検討していることが分かった。日立側の装置に生じた不具合で企業の外貨建て送金が滞った。発生した為替の差分などの損失を現時点ではみずほが負っており、日立側への請求に向けて詰めている。親会社のみずほフィナンシャルグループは5日にも記者会見を開き、一連の障害について説明する予定だ。3

    みずほ、日立に負担要求検討 外貨建て送金のトラブルで - 日本経済新聞
  • クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita

    これは、私が若…くはないけどピカピカのAWS1年生だった、数年前のお話です。 何をやらかしたのか やらかし前の状態 番運用しているWebアプリケーションの裏側に、EC2インスタンス3台でクラスタを組んだ某データストア製品を使用していました。データはクラスタ内でレプリケーションされており、1台がダウンしただけならクラスタは稼働を継続できます。2台がダウンするとクラスタ全体が機能しなくなります。 ある日、3台のうち1台で障害が発生してインスタンスへ疎通できない状態になりました。この時点ではクラスタは正常に応答しており、あと1台ダウンしない限りはサービスに影響が出ない状態でした。 まず、ダウンしてしまったインスタンスを再起動して復旧させようとしました。ところがEC2マネジメントコンソールから再起動、停止を選択しても障害中のインスタンスは反応しません。そして私は間違いを犯します。 やらかしたこと

    クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita
    mapk0y
    mapk0y 2020/12/12
    「思いつきで適当な操作をするな。」本当にそのとおり。心に刻みたい。でも、たまにうまく行っちゃうから厄介
  • 母「まとまった金額を年率7%で運用する話が来たから、占い師に相談した」→返答が占い要素は皆無だが、信用できる要素しかなかった

    a n n i e 🌈 @annie_in_tokyo 母から「まとまった金額を年率7%で運用してあげるって話が来たんだけど、どうかなぁと思って信用してる占い師に聞いてみたのよ!そしたら占い師がネットで調べてくれて『その会社は金融庁?に登録がないからやめた方がいいです』って教えてくれたの!」と電話が来てとりあえず占い師に謝辞を述べたい 2020-08-28 11:00:35 a n n i e 🌈 @annie_in_tokyo 初めてこの勢いでバズったので宣伝でもと思ったけど特に宣伝するものもないので最近買って一番良かったもの貼っておきます…お味噌汁作る時と2歳娘が卵を混ぜるお手伝いの時に重宝してます… room.rakuten.co.jp/annie_in_thero… 2020-08-28 12:00:20

    母「まとまった金額を年率7%で運用する話が来たから、占い師に相談した」→返答が占い要素は皆無だが、信用できる要素しかなかった
  • 書籍「Webエンジニアのための監視システム実装ガイド」発売!

    システム監視の入門書籍を書きました わたしが執筆したWebエンジニアのための監視システム実装ガイドが2020/3/24に発売されますました。 予約受付中です。 物理書籍・Kindle共に販売中です。 PDF版なら検索もできちゃいます。 ※このエントリを書いている時点でまだ表紙がfixしていませんが、黒バックにウミガメ写真になる予定です 運用監視の会社でCTOとして勤続12年の知見を詰め込んだ、システム監視について幅広く取り扱った実践的な入門書です。 読者の方に体系的な知識と価値基準を獲得してもらえるよう努めました。 監視テクノロジの歴史や特徴、監視システムの基動作と動作方式ごとの特徴、時系列データベース、DevOpsやSREなどのWebシステム運用の文化、SLO、SLI、Availability、Observability、自己修復システム、Chaos Engineering、監視方式の