タグ

関連タグで絞り込む (385)

タグの絞り込みを解除

データに関するtyosuke2011のブックマーク (302)

  • さくらインターネット

    インターネットにできることは何だろう。 ネット黎明期よりその問いを追いかけ、 1台のサーバーから衛星データへと事業を広げていきました。 インターネットには人と社会を幸せにする力があると信じて、 未来のあるべき姿を思い描きながら、あらゆるアプローチを提供します。

    さくらインターネット
  • データ分析のためのSQLを書けるようになるために

    はじめに 稿では分析用クエリをスラスラ書けるようになるまでの勉強方法や書き方のコツをまとめてみました。具体的には、自分がクエリを書けるようになるまでに利用した教材と、普段クエリを書く際に意識していることを言語化しています。 想定読者として、SQLをガンガン書く予定の新卒のデータアナリスト/データサイエンティストを想定しています。 勉強方法 基礎の基礎をサッと座学で勉強してから、実践教材で実際にクエリを書くのが望ましいです。 実務で使える分析クエリを書けるようになるためには、実務経験を積むのが一番良いですが、だからといって座学を御座なりにして良いというわけではありません。SQLに自信がない人は、一度基礎に立ち返って文法の理解度を確認した方が良いと思います。 書籍 SQL 第2版: ゼロからはじめるデータベース操作 前提として、SQLに関する書籍の多くがデータベース運用/構築に関する書籍がほ

    データ分析のためのSQLを書けるようになるために
  • Misskey チャートエンジン | gihyo.jp

    連載では分散型マイクロブログ用ソフトウェアMisskeyの開発に関する紹介と、関連するWeb技術について解説を行っています。 今回はMisskeyのチャート生成機能のバックエンド実装(チャートエンジン)について解説します。 チャートとは Misskeyのチャート機能は、サーバー上で発生した様々な種類のイベントの推移をグラフやヒートマップ等でグラフィカルに表示できる機能です。 チャートの例。ギザギザしているのは、深夜は人が少なくなるから チャート表示できる情報には、例えば次のものがあります。 アクティブユーザー数の推移 投稿数の推移 連合しているサーバー数の推移 このようなサーバー全体の情報だけではなく、他にも「ユーザーごと」や「連合しているサーバーごと」の情報も集計できます。例えば以下の情報を表示できます。 あるユーザーのフォロワー数の推移 あるユーザーのプロフィールページのPV数の推移

    Misskey チャートエンジン | gihyo.jp
  • 個人的なアプリケーション設計のバイブル3選 - Runner in the High

    自分が格的に設計を意識するようになったのは、2015年の夏に現職であるFringe81株式会社で開催されていたサマーインターンに参加してからだ。 インターンではDDDとクリーン・アーキテクチャ*1を一から勉強してAPIサーバーに実装する、というカリキュラムであったが、いま思うと2週間という比較的長いインターンで僕が学べたことと言えば当に微々たるものだった。つまるところ、それくらいには設計というものは奥が深い。常になんらか特定のデザイン・パターンなりアーキテクチャ・パターンを適用することでアプリケーション開発がうまくいくということはなく、それらの様々な知識から少しづつ応用されたものが最終的なアプリケーションの設計に対して真の洞察を与えてくれるものというのが、僕自身のいまの認識である。 設計はまさに Connecting the dots そのものだ。多くを知れば知るほど、アプリケーション

    個人的なアプリケーション設計のバイブル3選 - Runner in the High
  • NEXCO西日本がUSBメモリ紛失 データは暗号化済……ただしパスワードは本体に貼り付け

    西日高速道路(NEXCO西日)は3月15日、個人情報191人分を保存していた可能性があるUSBメモリを紛失したと発表した。データは暗号化していたものの、メモリ体にパスワードを貼り付けていたという。 保存していた可能性のある情報は、191人分の氏名、住所など。いずれも、道路を損傷させた人に復旧費用の負担を求める「原因者負担金」に関する情報という。 紛失は2月13日に判明。社員が気づき、捜索したが見つからなかったという。個人情報保護委員会への報告は3月11日に済ませた。情報を保存していた可能性がある人には個別に連絡するという。 関連記事 元日限定「JR西日乗り放題きっぷ」発売 新幹線も利用可能 2017年の元日限定で、JR西日と智頭急行の全線が乗り放題になる「元日・JR西日乗り放題きっぷ2017」が登場。 USBメモリ、メモ、ノートPC……紛失事案が目立った10月セキュリティまとめ

    NEXCO西日本がUSBメモリ紛失 データは暗号化済……ただしパスワードは本体に貼り付け
  • 機械学習用データセット一覧(フリー素材)

    表示:著作権者の表示義務有り 営利目的(非営利):利用は非営利に限る 改変(改変禁止):一切の編集を禁じる 継承:頒布をする場合は、元のライセンスを受け継ぐ必要あり 人の行動のデータセット Google DeepMind Youtubeから収集した人間の行動に関するデータセット https://deepmind.com 利用条件:表示 人の行動のデータセット University of Central Florida サーフィン、メイク、髭剃り、などの認識用のデータセット http://crcv.ucf.edu/ 利用条件:特記無し。ページ中央部に連絡先が載っています。 動きのデータセット MIT-IBM Watson AI Lab モーションに関するデータセット。 人間以外にも、犬、パンダ、流れる水、アニメーションも含まれて居ます。 http://moments.csail.mit.ed

  • v1.1 チューニング済みモデル・データ公開

    目次 はじめに LLM-jp-13B とは インストラクションチューニング データセット 入力プロンプト 比較実験の設定 ハイパーパラメータ 学習 評価 DPO データセット 入力プロンプト ハイパーパラメータ 学習 評価 おわりに はじめに 京都大学 言語メディア研究室の児玉(個人ページ,X アカウント)です. LLM-jp では 2023年10月20日に LLM-jp-13B v1.0 を公開しました. 当時事前学習済みモデルとチューニング済みモデルの両方を公開しましたが,チューニング済みモデルについては時間上の制約もあり,十分に性能を高めることができていませんでした. 今回はインストラクションチューニングの設定の見直しや DPO (Direct Preference Optimization) の追加によって,性能を改善したチューニング済みモデル v1.1 とその際に使用したデータと

  • 基礎から学ぶ統計学

    章では、二項検定を学びます。二項検定は、書で学ぶ統計手法の中では、最も使用頻度が低い手法です。しかし、統計学の入門に最適な学習項目です。理由が3つあります。第一に、高校1~2年で学んだ数学だけで、この手法の原理を完全に理解できます。統計手法はたくさんありますが、唯一この手法だけは、全て手作りの計算で実行できます。第二に、面倒な検定統計量の計算を必要としません。第三に、二項検定には、検定の論理の全てが詰まっています。こうした理由から、読者のお父さんやお母さん、もしくは、お爺ちゃんやお婆ちゃんの世代では、二項検定は、高校の数学の教科書で解説されていました。この「とても分かりやすい」という長所を、活用しない手はありません。書では、統計学の学習を、二項検定から始めます。章では、当時の大学入試の頻出問題をさらに簡単にした例題を使って、学びます。… 書の使い方 統計学を学ぶ心がけ/予備知識/

    基礎から学ぶ統計学
  • すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ⁠⁠、全銀システム通信障害の詳細を説明 全国銀行資金決済ネットワーク(以下、全銀ネット)とNTTデータは12月1日、2023年10月10日~11日にかけて全国銀行データ通信システム(以下、全銀システム)で発生した通信障害に関する報道関係者向けの説明会を開催しました。件についてはNTTデータが11月6日に行った途中経過報告の内容をもとにレポートしましたが、今回、全銀ネットとNTTデータが揃って会見を行ったことで、より詳細な障害の原因が判明したので、あらためてその内容を検証してみたいと思います。 説明会の登壇者。左から、全銀ネット 企画部長 千葉雄一氏、事務局長兼業務部長 小林健一氏、理事長 辻松雄氏、NTTデータ 代表取締役社長佐々木 裕氏、取締役副社長執行役員 鈴木正範氏 なお、全銀ネットとNTTデータは、今回の障害に関して金融

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp
  • TVAL now(ティーバルナウ) - テレビ番組リアルタイム視聴率

    放送中のテレビ番組視聴率がリアルタイムで分かる。国内最大級のテレビデータを持つスイッチメディア運営。「今」みんなが視てる番組をTVAL nowでチェック。

  • 「未来に来ちゃったか悪夢でも見てんのかと」声優・阿澄佳奈さん、現場で紙の台本を見ているのが自分一人と気づき驚愕

    阿澄佳奈 @0812asumikana 声優です。舞台にも立ちます。 2016/8/12よりツイッター始めました。 お知らせ多めですし気まぐれにお休みしますが、どうぞ気まぐれに見に来てやってください。 ヘッダーの画像は #P3WM です。 ⭐︎不定期雑談スペース→ #あすみすすぺーすす ⭐︎随時近況報告ください→ #あすみさんに近況報告 阿澄佳奈 @0812asumikana データで台をもらっていた現場で、私以外の全員が紙じゃなくタブレットで台を見ているのに気づいてしまい驚愕しました…ページめくりのノイズが出るのは私だけ…私のめくりを待っていただく時間が発生する…ヒッ😨タブレット買います絶対買う、未来に来ちゃったか悪夢でもみてんのかと思ったヒェー 2023-12-01 20:40:59 阿澄佳奈 @0812asumikana アニメなど製がある現場もありますが、ゲームやドラマ

    「未来に来ちゃったか悪夢でも見てんのかと」声優・阿澄佳奈さん、現場で紙の台本を見ているのが自分一人と気づき驚愕
  • 全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表

    全国銀行資金決済ネットワーク(全銀ネット)とNTTデータは12月1日、10月10日〜11日に発生した全銀システムの大規模障害の真の原因を明らかにした。 全銀システムは、日常の振込や送金をリアルタイムで処理するシステムで、国内のほぼすべての預金取扱金融機関が利用している。10月のシステム障害では三菱UFJ銀行、りそな銀行など10行で、他行宛の振り込みができないなどの障害が丸2日間継続した。 障害は、全銀システムの中継コンピューターを新機種「RC23シリーズ」へ交換し、その後営業運用を開始した直後に発生した。RC23シリーズ内の「銀行間手数料を処理するためのインデックステーブル」が破損しており、同テーブルを参照する際の処理でエラーが生じたためだ。 中継コンピューターは東京と大阪に1台ずつ、冗長化として設置されていたが、2台同時に新機種のRC23シリーズに切り替えたため、2台ともにソフトウェア障

    全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表
  • プログラミングの原則:構造化テキストを文字列結合で作らない、置換でいじらない - Uzabase for Engineers

    こんにちは、ソーシャル経済メディア「NewsPicks」のむとうです。 先日から『Ghost of Tsushima』の開発者が書いた『ルールズ・オブ・プログラミング』というをちょっとずつ読み進めていて、プログラミング熱が高まっています。このは大きな指針を示すだけで具体の話をするものではないのですが、読み物として面白いので私も似たようなことをやってみたくなりました。 何年もこういう仕事をしているとバグが入るパターンというのが見えてきます。そしてだいたいどこに行っても何の仕事でも似たようなことをすることになるのですが、今回の話もその一つです。 構造化テキストを文字列結合で作らない、置換でいじらないというのはこれだけみると何のことか分かりづらいかも知れませんがSaaS Product Team セキュアコーディングの啓蒙 第2回 (SQL インジェクション編)の内容とある面では同じ話です。

    プログラミングの原則:構造化テキストを文字列結合で作らない、置換でいじらない - Uzabase for Engineers
  • Python初学者のためのPandas100本ノック - Qiita

    Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 2023/2/12: 大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 ノック https://qiita.com/kunishou/items/1386d14a136f585e504e はじめに この度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

    Python初学者のためのPandas100本ノック - Qiita
  • 文春オンラインの記事分析を支える爆速ダッシュボードを作るまで|Shota Tajima

    従来のGoogleアナリティクスである、ユニバーサル アナリティクス(以下UA)のサポートがいよいよ2023年7月に終了することが、先日アナウンスされました(※)。昨年対比やトレンドをチェックすることを考えると、2022年内できるだけ早めに次世代のGoogleアナリティクス(以下GA4)へ移行したいWebメディア運営者も多いかと思います。新しいツールの勉強や、既存システムの改修が必要な問題ではありますが、この機会を、データ収集・可視化の設計を見直し、日々の意思決定の共通言語としてデータを使いやすくするチャンスと捉えてみてはいかがでしょうか。 ※  Google、ユニバーサルアナリティクスのサポートを2023年7月1日に終了。早めのGA4移行を推奨 このnoteでは、前半でダッシュボードによるデータの可視化にコストをかけるべき理由を整理します。後半では、2021年秋に文春オンラインのダッシュ

    文春オンラインの記事分析を支える爆速ダッシュボードを作るまで|Shota Tajima
  • バグは“数千パターンのテスト”をすり抜けた ―NTTデータ「2023/10/10 全銀ネット障害」について説明 | gihyo.jp

    バグは“数千パターンのテスト”をすり抜けた ―NTTデータ「2023/10/10 全銀ネット障害」について説明 NTTデータグループは2023年11月6日、10月10日に発生した全国銀行データ通信システムの障害に関する記者説明会を実施、現時点で判明している障害の概要について説明を行うとともに、再発防止策に向けたタスクフォースの設立などについて明らかにしました。会見の冒頭、NTTデータグループ 代表取締役社長 間洋氏は、今回の障害により全国の預金者や金融機関をはじめとする社会全体に大きな混乱をもたらしたことを謝罪し、今後の原因究明と再発防止に向け、全国銀行試験決済ネットワーク(以下、全銀ネット)とともに全力をかけて取り組むことを明言していました。 記事では会見の内容をもとに、現時点で判明している10月10日の事故の原因についてレポートします。 2023年10月10日 ―なにが起こったのか

    バグは“数千パターンのテスト”をすり抜けた ―NTTデータ「2023/10/10 全銀ネット障害」について説明 | gihyo.jp
  • 【極上パワポの宝庫】経産省の委託調査報告書には、なぜ日本で一番きれいなパワポが集まるのか|パワポ研

    みなさんこんにちは。 資料デザインのリサーチや分析に取り組むパワーポイントのスペシャリスト、パワポ研です。 いつも企業が出しているパワーポイントの分析結果などを紹介しているのですが、日は良いパワーポイントが見れる場所とその理由を紹介します。 どこで見れるのかずばり、経産省のHPです。以下のURLより「委託調査報告書」を確認ください。ご存じの方も多いかもしれませんね。 トップはこんなページになっています。 トップ的なページこの中で、例えば「令和4年度分の掲載一覧(PDF形式:48KB)」を押してみましょう。 令和4年度分の掲載一覧こんな感じのリストがずらっと並べます。エクセルでも同じようなものがダウンロードできます。正直見づらいですが、このリンクの一つ一つが調査報告書になっています。 何ですごいのか数と質です。 数のすごさ 数については、パワーポイント形式以外(ワード)の報告書もかなり混じ

    【極上パワポの宝庫】経産省の委託調査報告書には、なぜ日本で一番きれいなパワポが集まるのか|パワポ研
  • 2023年版「データサイエンティストスキルチェックリスト」が無料公開 生成AIの利活用スキルなどを追加

    データサイエンティスト協会は10月30日、「データサイエンティストスキルチェックリスト」の第5版を公開した。データサイエンティストに必要とされるスキルをまとめたもので、新たに生成AIに関する項目を加えた。同協会のWebサイトで無料でダウンロードできる。 2021年に公開した第4版から内容を改修したもので、生成AIの台頭を受けて「AI利活用スキル」を新たに追加した。同協会は「生成AIは利用・開発・企画といった活用するためのスキルが当然必要となる一方で、その技術的背景を理解しつつ、生じる課題に対応するスキルが求められる」と説明。利活用スキルと背景理解・対応スキルの2種類に分けた全69項目を定義した。 例えば、利活用スキルの初歩には「LLM(大規模言語モデル)を利用して、データ分析やサービス、システム開発のためのコードを作成、修正、改良できる」などの項目、背景理解・対応スキルの初歩には「さまざま

    2023年版「データサイエンティストスキルチェックリスト」が無料公開 生成AIの利活用スキルなどを追加
  • 「年収300万円の男性の63%が子どもを持たずに生涯を終える」交際への興味、性経験がない人の衝撃データ 未婚率の上昇は"若者の恋愛離れ"が原因ではない

    少子化の原因として未婚化、ひいては若者の恋愛離れが問題視されがちだ。当にそうなのか。東京財団政策研究所主任研究員の坂元晴香さんは「交際相手がなく異性との交際に興味がないと答えた男性の内訳を見ると、年収300万未満で75%を占めており、年収800万円以上は0.1%しかいない。実際、年収300万円の男性が生涯子どもを持たない割合は62.8%。少子化の原因が若者の価値観の変化ではないことは明らかだ」という――。 少子化の原因は「若者の価値観の変化」ではない 2022年に我が国で生まれた日人の子どもの数(出生数)は77万747人で、統計を開始した1899年以降最も少ない数となり、初めて80万人台を下回った。政府も「異次元の少子化対策」を打ち出すなど、止まらない少子化をいかにくいとめるかが喫緊の課題となっているが、残念ながら現在のところ出生数が回復基調に戻る兆しはない。 そもそも、少子化対策を実

    「年収300万円の男性の63%が子どもを持たずに生涯を終える」交際への興味、性経験がない人の衝撃データ 未婚率の上昇は"若者の恋愛離れ"が原因ではない
  • つくよみちゃん会話AI育成計画(会話テキストデータセット配布) | つくよみちゃん公式サイト

    概要これは何?■マルチクリエイター・夢前黎(Rei Yumesaki)がプロデュースするフリー素材キャラクター「つくよみちゃん」の公式テキスト素材です。 ■つくよみちゃんに対する「話しかけ」と、つくよみちゃんらしい「お返事」のセットを大量に作成し、「会話テキストデータセット」として配布することを目指しています。 ■会話AIを作成するための機械学習用データとして作っていますが、その他の用途にもご利用いただけます。詳しくは利用規約をご確認ください。 ■個人・法人、営利・非営利を問わずご利用いただけます。例えばデータから作成した会話AIを配布・販売することも可能です。ただし、クレジット表記が必要となる場合があります。詳しくは利用規約をご確認ください。 ■品質は無保証です。このデータから会話AIが作れるという保証はありません。 著作者情報・作成方法■データの著作権は、夢前黎(Rei Yumes

    つくよみちゃん会話AI育成計画(会話テキストデータセット配布) | つくよみちゃん公式サイト