1.はじめに 日本語wikipediaのデータをBigQueryに投入した。 wikiextractorというライブラリと、pandasではなくて polarsを利用した。 2.日本語wikipediaデータを使いたい 「最も「ありそうで存在しない漢字」は何か?」を読んで「ありそうでない熟語」をどう作ればいいかなと実験したくなり、その中で日本語wikipediaデータをBigQueryに投入したくなった。 他の投稿を見るとMySQLデータをcsvにしてから投入するのが楽そう、と思ったけど、python(というかColaboratory)でやるとしたらどうするのかと検討して下記のような方法を思いついた。 3.日本語wikipediaデータを取得する。 いろいろなメタデータもあるみたいだけど、本文と見出しがあればいいので、下記のファイルを指定してダウンロード。 !curl -o jawiki-