機械学習エンジニアの吉田です。 この記事はLayerXテックアドカレ14日目の記事です。前回は @shnjtk による ストーリーポイントではなくアウトカムで開発速度を測る でした。次回は osuke さんが担当します。 今回はバクラクの帳票画像を使ってDALL-EのdVAE (discrete Variational AutoEncoder) を学習させた話をご紹介します。 背景 前回 バクラクのデータセットを用いたLayoutLMv3による事前学習 という記事を書きました。 tech.layerx.co.jp この記事にあるように、 LayoutLMv3*1のMasked Image Modeling (MIM)の事前学習では画像トークナイザーとして学習済みのDALL-EのdVAEを使っていました。 しかし、オリジナルのLayoutLMv3では文書画像で事前学習されたDiT*2の画像ト