Transformerがうまくいっているのはなぜなのか? 結論:入力に依存し,重要な単語(トークン)を選択し,意味のある情報を取捨選択できるため 本研究は東大の鈴木大慈先生の下で行われている研究であり、数学を用いてTransformerの根幹を理解することを目的としているようです. さて,論文の詳細は以下になります. タイトル:Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input 著者:Shokichi Takakura, Taiji Suzuki 機関:Department of Mathematical Informatics, the University of Tokyo, Center for A