INDEX

データサイエンスが学べる
日本屈指のビジネススクール「datamix」

トップデータサイエンス機械学習Transformerとは・基礎知識を初心者向けにわかりやすく解説

Transformerとは・基礎知識を初心者向けにわかりやすく解説

データサイエンス

2023.10.06

INDEX

1．Transformerとは
2．Transformerの仕組み
3．Transformerの特徴
4．Transformerをベースにしたモデル
まとめ

Transformerは自然言語処理の領域を一新した革新的な技術で、現在ではGPT、BERT、PaLMといったさまざまな最先端モデルのベースとなっています。
「Transformerの仕組みや特徴を理解したい」、「Transformerがなぜこれほどまでに注目されているのかを知りたい」という方もいらっしゃるのではないでしょうか。
この記事では、Googleが開発したTeransformerの仕組みや特徴、Transformerをベースにしたモデルなどを紹介します。

1．Transformerとは

Transformerはニューラルネットワーク（人間の脳の仕組みを模倣した機械学習モデル）の一種です。2017年にGoogleが「Attention Is All You Need」という論文ではじめて紹介しました。

Transformerの概要について、以下の内容を解説します。

・ChatGPTのベースとなる技術

・系列変換のためのニューラルネットワーク

参考URL：Attention Is All You Need

（1）ChatGPTのベースとなった技術

Transformerは、ChatGPTやBard、Bingなどの対話型AIのベースとなった技術です。

従来の技術と異なり、「Attention Mechanism」を主体に処理を行うという特徴があります。Attention Mechanismは、シーケンスデータ（テキスト、音声、時間に関連するデータなど）の各要素と他の要素との関連性を計算する仕組みです。例えば、文章内の各単語が他の単語とどれだけ関連しているかを計算し、その情報を利用して文脈を理解します。

Transformerは、Attention Mechanismにより、文中の離れた単語間の関連性を効率的に捉えることが可能であり、その並列計算の能力により大量のデータを高速に処理できます。

（2）系列変換のためのニューラルネットワーク

Transformerは、系列変換タスクのためのニューラルネットワークモデルです。

系列変換とは、ある系列の入力（例：英語の文）を別の系列の出力（例：フランス語の文）に変換するタスクを指します。

ニューラルネットワークモデルとは、人間の脳の神経細胞（ニューロン）の接続を模倣した機械学習モデルの一種です。

機械翻訳は系列変換タスクの一例です。Transformerは英語の文（入力系列）をフランス語の文（出力系列）へと変換する能力を有しています。全体の関連性を捉えながら、各英語の単語がどのフランス語の単語に対応するかを学習することで高い精度を実現しています。

2．Transformerの仕組み

Transformerの仕組みについて、以下の内容を解説します。

・Transformerの基本的な仕組み

・エンコーダの仕組み

・デコーダの仕組み

・Multi-Head Attentionの仕組み

（1）Transformerの基本的な仕組み

Transformerの主要な構成は、エンコーダとデコーダです。

エンコーダは、入力データを解析して、特徴を抽出します。デコーダは、エンコーダから得た情報をもとに、出力データを生成します。

例えば、英語からフランス語への機械翻訳を考えてみましょう。エンコーダは英語の文章を解析しその文章の特徴を抽出します。デコーダはエンコードから得た特徴を活用してフランス語の文章を生成します。

このように、エンコーダとデコーダは連携して、Transformerの機能を実現します。

（2）エンコーダの仕組み

エンコーダは、入力データを解析し、その結果をデコーダに渡します。

このエンコーダは、Self-Attention層と Position-wise Feed-Forward Networks（FFNN）という二つのサブレイヤーから構成されています。

Self-Attention層は、文中の各単語が他の単語とどの程度関連しているかを評価します。

例えば、「猫がマットの上に座った」という文において、「猫」の単語が他の各単語とどの程度関連しているかを判断します。

FFNNはSelf-Attention層から得られた各単語の新たな表現をさらに深化させます。これにより、より複雑な文脈を理解し、精緻な単語表現を生み出します。Self-Attention層とFFNNが連携することにより、エンコーダは単語の文脈を把握し、理解を深化させる重要な役割を果たします。

（3）デコーダの仕組み

デコーダは、エンコーダから得た情報を基に出力データを生成します。

デコーダの構成はエンコーダに似ていますが、Self-Attention層とPosition-wise Feed-Forward Networks（FFNN）の間に、Encoder-Decoder Attention層が存在します。

デコーダの各サブレイヤーは以下のように連携して動作します。

Self-Attention層

デコーダの現在までの各単語が他の単語とどのように関連しているかの理解

Encoder-Decoder Attention層

エンコーダからの入力とデコーダの現在の状態との関連性を評価

デコーダは適切な出力を生成するために、どの入力情報に焦点を当てるべきかを判断

Position-wise Feed-Forward Networks（FFNN）

より複雑な文脈を理解し、精緻な単語表現を生成

これらが連携することにより、デコーダは文全体の意味を深く理解し、洗練された文章を生成します。

（4）Multi-Head Attentionの仕組み

Multi-Head Attentionは、Transformerの中心的な要素で、それぞれの単語が文脈全体でどのように位置づけられるかを深く把握する能力を有しています。

エンコーダやデコーダで使用されるSelf-Attention層とEncoder-Decoder Attention層は、構成自体は全く同じで、違いはどの情報に注目するかという点です。

Self-Attentionは、一つの文中で各単語が他の単語とどのように関連しているかを評価します。各単語が文全体のどの部分と関連しているかを理解します。

Encoder-Decoder Attentionは、エンコーダからの入力文とデコーダの現在の状態（すでに生成された単語のシーケンス）との関連性を評価します。

デコーダはどの入力情報に注目すべきかを判断し、適切な出力を生成します。

このように、Multi-Head Attentionは全体の文意を深く理解することで、繊細な文脈の解析をすることが可能です。

3．Transformerの特徴

Transformerの特徴として以下の3つの点を解説します。

・並列化による計算効率の向上

・優れた翻訳品質

・Self-Attentionによる高い汎用性

（1）並列化による計算効率の向上

Transformerは、計算処理を並列化できるため、計算効率を大幅に向上させることが可能です。

従来のニューラルネットワークであるRNNとは異なり、Transformerは文中の各単語を独立して処理できます。これにより、各単語の処理を並列化し、計算の効率化を実現します。

例えば、”The cat sat on the mat”という文をエンコードする場合を考えてみましょう。

Transformerは、”The”、”cat”、”sat”、”on”、”the”、”mat”という各単語を独立後に並列化して処理します。

このような並列処理の能力は、大規模なデータセットの取り扱いにおいて有用で、従来のRNNに対して計算効率の大幅な向上を実現しています。

（2）優れた翻訳品質

Transformerは、Self-Attention Mechanismを駆使することにより、各単語が文章内の他の単語とどのように関連しているかを学習することが可能で、文章をより深く理解できます。

従来の対話型AIの基盤となっていた技術であるRNNやCNNには、以下のような問題点がありました。

・RNN：単語を順序通りに処理する特性があり、学習速度が遅く、単語間の時間的な依存関係を捉えにくい

・CNN：単語の局所的なパターン抽出が得意ですが、単語間の全体的な関連性を捉えにくい

Transformerは、文中の各単語が他の単語とどの程度関連しているかを直接モデリングでき、単語間の依存関係を効率的に学習できます。また，並列処理が可能で大量のデータを高速に処理できます。そのため、従来のRNNやCNNと比較して、優れた翻訳品質を実現できます。

（3）Self-Attentionによる高い適用性

Self-Attentionの活用により、自然言語処理、画像処理、音声処理などのさまざまなタスクに対応可能な柔軟性を持っています。

Self-Attentionは、文の全体的な文脈を把握し、それぞれの単語の重要性を評価できます。自然言語だけでなく、画像や動画、音声などの非言語的なデータにも適応可能です。

例えば、画像を一連のパッチに分割して扱うことで、各パッチが画像全体のどの部分と関連しているかを認識できます。画像内のオブジェクト間の関係を認識したり、情報を抽出したりなど、さまざまなタスクに適応することが可能です。

Transformerの技術は自然言語処理だけでなく、画像処理や動画処理などの領域でも幅広く活用されています。

4．Transformerをベースにしたモデル

Transformerの技術をベースとして開発された代表的なモデルとして以下の4つを紹介します。

・GPT（Generative Pretrained Transformer）

・BERT（Bidirectional Encoder Representations from Transformers）

・PaLM（Pathways Language Model）

・ViT（Vision Transformer）

（1）GPT（Generative Pretrained Transformer）

GPT（Generative Pre-trained Transformer）は、OpenAIが開発した自然言語生成モデルです。文章の生成、質問応答、文の補完など、幅広いタスクを処理することが可能です。文の前後関係を考慮して単語の表現を学習するため、より自然な文章を生成できるという特徴があります。

2023年7月現在の最新版であるGPT-4は、Microsoftの対話型AI「Bing」やOpenAIの対話型AI「ChatGPT Plus」（有償）に採用されています。なお、GPT-3.5版のChatGPTは無償で利用可能です。

参考URL：Confirmed: the new Bing runs on OpenAI’s GPT-4