GPT-2
テンプレート:Infobox software Generative Pre-trained Transformer 2(GPT-2) は、2019年2月にOpenAIによって開発されたオープンソースの人工知能ソフトウェアである[1][2][3][4]。GPT-2は、テキストを翻訳し、質問に答え、文章の要約を行い[5]、時には人間と見分けがつかないようなテキスト出力を生成するが[6]、長い文章を生成すると繰り返したり意味不明な表現になることもある[7]。GPT-2は、多目的学習器であり、特定のタスク(仕事)を行うための特別な訓練を受けてはおらず、これらのタスクを行う能力は、任意の順序で次の項目を正確に合成する一般的な能力の延長線上にある[8][5]。GPT-2は、OpenAIの2018年版GPTモデルの「スケールアップ版」として構築され[9]、パラメータ数と訓練用データセットがともに10倍に増加した[4]。
GPTアーキテクチャは、ディープラーニング(深層学習)によるニューラルネットワーク、具体的には「トランスフォーマー(Transformer)モデル」を実装しており[9]、これまでの回帰型や畳み込み型のアーキテクチャの代わりに「アテンション」を使用している[10][11]。アテンション機構により、モデルは、入力テキストの中から最も関連性が高いと予測される部位に選択的に焦点を当てることができる[12][13]。このモデルでは、並列化を大幅に向上させることができ、RNN/CNN/LSTMに基づくモデルのこれまでのベンチマークよりも優れた性能を発揮している[9]。
OpenAIは、2019年11月、GPT-2言語モデルの完全版(15億個のパラメータを含む)を公開した[14]。GPT-2に続いて、1,750億個のパラメータを含むGPT-3[15]が、2020年に公開される予定だった[16](そのソースコードは公開されていない)。GPT-3へのアクセスは、OpenAIとマイクロソフトが提供するアプリケーションプログラミングインタフェース(API)を通じてのみ提供されている[17]。
背景
テンプレート:Ill2から人工知能は研究対象であった。1950年にアラン・チューリングが提唱した「イミテーション・ゲーム(imitation game)」(しばしばチューリング・テストと呼ばれる)は、電子システムや機械的システムの知的行動をとる能力を、評価者がシステムと人間の行動を区別する能力によって判定することを提案するものである[18]。「機械学習(machine learning)」という用語は、早くも1959年に、IBMの研究者であるアーサー・サミュエルによって、人工知能の可能性を説明する言葉として最初に使われた[19]。現在、この用語には、統計的学習、データサイエンス、ニューラルネットワークなど、計算問題に対するさまざまな手法(しばしば人工知能の下に置かれる)が包含されている。
計算言語学
コンピュータによる自然言語処理(NLP)は、もともと計算言語学の一分野として考えられていたもので、コンピュータのハードウェアに能力が備わると同時に試みられるようになった。1948年、ロンドンのバークベック・カレッジで開発された辞書ルックアップテーブルが最初の応用例である[20]。1954年のテンプレート:Ill2では、60文のロシア語の文章を英語に翻訳するという(主にロシア語の単語を英語の同義語に置き換える)完全に自動化された機械翻訳が実演された[21][22]。そのシステムには6つの文法規則と250語の語彙しかなく[23]、統語構造の解析や翻訳も行われなかったため、翻訳は粗雑なものが多かった[24]。しかし、この実験によって、コンピュータが自然言語を解釈し処理できることが一般に証明され[25]、さらなる研究のためにCIAの資金が確保された[21]。直接置換は、機械翻訳プログラムを評価する際の基準として残存している。
20世紀半ばには、人間とコンピュータの対話(HCI)に自然言語を利用するシステムも登場し始めた。1968年から1970年にかけてMITで開発された「SHRDLU」は、いくつかの物体がある仮想空間で、ユーザーが自然言語による命令を使って対話を行うプログラムである(たとえば「今持っているものより高いブロックを探して、箱の中に入れる」)[26][27]。1966年に開発されたおしゃべりロボットの「ELIZA」は、人間の対話者が入力したテキストからキーワードを解析し、会話に適する返答をした[28]。多くの被験者が、ELIZAの会話と人間の会話を区別できないと主張したが、これが知性を構成するかどうかという問題については議論となった(もっとも有名な台本は、心理療法士がユーザーの言ったことをほぼそのまま繰り返すというパロディであった)[29]。
機械翻訳の初期の試みは純粋に計算によるものだったが、1950年代になると、計算言語学の主流がノーム・チョムスキーの普遍文法という概念が重視されるようになった[20]。当時のNLP研究は、任意の自然言語の文を、言語に依存しない論理構造に還元する試みが中心であった。1970年代には、意味論的なNLPシステムは、構文的なエンコーディング(syntactic encodings)を避け、より一般意味論的なエンコーディング(semantic encodings)を支持するようになった[30]。しかし、ニューラルネットワークが登場するまでは、ほとんどのシステムが、手作業でプログラムされた大規模な(そしてますます扱いにくくなった)ルールセットに依存し続け、当初の狙いどおりに拡張することはできなかった[20]。
人工知能の分野は20世紀後半も発展を続けたが、ときおり「AIの冬」と呼ばれる停滞期が訪れた。さまざまな文献で、「AIの冬」はさまざまな時期に発生したと述べられている。1994年にHoweは、1973年に始まって10年続いたと著し[31]、2003年のRussell & Norvigは、1988年にすぐ始まったと述べている[32]。
ニューラルネットワーク
人工知能の初期の概念であるコネクショニズムは、生物学的な脳におけるニューロン(神経細胞)の挙動をシミュレートするように設計された人工ニューラルネットワークによって知的行動を引き起こそうとするものであった。人工ニューラルネットワークの最初の例は、1951年に構築された「テンプレート:Ill2」である。「パーセプトロン」(二値分類器の一種)は、1957年に心理学者のフランク・ローゼンブラットによって発表された[33]。彼の機械は、400個のフォトセル(光電池)を「ニューロン」に接続して画像認識するように設計され、加重値はポテンショメータで決定されていた(訓練過程で電気モーターで調整[34])。パーセプトロンは大きな話題となり、ニューヨーク・タイムズ紙の記事で『(海軍が)期待する電子コンピュータの萠芽は、歩き、話し、見て、書き、自己複製し、自分の存在を意識できるようになるだろう』と紹介された[35]。しかし、マービン・ミンスキーとシーモア・パパートによる1969年の書籍「テンプレート:Ill2」において[36]、当時の最先端技術(単層パーセプトロン)の欠点として、排他的論理和(XOR)関数を符号化できないことなどが指摘されて以来、パーセプトロンシステムは数十年間も衰退したままであった。この本は当時、有望な研究分野としてのパーセプトロン(および一般的なニューラルネットワーク)を否定するものと考えられていた[35]。
ニューラルネットワークは、「訓練(training)」および「学習(learning)」という過程を経て、さまざまな入力を分類することができるようになる(すなわち個別のカテゴリに区分する)。学習は、まずネットワークの重み(各ニューロンの「活性化」が後続層の特定ニューロンの活性化に影響を与える量)をランダム(無作為)に初期化する。この状態では、ネットワークの出力も同様にランダムとなる。そして、ネットワークの出力がどれだけ望ましいできばえに近いかを定量的に測定する損失関数などの目的関数を定義する(たとえば、手書きの数字からなる入力が、その数字に対応する出力ニューロンのみを活性化させる頻度)[37]。この関数とネットワークのできばえから、重みを調整して性能を改善することができる[38]。
バックプロパゲーションは、1974年のテンプレート:Ill2の学位論文で初めて機械学習システムに適用した教師ありアルゴリズムであり[39]、所与の入出力例に対するネットワーク全体の重みの最適調整を記述するベクトル場である「勾配」の計算を効率化した[38][37]。この勾配を使用してニューラルネットワークを訓練する勾配降下法によって、より複雑なシステムを構築することが可能となり、1980年代にはニューラルネットワークの自然言語処理への応用が広まることになった[40][32]。1985年にはD.B. Parkerがワーボスの手法を再発見し[41]、1986年にはラメルハート、ヒントン、ウイリアムスが「深層学習(ディープラーニング)」ネットワークと呼ばれる隠れ層を持つニューラルネットワークで、入力データの内部表現を生成するためにこの手法を応用し[42]、この研究はその後の回帰型ニューラルネットワークの基礎を築いた。
従来の順伝播型ニューラルネットワーク(FFNN)は、各層が前の層からの出力を取り入れ、次の層に送り出すことからその名が付けられた。FFNNの構造には、情報が逆流するような「巡回(cycles)」は存在しない。これに対して、回帰型ニューラルネットワーク(RNN)は、活性化の流れの巡回を少なくとも一つ持っている[37]。RNNネットワークでは、ある項目そのものと、以前の項目を処理したときの出力の両方を使用して一連の項目を処理できるため、順序付いた項目を処理する(および将来の順序項目を予測する)ためによく使用された[37]。
1979年に福島邦彦が哺乳動物の視覚野における神経構造モデルに基づいて提唱したネオコグニトロン[43]は、画像処理で広く使われる畳み込みニューラルネットワーク(CNN)の基礎を築いた[44]。CNNは、大きな入力層に対して小さな層を「重ねて滑らせる」ことで、より少ない計算量でより深い処理を行うことができる。たとえば、100×100の画像には10,000個の画素があり、全結合層で処理するには10,000個の重みが必要だが、画像上をスライドする5×5の「窓」からなる畳み込み層では、わずか25個の学習可能なパラメータでエッジ検出を行うことが可能である。畳み込み層は「プーリング層」によって結合され、「全結合層」(一般的に多層パーセプトロン)によって処理される。
自然言語処理のための機械学習
回帰型ニューラルネットワーク(RNN)は、系列的な情報を処理することができるため、多くの自然言語処理(NLP)アプリケーションで利用されている。RNNは、FFNNとは異なり、同じ項目に対して、順序項目の周囲の状況に応じて異なる重みを符号化する(そして異なる出力を与える)ことができる。ということは、一度に一個の単語を解析するRNNシステムでも、「黒い犬(black dog)」は毛むくじゃらの脚、「アメリカンドッグ(corn dog)」はケチャップ、「幻日(sun dog)」は屈折のように、同じ「dog」から異なる連想ができる。さらに、RNNでは、以前の順序項目の情報を再帰的に呼び出すことができるため、ずっと以前に遡って任意の項目を思い出すようにシステムを設計することができる。たとえば、「トムは黒い犬を見た」「トムはアメリカンドッグを見た」「トムは幻日を見た」という順序項目を、それぞれ「優しく」「飢えて」「間接的に」と続けることができるようになる[45][11]。
しかし、多層型のFFNNとRNNは優れた解を出せる一方で、どちらも勾配消失問題に対して脆弱であることが判明した。勾配は有限精度の数値として符号化され、モデルの全ての層にわたって逆伝播する必要があるため、多数の層を重ねるとゼロに「消滅」、または無限大に「発散」する可能性がある。1995年-1997年にかけて、Sepp HochreiterとJürgen Schmidhuberが初めて提案した長・短期記憶ネットワーク(LSTM)は、「入力」「出力」「忘却」ゲートを持つ複数の個別の「セル」からなる新しいアーキテクチャを導入することによって、この問題を解決しようとした[46][47][48]。2009年に、Alex Gravesチームが提出したLSTMに基づくモデルが、手書き文字認識のICDARコンペティションで優勝し[49]、もう一つのモデルは最も正確なモデル、3番目のモデルは最も高速なモデルであった[50]。
RNNやLSTMが抱えるもう一つの問題は、以前の順序項目の文脈しか考慮できないことである[45][51]。このため、「トムはバイクに乗って店に行き、キックスタンドを下ろしてエンジンを切った」のように、「バイク(自転車)」が「モーターバイク(オートバイ)」であるという必要な文脈が最後でしか明らかにならない文章を解析するときに問題を引き起こすことがある。このような問題を解決する一つが双方向LSTM(bidirectional LSTM)であり、双方向に同時に進行することで、「過去」と「未来」の両方の入力特徴にアクセスすることを可能にする[45]。条件付き確率場(CRF)は、タグを使って入力と出力を直接結びつける[45]。 上記のアプローチの組み合わせた、LSTM-CRFネットワークやBI-LSTM-CRFネットワークもある[45]。その他に、RNNモデルの改良として、テンプレート:Ill2、適応計算時間(adaptive computation time)、ニューラルプログラマー(neural programmers)、アテンション機構などがあり、最後のものはGPT-2や関連技術の基礎をなしている[11]。
選択的集中
2010年代初頭まで、ニューラル機械翻訳で最高の性能を発揮したのは、RNNやLSTMによる「エンコーダネットワーク」が原文をベクトルに符号化し、そのベクトルを同様のアーキテクチャの「デコーダネットワーク」が処理して翻訳出力を得るという「エンコーダ・デコーダ」モデルであった[12]。2014年に、非常に複雑な「アテンション」機構が導入され、これらのモデルの性能は大幅に向上した。アテンション機構は、デコーダネットワークに、テキスト全体を単一ベクトルとして解析するのではなく、原文の特定の側面に適応的に「アテンション(注意)」を集中させる能力を与えた[12][13]。
その後、2017年には、さらに一歩進んでアテンション機構を使用して、RNN/LSTMアーキテクチャを完全に置き換えた「トランスフォーマー(Transformer)」モデルが導入された[10][11]。
アテンション機構
テンプレート:Main エンコーダ・デコーダモデルの制約の一つに、より大きな文章を符号化して固定長のベクトルに圧縮することの難しさがあり、入力が大きくなるにつれて性能が低下することがよく見られた。2014年、Bahdanauらは[12]、「整列と翻訳を共同で行う」ことができるエンコーダ・デコーダモデルの拡張を発表した[13]。Bahdanauモデルのエンコーダ(各方向に1000個の隠れユニットを持つ双方向RNN)は、翻訳された原文の各単語に対して、その文の残り全てを検索して関連する情報の位置を探した。従来のように入力文全体を固定長でベクトル化してデコーダに入力するのではなく、それらの位置と以前に生成したターゲット語を関連付けた「文脈ベクトル」を生成した[12]。そして、デコーダ(これも1000個の隠れユニットを持つ)は、この文脈ベクトルを使用して、どこに「注意」を向けるかを決定した[12][13][11]。
「アテンション」機構の探究は、Luongらによる2015年の論文で継続された[13]。Bahdanau論文に基づく「グローバル」アプローチと、原語の部分集合のみを一度に「考慮」する「ローカル」アプローチが試みられ、ローカルアプローチは、アーキテクチャ的にはより複雑だが、計算量が少なく、訓練が容易であった[13]。1秒間に1,000個のターゲット語を翻訳できるように特別に設計された英語-ドイツ語翻訳モデルを完全に訓練するのに7-10日を要した。その精度は、2014年のACL Workshop on Machine Translation(WMT'14)における英語-ドイツ語文ペアのタスクに対するテストで、23.0 BLEUという結果を達成した。これは、以前の試みで達成した最高結果であるBuck et al. 2014によるフレーズベースの言語モデルよりも2.1 BLEU優れていた[52][13]。
Transformers
テンプレート:Main アテンション機構は、既存の畳み込み型ニューラルネットワークや回帰型ニューラルネットワークのアーキテクチャを改善するために使うことで性能向上に効果的であったが、すぐに、何も基礎を置かずにアテンション機構単独でも高性能なモデルを構築できることがわかった[10]。
2017年6月、テンプレート:Ill2、Google Research、およびトロント大学の研究者が発表した論文で、Transformerアーキテクチャが初めて紹介された[10]。Transformerは、畳み込みや回帰を完全に捨て去り、アテンション機構のみに基づいたモデルの一種である。従来のRNNに基づくモデルと異なり、Transformerは、系列的に入力される各項目について順番に計算することなく処理できるため、大規模な並列化が可能であることを意味した[10]。WMT'14フランス語-英語タスクでは、Transformerアーキテクチャを使用して特別に訓練したフランス語-英語翻訳モデルが、41.8 BLEUという新しい単一モデルのベンチマークを達成することができた[10]。Transformerは、導入以来、多くの自然言語処理(NLP)アプリケーションで使用されている[53]。
Generative Pre-trained Transformer

| アーキテクチャ | パラメータ数 | 訓練用データ | |
|---|---|---|---|
| GPT-1 | 12層、12ヘッドのTransformerデコーダ(エンコーダなし)、次いで線形softmax | 1.2億 | BookCorpus: 4.5 GBのテキスト、さまざまなジャンルの未発表小説7000冊分[54] |
| GPT-2 | GPT-1 変種 | 15億[55] | WebTextコーパス (40 GB) |
| GPT-3 | GPT-2, ただしスケーリングが大きく変更された | 1750億 | 570 GBの平文、4,000億のトークン。主にCommonCrawl、WebText、英語版Wikipedia、2つの書籍コーパス(Books1、Books2) |
2018年6月11日、OpenAIは「Improving Language Understanding by Generative Pre-Training」(生成的事前学習による言語理解の向上)と題する論文を発表し、その中で「Generative Pre-trained Transformer(GPT)」と呼ぶNLPモデルを紹介した[9]。この当時、最高性能を発揮するニューラルNLPモデルでは、主に手作業でラベル付けされた大量のデータを用いて、教師あり学習を採用していた。こうした教師あり学習への依存によって、ラベル付けが十分でないデータセットでの利用は制限を受け、さらに非常に大規模なモデルを訓練するには非常に高価かつ時間もかかっていた[9][56]。スワヒリ語やハイチ・クレオール語などの多くの言語は、コーパス構築のためのテキストが不足しているため、このようなモデルを用いて翻訳や通訳することは困難であった[56]。これに対して、GPTの「半教師付き」アプローチは、言語モデリングの目的に基づいて初期パラメータを設定する教師なし生成的「事前学習」段階と、これらのパラメータを標的タスクに適応させる教師あり識別的「微調整」段階の2段階に分けて行われた[9]。
アテンション強化RNNを含む従来の技術とは異なり、Transformerアーキテクチャを用いたGPTには、より構造化された記憶が備わり、それによって「多様なタスクに対応できる頑健な転移性能」が実現された[9]。
転移時には、トラバース形式の手法から派生したタスク固有の入力適応を利用し、構造化テキストの入力を単一の連続したトークン列として処理する。[9]
コーパス
教師なし事前学習は、さまざまなジャンルに属する7,000冊以上の未発表小説のデータセット「BooksCorpus」を用いて行われた[57]。このデータセットが選ばれた理由の一つは、長距離の情報を処理するためのモデルの条件として、連続した長い文章が求められたことにある。利用可能な他のデータセットは、規模は大きくても、このような長範囲的な構造がない(文レベルで「入れ替え」られている)ことを理由に却下された[9]。BooksCorpusのテキストをクリーニング(句読点や空白の標準化)するためにftfyライブラリが、トークン化ではspaCyが使われた[9]。
アーキテクチャ
GPTのアーキテクチャ自体は、12層のデコーダのみのTransformerで、それぞれ64次元の状態を持つ12個のマスク付き自己アテンション・ヘッド(合計768個)を使用した。単純な確率的勾配降下法ではなく、Adam最適化アルゴリズムが使用された。学習率は、最初の2,000回の更新では、0から最大2.5×10−4まで線形に増加し、コサインスケジュールによって0までアニリーングされた[9]。
512個の連続したトークンからなるランダムにサンプリングした64個のミニバッチの訓練を100エポック行う。レイヤーノルムはモデル全体で広く用われているため、N(0,0.02)の単純な重みの初期化で十分であった。40,000個のバイト対符号化(BPE)語彙のマージと、正則化には残差、埋め込み、アテンションのドロップアウトを比率0.1で行った。また、Loshchilov et al. 2017で提案されたL2正則化の修正版を採用し、すべての非バイアスウェイトやゲインウェイトはw=0.01とした。
(中略)
原著で提案された正弦波バージョンの代わりに学習された位置埋め込みを使用した。
(中略)
特に指定がない限り、教師なし事前学習でのハイパーパラメータ設定を再利用する。分類器にはドロップアウトを比率0.1で追加する。ほとんどのタスクでは、学習速度6.25e-5、バッチサイズ32を使用する。このモデルは高速に微調整され、ほとんどの場合は3エポックの訓練で十分であった。学習率は線形減衰スケジュールを用い、ウォームアップは訓練の0.2%以上とした。λは0.5とした[9]。
GPTは、微調整の段階で特定のタスクに適応させたが、事前学習の段階はそうしなかった。さまざまなタスクを実行するために、タスクに依存しない基礎となるモデルアーキテクチャに最小限の変更が加えられた[9]。それにもかかわらず、GPTはいくつかの言語処理タスクにおいて過去のベンチマークを上回り、多くの多様なタスクにおいて、タスク指向のアーキテクチャを持つ識別的に訓練されたモデルより優れていた[9]。
性能
自然言語推論(テンプレート:Ill2(textual entailment)とも呼ばれる)タスクでは、モデルの評価は、さまざまなデータセットに含まれる文の対を解釈し、それらの関係を「含意」「矛盾」「中立」に分類する能力に基づいて行われる[9]。たとえば、QNLI(Wikipediaの記事)やMultiNLI(速記、大衆小説、政府報告など)といった情報源に対して[58]、GPTは従来の最高値からそれぞれ5.8%、1.5%優れていた[9]。同様に、質問応答やテンプレート:Ill2に関連する2つのタスクでも、RACE(中学校と高校の筆記試験の問題と解答の組からなるデータセット)で5.7%[59]、テンプレート:Ill2で8.9%、従来のモデルをそれぞれ上回った[60]。
もう一つの意味的類似性(または言い換え検出)のタスクでは、2つの文が互いに言い換えであるかどうかをモデルが予測できるかどうかを評価するもので、Quora Question Pairs(QQP)データセットで、GPTは従来の最高性能モデルよりも4.2%向上した[9]。また、Corpus of Linguistic Acceptability(CoLA)を用いたテキスト分類タスクでは、従来の最高スコア35.0に対してGPTはスコア45.4を達成した。最後に、マルチタスクテストのGLUEで[61]、GPTは総合スコア72.8(従来は68.9)を達成した[9]。
GPT-2
GPT-2はGPTのスケールアップ版として作成され、パラメータ数とデータセットサイズをいずれも10倍にしている[8][9][4]。双方とも教師なしのTransformerモデルで、一連のトークンの並びから次の単語を予測してテキストを生成するように訓練された。GPT-2モデルは15億のパラメータを持ち、800万のウェブページのデータセットで訓練が行われた[8]。GPT-2は、テキストサンプル中の一連の単語を解釈し、最も可能性の高い次の単語を予測するという非常に単純な基準で強化され、追加される単語を予測し続けることで完全な文や段落を生成し、自然言語で完全に理解できる(そして意味論的に意味を持つ)文を生成する[8]。特に、GPT-2は、テンプレート:Ill2でのタスクに対する性能で評価された。
データセット
GPT-2は新規に開発された WebText コーパスをデータセットとして利用している。
WebTextコーパス
WebText コーパスは約800万のウェブページから抽出された高品質自然言語テキストコーパスである[62]。
GPT-2はゼロショット推論可能な基盤モデルを意図して開発された。個別タスクを明示的に学習せずゼロショットで推論するには、学習用テキスト内に様々なタスクの具体例が(タスクラベル無しで)含まれている必要があると考えられる[63]。一方で質の低いテキストはモデルの精度を落とすため[64]、コモン・クロールのような無作為収集されたコーパスは利用できない[65]。これらの問題を解決するためにGPT-2論文で開発されたコーパスが WebText コーパスである。
WebText は人間によるキュレーションを品質向上に利用している[66]。まずRedditで3回以上賛成票を受けたリンク先ウェブページを一定品質のテキストとみなし[67]、重複文章の除去・Wikipedia記事の削除[68]・ヒューリスティックによるクリーニングを経て、最終的に約800万のウェブページから抽出された約40GBの自然言語テキストをWebTextとしている[69]。
モデル
GPT-2のモデルアーキテクチャはGPT-1のマイナーチェンジ版である。アーキテクチャ上の変更点は以下の通り:
アーキテクチャはほぼ同一であるが、GPT-2はGPT-1より大きなモデルとなっている。モデル上の変更点は以下の通り:
訓練
モデルと同じく学習もスケールされており、バッチサイズは512に変更されている[75]。
GPT-2の訓練費用は1時間あたり256ドルであることが知られているが[76][77]、訓練に要した総時間は不明なため、訓練費用の総額を正確に見積もることはできない[78]。しかし、Transformerアーキテクチャを用いた同等の大規模言語モデルでの費用はより詳細に記述されており、BERTとXLNetの訓練過程では、それぞれ6,912ドルと245,000ドルの資源を消費した[77]。
性能
GPT-2は、そのデータセットとアプローチの広さによって、単純なテキスト生成にとどまらない幅広いタスクに対応できるようになった。質問に答えたり、長文を要約したり、さまざまなテンプレート:Ill2で言語間の翻訳をしたり、一連の単語の次の予測方法以上のことは何も指示されずに実行できる[79][80]。
一般化学習の一例は、フランス語-英語間の機械翻訳をするGPT-2の能力であり、そのために、WMT-14の翻訳タスクを使用してGPT-2の性能が評価された。GPT-2の訓練用コーパスには、フランス語のテキストはほとんど含まれていなかった。訓練前にデータセットのクリーニングで英語以外のテキストを意図的に削除したため、得られた40,000 MBのうちモデルが訓練に使用できたフランス語は10 MBにすぎなかった(ほとんどは英語の投稿や記事に含まれた外国語の引用)[8]。それでもGPT-2は、WMT-14の英語-フランス語間テストセットで5 BLEUを達成した(単語単位での置換による翻訳をわずかに下回るスコア)。また、フランス語から英語へのテストセットでGPT-2は、当時(2017年)の教師なし機械翻訳ベースラインを上回って、11.5 BLEUを達成した。これは、33.5 BLEUを達成した当時(2019年)最も高性能な教師なし手法を下回るものだった[8]。しかし、他のモデルは、この結果を達成するために大量のフランス語テキストを使用しており、一方のGPT-2は、同等の手法の約1/500のサイズの単一言語フランス語コーパスを使用したと推定された[8]。
公開
GPT-2は、2019年2月14日に初めて発表された。2019年2月のThe Vergeに掲載されたJames Vincentによる記事では、『(このプログラムが)作り出す文章は、通常、人間ではないと容易に判別できる』ものの、言語生成プログラムの『これまでで、もっともわくわくする例の一つ』であることに変わりはないと述べている[79]。
偽の見出しを付けると、あとは偽の引用や統計を交えた残りを書いてくれる。短編小説の最初の行を入力すると、登場人物に次に何が起こるか教えてくれる。適切なプロンプト(命令)を入力すれば、ファン・フィクションだって書ける[79]。
ガーディアン紙はこの出力を『もっともらしい新聞の散文』と表現し[7]、VoxのKelsey Piperは『私がこれまで見た中で最もクールなAIシステムの一つは、私を失業に追い込むものかもしれない』と述べている[80]。GPT-2の柔軟性は、The Vergeによれば『印象的』と評され、具体的には、言語間でのテキスト翻訳、長文の記事の要約、雑学的な質問へ回答などの能力が注目された[79]。
修正チューリングテストを用いたアムステルダム大学の研究では、少なくともいくつかのシナリオで、参加者はGPT-2が生成した詩と人間が書いた詩を見分けられないことが分かった[81]。
制限と部分公開

これまでOpenAIのモデルはすぐに一般公開されていたが、2019年2月の発表では、悪用される危険性があるとして[7]、GPT-2のソースコードの公開を当初拒否していた[7]。発表時には、一部の報道関係者にのみ、モデルへの制限付きアクセス(ソースコード自体ではなく、入力でき、出力を提供するインターフェース)が許可された。よく言われるのは、生成されたテキストは通常まったく新しいものなので、テンプレート:Ill2が自動フィルターを回避するために悪用する可能性があるという正当化の理由である。OpenAIは、GPT-2を微調整して『肯定的または否定的な製品レビューを永遠に生成する』バージョンを実演した[7]。もう一つの問題は、GPT-2を使用すると、わいせつあるいは人種差別的なテキストが生成される可能性があることである。ジェレミー・ハワードなどの研究者は、『この技術は、Twitterや電子メール、そしてウェブを、合理的な響きを持って文脈に沿った散文で完全に埋め尽し、他のすべての発言をかき消すようなものであり、フィルタリングは不可能になる』と警告した[79]。テンプレート:Ill2は、GPT-2に呼応して「ニューラルフェイクニュース」を検出するツールを発表した[82]。
しかし、意見は分かれた。2019年2月のThe Vergeの記事は、GPT-2がもたらす脅威は誇張されていると論じ[83]、カリフォルニア工科大学の教授でNvidiaの機械学習研究ディレクターであるAnima Anandkumarは、OpenAIが言うような脅威をもたらす能力がGPT-2にあるという証拠はなく、彼らがしたことは『オープンとは正反対』だと述べ、完全モデルの公開を拒否したことを「悪意のあるテンプレート:Ill2」とみなした[83]。The Gradient紙は、OpenAIに対してモデルの公開を促す公開書簡を発表し、テキスト生成AIがもたらす脅威を印刷機のそれと比較し、『混乱をもたらす可能性があったにものの、(幸いにも)現代社会を破壊しなかった技術』としてPhotoshopを例に挙げた[84]。
30年後、Photoshopは高校生が使えるほど簡単で、動詞として広く使われているにもかかわらず、社会は比較的無事ですんでいる。なぜか?それは、誰もがPhotoshopを知っているからこそである[84]。
774M公開
OpenAIは、完全な学習済みモデルや、訓練用コーパスを公開しなかったが、過去の出版物におけるその手法の説明(および基礎となる技術の無償での入手性)により、GPT-2は自由ソフトウェアとして他者が複製することが可能であった。そのような複製の一つ、OpenGPT-2は、OpenWebTextと呼ばれる自由ライセンス版のWebTextと組み合わせて2019年8月に公開された。OpenGPT-2のクラウドコンピューティング費用は約50,000ドルと提示された[85]。
2019年8月20日、OpenAIは、7億7,400万のパラメータ(15億パラメータの完全モデルの約半分の規模)を持つGPT-2の縮小版を公開した[2]。
完全版1.5B公開
しかし、GPT-2が広範な悪用につながるのではないかという当初の懸念は、現実のものとならなかった。The Vergeは、『AI技術がある種の「情報世紀末(infopocalypse)」をもたらすという主張には懐疑的な理由がある。まず第一に、わずかなコストでもっともらしい文章を大量に生成できるプログラム、すなわち人間が既に存在している。』 と述べている[86]。2019年11月までに、OpenAIは『これまでのところ悪用された強い証拠は見られない』と述べ、2019年11月5日に15億のパラメータを持つ完全版を公開した[3][14]。
限界

GPT-2の自然言語テキストの生成能力は、おおむね高く評価されているが、特に段落数が2段を超える長いテキストを生成する場合には、その欠点も指摘されている。Voxは『散文はかなり大まかで、ときおり非合理的なこともあり、記事が長くなればなるほど一貫性が失われる』と述べている[80]。The Vergeも同様に、GPT-2の文章は長いサンプルになると『話題がそれる』傾向があり、首尾一貫性に欠けると指摘した[79]。テンプレート:Ill2は、『それを読んだ人間は、しばらくすると、何かが起きていることに気づくはずだ』と評し、『GPT-2は、情報を抽出し取りだすためにアルゴリズムに依存する他のシステムと同様、質問には答えていない』と述べている[76]。
GPT-2を導入するには多くの資源が必要で、完全版モデルの大きさは5ギガバイトを超えるため、アプリケーションにローカルに組み込むことが難しく、また大量のメモリー(RAM)を消費する。また、1回の予測を行うと『CPUを100%の使用率で数分間占有することがある』ほか、GPU処理でも『1回の予測に数秒かかることがある』[6]。これらの問題を軽減するために、Hugging Faceは、知識蒸留を使用して、『いくつかの品質ベンチマークで数ポイント低い』ものの、『33%小さく、2倍速い』という小型モデルを作成するDistilGPT2を開発した[6]。
実装とその後の研究
ジャーナリストによって報じられたGPT-2の応用として、ニュース記事などの文章を人間が書くことを補助するなどが挙げられている[7]。GPT-2は、製品版の公開以前から、さまざまなアプリケーションやサービス、それにエンターテインメントに利用されていた。2019年6月にはRedditサイト内に、r/SubSimulatorGPT2というコミュニティ(サブレディット)が作られ、さまざまなサブレディットで訓練したGPT-2の実例(インスタンス)が投稿し、互いのコメントに返信することで『r/Bitcoinが擬人化したAIと、r/ShittyFoodPornの機械学習に由来する霊が議論する』状況が作られた[86]。同年7月までに、GPT-2に基づいて、さまざまなプログラミング言語のコード行を自動補完するソフトウェアが公開され、ユーザーから「ゲームチェンジャー(トレンドを変えるできごと)」と評された[87]。
2019年には、GPT-2を利用し、ユーザーの入力に基づいて動的なテキストアドベンチャーを提供するテンプレート:Ill2が発表された[88]。2021年現在、AI Dungeonは、オプションの有料アップグレードとしてGPT-3の最大リリースAPIへのアクセスを提供し、無料版ではGPT-3の2番目に大きなリリースを使用した[89]。AI Dungeonを中心に設立されたLatitudeは、2021年にテンプレート:Ill2330万ドルを調達した[90]。いくつかのウェブサイトでは、GPT-2やその他のTransformerモデルのさまざまなインスタンスの対話的なデモンストレーションを公開している[91][92][93]。
2021年2月、問題を抱えたティーンエージャー向けの危機管理センターが、カウンセラーが十代の模擬患者と会話をしてトレーニングするために、GPT-2由来のチャットボットの使用を始めると発表した(この使用は純粋に内部目的であり、GPT-2はティーンエージャー自身と交信しなかった)[94]。
脚注
- ↑ 引用エラー: 無効な
<ref>タグです。「voxxy2」という名前の注釈に対するテキストが指定されていません - ↑ 2.0 2.1 引用エラー: 無効な
<ref>タグです。「vb」という名前の注釈に対するテキストが指定されていません - ↑ 3.0 3.1 引用エラー: 無効な
<ref>タグです。「verge2」という名前の注釈に対するテキストが指定されていません - ↑ 4.0 4.1 4.2 引用エラー: 無効な
<ref>タグです。「openai」という名前の注釈に対するテキストが指定されていません - ↑ 5.0 5.1 引用エラー: 無効な
<ref>タグです。「badpaper」という名前の注釈に対するテキストが指定されていません - ↑ 6.0 6.1 6.2 引用エラー: 無効な
<ref>タグです。「tds2」という名前の注釈に対するテキストが指定されていません - ↑ 7.0 7.1 7.2 7.3 7.4 7.5 引用エラー: 無効な
<ref>タグです。「guardian」という名前の注釈に対するテキストが指定されていません - ↑ 8.0 8.1 8.2 8.3 8.4 8.5 8.6 引用エラー: 無効な
<ref>タグです。「gpt2paper」という名前の注釈に対するテキストが指定されていません - ↑ 9.00 9.01 9.02 9.03 9.04 9.05 9.06 9.07 9.08 9.09 9.10 9.11 9.12 9.13 9.14 9.15 9.16 9.17 9.18 引用エラー: 無効な
<ref>タグです。「gpt1paper」という名前の注釈に対するテキストが指定されていません - ↑ 10.0 10.1 10.2 10.3 10.4 10.5 引用エラー: 無効な
<ref>タグです。「attention」という名前の注釈に対するテキストが指定されていません - ↑ 11.0 11.1 11.2 11.3 11.4 引用エラー: 無効な
<ref>タグです。「attentionRNNs」という名前の注釈に対するテキストが指定されていません - ↑ 12.0 12.1 12.2 12.3 12.4 12.5 引用エラー: 無効な
<ref>タグです。「jointly」という名前の注釈に対するテキストが指定されていません - ↑ 13.0 13.1 13.2 13.3 13.4 13.5 13.6 引用エラー: 無効な
<ref>タグです。「effective」という名前の注釈に対するテキストが指定されていません - ↑ 14.0 14.1 引用エラー: 無効な
<ref>タグです。「15Brelease」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「gpt3paper」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「Arram_20200709」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「GPT3microsoft」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「turing」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「Samuel」という名前の注釈に対するテキストが指定されていません - ↑ 20.0 20.1 20.2 引用エラー: 無効な
<ref>タグです。「bham」という名前の注釈に対するテキストが指定されていません - ↑ 21.0 21.1 引用エラー: 無効な
<ref>タグです。「Nye」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「Babel」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「hutchins」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「symposium」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「chronology」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「winograd」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「stanford」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「eliza」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「rogers」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「bham2」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「howe」という名前の注釈に対するテキストが指定されていません - ↑ 32.0 32.1 引用エラー: 無効な
<ref>タグです。「russell」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「rosenblatt」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「bishop」という名前の注釈に対するテキストが指定されていません - ↑ 35.0 35.1 引用エラー: 無効な
<ref>タグです。「Olazaran」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「perceptrons」という名前の注釈に対するテキストが指定されていません - ↑ 37.0 37.1 37.2 37.3 引用エラー: 無効な
<ref>タグです。「dictionary」という名前の注釈に対するテキストが指定されていません - ↑ 38.0 38.1 引用エラー: 無効な
<ref>タグです。「backprop」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「werbos1974」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「Crevier」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「parker」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「RHW」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「kunihiko」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「lecundl」という名前の注釈に対するテキストが指定されていません - ↑ 45.0 45.1 45.2 45.3 45.4 引用エラー: 無効な
<ref>タグです。「rnnnlp」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「q989」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「q776」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「lstm1997」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「icdar20091」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「icdar20092」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「under-lstms」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「buck」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「wolf2020」という名前の注釈に対するテキストが指定されていません - ↑ テンプレート:Cite journal
- ↑ 55.0 55.1 "Our largest model, GPT-2, is a 1.5B parameter Transformer" Radford. (2019)
- ↑ 56.0 56.1 引用エラー: 無効な
<ref>タグです。「tsvetkov」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「bookscorpus」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「multinli」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「race」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「cloze」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「glue」という名前の注釈に対するテキストが指定されていません - ↑ "a new dataset of millions of webpages called WebText ... which emphasizes document quality." Radford. (2019). Language Models are Unsupervised Multitask Learners.
- ↑ "Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible." Radford. (2019)
- ↑ 引用エラー: 無効な
<ref>タグです。「commoncrawl」という名前の注釈に対するテキストが指定されていません - ↑ "Common Crawl ... they have significant data quality issues ... We observed similar data issues in our initial experiments with Common Crawl." Radford. (2019)
- ↑ "emphasizes document quality. To do this we only scraped web pages which have been curated/filtered by humans." Radford. (2019)
- ↑ "we scraped all outbound links from Reddit, a social media platform, which received at least 3 karma." Radford. (2019)
- ↑ 他の多くのデータセットに含まれているので、過剰適合の原因となる可能性があった
- ↑ "a preliminary version of WebText ... which ... contains slightly over 8 million documents for a total of 40 GB of text." Radford. (2019)
- ↑ "Layer normalization ... was moved to the input of each sub-block" Radford. (2019)
- ↑ "an additional layer normalization was added after the final self-attention block." Radford. (2019)
- ↑ "A modified initialization which accounts for the accumulation on the residual path with model depth ... scale the weights of residual layers at initialization by a factor of 1/√N where N is the number of residual layers." Radford. (2019)
- ↑ "The vocabulary is expanded to 50,257." Radford. (2019)
- ↑ "We also increase the context size from 512 to 1024 tokens" Radford. (2019)
- ↑ "a larger batchsize of 512 is used." Radford. (2019)
- ↑ 76.0 76.1 引用エラー: 無効な
<ref>タグです。「register」という名前の注釈に対するテキストが指定されていません - ↑ 77.0 77.1 引用エラー: 無効な
<ref>タグです。「staggering」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「vb2」という名前の注釈に対するテキストが指定されていません - ↑ 79.0 79.1 79.2 79.3 79.4 79.5 引用エラー: 無効な
<ref>タグです。「verge1」という名前の注釈に対するテキストが指定されていません - ↑ 80.0 80.1 80.2 引用エラー: 無効な
<ref>タグです。「voxxy」という名前の注釈に対するテキストが指定されていません - ↑ テンプレート:Cite journal
- ↑ 引用エラー: 無効な
<ref>タグです。「neuralfakesnooze」という名前の注釈に対するテキストが指定されていません - ↑ 83.0 83.1 引用エラー: 無効な
<ref>タグです。「ethics」という名前の注釈に対するテキストが指定されていません - ↑ 84.0 84.1 引用エラー: 無効な
<ref>タグです。「pls」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「opengpt2」という名前の注釈に対するテキストが指定されていません - ↑ 86.0 86.1 引用エラー: 無効な
<ref>タグです。「reddit」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「smartcompose」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「aid2」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「aidungeon」という名前の注釈に対するテキストが指定されていません - ↑ 引用エラー: 無効な
<ref>タグです。「tclat」という名前の注釈に対するテキストが指定されていません - ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ 引用エラー: 無効な
<ref>タグです。「teens」という名前の注釈に対するテキストが指定されていません