GPT-2のソースを表示
←
GPT-2
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{Infobox software | name = Generative Pre-trained Transformer 2 (GPT-2) | logo = | screenshot = File:GPT2-talks-about-GPT2.png | screenshot size = | caption = GPT-2がプロンプトを補完する様子を示す[[Hugging Face]]のWrite With Transformerのウェブサイト。[[Wikipedia]]のこの記事から得たテキストをプロンプトとして用いた。最初のプロンプトに続くハイライトされたテキストはすべて最初の補完候補から[[生成的人工知能|機械的に生成]]されたもので、それ以外の編集はない。 | author = [[:en:OpenAI|OpenAI]] | developer = | released = {{Start date and age|14 February 2019}} | latest release version = | latest release date = | repo = https://github.com/openai/gpt-2 | programming language = | operating system = | 前身 = {{仮リンク|GPT-1|en|GPT-1}} | 後継 = [[GPT-3]] | genre = [[Transformer (機械学習モデル)|Transformer]] [[言語モデル]] | license = | website = {{url|https://openai.com/blog/gpt-2-1-5b-release/}} }} '''Generative Pre-trained Transformer 2'''('''GPT-2''') は、2019年2月に[[OpenAI]]によって開発された[[オープンソース]]の[[人工知能]]ソフトウェアである<ref name="voxxy2" /><ref name="vb" /><ref name="verge2" /><ref name="openai" />。GPT-2は、テキストを[[機械翻訳|翻訳]]し、[[質問応答システム|質問に答え]]、文章の[[自動要約|要約]]を行い<ref name="badpaper" />、時には[[チューリング・テスト|人間と見分けがつかない]]ような[[自然言語生成|テキスト出力を生成]]するが<ref name="tds2" />、長い文章を生成すると繰り返したり意味不明な表現になることもある<ref name="guardian" />。GPT-2は、[[汎用人工知能|多目的学習器]]であり、特定のタスク(仕事)を行うための特別な訓練を受けてはおらず、これらのタスクを行う能力は、任意の順序で次の項目を正確に合成する一般的な能力の延長線上にある<ref name="gpt2paper" /><ref name="badpaper" />。GPT-2は、OpenAIの2018年版[[Generative pre-trained transformer|GPT]]モデルの「スケールアップ版」<!-- direct scale-up -->として構築され<ref name="gpt1paper" />、パラメータ数と訓練用データセットがともに10倍に増加した<ref name="openai" />。 GPTアーキテクチャは、[[ディープラーニング#多層ニューラルネットワークの実現(2006 - 2012年)|ディープラーニング(深層学習)]]による[[ニューラルネットワーク]]、具体的には「トランスフォーマー([[Transformer (機械学習モデル)|Transformer]])モデル」を実装しており<ref name="gpt1paper" />、これまでの[[回帰型ニューラルネットワーク|回帰]]型や[[畳み込みニューラルネットワーク|畳み込み]]型のアーキテクチャの代わりに「[[アテンション (機械学習)|アテンション]]」を使用している<ref name="attention" /><ref name="attentionRNNs" />。アテンション機構により、モデルは、入力テキストの中から最も関連性が高いと予測される部位に選択的に焦点を当てることができる<ref name="jointly" /><ref name="effective" />。このモデルでは、[[並列計算|並列化]]を大幅に向上させることができ、RNN/CNN/LSTMに基づくモデルのこれまでの[[ベンチマーク]]よりも優れた性能を発揮している<ref name="gpt1paper" />。 OpenAIは、2019年11月、GPT-2言語モデルの完全版(15億個のパラメータを含む)を公開した<ref name="15Brelease" />。GPT-2に続いて、1,750億個のパラメータを含む[[GPT-3]]<ref name="gpt3paper" />が、2020年に公開される予定だった<ref name="Arram_20200709" />(そのソースコードは公開されていない)。GPT-3へのアクセスは、OpenAIと[[マイクロソフト]]が提供する[[アプリケーションプログラミングインタフェース]](API)を通じてのみ提供されている<ref name="GPT3microsoft" />。 __目次__ == 背景 == {{Ill2|コンピューティングの歴史|en|History of computing|label=コンピュータの黎明期}}から人工知能は研究対象であった。1950年に[[アラン・チューリング]]が提唱した「[[チューリング・テスト|イミテーション・ゲーム]](imitation game)」(しばしばチューリング・テストと呼ばれる)は、電子システムや機械的システムの知的行動をとる能力を、評価者がシステムと人間の行動を区別する能力によって判定することを提案するものである<ref name="turing" />。「[[機械学習]](machine learning)」という用語は、早くも1959年に、[[IBM]]の研究者である[[アーサー・サミュエル]]によって、人工知能の可能性を説明する言葉として最初に使われた<ref name="Samuel" />。現在、この用語には、[[統計的学習]]、[[データサイエンス]]、[[ニューラルネットワーク]]など、計算問題に対するさまざまな手法(しばしば人工知能の下に置かれる)が包含されている。 === 計算言語学 === コンピュータによる[[自然言語処理]](NLP)は、もともと[[計算言語学]]の一分野として考えられていたもので、コンピュータのハードウェアに能力が備わると同時に試みられるようになった。1948年、ロンドンの[[バークベック・カレッジ]]で開発された辞書[[ルックアップテーブル]]が最初の応用例である<ref name="bham" />。1954年の{{Ill2|ジョージタウンIBM実験|en|Georgetown–IBM experiment|label=ジョージタウン大学での実験}}では、60文のロシア語の文章を英語に翻訳するという(主にロシア語の単語を英語の同義語に置き換える)完全に自動化された[[機械翻訳]]が実演された<ref name="Nye" /><ref name="Babel" />。そのシステムには6つの文法規則と250語の語彙しかなく<ref name="hutchins" />、[[統語論|統語構造]]の解析や翻訳も行われなかったため、翻訳は粗雑なものが多かった<ref name="symposium" />。しかし、この実験によって、コンピュータが自然言語を解釈し処理できることが一般に証明され<ref name="chronology" />、さらなる研究のために[[アメリカ中央情報局|CIA]]の資金が確保された<ref name="Nye" />。直接置換<!-- direct substitution -->は、機械翻訳プログラムを評価する際の基準として残存している。 20世紀半ばには、[[ヒューマンコンピュータインタラクション|人間とコンピュータの対話]](HCI)に自然言語を利用するシステムも登場し始めた。1968年から1970年にかけてMITで開発された「[[SHRDLU]]」は、いくつかの物体がある仮想空間で、ユーザーが自然言語による命令を使って対話を行うプログラムである(たとえば「今持っているものより高いブロックを探して、箱の中に入れる」)<ref name="winograd" /><ref name="stanford" />。1966年に開発された[[おしゃべりボット|おしゃべりロボット]]の「[[ELIZA]]」は、人間の対話者が入力したテキストからキーワードを解析し、会話に適する返答をした<ref name="eliza" />。多くの被験者が、ELIZAの会話と人間の会話を区別できないと主張したが、これが知性を構成するかどうかという問題については議論となった(もっとも有名な台本は、[[心理療法士]]がユーザーの言ったことをほぼそのまま繰り返すというパロディであった)<ref name="rogers" />。 機械翻訳の初期の試みは純粋に計算によるものだったが、1950年代になると、[[計算言語学]]の主流が[[ノーム・チョムスキー]]の[[普遍文法]]という概念が重視されるようになった<ref name="bham" />。当時のNLP研究は、任意の自然言語の文を、言語に依存しない論理構造に還元する試みが中心であった。1970年代には、意味論的なNLPシステムは、構文的な[[符号|エンコーディング]](''syntactic'' encodings)を避け、より[[一般意味論]]的なエンコーディング(''semantic'' encodings)を支持するようになった<ref name="bham2" />。しかし、[[ニューラルネットワーク]]が登場するまでは、ほとんどのシステムが、手作業でプログラムされた大規模な(そしてますます扱いにくくなった)[[プロダクションシステム|ルールセット]]に依存し続け、当初の狙いどおりに拡張することはできなかった<ref name="bham" />。 人工知能の分野は20世紀後半も発展を続けたが、ときおり「[[AIの冬]]」と呼ばれる停滞期が訪れた。さまざまな文献で<sub>、</sub>「AIの冬」はさまざまな時期に発生したと述べられている。1994年にHoweは、1973年に始まって10年続いたと著し<ref name="howe" />、2003年のRussell & Norvigは、1988年にすぐ始まったと述べている<ref name="russell" />。 === ニューラルネットワーク === 人工知能の初期の概念である[[コネクショニズム]]は、生物学的な脳における[[ニューロン|ニューロン(神経細胞)]]の挙動をシミュレートするように設計された[[人工ニューラルネットワーク]]によって知的行動を引き起こそうとするものであった。人工ニューラルネットワークの最初の例は、1951年に構築された「{{Ill2|Stochastic neural analog reinforcement calculator|en|Stochastic neural analog reinforcement calculator|label=SNARC}}」である。「[[パーセプトロン]]」([[二値分類|二値分類器]]の一種)は、1957年に心理学者の[[フランク・ローゼンブラット]]によって発表された<ref name="rosenblatt" />。彼の機械は、400個の[[フォトセル|フォトセル(光電池)]]を「ニューロン」に接続して[[画像認識]]するように設計され、加重値は[[ポテンショメータ]]で決定されていた(訓練過程で電気モーターで調整<ref name="bishop" />)。パーセプトロンは大きな話題となり、[[ニューヨーク・タイムズ]]紙の記事で『(海軍が)期待する電子コンピュータの萠芽は、歩き、話し、見て、書き、自己複製し、自分の存在を意識できるようになるだろう』と紹介された<ref name="Olazaran" />。しかし、[[マービン・ミンスキー]]と[[シーモア・パパート]]による1969年の書籍「''{{Ill2|パーセプトロン (書籍)|en|Perceptrons (book)|label=パーセプトロン:計算機科学への道}}''」において<ref name="perceptrons" />、当時の[[最先端|最先端技術]](単層パーセプトロン)の欠点として、[[排他的論理和]](XOR)関数を[[符号|符号化]]できないことなどが指摘されて以来、パーセプトロンシステムは数十年間も衰退したままであった。この本は当時、有望な研究分野としてのパーセプトロン(および一般的なニューラルネットワーク)を否定するものと考えられていた<ref name="Olazaran" />。 ニューラルネットワークは、「訓練(training)」および「学習(learning)」という過程を経て、さまざまな入力を[[統計的分類|分類]]することができるようになる(すなわち個別のカテゴリに区分する)。学習は、まずネットワークの重み(各ニューロンの「活性化」が後続層の特定ニューロンの活性化に影響を与える量)を[[ランダム]](無作為)に初期化する。この状態では、ネットワークの出力も同様にランダムとなる。そして、ネットワークの出力がどれだけ望ましいできばえに近いかを定量的に測定する[[損失関数]]などの目的関数を定義する(たとえば、手書きの数字からなる入力が、その数字に対応する出力ニューロンのみを活性化させる頻度)<ref name="dictionary" />。この関数とネットワークのできばえから、重みを調整して性能を改善することができる<ref name="backprop" />。 [[バックプロパゲーション]]は、1974年の{{Ill2|ポール・ワーボス|en|Paul Werbos}}の学位論文で初めて機械学習システムに適用した[[教師あり学習|教師あり]]アルゴリズムであり<ref name="werbos1974" />、所与の入出力例に対するネットワーク全体の重みの最適調整を記述する[[ベクトル場]]である「勾配」の計算を効率化した<ref name="backprop" /><ref name="dictionary" />。この勾配を使用してニューラルネットワークを訓練する[[勾配降下法]]によって、より複雑なシステムを構築することが可能となり、1980年代にはニューラルネットワークの[[自然言語処理]]への応用が広まることになった<ref name="Crevier" /><ref name="russell" />。1985年にはD.B. Parkerがワーボスの手法を再発見し<ref name="parker" />、1986年には[[ラメルハート]]、[[ヒントン]]、[[:en:Ronald_J._Williams|ウイリアムス]]が「深層学習([[ディープラーニング]])」ネットワークと呼ばれる隠れ層を持つニューラルネットワークで、入力データの内部表現を生成するためにこの手法を応用し<ref name="RHW" />、この研究はその後の[[回帰型ニューラルネットワーク]]の基礎を築いた。 従来の[[順伝播型ニューラルネットワーク]](FFNN)は、各層が前の層からの出力を取り入れ、次の層に送り出すことからその名が付けられた。FFNNの構造には、情報が逆流するような「[[巡回グラフ|巡回]](cycles)」は存在しない。これに対して、[[回帰型ニューラルネットワーク]](RNN)は、活性化の流れの巡回を少なくとも一つ持っている<ref name="dictionary" />。RNNネットワークでは、ある項目そのものと、以前の項目を処理したときの出力の両方を使用して一連の項目を処理できるため、順序付いた項目を処理する(および将来の順序項目を予測する)ためによく使用された<ref name="dictionary" />。 1979年に[[福島邦彦]]が哺乳動物の[[視覚野]]における神経構造モデルに基づいて提唱した[[ネオコグニトロン]]<ref name="kunihiko" />は、画像処理で広く使われる[[畳み込みニューラルネットワーク]](CNN)の基礎を築いた<ref name="lecundl" />。CNNは、大きな入力層に対して小さな層を「重ねて滑らせる」ことで、より少ない計算量でより深い処理を行うことができる。たとえば、100×100の画像には10,000個の画素があり、全結合層で処理するには10,000個の重みが必要だが、画像上をスライドする5×5の「窓」からなる畳み込み層では、わずか25個の学習可能なパラメータで[[エッジ検出]]を行うことが可能である。畳み込み層は「プーリング層」によって結合され、「全結合層」(一般的に[[多層パーセプトロン]])によって処理される。 === 自然言語処理のための機械学習 === 回帰型ニューラルネットワーク(RNN)は、系列的な情報を処理することができるため、多くの自然言語処理(NLP)アプリケーションで利用されている。RNNは、FFNNとは異なり、同じ項目に対して、順序項目の周囲の状況に応じて異なる重みを符号化する(そして異なる出力を与える)ことができる。ということは、一度に一個の単語を解析するRNNシステムでも、「[[ラブラドール・レトリバー|黒い犬]](black dog)」は毛むくじゃらの脚、「[[アメリカンドッグ]](corn dog)」はケチャップ、「[[幻日]](sun dog)」は屈折のように、同じ「dog」から異なる連想ができる。さらに、RNNでは、以前の順序項目の情報を[[再帰|再帰的]]に呼び出すことができるため、ずっと以前に遡って任意の項目を思い出すようにシステムを設計することができる。たとえば、「トムは黒い犬を見た」「トムはアメリカンドッグを見た」「トムは幻日を見た」という順序項目を、それぞれ「優しく」「飢えて」「間接的に」と続けることができるようになる<ref name="rnnnlp" /><ref name="attentionRNNs" />。 しかし、多層型のFFNNとRNNは優れた解を出せる一方で、どちらも[[勾配消失問題]]に対して脆弱であることが判明した。勾配は[[浮動小数点数|有限精度の数値]]として符号化され、モデルの全ての層にわたって[[バックプロパゲーション|逆伝播]]する必要があるため、多数の層を重ねるとゼロに「消滅」、または無限大に「発散」する可能性がある。1995年-1997年にかけて、[[:en:Sepp Hochreiter|Sepp Hochreiter]]と[[:en:Jürgen Schmidhuber|Jürgen Schmidhuber]]が初めて提案した[[長・短期記憶|長・短期記憶ネットワーク]](LSTM)は、「入力」「出力」「忘却」ゲートを持つ複数の個別の「セル」からなる新しいアーキテクチャを導入することによって、この問題を解決しようとした<ref name="q989" /><ref name="q776" /><ref name="lstm1997" />。2009年に、[[:en:Alex Graves (computer scientist)|Alex Graves]]チームが提出したLSTMに基づくモデルが、[[手書き文字認識]]の[[:en:ICDAR|ICDAR]]コンペティションで優勝し<ref name="icdar20091" />、もう一つのモデルは最も正確なモデル、3番目のモデルは最も高速なモデルであった<ref name="icdar20092" />。 RNNやLSTMが抱えるもう一つの問題は、以前の順序項目の文脈しか考慮できないことである<ref name="rnnnlp" /><ref name="under-lstms" />。このため、「トムはバイクに乗って店に行き、キックスタンドを下ろしてエンジンを切った」のように、「バイク([[自転車]])」が「モーターバイク([[オートバイ]])」であるという必要な文脈が最後でしか明らかにならない文章を解析するときに問題を引き起こすことがある。このような問題を解決する一つが双方向LSTM(bidirectional LSTM)であり、双方向に同時に進行することで、「過去」と「未来」の両方の入力特徴にアクセスすることを可能にする<ref name="rnnnlp" />。[[条件付き確率場]](CRF)は、タグを使って入力と出力を直接結びつける<ref name="rnnnlp" />。 上記のアプローチの組み合わせた、LSTM-CRFネットワークやBI-LSTM-CRFネットワークもある<ref name="rnnnlp" />。その他に、RNNモデルの改良として、{{Ill2|ニューラルチューリングマシン|en|Neural Turing machine}}、適応計算時間(adaptive computation time)、ニューラルプログラマー(neural programmers)、[[アテンション (機械学習)|アテンション機構]]などがあり、最後のものはGPT-2や関連技術の基礎をなしている<ref name="attentionRNNs" />。 === 選択的集中 === 2010年代初頭まで、ニューラル機械翻訳で最高の性能を発揮したのは、RNNやLSTMによる「エンコーダネットワーク」が原文を[[ベクトル空間|ベクトル]]に符号化し、そのベクトルを同様のアーキテクチャの「デコーダネットワーク」が処理して翻訳出力を得るという「エンコーダ・デコーダ」モデルであった<ref name="jointly" />。2014年に、非常に複雑な「[[アテンション (機械学習)|アテンション]]」機構が導入され、これらのモデルの性能は大幅に向上した。アテンション機構は、デコーダネットワークに、テキスト全体を単一ベクトルとして解析するのではなく、原文の特定の側面に[[適応|適応的]]に「アテンション(注意)」を集中させる能力を与えた<ref name="jointly" /><ref name="effective" />。 その後、2017年には、さらに一歩進んでアテンション機構を使用して、RNN/LSTMアーキテクチャを完全に置き換えた「トランスフォーマー(Transformer)」モデルが導入された<ref name="attention" /><ref name="attentionRNNs" />。 ==== アテンション機構 ==== {{main|[[アテンション (機械学習)]]}} エンコーダ・デコーダモデルの制約の一つに、より大きな文章を符号化して固定長のベクトルに圧縮することの難しさがあり、入力が大きくなるにつれて性能が低下することがよく見られた。2014年、Bahdanauらは<ref name="jointly" />、「整列と翻訳を共同で行う<!-- align and translate jointly -->」ことができるエンコーダ・デコーダモデルの拡張を発表した<ref name="effective" />。Bahdanauモデルのエンコーダ(各方向に1000個の隠れユニットを持つ双方向RNN)は、翻訳された原文の各単語に対して、その文の残り全てを検索して関連する情報の位置を探した。従来のように入力文全体を固定長でベクトル化してデコーダに入力するのではなく、それらの位置と以前に生成したターゲット語を関連付けた「文脈ベクトル」を生成した<ref name="jointly" />。そして、デコーダ(これも1000個の隠れユニットを持つ)は、この文脈ベクトルを使用して、どこに「注意」を向けるかを決定した<ref name="jointly" /><ref name="effective" /><ref name="attentionRNNs" />。 「アテンション」機構の探究は、Luongらによる2015年の論文で継続された<ref name="effective" />。Bahdanau論文に基づく「グローバル」アプローチと、原語の部分集合のみを一度に「考慮」する「ローカル」アプローチが試みられ、ローカルアプローチは、アーキテクチャ的にはより複雑だが、計算量が少なく、訓練が容易であった<ref name="effective" />。1秒間に1,000個のターゲット語を翻訳できるように特別に設計された英語-ドイツ語翻訳モデルを完全に訓練するのに7-10日を要した。その精度は、2014年の[[計算言語学会|ACL]] Workshop on Machine Translation(WMT'14)における英語-ドイツ語文ペアのタスクに対するテストで、23.0 BLEUという結果を達成した。これは、以前の試みで達成した最高結果であるBuck et al. 2014によるフレーズベースの言語モデルよりも2.1 BLEU優れていた<ref name="buck" /><ref name="effective" />。 ==== Transformers ==== {{main|Transformer (機械学習モデル)}} アテンション機構は、既存の[[畳み込みニューラルネットワーク|畳み込み型ニューラルネットワーク]]や[[回帰型ニューラルネットワーク]]のアーキテクチャを改善するために使うことで性能向上に効果的であったが、すぐに、何も基礎を置かずにアテンション機構単独でも高性能なモデルを構築できることがわかった<ref name="attention" />。 2017年6月、{{Ill2|Google Brain|en|Google Brain}}、[https://research.google/ Google Research]、および[[トロント大学]]の研究者が発表した論文で、[[Transformer (機械学習モデル)|Transformer]]アーキテクチャが初めて紹介された<ref name="attention" />。Transformerは、[[畳み込みニューラルネットワーク|畳み込み]]や[[回帰型ニューラルネットワーク|回帰]]を完全に捨て去り、アテンション機構のみに基づいたモデルの一種である。従来のRNNに基づくモデルと異なり、Transformerは、系列的に入力される各項目について順番に計算することなく処理できるため、大規模な[[並列計算|並列化]]が可能であることを意味した<ref name="attention" />。WMT'14フランス語-英語タスクでは、Transformerアーキテクチャを使用して特別に訓練したフランス語-英語翻訳モデルが、41.8 BLEUという新しい単一モデルのベンチマークを達成することができた<ref name="attention" />。Transformerは、導入以来、多くの自然言語処理(NLP)アプリケーションで使用されている<ref name="wolf2020" />。 == Generative Pre-trained Transformer == [[ファイル:Full_GPT_architecture.svg|右|サムネイル|GPTモデルの模式図]] {| class="wikitable" |+GPTシリーズの比較 ! !アーキテクチャ !パラメータ数 !訓練用データ |- |[[GPT-1]] |12層、12ヘッドのTransformerデコーダ(エンコーダなし)、次いで線形softmax |1.2億 |[[BookCorpus]]: 4.5 GBのテキスト、さまざまなジャンルの未発表小説7000冊分<ref>{{Cite journal|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|last3=Zemel|first3=Rich|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|date=2015|title=Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books|url=https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|pages=19–27|arxiv=1506.06724}}</ref> |- |'''GPT-2''' |[[GPT-2#モデル|GPT-1 変種]] |15億<ref name=":0">"Our largest model, GPT-2, is a 1.5B parameter Transformer" Radford. (2019)</ref> |[[GPT-2#WebTextコーパス|WebTextコーパス]] (40 GB) |- |[[GPT-3]] |GPT-2, ただしスケーリングが大きく変更された |1750億 |570 GBの平文、4,000億のトークン。主に[[コモン・クロール|CommonCrawl]]、[[GPT-2#WebTextコーパス|WebText]]、英語版Wikipedia、2つの書籍コーパス(Books1、Books2) |} 2018年6月11日、OpenAIは「Improving Language Understanding by Generative Pre-Training」(生成的事前学習による言語理解の向上)と題する論文を発表し、その中で「[[Generative Pre-trained Transformer|''Generative Pre-trained Transformer(GPT)'']]」と呼ぶNLPモデルを紹介した<ref name="gpt1paper" />。この当時、最高性能を発揮するニューラルNLPモデルでは、主に手作業でラベル付けされた大量のデータを用いて、[[教師あり学習]]を採用していた。こうした教師あり学習への依存によって、ラベル付けが十分でないデータセットでの利用は制限を受け、さらに非常に大規模なモデルを訓練するには非常に高価かつ時間もかかっていた<ref name="gpt1paper" /><ref name="tsvetkov" />。[[スワヒリ語]]や[[ハイチ・クレオール語]]などの多くの言語は、コーパス構築のためのテキストが不足しているため、このようなモデルを用いて翻訳や通訳することは困難であった<ref name="tsvetkov" />。これに対して、GPTの「半教師付き」アプローチは、言語モデリングの目的に基づいて初期パラメータを設定する教師なし[[生成モデル|生成的]]「事前学習」段階と、これらのパラメータを標的タスクに適応させる教師あり[[識別モデル|識別的]]「微調整」段階の2段階に分けて行われた<ref name="gpt1paper" />。 アテンション強化RNNを含む従来の技術とは異なり、Transformerアーキテクチャを用いたGPTには、より構造化された記憶が備わり、それによって「多様なタスクに対応できる頑健な[[転移学習|転移]]性能」が実現された<ref name="gpt1paper" />。 <blockquote> 転移時には、トラバース形式の手法から派生したタスク固有の入力適応を利用し、構造化テキストの入力を単一の連続したトークン列として処理する。<ref name="gpt1paper" /></blockquote> === コーパス === 教師なし事前学習は、さまざまなジャンルに属する7,000冊以上の未発表小説のデータセット「BooksCorpus」を用いて行われた<ref name="bookscorpus" />。このデータセットが選ばれた理由の一つは、長距離の情報を処理するためのモデルの条件として、連続した長い文章が求められたことにある。利用可能な他のデータセットは、規模は大きくても、このような長範囲的な構造がない(文レベルで「入れ替え」られている)ことを理由に却下された<ref name="gpt1paper" />。BooksCorpusのテキストをクリーニング(句読点や空白の標準化)するために''ftfy''ライブラリが、[[字句解析|トークン化]]では''spaCy''が使われた<ref name="gpt1paper" />。 === アーキテクチャ === GPTのアーキテクチャ自体は、12層のデコーダのみのTransformerで、それぞれ64次元の状態を持つ12個のマスク付き自己アテンション・ヘッド(合計768個)を使用した。単純な[[確率的勾配降下法]]ではなく、[[確率的勾配降下法#Adam|Adam最適化アルゴリズム]]が使用された。学習率は、最初の2,000回の更新では、0から最大2.5×10<sup>−4</sup>まで線形に増加し、コサインスケジュールによって0まで[[焼きなまし法|アニリーング]]された<ref name="gpt1paper" />。 <blockquote>512個の連続したトークンからなるランダムにサンプリングした64個のミニバッチの訓練を100エポック行う。レイヤーノルムはモデル全体で広く用われているため、N(0,0.02)の単純な重みの初期化で十分であった。40,000個の[[バイト対符号化]](BPE)語彙のマージと、[[正則化]]には残差、埋め込み、アテンションのドロップアウトを比率0.1で行った。また、Loshchilov et al. 2017で提案されたL2正則化の修正版を採用し、すべての非バイアスウェイトやゲインウェイトはw=0.01とした。<br/> (中略)<br/> 原著で提案された正弦波バージョンの代わりに学習された位置埋め込みを使用した。<br/> (中略)<br/> 特に指定がない限り、教師なし事前学習でのハイパーパラメータ設定を再利用する。分類器にはドロップアウトを比率0.1で追加する。ほとんどのタスクでは、学習速度6.25<sup>e-5</sup>、バッチサイズ32を使用する。このモデルは高速に微調整され、ほとんどの場合は3エポックの訓練で十分であった。学習率は線形減衰スケジュールを用い、ウォームアップは訓練の0.2%以上とした。λは0.5とした<ref name="gpt1paper" />。</blockquote> GPTは、微調整の段階で特定のタスクに適応させたが、事前学習の段階はそうしなかった。さまざまなタスクを実行するために、タスクに依存しない基礎となるモデルアーキテクチャに最小限の変更が加えられた<ref name="gpt1paper" />。それにもかかわらず、GPTはいくつかの言語処理タスクにおいて過去のベンチマークを上回り、多くの多様なタスクにおいて、タスク指向のアーキテクチャを持つ識別的に訓練されたモデルより優れていた<ref name="gpt1paper" />。 === 性能 === 自然言語推論({{Ill2|テキスト含意|en|Textual entailment|label=テキスト含意推論}}(textual entailment)とも呼ばれる)タスクでは、モデルの評価は、さまざまなデータセットに含まれる文の対を解釈し、それらの関係を「含意」「矛盾」「中立」に分類する能力に基づいて行われる<ref name="gpt1paper" />。たとえば、QNLI([[ウィキペディア|Wikipedia]]の記事)やMultiNLI(速記、大衆小説、政府報告など)といった情報源に対して<ref name="multinli" />、GPTは従来の最高値からそれぞれ5.8%、1.5%優れていた<ref name="gpt1paper" />。同様に、質問応答や{{Ill2|常識推論|en|Commonsense reasoning}}に関連する2つのタスクでも、RACE(中学校と高校の筆記試験の問題と解答の組からなるデータセット)で5.7%<ref name="race" />、{{Ill2|クローズ・テスト|en|Cloze test|label=}}で8.9%、従来のモデルをそれぞれ上回った<ref name="cloze" />。 もう一つの意味的類似性(または言い換え検出)のタスクでは、2つの文が互いに言い換えであるかどうかをモデルが予測できるかどうかを評価するもので、[[Quora]] Question Pairs(QQP)データセットで、GPTは従来の最高性能モデルよりも4.2%向上した<ref name="gpt1paper" />。また、Corpus of Linguistic Acceptability(CoLA)を用いたテキスト分類タスクでは、従来の最高スコア35.0に対してGPTはスコア45.4を達成した。最後に、マルチタスクテストのGLUEで<ref name="glue" />、GPTは総合スコア72.8(従来は68.9)を達成した<ref name="gpt1paper" />。 == GPT-2 == GPT-2はGPTのスケールアップ版として作成され、パラメータ数とデータセットサイズをいずれも10倍にしている<ref name="gpt2paper" /><ref name="gpt1paper" /><ref name="openai" />。双方とも[[教師なし学習|教師なし]]の[[Transformer (機械学習モデル)|Transformer]]モデルで、一連の[[字句解析#トークナイザ|トークン]]の並びから次の単語を予測してテキストを生成するように訓練された。GPT-2モデルは15億のパラメータを持ち、800万のウェブページの[[データセット]]で訓練が行われた<ref name="gpt2paper" />。GPT-2は、テキストサンプル中の一連の単語を解釈し、最も可能性の高い次の単語を予測するという非常に単純な基準で強化され、追加される単語を予測し続けることで完全な文や段落を生成し、[[自然言語]]で完全に理解できる(そして[[意味論 (言語学)|意味論]]的に意味を持つ)文を生成する<ref name="gpt2paper" />。特に、GPT-2は、{{Ill2|ゼロショット学習|en|Zero-shot learning|label=ゼロショット設定}}でのタスクに対する性能で評価された。 === データセット === GPT-2は新規に開発された WebText コーパスをデータセットとして利用している。 ==== WebTextコーパス ==== '''WebText''' コーパスは約800万の[[ウェブページ]]から抽出された高品質自然言語テキストコーパスである<ref>"a new dataset of millions of webpages called WebText ... which emphasizes document quality." Radford. (2019). ''Language Models are Unsupervised Multitask Learners''.</ref>。 GPT-2はゼロショット推論可能な基盤モデルを意図して開発された。個別タスクを明示的に学習せずゼロショットで推論するには、学習用テキスト内に様々なタスクの具体例が(タスクラベル無しで)含まれている必要があると考えられる<ref>"Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible." Radford. (2019)</ref>。一方で質の低いテキストはモデルの精度を落とすため<ref name="commoncrawl" />、[[コモン・クロール]]のような無作為収集されたコーパスは利用できない<ref>"Common Crawl ... they have significant data quality issues ... We observed similar data issues in our initial experiments with Common Crawl." Radford. (2019)</ref>。これらの問題を解決するためにGPT-2論文で開発されたコーパスが WebText コーパスである。 WebText は人間によるキュレーションを品質向上に利用している<ref>"emphasizes document quality. To do this we only scraped web pages which have been curated/filtered by humans." Radford. (2019)</ref>。まず[[Reddit]]で3回以上[[いいね!ボタン|賛成票]]を受けたリンク先ウェブページを一定品質のテキストとみなし<ref>"we scraped all outbound links from Reddit, a social media platform, which received at least 3 karma." Radford. (2019)</ref>、重複文章の除去・Wikipedia記事の削除<ref>他の多くのデータセットに含まれているので、[[過剰適合]]の原因となる可能性があった</ref>・ヒューリスティックによるクリーニングを経て、最終的に約800万のウェブページから抽出された約40GBの自然言語テキストをWebTextとしている<ref>"a preliminary version of WebText ... which ... contains slightly over 8 million documents for a total of 40 GB of text." Radford. (2019)</ref>。 === モデル === GPT-2のモデルアーキテクチャは[[GPT (言語モデル)#GPT-1|GPT-1]]のマイナーチェンジ版である。アーキテクチャ上の変更点は以下の通り: * Post [[ニューラルネットワーク#バッチ正規化|LN]] → Pre LN<ref>"Layer normalization ... was moved to the input of each sub-block" Radford. (2019)</ref> * 最終[[アテンション (機械学習)|アテンション]]ブロック後の追加LN<ref>"an additional layer normalization was added after the final self-attention block." Radford. (2019)</ref> * 残差レイヤーの深度 <math>1/ \sqrt{N}</math> 重み付け初期化<ref>"A modified initialization which accounts for the accumulation on the residual path with model depth ... scale the weights of residual layers at initialization by a factor of 1/√N where N is the number of residual layers." Radford. (2019)</ref> アーキテクチャはほぼ同一であるが、GPT-2はGPT-1より大きなモデルとなっている。モデル上の変更点は以下の通り: * モデルパラメータサイズ: 15億(約13倍)<ref name=":0" /> * ボキャブラリ: 50,257<ref>"The vocabulary is expanded to 50,257." Radford. (2019)</ref> * コンテキストトークン長: 512→1024<ref>"We also increase the context size from 512 to 1024 tokens" Radford. (2019)</ref> === 訓練 === モデルと同じく学習もスケールされており、バッチサイズは512に変更されている<ref>"a larger batchsize of 512 is used." Radford. (2019)</ref>。 GPT-2の訓練費用は1時間あたり256ドルであることが知られているが<ref name="register" /><ref name="staggering" />、訓練に要した総時間は不明なため、訓練費用の総額を正確に見積もることはできない<ref name="vb2" />。しかし、Transformerアーキテクチャを用いた同等の大規模言語モデルでの費用はより詳細に記述されており、[[BERT (言語モデル)|BERT]]と[[XLNet]]の訓練過程では、それぞれ6,912ドルと245,000ドルの資源を消費した<ref name="staggering" />。 === 性能 === [[ファイル:GPT-2-PresidentSnowden.PNG|サムネイル|GPT-2が作成した、[[2020年アメリカ合衆国大統領選挙|2020年の米国大統領選挙]]に勝利した後の[[エドワード・スノーデン]]の行動に関する架空のニュース記事。強調表示されたテキストはすべて機械が生成したものである。スノーデンは(生成時点で)公職に選出されたことはなかったが、生成されたサンプルは文法的にも文体的にも妥当なものである。]] GPT-2は、そのデータセットとアプローチの広さによって、単純なテキスト生成にとどまらない幅広いタスクに対応できるようになった。質問に答えたり、長文を要約したり、さまざまな{{Ill2|領域固有性|en|Domain specificity|label=特定領域}}で言語間の[[機械翻訳|翻訳]]をしたり、一連の単語の次の予測方法以上のことは何も指示されずに実行できる<ref name="verge1" /><ref name="voxxy" />。 一般化学習の一例は、フランス語-英語間の機械翻訳をするGPT-2の能力であり、そのために、WMT-14の翻訳タスクを使用してGPT-2の性能が評価された。GPT-2の訓練用コーパスには、フランス語のテキストはほとんど含まれていなかった。訓練前にデータセットのクリーニングで英語以外のテキストを意図的に削除したため、得られた40,000 MBのうちモデルが訓練に使用できたフランス語は10 MBにすぎなかった(ほとんどは英語の投稿や記事に含まれた外国語の引用)<ref name="gpt2paper" />。それでもGPT-2は、WMT-14の英語-フランス語間テストセットで5 BLEUを達成した(単語単位での置換による翻訳をわずかに下回るスコア)。また、フランス語から英語へのテストセットでGPT-2は、当時(2017年)の教師なし機械翻訳ベースラインを上回って、11.5 BLEUを達成した。これは、33.5 BLEUを達成した当時(2019年)最も高性能な教師なし手法を下回るものだった<ref name="gpt2paper" />。しかし、他のモデルは、この結果を達成するために大量のフランス語テキストを使用しており、一方のGPT-2は、同等の手法の約1/500のサイズの単一言語フランス語コーパスを使用したと推定された<ref name="gpt2paper" />。 == 公開 == GPT-2は、2019年2月14日に初めて発表された。2019年2月の''The Verge''に掲載されたJames Vincentによる記事では、『(このプログラムが)作り出す文章は、通常、人間ではないと容易に判別できる』ものの、言語生成プログラムの『これまでで、もっともわくわくする例の一つ』であることに変わりはないと述べている<ref name="verge1" />。<blockquote>偽の見出しを付けると、あとは偽の引用や統計を交えた残りを書いてくれる。短編小説の最初の行を入力すると、登場人物に次に何が起こるか教えてくれる。適切な[[プロンプトエンジニアリング|プロンプト]](命令)を入力すれば、[[ファン・フィクション]]だって書ける<ref name="verge1" />。</blockquote> [[ガーディアン]]紙はこの出力を『もっともらしい新聞の散文』と表現し<ref name="guardian" />、[[Vox Media|''Vox'']]の[[:en:Kelsey Piper|Kelsey Piper]]は『私がこれまで見た中で最もクールなAIシステムの一つは、私を失業に追い込むものかもしれない』と述べている<ref name="voxxy" />。GPT-2の柔軟性は、The Vergeによれば『印象的』と評され、具体的には、言語間でのテキスト翻訳、長文の記事の要約、雑学的な質問へ回答などの能力が注目された<ref name="verge1" />。 修正チューリングテストを用いた[[アムステルダム大学]]の研究では、少なくともいくつかのシナリオで、参加者はGPT-2が生成した詩と人間が書いた詩を見分けられないことが分かった<ref>{{cite journal|last1=Köbis|first1=Nils|last2=Mossink|first2=Luca D.|date=1 January 2021|title=Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry|journal=Computers in Human Behavior|volume=114|pages=106553|doi=10.1016/j.chb.2020.106553|doi-access=free}}</ref>。 === 制限と部分公開 === [[ファイル:GPT-2-ProSkub-AntiSkub.png|サムネイル|「Skub」は実在する製品ではないが、DistilGPT2で使用されている縮小サイズのモデルでさえ、賛成と反対の両側からもっともらしい議論を作り出すことができる。]] これまでOpenAIのモデルはすぐに一般公開されていたが、2019年2月の発表では、悪用される危険性があるとして<ref name="guardian" />、GPT-2の[[ソースコード]]の公開を当初拒否していた<ref name="guardian" />。発表時には、一部の報道関係者にのみ、モデルへの制限付きアクセス(ソースコード自体ではなく、入力でき、出力を提供するインターフェース)が許可された。よく言われるのは、生成されたテキストは通常まったく新しいものなので、{{Ill2|スパミング|en|Spamming|label=スパマー}}が[[電子メールフィルタリング|自動フィルター]]を回避するために悪用する可能性があるという正当化の理由である。OpenAIは、GPT-2を微調整して『肯定的または否定的な製品レビューを永遠に生成する』バージョンを実演した<ref name="guardian" />。もう一つの問題は、GPT-2を使用すると、[[わいせつ]]あるいは[[人種主義|人種差別]]的なテキストが生成される可能性があることである。ジェレミー・ハワードなどの研究者は、『この技術は、Twitterや電子メール、そしてウェブを、合理的な響きを持って文脈に沿った散文で完全に埋め尽し、他のすべての発言をかき消すようなものであり、フィルタリングは不可能になる』と警告した<ref name="verge1" />。{{Ill2|アレン人工知能研究所|en|Allen Institute for AI}}は、GPT-2に呼応して「ニューラル[[フェイクニュース]]」を検出するツールを発表した<ref name="neuralfakesnooze" />。 しかし、意見は分かれた。2019年2月の''The Verge''の記事は、GPT-2がもたらす脅威は誇張されていると論じ<ref name="ethics" />、[[カリフォルニア工科大学]]の教授で[[NVIDIA|Nvidia]]の機械学習研究ディレクターである[[:en:Anima Anandkumar|Anima Anandkumar]]は、OpenAIが言うような脅威をもたらす能力がGPT-2にあるという証拠はなく、彼らがしたことは『オープンとは正反対』だと述べ、完全モデルの公開を拒否したことを「悪意のある{{Ill2|たわごと|en|Bullshit}}」とみなした<ref name="ethics" />。''The Gradient''紙は、OpenAIに対してモデルの公開を促す公開書簡を発表し、テキスト生成AIがもたらす脅威を[[印刷機]]のそれと比較し、『混乱をもたらす可能性があったにものの、(幸いにも)現代社会を破壊しなかった技術』として[[Adobe Photoshop|Photoshop]]を例に挙げた<ref name="pls" />。<blockquote>30年後、Photoshopは高校生が使えるほど簡単で、動詞として広く使われているにもかかわらず、社会は比較的無事ですんでいる。なぜか?それは、誰もがPhotoshopを知っているからこそである<ref name="pls" />。</blockquote> === 774M公開 === OpenAIは、完全な学習済みモデルや、訓練用コーパスを公開しなかったが、過去の出版物におけるその手法の説明(および基礎となる技術の無償での入手性)により、GPT-2は[[自由ソフトウェア]]として他者が複製することが可能であった。そのような複製の一つ、OpenGPT-2は、OpenWebTextと呼ばれる自由ライセンス版のWebTextと組み合わせて2019年8月に公開された。OpenGPT-2のクラウドコンピューティング費用は約50,000ドルと提示された<ref name="opengpt2" />。 2019年8月20日、OpenAIは、7億7,400万のパラメータ(15億パラメータの完全モデルの約半分の規模)を持つGPT-2の縮小版を公開した<ref name="vb" />。 === 完全版1.5B公開 === しかし、GPT-2が広範な悪用につながるのではないかという当初の懸念は、現実のものとならなかった。The Vergeは、『AI技術がある種の「情報世紀末(''infopocalypse'')」をもたらすという主張には懐疑的な理由がある。まず第一に、わずかなコストでもっともらしい文章を大量に生成できるプログラム、すなわち人間が既に存在している。』 と述べている<ref name="reddit" />。2019年11月までに、OpenAIは『これまでのところ悪用された強い証拠は見られない』と述べ、2019年11月5日に15億のパラメータを持つ完全版を公開した<ref name="verge2" /><ref name="15Brelease" />。 == 限界 == [[ファイル:GPT-2-Trump_Asuka.png|サムネイル|GPT-2は、さまざまなシナリオに対してテーマに沿ったテキストを生成することができる。たとえば、[[ドナルド・トランプ]]がアニメ キャラクターの[[惣流・アスカ・ラングレー]]を賞賛する演説をしたという[[CNN]]の記事のような非現実的なものでさえ生成することができる。ここでは、1.5Bの完全モデルであっても、第2段落では文法の劣化が始まり、最終的には意味不明な一文が何度も繰り返される出力など、出力が長くなるにつれて無意味で反復的なテキストを生成する傾向が見られる。]] GPT-2の自然言語テキストの生成能力は、おおむね高く評価されているが、特に段落数が2段を超える長いテキストを生成する場合には、その欠点も指摘されている。''Vox''は『散文はかなり大まかで、ときおり非合理的なこともあり、記事が長くなればなるほど一貫性が失われる』と述べている<ref name="voxxy" />。''The Verge''も同様に、GPT-2の文章は長いサンプルになると『話題がそれる』傾向があり、首尾一貫性に欠けると指摘した<ref name="verge1" />。{{Ill2|The Register|en|The Register|label=''The Register''}}は、『それを読んだ人間は、しばらくすると、何かが起きていることに気づくはずだ』と評し、『GPT-2は、情報を抽出し取りだすためにアルゴリズムに依存する他のシステムと同様、質問には答えていない』と述べている<ref name="register" />。 GPT-2を導入するには多くの資源が必要で、完全版モデルの大きさは5[[ギガバイト]]を超えるため、アプリケーションにローカルに組み込むことが難しく、また大量の[[Random Access Memory|メモリー(RAM)]]を消費する。また、1回の予測を行うと『[[CPU]]を100%の使用率で数分間占有することがある』ほか、[[Graphics Processing Unit|GPU]]処理でも『1回の予測に数秒かかることがある』<ref name="tds2" />。これらの問題を軽減するために、[[Hugging Face]]は、[[知識蒸留]]を使用して、『いくつかの品質ベンチマークで数ポイント低い』ものの、『33%小さく、2倍速い』という小型モデルを作成するDistilGPT2を開発した<ref name="tds2" />。 == 実装とその後の研究 == ジャーナリストによって報じられたGPT-2の応用として、ニュース記事などの文章を人間が書くことを補助するなどが挙げられている<ref name="guardian" />。GPT-2は、製品版の公開以前から、さまざまなアプリケーションやサービス、それにエンターテインメントに利用されていた。2019年6月には[[Reddit]]サイト内に、r/SubSimulatorGPT2というコミュニティ([[Reddit|サブレディット]])が作られ、さまざまなサブレディットで訓練したGPT-2の実例([[インスタンス]])が投稿し、互いのコメントに返信することで『r/Bitcoinが擬人化したAIと、r/ShittyFoodPornの機械学習に由来する霊が議論する』状況が作られた<ref name="reddit" />。同年7月までに、GPT-2に基づいて、さまざまな[[プログラミング言語]]のコード行を[[自動補完]]するソフトウェアが公開され、ユーザーから「ゲームチェンジャー(トレンドを変えるできごと)」と評された<ref name="smartcompose" />。 2019年には、GPT-2を利用し、ユーザーの入力に基づいて動的な[[テキストアドベンチャー]]を提供する{{Ill2|AI Dungeon|en|AI Dungeon|label=''AI Dungeon''}}が発表された<ref name="aid2" />。2021年現在、AI Dungeonは、オプションの有料アップグレードとしてGPT-3の最大リリースAPIへのアクセスを提供し、無料版ではGPT-3の2番目に大きなリリースを使用した<ref name="aidungeon" />。AI Dungeonを中心に設立されたLatitudeは、2021年に{{Ill2|元手資金|en|Seed money|label=開業資金}}330万ドルを調達した<ref name="tclat" />。いくつかのウェブサイトでは、GPT-2やその他のTransformerモデルのさまざまなインスタンスの対話的なデモンストレーションを公開している<ref>{{Cite web |url=https://transformer.huggingface.co/ |title=Write With Transformer |access-date=December 4, 2019}}</ref><ref>{{Cite web |url=https://talktotransformer.com/ |title=Talk to Transformer |access-date=December 4, 2019}}</ref><ref>{{Cite web |url=https://creativeengines.ai/ |title=CreativeEngines |access-date=June 25, 2021}}</ref>。 2021年2月、問題を抱えたティーンエージャー向けの危機管理センターが、カウンセラーが十代の模擬患者と会話をしてトレーニングするために、GPT-2由来のチャットボットの使用を始めると発表した(この使用は純粋に内部目的であり、GPT-2はティーンエージャー自身と交信しなかった)<ref name="teens" />。 == 脚注 == {{Reflist|30em|refs= <ref name="15Brelease">{{Cite web |url=https://openai.com/blog/gpt-2-1-5b-release/ |title=GPT-2: 1.5B Release |date=2019-11-05 |website=OpenAI |language=en |access-date=2019-11-14 |archive-date=2019-11-14 |archive-url=https://web.archive.org/web/20191114074358/https://openai.com/blog/gpt-2-1-5b-release/ |url-status=live}}</ref> <ref name="Arram_20200709">{{Cite web |last=Arram |title=GPT-3: An AI that's eerily good at writing almost anything |work=Arram Sabeti |access-date=July 31, 2020 |date=July 9, 2020 |url=https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/ |archive-date=July 20, 2020 |archive-url=https://web.archive.org/web/20200720192137/https://arr.am/2020/07/09/gpt-3-an-ai-thats-eerily-good-at-writing-almost-anything/ |url-status=live}}</ref> <ref name="GPT3microsoft">{{Cite magazine|last=Hao|first=Karen|date=September 23, 2020|title=OpenAI is giving Microsoft exclusive access to its GPT-3 language model|url=https://www.technologyreview.com/2020/09/23/1008729/openai-is-giving-microsoft-exclusive-access-to-its-gpt-3-language-model/|language=en|access-date=2020-09-25|magazine=[[:en:MIT Technology Review|MIT Technology Review]]|quote="The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases."}}</ref> <ref name="turing">{{Turing 1950}}</ref> <ref name="rosenblatt"> {{cite journal|last=Rosenblatt|first=Frank|year=1957|title=The Perceptron—a perceiving and recognizing automaton|journal=Report 85-460-1|publisher=Cornell Aeronautical Laboratory}}</ref> <ref name="Nye">{{cite journal|last1=Nye|first1=Mary Jo|date=2016|title=Speaking in Tongues: Science's centuries-long hunt for a common language|url=https://www.sciencehistory.org/distillations/magazine/speaking-in-tongues|journal=Distillations|volume=2|issue=1|pages=40–43|access-date=22 March 2018|archive-date=3 August 2020|archive-url=https://web.archive.org/web/20200803130801/https://www.sciencehistory.org/distillations/magazine/speaking-in-tongues|url-status=live}}</ref> <ref name="Babel">{{cite book |last1=Gordin |first1=Michael D. |title=Scientific Babel: How Science Was Done Before and After Global English |date=2015 |publisher=University of Chicago Press |location=Chicago, Illinois |isbn=9780226000299}}</ref> <ref name="symposium">{{Cite journal|last=Reifler|first=Erwin|date=February 2–5, 1960|title=The solution of MT linguistic problems through lexicography.|journal=Proceedings of the National Symposium on Machine Translation}}</ref> <ref name="bham">{{cite web |url=https://www.cs.bham.ac.uk/~pjh/sem1a5/pt1/pt1_history.html |title=SEM1A5 – Part 1 – A brief history of NLP |last=Hancox |first=P.J. |website= |publisher=University of Birmingham |date=26 January 1996 |access-date=12 January 2021 |quote= |archive-date=13 January 2021 |archive-url=https://web.archive.org/web/20210113235349/https://www.cs.bham.ac.uk/~pjh/sem1a5/pt1/pt1_history.html |url-status=live}}</ref> <ref name="bham2">{{cite web |url=https://www.cs.bham.ac.uk/~pjh/sem1a5/pt1/pt1_art.html |title=SEM1A5 – Part 1 – The state-of-the-art |last=Hancox |first=P.J. |website= |publisher=University of Birmingham |date=26 January 1996 |access-date=12 January 2021 |quote= |archive-date=16 January 2021 |archive-url=https://web.archive.org/web/20210116175448/https://www.cs.bham.ac.uk/~pjh/sem1a5/pt1/pt1_art.html |url-status=live}}</ref> <ref name="chronology">{{Cite journal|last=Hutchins|first=John|date=1997|title=From first conception to first demonstration: the nascent years of machine translation, 1947–1954. A chronology.|journal=Machine Translation 12, 195–252|volume=12|issue=3|pages=195–252|doi=10.1023/A:1007969630568|s2cid=197591}}</ref> <ref name="hutchins">{{cite report|author=John Hutchins|url=https://open.unive.it/hitrade/books/HutchinsFirst.pdf|title=The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954|s2cid=132677}}</ref> <ref name="winograd">{{Cite journal|last=Winograd|first=Terry|date=1971-01-01|title=Procedures as a Representation for Data in a Computer Program for Understanding Natural Language|url=https://dspace.mit.edu/handle/1721.1/7095|journal=|language=en-US|hdl=1721.1/7095|access-date=2021-01-12|archive-date=2021-01-13|archive-url=https://web.archive.org/web/20210113121007/https://dspace.mit.edu/handle/1721.1/7095|url-status=live}}</ref> <ref name="stanford">{{cite web |title=SHRDLU |url=http://hci.stanford.edu/winograd/shrdlu/ |website=Stanford Human-Computer Interaction (HCI) Group |access-date=2021-01-12 |archive-date=2020-08-16 |archive-url=https://web.archive.org/web/20200816033418/http://hci.stanford.edu/winograd/shrdlu/ |url-status=live}}</ref> <ref name="eliza">{{Citation|title=ELIZA – A Computer Program For the Study of Natural Language Communication Between Man And Machine|last=Weizenbaum|first=Joseph|author-link=Joseph Weizenbaum|date=January 1966|journal=[[:en:Communications of the ACM|Communications of the ACM]]|volume=9|issue=1|pages=36–45|doi=10.1145/365153.365168|s2cid=1896290}}</ref> <ref name="rogers">{{Cite journal|last1=Bassett|first1=Caroline|year=2019|title=The computational therapeutic: exploring Weizenbaum's ELIZA as a history of the present|journal=AI & Society|volume=34|issue=4|pages=803–812|doi=10.1007/s00146-018-0825-9|doi-access=free}}</ref> <ref name="perceptrons">{{citation|title=Perceptrons: An Introduction to Computational Geometry|last1=Minsky|first1=Marvin|last2=Papert|first2=Seymour|date=1969|publisher=MIT Press|isbn=0-262-63022-2|website=}}</ref> <ref name="Olazaran">{{cite journal|last=Olazaran|first=Mikel|year=1996|title=A Sociological Study of the Official History of the Perceptrons Controversy|journal=Social Studies of Science|volume=26|issue=3|pages=611–659|doi=10.1177/030631296026003005|jstor=285702|s2cid=16786738}}</ref> <ref name="dictionary">{{Cite web |url=http://www.cse.unsw.edu.au/~billw/mldict.html |title=The Machine Learning Dictionary |last=Wilson |first=Bill |website=www.cse.unsw.edu.au |access-date=19 January 2021 |archive-url=https://web.archive.org/web/20180826151959/http://www.cse.unsw.edu.au/~billw/mldict.html |archive-date=26 August 2018 |date=24 June 2012}}</ref> <ref name="werbos1974">{{cite book |last=Werbos |first=Paul J. |title=The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting |location=New York |publisher=John Wiley & Sons |year=1994 |isbn=0-471-59897-6}}</ref> <ref name="bishop">{{cite book |first=Christopher M. |last=Bishop |year=2006 |title=Pattern Recognition and Machine Learning |publisher=Springer |isbn=0-387-31073-8}}</ref> <ref name="Crevier">{{Crevier 1993}}</ref> <ref name="kunihiko">{{cite journal|last=Fukushima|first=Kunihiko|date=October 1979|title=位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---|url=https://search.ieice.org/bin/summary.php?id=j62-a_10_658|journal=Trans. IECE|volume=J62-A|issue=10|pages=658–665|language=ja|trans-title=Neural network model for a mechanism of pattern recognition unaffected by shift in position — Neocognitron —|access-date=2021-01-20|archive-date=2021-01-28|archive-url=https://web.archive.org/web/20210128044917/https://search.ieice.org/bin/summary.php?id=j62-a_10_658|url-status=live}}</ref> <ref name="lecundl">{{cite journal|last1=LeCun|first1=Yann|last2=Bengio|first2=Yoshua|last3=Hinton|first3=Geoffrey|year=2015|title=Deep learning|journal=Nature|volume=521|issue=7553|pages=436–444|bibcode=2015Natur.521..436L|doi=10.1038/nature14539|pmid=26017442|s2cid=3074096}}</ref> <ref name="Samuel">{{Cite journal|last=Samuel|first=Arthur|date=1959|title=Some Studies in Machine Learning Using the Game of Checkers|journal=IBM Journal of Research and Development|volume=3|issue=3|pages=210–229|doi=10.1147/rd.33.0210|citeseerx=10.1.1.368.2254}}</ref> <ref name="russell">{{Citation|title=Artificial Intelligence: A Modern Approach|last1=Russell|first1=Stuart J.|author-link=Stuart J. Russell|last2=Norvig|first2=Peter|author2-link=Peter Norvig|year=2003|quote="Overall, the AI industry boomed from a few million dollars in 1980 to billions of dollars in 1988. Soon after that came a period called the 'AI Winter'"|url=http://aima.cs.berkeley.edu/|archive-url=https://web.archive.org/web/20110228023805/http://aima.cs.berkeley.edu/|archive-date=2011-02-28|edition=2nd|publisher=Prentice Hall|page=24|publication-place=Upper Saddle River, New Jersey|isbn=0-13-790395-2|access-date=2021-01-12|url-status=live}}</ref> <ref name="howe">{{cite web |last=Howe |first=J. |title=Artificial Intelligence at Edinburgh University : a Perspective |date=November 1994 |url=http://www.dai.ed.ac.uk/AI_at_Edinburgh_perspective.html |access-date=30 August 2007 |archive-url=https://web.archive.org/web/20070817012000/http://www.dai.ed.ac.uk/AI_at_Edinburgh_perspective.html |archive-date=17 August 2007 |url-status=live |quote=Lighthill's [1973] report provoked a massive loss of confidence in AI by the academic establishment in the UK (and to a lesser extent in the US). It persisted for a decade ― the so-called 'AI Winter'}}</ref> <ref name="parker">{{Cite journal|last=Parker|first=D.B.|date=1985|title=Learning Logic|publisher=Massachusetts Institute of Technology|location=Cambridge MA|department=Center for Computational Research in Economics and Management Science}}</ref> <ref name="RHW">{{cite journal|last1=Rumelhart|first1=David E.|last2=Hinton|first2=Geoffrey E.|last3=Williams|first3=Ronald J.|date=1986a|title=Learning representations by back-propagating errors|journal=Nature|volume=323|issue=6088|pages=533–536|bibcode=1986Natur.323..533R|doi=10.1038/323533a0|author-link1=David E. Rumelhart|author-link2=Geoffrey E. Hinton|author-link3=Ronald J. Williams|s2cid=205001834}}</ref> <ref name="attention">{{cite arXiv|eprint=1706.03762|class=cs.CL|last1=Polosukhin|first1=Illia|last2=Kaiser|first2=Lukasz|title=Attention Is All You Need|date=2017-06-12|last3=Gomez|first3=Aidan N.|last4=Jones|first4=Llion|last5=Uszkoreit|first5=Jakob|last6=Parmar|first6=Niki|last7=Shazeer|first7=Noam|last8=Vaswani|first8=Ashish}}</ref> <ref name="wolf2020">{{cite book |last1=Wolf |first1=Thomas |last2=Debut |first2=Lysandre |last3=Sanh |first3=Victor |last4=Chaumond |first4=Julien |last5=Delangue |first5=Clement |last6=Moi |first6=Anthony |last7=Cistac |first7=Pierric |last8=Rault |first8=Tim |last9=Louf |first9=Remi |last10=Funtowicz |first10=Morgan |last11=Davison |first11=Joe |last12=Shleifer |first12=Sam |last13=von Platen |first13=Patrick |last14=Ma |first14=Clara |last15=Jernite |first15=Yacine |last16=Plu |first16=Julien |last17=Xu |first17=Canwen |last18=Le Scao |first18=Teven |last19=Gugger |first19=Sylvain |last20=Drame |first20=Mariama |last21=Lhoest |first21=Quentin |last22=Rush |first22=Alexander |title=Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations |chapter=Transformers: State-of-the-Art Natural Language Processing |year=2020 |pages=38–45 |doi=10.18653/v1/2020.emnlp-demos.6 |s2cid=208117506}}</ref> <ref name="backprop">{{cite book |last1=Goodfellow |first1=Ian |author-link1=Ian Goodfellow |last2=Bengio |first2=Yoshua |author-link2=Yoshua Bengio |last3=Courville |first3=Aaron |year=2016 |title=Deep Learning |url=http://www.deeplearningbook.org |publisher=MIT Press |section=6.5 Back-Propagation and Other Differentiation Algorithms |section-url=https://www.deeplearningbook.org/contents/mlp.html#pf25 |pages=200–220 |isbn=9780262035613 |access-date=2021-03-14 |archive-date=2018-01-27 |archive-url=https://web.archive.org/web/20180127104809/http://www.deeplearningbook.org/ |url-status=live}}</ref> <ref name="q989">{{Cite Q|Q98967430}}</ref> <ref name="q776">{{Cite Q|Q77698282}}</ref> <ref name="lstm1997">{{Cite journal|author=Sepp Hochreiter|author-link=Sepp Hochreiter|year=1997|title=Long short-term memory|url=https://www.researchgate.net/publication/13853244|journal=[[:en:Neural Computation (journal)|Neural Computation]]|volume=9|issue=8|pages=1735–1780|doi=10.1162/neco.1997.9.8.1735|pmid=9377276|author2=Jürgen Schmidhuber|s2cid=1915014|author2-link=Jürgen Schmidhuber|access-date=2021-01-20|archive-date=2021-01-22|archive-url=https://web.archive.org/web/20210122144703/https://www.researchgate.net/publication/13853244_Long_Short-term_Memory|url-status=live}}</ref> <ref name="icdar20091">{{Cite journal|last1=Graves|first1=A.|last2=Liwicki|first2=M.|last3=Fernández|first3=S.|last4=Bertolami|first4=R.|last5=Bunke|first5=H.|last6=Schmidhuber|first6=J.|date=May 2009|title=A Novel Connectionist System for Unconstrained Handwriting Recognition|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=31|issue=5|pages=855–868|doi=10.1109/tpami.2008.137|issn=0162-8828|pmid=19299860|citeseerx=10.1.1.139.4502|s2cid=14635907}}</ref> <ref name="icdar20092">{{Cite journal|last1=Märgner|first1=Volker|last2=Abed|first2=Haikal El|date=July 2009|title=ICDAR 2009 Arabic Handwriting Recognition Competition|journal=2009 10th International Conference on Document Analysis and Recognition|pages=1383–1387|doi=10.1109/ICDAR.2009.256|isbn=978-1-4244-4500-4|s2cid=52851337|citeseerx=10.1.1.212.602}}</ref> <ref name="jointly">{{cite arXiv|eprint=1409.0473|class=cs.CL|last1=Bahdanau|first1=Dzmitry|last2=Cho|first2=Kyunghyun|title=Neural Machine Translation by Jointly Learning to Align and Translate|date=1 September 2014|last3=Bengio|first3=Yoshua}}</ref> <ref name="effective">{{cite arXiv|eprint=1508.04025|class=cs.CL|last1=Luong|first1=Minh-Thang|last2=Pham|first2=Hieu|author-link=|title=Effective Approaches to Attention-based Neural Machine Translation|date=17 August 2015|last3=Manning|first3=Christopher D.}}</ref> <ref name="buck">{{cite web |url=https://www.aclweb.org/anthology/L14-1074/ |title=N-gram Counts and Language Models from the Common Crawl |last1=Buck |first1=Christian |last2=Heafield |first2=Kenneth |last3=van Ooyen |first3=Bas |website= |publisher= |date=May 2014 |pages=3579–3584 |access-date=22 January 2021 |quote= |archive-date=28 January 2021 |archive-url=https://web.archive.org/web/20210128201136/https://www.aclweb.org/anthology/L14-1074/ |url-status=live}}</ref> <ref name="under-lstms">{{cite web |url=https://colah.github.io/posts/2015-08-Understanding-LSTMs/ |title=Understanding LSTM Networks |last=Olah |first=Chris |website= |publisher= |date=27 August 2015 |access-date=22 January 2021 |quote= |archive-date=1 August 2017 |archive-url=https://web.archive.org/web/20170801085410/http://colah.github.io/posts/2015-08-Understanding-LSTMs/ |url-status=live}}</ref> <ref name="attentionRNNs">{{cite journal|last1=Olah|first1=Chris|last2=Carter|first2=Shan|date=8 September 2016|title=Attention and Augmented Recurrent Neural Networks|url=https://distill.pub/2016/augmented-rnns/|journal=Distill|volume=1|issue=9|doi=10.23915/distill.00001|access-date=22 January 2021|quote=|archive-date=22 December 2020|archive-url=https://web.archive.org/web/20201222104024/https://distill.pub/2016/augmented-rnns/|url-status=live|doi-access=free}}</ref> <ref name="gpt1paper">{{Cite web |url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf |title=Improving Language Understanding by Generative Pre-Training |last1=Radford |first1=Alec |last2=Narasimhan |first2=Karthik |last3=Salimans |first3=Tim |last4=Sutskever |first4=Ilya |pages=12 |publisher=[[:en:OpenAI|OpenAI]] |date=11 June 2018 |access-date=23 January 2021 |archive-date=26 January 2021 |archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf |url-status=live}}</ref> <ref name="tsvetkov">{{cite web |url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf |title=Opportunities and Challenges in Working with Low-Resource Languages |last=Tsvetkov |first=Yulia |website= |publisher=Carnegie Mellon University |date=22 June 2017 |access-date=23 January 2021 |quote= |archive-date=31 March 2020 |archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf |url-status=live}}</ref> <ref name="cloze">{{cite web |url=https://www.aclweb.org/anthology/W17-0906.pdf |title=LSDSem 2017 Shared Task: The Story Cloze Test |last1=Mostafazadeh |first1=Nasrin |last2=Roth |first2=Michael |last3=Louis |first3=Annie |last4=Chambers |first4=Nathanael |last5=Allen |first5=James F. |website= |publisher=Association for Computational Linguistics |date=3 April 2017 |access-date=23 January 2021 |quote=The LSDSem’17 shared task is the Story Cloze Test, a new evaluation for story understanding and script learning. This test provides a system with a four-sentence story and two possible endings, and the system must choose the correct ending to the story. Successful narrative understanding (getting closer to human performance of 100%) requires systems to link various levels of semantics to commonsense knowledge. |archive-date=22 November 2020 |archive-url=https://web.archive.org/web/20201122092238/https://www.aclweb.org/anthology/W17-0906.pdf |url-status=live}}</ref> <ref name="race">{{cite arXiv|eprint=1704.04683|class=cs.CL|last1=Lai|first1=Guokun|last2=Xie|first2=Qizhe|title=RACE: Large-scale ReAding Comprehension Dataset From Examinations|date=15 April 2017|last3=Hanxiao|first3=Liu|last4=Yang|first4=Yiming|last5=Hovy|first5=Eduard}}</ref> <ref name="multinli">{{cite web |url=https://www.aclweb.org/anthology/N18-1101.pdf |title=A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference |last1=Williams |first1=Adina |last2=Nangia |first2=Nikita |last3=Bowman |first3=Samuel |website= |publisher=Association for Computational Linguistics |date=1 June 2018 |access-date=23 January 2021 |quote=At 433k examples, this resource is one of the largest corpora available for natural language inference (a.k.a. recognizing textual entailment), [...] offering data from ten distinct genres of written and spoken English [...] while supplying an explicit setting for evaluating cross-genre domain adaptation. |archive-date=11 February 2020 |archive-url=https://web.archive.org/web/20200211002817/https://www.aclweb.org/anthology/N18-1101.pdf |url-status=live}}</ref> <ref name="glue">{{cite arXiv|eprint=1804.07461|class=cs.CL|last1=Wang|first1=Alex|last2=Singh|first2=Amanpreet|author-link=|title=GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding|date=20 April 2018|last3=Michael|first3=Julian|last4=Hill|first4=Felix|last5=Levy|first5=Omar|last6=Bowman|first6=Samuel R.}}</ref> <ref name="gpt2paper">{{cite journal|last1=Radford|first1=Alec|last2=Wu|first2=Jeffrey|last3=Child|first3=Rewon|last4=Luan|first4=David|last5=Amodei|first5=Dario|last6=Sutskever|first6=Ilua|date=14 February 2019|title=Language models are unsupervised multitask learners|url=https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf|journal=|volume=1|issue=8|access-date=19 December 2020|quote=|archive-date=6 February 2021|archive-url=https://web.archive.org/web/20210206183945/https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf|url-status=live}}</ref> <ref name="badpaper">{{cite arXiv|eprint=2006.05477|class=cs.CL|last1=Hegde|first1=Chaitra|last2=Patil|first2=Shrikumar|author-link=|title=Unsupervised Paraphrase Generation using Pre-trained Language Models|date=9 June 2020}}</ref> <ref name="openai">{{cite web |url=https://openai.com/blog/better-language-models/ |title=Better Language Models and Their Implications |last= |first= |website= |publisher=[[:en:OpenAI|OpenAI]] |date=14 February 2019 |access-date=19 December 2020 |quote= |archive-date=19 December 2020 |archive-url=https://web.archive.org/web/20201219132206/https://openai.com/blog/better-language-models/ |url-status=live}}</ref> <ref name="bookscorpus">{{cite arXiv|eprint=1506.06724|class=cs.CV|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|title=Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books|date=22 June 2015|last3=Zemel|first3=Richard|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|quote=# of books: 11,038 / # of sentences: 74,004,228 / # of words: 984,846,357 / mean # of words per sentence: 13 / median # of words per sentence: 11}}</ref> <ref name="commoncrawl">{{cite arXiv|eprint=1806.02847|class=cs.CL|last1=Trinh|first1=Trieu H.|last2=Le|first2=Quoc V.|author-link=|title=A Simple Method for Commonsense Reasoning|date=7 Jun 2018}}</ref> <ref name="voxxy">{{cite web |last=Piper |first=Kelsey |date=14 February 2019 |title=An AI helped us write this article |url=https://www.vox.com/future-perfect/2019/2/14/18222270/artificial-intelligence-open-ai-natural-language-processing |url-status=live |archive-url=https://web.archive.org/web/20201108002620/https://www.vox.com/future-perfect/2019/2/14/18222270/artificial-intelligence-open-ai-natural-language-processing |archive-date=8 November 2020 |access-date=19 December 2020 |work=[[:en:Vox Media|Vox]] |quote=}}</ref> <ref name="guardian">{{cite web |url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction |title=New AI fake text generator may be too dangerous to release, say creators |last=Hern |first=Alex |work=[[:en:The Guardian|The Guardian]] |date=14 February 2019 |access-date=19 December 2020 |quote= |archive-date=14 February 2019 |archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction |url-status=live}}</ref> <ref name="verge1">{{cite web |url=https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2 |title=OpenAI's new multitalented AI writes, translates, and slanders |last=Vincent |first=James |work=[[:en:The Verge|The Verge]] |date=14 February 2019 |access-date=19 December 2020 |quote= |archive-date=18 December 2020 |archive-url=https://web.archive.org/web/20201218091707/https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2 |url-status=live}}</ref> <ref name="voxxy2">{{cite web |url=https://www.vox.com/2019/5/15/18623134/openai-language-ai-gpt2-poetry-try-it |title=A poetry-writing AI has just been unveiled. It's ... pretty good. |last=Piper |first=Kelsey |work=[[:en:Vox Media|Vox]] |date=15 May 2019 |access-date=19 December 2020 |quote= |archive-date=7 November 2020 |archive-url=https://web.archive.org/web/20201107235346/https://www.vox.com/2019/5/15/18623134/openai-language-ai-gpt2-poetry-try-it |url-status=live}}</ref> <ref name="vb">{{cite web |url=https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/ |title=OpenAI releases curtailed version of GPT-2 language model |last=Johnson |first=Khari |website= |publisher=[[:en:VentureBeat|VentureBeat]] |date=20 August 2019 |access-date=19 December 2020 |quote= |archive-date=18 December 2020 |archive-url=https://web.archive.org/web/20201218130530/https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/ |url-status=live}}</ref> <ref name="verge2">{{cite web |url=https://www.theverge.com/2019/11/7/20953040/openai-text-generation-ai-gpt-2-full-model-release-1-5b-parameters |title=OpenAI has published the text-generating AI it said was too dangerous to share |last=Vincent |first=James |work=[[:en:The Verge|The Verge]] |date=7 November 2019 |access-date=19 December 2020 |quote= |archive-date=11 June 2020 |archive-url=https://web.archive.org/web/20200611054114/https://www.theverge.com/2019/11/7/20953040/openai-text-generation-ai-gpt-2-full-model-release-1-5b-parameters |url-status=live}}</ref> <ref name="neuralfakesnooze">{{cite news |last1=Schwartz |first1=Oscar |title=Could 'fake text' be the next global political threat? |url=https://www.theguardian.com/technology/2019/jul/04/ai-fake-text-gpt-2-concerns-false-information |access-date=16 July 2019 |work=The Guardian |date=4 July 2019 |archive-date=16 July 2019 |archive-url=https://web.archive.org/web/20190716035703/https://www.theguardian.com/technology/2019/jul/04/ai-fake-text-gpt-2-concerns-false-information |url-status=live}}</ref> <ref name="rnnnlp">{{cite web |url=https://towardsdatascience.com/recurrent-neural-networks-deep-learning-for-nlp-37baa188aef5 |title=Recurrent Neural Networks: Deep Learning for NLP |last=Bajpai |first=Akash |website=Towards Data Science |publisher= |date=23 February 2019 |access-date=19 January 2021 |quote=}}</ref> <ref name="staggering">{{cite web |url=https://syncedreview.com/2019/06/27/the-staggering-cost-of-training-sota-ai-models/ |title=The Staggering Cost of Training SOTA AI Models |last= |first= |website=Synced |publisher= |date=27 June 2019 |access-date=27 February 2021 |quote= |archive-date=24 November 2020 |archive-url=https://web.archive.org/web/20201124204913/https://syncedreview.com/2019/06/27/the-staggering-cost-of-training-sota-ai-models/ |url-status=live}}</ref> <ref name="register">{{cite web |url=https://www.theregister.com/2019/02/14/open_ai_language_bot/ |title=Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline |last=Quach |first=Katyanna |website=The Register |publisher= |date=14 February 2019 |access-date=27 February 2021 |quote= |archive-date=9 March 2021 |archive-url=https://web.archive.org/web/20210309093207/https://www.theregister.com/2019/02/14/open_ai_language_bot/ |url-status=live}}</ref> <ref name="vb2">{{cite web |url=https://venturebeat.com/2020/03/23/google-open-sources-framework-that-reduces-ai-training-costs-by-up-to-80/ |title=Google open-sources framework that reduces AI training costs by up to 80% |last=Wiggers |first=Kyle |website=VentureBeat |publisher= |date=23 March 2020 |access-date=27 February 2021 |quote= |archive-date=26 November 2020 |archive-url=https://web.archive.org/web/20201126044004/https://venturebeat.com/2020/03/23/google-open-sources-framework-that-reduces-ai-training-costs-by-up-to-80/ |url-status=live}}</ref> <ref name="opengpt2">{{cite web |url=https://blog.usejournal.com/opengpt-2-we-replicated-gpt-2-because-you-can-too-45e34e6d36dc?gi=4c998b75b4da |title=OpenGPT-2: We Replicated GPT-2 Because You Can Too |last1=Gokaslan |first1=Aaron |last2=Cohen |first2=Vanya |last3=Pavlick |first3=Ellie |last4=Tellex |first4=Stefanie |website= |publisher=Noteworthy |date=22 August 2019 |access-date=27 February 2021 |quote=}}</ref> <ref name="tds2">{{cite web |url=https://towardsdatascience.com/too-big-to-deploy-how-gpt-2-is-breaking-production-63ab29f0897c |title=Too big to deploy: How GPT-2 is breaking servers |last=Kaiser |first=Caleb |website=Towards Data Science |publisher= |date=31 January 2020 |access-date=27 February 2021 |quote= |archive-date=15 February 2020 |archive-url=https://web.archive.org/web/20200215145640/https://towardsdatascience.com/too-big-to-deploy-how-gpt-2-is-breaking-production-63ab29f0897c |url-status=live}}</ref> <ref name="teens">{{cite web |url=https://www.technologyreview.com/2021/02/26/1020010/trevor-project-ai-suicide-hotline-training/ |title=An AI is training counselors to deal with teens in crisis |last1=Ohlheiser |first1=Abby |last2=Hao |first2=Karen |website= |publisher=MIT Technology Review |date=26 February 2021 |access-date=27 February 2021 |quote= |archive-date=27 February 2021 |archive-url=https://web.archive.org/web/20210227001731/https://www.technologyreview.com/2021/02/26/1020010/trevor-project-ai-suicide-hotline-training/ |url-status=live}}</ref> <ref name="smartcompose">{{cite web |url=https://www.theverge.com/2019/7/24/20708542/coding-autocompleter-deep-tabnine-ai-deep-learning-smart-compose |title=This AI-powered autocompletion software is Gmail's Smart Compose for coders |last=Vincent |first=James |website=The Verge |publisher= |date=24 July 2019 |access-date=27 February 2021 |quote= |archive-date=9 March 2021 |archive-url=https://web.archive.org/web/20210309082626/https://www.theverge.com/2019/7/24/20708542/coding-autocompleter-deep-tabnine-ai-deep-learning-smart-compose |url-status=live}}</ref> <ref name="reddit">{{cite web |url=https://www.theverge.com/2019/6/6/18655212/reddit-ai-bots-gpt2-openai-text-artificial-intelligence-subreddit |title=There's a subreddit populated entirely by AI personifications of other subreddits |last=Vincent |first=James |website=The Verge |publisher= |date=6 June 2019 |access-date=27 February 2021 |quote= |archive-date=21 February 2021 |archive-url=https://web.archive.org/web/20210221143933/https://www.theverge.com/2019/6/6/18655212/reddit-ai-bots-gpt2-openai-text-artificial-intelligence-subreddit |url-status=live}}</ref> <ref name="ethics">{{cite web |url=https://www.theverge.com/2019/2/21/18234500/ai-ethics-debate-researchers-harmful-programs-openai |title=AI researchers debate the ethics of sharing potentially harmful programs |last=Vincent |first=James |website= |publisher=The Verge |date=21 February 2019 |access-date=27 February 2021 |quote= |archive-date=9 February 2021 |archive-url=https://web.archive.org/web/20210209123243/https://www.theverge.com/2019/2/21/18234500/ai-ethics-debate-researchers-harmful-programs-openai |url-status=live}}</ref> <ref name="pls">{{cite web |url=https://thegradient.pub/openai-please-open-source-your-language-model/ |title=OpenAI: Please Open Source Your Language Model |last=Zhang |first=Hugh |website= |publisher=The Gradient |date=19 February 2019 |access-date=28 February 2021 |quote= |archive-date=28 January 2021 |archive-url=https://web.archive.org/web/20210128091114/https://thegradient.pub/openai-please-open-source-your-language-model/ |url-status=live}}</ref> <ref name="tclat">{{cite web |url=https://techcrunch.com/2021/02/04/latitude-seed-funding/ |title=AI Dungeon-maker Latitude raises $3.3M to build games with 'infinite' story possibilities |last=Ha |first=Anthony |website= |publisher=TechCrunch |date=4 February 2021 |access-date=27 February 2021 |quote= |archive-date=21 February 2021 |archive-url=https://web.archive.org/web/20210221011815/https://techcrunch.com/2021/02/04/latitude-seed-funding/ |url-status=live}}</ref> <ref name="aidungeon">{{cite web |url=https://gizmodo.com/this-ai-powered-choose-your-own-adventure-text-game-is-1844593111 |title=This AI-Powered Choose-Your-Own-Adventure Text Game Is Super Fun and Makes No Sense |last=Nelius |first=Joanna |website=Gizmodo |publisher= |date=3 August 2020 |access-date=27 February 2021 |quote= |archive-date=28 February 2021 |archive-url=https://web.archive.org/web/20210228164901/https://gizmodo.com/this-ai-powered-choose-your-own-adventure-text-game-is-1844593111 |url-status=live}}</ref> <ref name="aid2">{{cite web |url=https://www.usgamer.net/articles/ai-dungeon-2-the-text-adventure-where-you-can-do-nearly-anything-is-now-on-mobile |title=AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile |last=Olson |first=Mathew |website= |publisher= |date=17 December 2019 |access-date=27 February 2021 |quote= |archive-date=20 September 2020 |archive-url=https://web.archive.org/web/20200920102933/https://www.usgamer.net/articles/ai-dungeon-2-the-text-adventure-where-you-can-do-nearly-anything-is-now-on-mobile |url-status=live}}</ref> <ref name="gpt3paper">{{cite arXiv|eprint=2005.14165|class=cs.CL|last1=Brown|first1=Tom B.|last2=Mann|first2=Benjamin|title=Language Models are Few-Shot Learners|date=July 22, 2020|last3=Ryder|first3=Nick|last4=Subbiah|first4=Melanie|last5=Kaplan|first5=Jared|last6=Dhariwal|first6=Prafulla|last7=Neelakantan|first7=Arvind|last8=Shyam|first8=Pranav|last9=Sastry|first9=Girish|last10=Askell|first10=Amanda|last11=Agarwal|first11=Sandhini|last12=Herbert-Voss|first12=Ariel|last13=Krueger|first13=Gretchen|last14=Henighan|first14=Tom|last15=Child|first15=Rewon|last16=Ramesh|first16=Aditya|last17=Ziegler|first17=Daniel M.|last18=Wu|first18=Jeffrey|last19=Winter|first19=Clemens|last20=Hesse|first20=Christopher|last21=Chen|first21=Mark|last22=Sigler|first22=Eric|last23=Litwin|first23=Mateusz|last24=Gray|first24=Scott|last25=Chess|first25=Benjamin|last26=Clark|first26=Jack|last27=Berner|first27=Christopher|last28=McCandlish|first28=Sam|last29=Radford|first29=Alec|last30=Sutskever|first30=Ilya|last31=Amodei|first31=Dario}}</ref> </references> <!-- <ref name="empty">{{cite web |url = |title = |last = |first = |website = |publisher = |date = |access-date = |quote = }}</ref> <ref name="empty">{{cite web |url = |title = |last = |first = |website = |publisher = |date = |access-date = |quote = }}</ref> <ref name="a">{{cite arXiv |last1 = |first1 = |last2 = |first2 = |last3 = |first3 = |author-link = |eprint = |title = |class = |date = }}</ref> --> }} <!-- {{Differentiable computing}} {{Existential risk from artificial intelligence}} --> {{DEFAULTSORT:しいひいていとう}} [[Category:OpenAI]] [[Category:ディープラーニングソフトウェアアプリケーション]] [[Category:オープンソース人工知能]] [[Category:大規模言語モデル]] [[Category:2019年のソフトウェア]]
このページで使用されているテンプレート:
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Cite web
(
ソースを閲覧
)
テンプレート:Ill2
(
ソースを閲覧
)
テンプレート:Infobox software
(
ソースを閲覧
)
テンプレート:Main
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
GPT-2
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報