大規模言語モデル

提供: testwiki
ナビゲーションに移動 検索に移動

テンプレート:WikipediaPage 大規模言語モデル(だいきぼげんごモデル、テンプレート:Lang-en-shortLLM)は、多数のパラメータ(数千万から数十億)を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテキストを使用して自己教師あり学習またはテンプレート:Ill2によって訓練が行われる[1]

LLMは2018年頃に登場し、さまざまなタスク(仕事)で優れた性能を発揮している。これにより、自然言語処理の研究の焦点は、特定のタスクに特化した教師ありモデルを訓練するという以前のパラダイムから転換した[2]。大規模言語モデルの応用は目覚ましい成果を上げているが、大規模言語モデルの開発はまだ始まったばかりであり、多くの研究者が大規模言語モデルの改良に貢献している[3]

大規模言語モデルという用語の正式な定義はないが、大規模コーパスで事前訓練された、数百万から数十億以上のパラメータを持つディープラーニングモデルを指すことが多い。LLMは、特定のタスク(感情分析固有表現抽出数学的推論など)のために訓練されたものとは異なり、幅広いタスクに優れた汎用モデルである[2][4]。LLMがタスクを実行する能力や対応可能な範囲は、ある意味では設計における画期的な進歩には依存せず、LLMに費やされた資源(データ、パラメータサイズ、計算力)の量の関数であるように見える[5]。多数のパラメータを持ったニューラル言語モデルは、文の次の単語を予測するという単純なタスクで十分に訓練することで、人間の言葉の構文や意味の多くを捉えられることがわかった。さらに、大規模な言語モデルは、世の中に関するかなりの一般知識を示し、訓練中に大量の事実を「記憶」することができる[2]

質の高い証拠とされる2023年のメタ分析によれば、大規模言語モデルの創造性に目を輝かせる研究者はもちろん世界中に存在し、小規模言語モデルにはできないタスクで大規模言語モデルが創造的であると主張する学者もいるが、これは測定基準の選択によるものであり、創造性によるものではないことが示唆されている。異なる測定基準を選択した場合、大規模言語モデルの創造性の優位性は見られない可能性が示唆されている[6]

特性

事前訓練データセット

テンプレート:See also

大規模言語モデル(LLM)は通常、さまざまな分野や言語にわたる大量のテキストデータで事前訓練が行われる[7]。著名な事前訓練データとしては、Common Crawlテンプレート:Ill2、MassiveText[8]WikipediaGitHubなどが知られている。大半のオープンソースのLLMは一般公開されているデータを利用しているが、非公開のデータで事前訓練が行われることもある[9]。事前訓練データは、重複排除、毒性が高いシーケンスの除外、低品質データの破棄など、生テキストをさまざまな手順で前処理して作成される[10]。言語データの蓄積は年率7%で増加しており、2022年10月現在、高品質な言語データは4兆6,000億語から17兆語の範囲内にあると推定されている[11]。LLMでは事前訓練データを広範に使用するため、事前訓練データに評価データが混入すると、ベンチマーク評価時のモデル性能に影響を与えるデータ汚染が起こる[12]

スケーリング則

テンプレート:Main 一般にLLMは、モデルの大きさ、訓練データセットの大きさ、訓練費用、訓練後の性能という4つのパラメータにより特徴づけられる。これらの4つの変数はそれぞれ実数で正確に定義することができ、経験から「スケーリング則(scaling laws)」と呼ばれている単純なテンプレート:Ill2によって関係していることがわかっている。

ある研究では、両対数テンプレート:Ill2のスケジュールで、1エポック分の自己回帰的な訓練を行ったLLMの場合のスケーリング則(テンプレート:Ill2)を、次のように表している[13]{C=C0NDL=ANα+BDβ+L0ここで、変数は次のとおりである。

  • C:モデルの訓練に掛かる費用(FLOPS単位)
  • N:モデル内のパラメータ数
  • D:訓練セット内のトークン数
  • L:テストデータセットで訓練されたLLMにより達成される、トークン当たりの平均の負対数尤度損失(ナット/トークン)

統計パラメータは次のとおりである。

  • C0=6、すなわち、1つのトークンで訓練するにはパラメータごとに6 FLOPSの費用がかかる[14]。ここで、訓練費用は推論費用よりもはるかに高いことに注意を要する。1つのトークンを推論する費用はパラメータあたり1~2 FLOPSである。
  • α=0.34,β=0.28,A=406.4,B=410.7,L0=1.69

創発的能力

質問応答などのタスクを含め、多くの自然言語ベンチマークでは、モデルがある規模に達するまでは偶然によるものよりも性能が劣り、ある時点で性能が急激に向上する。それぞれの図は創発的能力の例を示している。モデル規模は訓練の計算量によって測定されている。

一般に、さまざまなタスクに対する大規模モデルの性能は、同様の小規模モデルの性能に基づいて推定することができるが、ときには、下流におけるスケーリング則が「破綻」し[15]、大規模モデルが、小規模モデルとは異なる速度で突然に能力を獲得することがある。これは「創発的能力」(テンプレート:Lang-en-short)として知られているもので、これまでも多くの研究の対象であった。研究者は、こうした能力は「小規模モデルの性能を外挿することでは予測できない」ことが多いと指摘している[4]。このような能力は、プログラムされたり設計されたりするものではなく、むしろ「発見される」ものであり、場合によっては、LLMが一般公開されて初めて発見されることすらある[5]。これまでに数百もの創発的能力が報告されている。たとえば、多段階の算術、大学レベルの試験、単語の意図する意味の特定[4]思考の連鎖[4]国際音声記号の解読、マス埋めパズル、ヒングリッシュ(ヒンディー語と英語の混成語)の段落内の不快な内容の特定、およびスワヒリ語のことわざに相当する英語の生成などがある[16]

Schaefferらは、創発的な能力は予測不可能な形で獲得されるのではなく、滑らかなスケーリング則に従って予測通りに獲得されると主張している[17]。著者らは、LLMが多肢選択問題を解く統計的トイモデルを検討し、他の種類のタスクを考慮して修正されたこの統計モデルが、これらのタスクにも適用できることを示した。

ここで、x をパラメータ数、y をモデルの性能とする。

  • y=average Pr(correct token)のとき、(logx,y)指数曲線(1でプラトーに達する前)となり、創発のように見える。
  • y=average log(Pr(correct token)) のとき、(logx,y) のプロットは直線(0でプラトーに達する前)となり、創発には見えない。
  • y=average Pr(the most likely token is correct) のとき、(logx,y)ステップ関数となり、創発のように見える。

歴史

先駆者

大規模言語モデルの基本的な考え方は、単純で反復的なアーキテクチャを持つランダムな重みを持つニューラルネットワークを出発点とし、大規模な言語コーパスで訓練することである。

この最も初期の例のひとつがエルマンネットワーク[18]、「犬が男を追いかける」のような単純な文でリカレントネットワークを訓練した。訓練したネットワークは、各単語をベクトル(内部表現)に変換した。次にこれらのベクトルを接近度によって木構造にクラスタリングした。その結果、ツリーはある構造を示すことがわかった。動詞と名詞はそれぞれ別の大きなクラスターに属していた。名詞のクラスター内には、無生物(inanimates)と生物(animates)の2つの小さなクラスターがある、などである。

別の方法として、自然言語理解を記号プログラムによってコンピュータにプログラムするテンプレート:Ill2があった。この方法は1990年代まで主流であった。単純な機構と大規模なコーパスによって自然言語を学習するという着想は1950年代に始まったが、商業的に最初に成功したのは、テンプレート:Ill2のためのテンプレート:Ill2(1990年代)であった。

Transformerフレームワークへの進化

初期の「大規模」言語モデルは、長期・短期記憶(LSTM、1997年)などのリカレントアーキテクチャを使用して構築された。AlexNet(2012年)が画像認識における大規模ニューラルネットワークの有効性を実証した後、研究者は大規模ニューラルネットワークを他のタスクに適用した。2014年には、2つの主要な手法が提案された。

2016年、Google翻訳はその機構をテンプレート:Ill2からテンプレート:Ill2へと変更した。これは、LSTMとアテンションによるseq2seqである。10年かけて構築された以前のシステムよりも高いレベルの性能に到達するのに9カ月を要したという[22][23]

2017年の論文「Attention is all you need[24]では、アテンション機構を抽象化して[21]、アテンション機構を中心としたTransformerアーキテクチャを構築した。seq2seqモデルは、他のリカレントネットワークと同様、入力シーケンスを一度に1つずつ処理しなければならないのに対し、Transformerアーキテクチャはシーケンス上で並列に実行することができる。これによって、より大規模なモデルを訓練できるようになった。

BERTとGPT

BERT(2018年)[25]は双方向Transformerであり、GPT(2018年)[26][27]は単方向(自己回帰)Transformerである。これらは2023年時点の主要なアーキテクチャである。

アーキテクチャ

大規模言語モデルでは、2018年以降、逐次データに対する標準的なディープラーニング手法となったTransformer(トランスフォーマー)アーキテクチャが最もよく使用されている[2]。別のアーキテクチャの系統として、テンプレート:Ill2(Mixture of experts、MoE)がある。これはGoogleが開発したAIモデルでしばしば使用されており、sparsely-gated MoE(2017年)に始まり[28]、Gshard(2021年[29])、GLaM(2022年)へと続いている[30]

トークン化

LLMは数学的な関数であり、その入力と出力は数字のリストである。したがって、単語は数値に変換しなければならない。

一般に、LLMはこれを行うために固有のトークナイザを使用し、テキストと整数のリストを対応させている。通常、LLMを訓練する前にトークナイザを訓練データセットの全体に適用し、その後は凍結する。トークナイザにはバイト対符号化が選択されるのが一般的である。

トークナイザのもう一つの機能は、計算量を削減するためのテキスト圧縮である。たとえば「where is(どこにありますか)」などの一般的な単語やフレーズは、7文字ではなく1つのトークンでエンコードすることができる。OpenAI GPTシリーズでは、1つのトークンが一般的な英語テキストの約4文字、つまり約0.75語に相当するトークナイザを使用している[31]。珍しい英語のテキストは予測しにくく、そのため圧縮が困難となり、より多くのトークンを必要とする。

トークナイザは、任意の整数を出力することはできない。一般的には {0,1,2,...,V1} の範囲の整数に限って出力される。ここで、V は語彙(ごい)サイズと言う。

トークナイザには、任意のテキストを扱えるものと(一般にUnicodeで直接操作する)、そうでないものがある。トークナイザは、エンコード不可能なテキストに遭遇した場合、「未知テキスト(unknown text)」を意味する特別なトークン(多くは0)を出力する。BERT論文にならって、テンプレート:Mono と表記されることが多い。

もう一つの特別なトークンは、「パディング」を表す テンプレート:Mono (多くは1)である。これは、一度に大量のテキストがLLMに入力されたときに、エンコードされたテキストが同じ長さになるよう調節するのに使用される。LLMでは一般に、入力の長さが一定のシーケンス(ジャグ配列という)であることを要求するため、エンコードした短いテキストを長いテキストにそろえるのにパディングを行う。

出力

LLMの出力は、その語彙の確率分布である。これは通常、次のように実装される。

  • テキストを受信すると、大半のLLMはベクトル yV を出力する。ここで、V は語彙サイズ(上述)である。
  • ベクトル yソフトマックス関数によって softmax(y) となる。

このプロセスでは通常、ベクトル y は非正規化ロジットベクトルといい、ベクトル softmax(y) は確率ベクトルと呼ばれる。ベクトル softmax(y)V 個のエントリを持ち、すべて非負であり、その合計は1となるので、{0,1,2,...,V1} に対する確率分布、つまりLLMの語彙に対する確率分布であると解釈することができる。

ソフトマックス関数は数学的に定義されており、変化するパラメータを持たないことに注意を要する。したがっては訓練は行われない。

コンテキストウィンドウ

LLMのコンテキストウィンドウは、LLMがトークンを生成するために使用できる最長のトークンシーケンスの長さである。もしLLMがコンテキストウィンドウより長いシーケンスに対してトークンを生成するときは、トークンシーケンスをコンテキストウィンドウまで切り詰めるか、アルゴリズムに一定の変更を加える必要がある。

LLMのコンテキストウィンドウ長は1,000(1k)から10kのオーダーになる傾向がある。特にOpenAIは、2023年6月時点で、4kから16kまでのコンテキストウィンドウを備えたGPT-3.5を提供している[32]

エンコーダーとデコーダーの用語

Transformerに基づくLLMでは、Transformerの原著論文で使われている用語とは多少異なる[33]

  • エンコーダのみ: フルエンコーダ、フルデコーダ
  • エンコーダー - デコーダー: フルエンコーダー、自己回帰デコーダー
  • デコーダのみ: 自己回帰エンコーダ、自己回帰デコーダ

ここでの「自己回帰」とは、「マスク化アテンション」節で説明したように、あるトークンからそれに続くすべてのトークンへのアテンションをゼロにするために、アテンションヘッドにマスクが挿入されることを意味する。

訓練

ほとんどのLLMは事前訓練されており、テキストトークンの訓練データセットが与えられると、モデルはデータセット内のトークンを予測する。このような事前訓練には一般に2つの形式がある[34]

  • 自己回帰モデル(GPT型、次単語予測)
    「私が食べるのが好きなのは」のようなテキスト部分が与えられると、モデルは「アイスクリーム」のような「次のトークン」を予測する。
  • マスク済みモデル(BERT型[35]テンプレート:Ill2
    「私は [MASK] クリームを [MASK] したい」 のようなテキスト部分が与えられると、モデルは「アイスを食べる」のような隠されたトークンを予測する。

LLMは、次文予測(Next Sentence Prediction、NSP)のように、データ分布の理解をテストする補助タスクを使用して訓練することもある[35]。この場合は、文の組が提示され、モデルはそれらが訓練コーパス内で連続して出現するかどうかを予測しなければならない。

通常、LLMは特定の損失関数、つまりトークンごとの平均負対数尤度交差エントロピー損失とも呼ばれる)を最小化するように訓練するテンプレート:Citation needed。たとえば、自己回帰モデルで「食べるのが好き」が与えられ、確率分布 Pr(|I like to eat) を予測する場合、このトークンに対する負対数尤度損失は logPr(ice|I like to eat) となる。

訓練のとき、訓練を安定させるために正則化損失も使用される。ただし、正則化損失は通常、テストや評価の際には使用されない。また、負対数尤度だけでなく、他にも多くの評価項目がある。詳細については以下の節を参照のこと。

訓練用データセットの大きさ

最初期のLLMは、数十億語の規模のコーパスで訓練が行われた。

OpenAIGPT(generative pre-trained transformer)シリーズの最初のモデルであるGPT-1は、2018年に、9億8500万語で構成されるBookCorpusで訓練された[36]。同年、BERTはBookCorpusと英語版Wikipediaの組み合わせで訓練され、合計で33億語になった[35]。それ以来、LLMの訓練用コーパスは桁違いに増加し続けており、トークン数は最大で数兆個に達した[35]

訓練費用

LLMの訓練には計算費用がかかる。2020年の調査では、15億パラメータのモデル(当時の最先端技術より2桁小さい)の訓練にかかる費用は8万ドルから160万ドルと見積もられた[37][38]。その後、ソフトウェアとハードウェアの進歩により費用は大幅に下がり、2023年の論文では、120億パラメータのモデルを訓練するための費用は72,300 A100-GPU 時間であると報告されている[39]

TransformerベースのLLMの場合、訓練コストは推論コストよりもはるかに高くなる。1つのトークンを訓練するのに1パラメータあたり6 FLOPSのコストがかかるのに対し、1つのトークンを推論するには1パラメータあたり1~2 FLOPSである[14]

2020年代の企業は、ますます大規模になるLLMに巨額の投資を行った。GPT-2(15億パラメータ、2019年)の訓練費用に5万ドル、またGoogle PaLM(54億パラメータ、2022年)は800万ドルを要した[40]

下流タスクへの適用

2018年から2020年にかけて、特定の自然言語処理(NLP)タスクでLLMを使用するための標準的な方法は、「タスクに特化」した追加訓練によってモデルをファインチューニングすることであった。その後、GPT-3のような「より強力」なLLMでは、解決すべき問題をテキストプロンプトとしてモデルに提示したり、場合によっては、類似の問題とその解決策のいくつかのテキスト例とともに提示する「プロンプティング技術」を使用して、追加の訓練なしでタスクを解決できることがわかった[2]

ファインチューニング

テンプレート:Mainファインチューニング(テンプレート:Lang-en-short、微調整)とは、事前訓練された既存の言語モデルを、特定のタスク(例: 感情分析固有表現識別テンプレート:Ill2)で(教師ありの)訓練を行うことによって修正する手法である。これは転移学習の一種である。一般的には、言語モデルの最終層と下流タスク(テンプレート:Lang-en-short)の出力とを接続する新しい重みのセットを導入することになる。言語モデルの元の重みは「凍結」したまま、それらを出力に接続する新しい重み層のみが訓練中に調節されるように構成する。また、元の重みをわずかずつ更新させたり、あるいは以前の凍結された層と一緒に更新されることもある[35]

プロンプト

テンプレート:See alsoGPT-3によって普及したプロンプトパラダイムでは[4]、解決すべき問題はテキストプロンプト(回答を促す指示)で定式化され、モデルは(推論して)補完を生成することによってそれを解決しなければならない。「少数ショットプロンプト」(テンプレート:Lang-en-short)の場合、プロンプトには類似した組(問題、解決)の少数の例が含まれる[2]。たとえば、映画レビューに対する感情をラベル付けする感情分析タスクは、次のような例で回答が促される[4]

レビュー: この映画は気が沈む。
感情: ネガティブ

レビュー: この映画は素晴らしい!
感情: 

もしモデルが「ポジティブ」と出力すれば、正しくタスクが解決されたことになる[37][41]。一方、「ゼロショットプロンプト」(テンプレート:Lang-en-short)の場合、解決例を提供しない。同じ感情分析タスクに対するゼロショットプロンプトの例は、『映画レビューに関連するセンチメントは「この映画は素晴らしい!」』である[42]

LLMにおける少数ショットの性能は、NLPタスクで競争力のある結果を達成することが示されており、ときには先行する最先端のファインチューニング手法を凌ぐことさえある。このようなNLPタスクの例としては、翻訳質問応答テンプレート:Ill2、マス埋めパズル、文中の新語検出などがある[41]。優れたプロンプトを作成し、最適化することをプロンプトエンジニアリングと呼ぶ。

インストラクション・チューニング

インストラクション・チューニング(テンプレート:Lang-en-short、命令チューニング)は、より自然で正確なゼロショットプロンプトによる対話を促進するために考案されたファインチューニングの一形態である。テキストが入力されると、事前訓練された言語モデルは、訓練に使用したテキストコーパスの分布に一致するような補完を生成する。たとえば、「ハムレットの主要テーマについてエッセイを書いてください」というプロンプトが与えられたとき、単純な言語モデルは「3月17日以降に受け取った提出物には、1日あたり10%の遅延損害金が適用されます」といった(意図しない)補完を出力するかもしれない。インストラクション・チューニングでは、自然言語による命令として定式化された多くのタスクの例と、適切な応答を用いて言語モデルを訓練する。

インストラクション・チューニングでは、さまざまな手法が実践されている。その一例である「自己学習(テンプレート:Lang-en-short)」は、LLMによって生成された事例(人間が作成した少数の初期事例からブートストラップしたもの)の訓練セットで言語モデルをファインチューニングする[43]

強化学習によるファインチューニング

OpenAIのInstructGPTプロトコルでは、人間が作成したプロンプトと応答の組からなるデータセットによる教師ありファインチューニングと、それに続く、人間のフィードバックによる強化学習(RLHF)を伴っている。この場合、人間の好みを反映したデータセットを用いて報酬関数を教師あり学習し、その後、この報酬モデルを使用したテンプレート:Ill2によってLLM自体を訓練する[44]

ツールの使用

LLMだけでは解決が難しい、あるいは不可能な問題もある。たとえば、「354 * 139 = 」のような計算式の場合、次のトークンを予測することは困難であり、「What is the time now? It is」(今は何時ですか? 今は)についてはまったく予測できない。しかし、人が計算機を使って計算し、時計を使って時刻を知るように、LLMも他のプログラムを呼び出して次のトークンを予測することができる。LLMは、「What is the time now? It is {system.time()}」(今何時ですか? 今は{system.time()})や、「354 * 139 = {354 * 139}」のようにプログラムコードを生成し、次に別のプログラムインタプリタが生成されたコードを実行してその出力を埋める[45][46]。この基本的な戦略は、生成されたプログラムを複数回試行したり、別のサンプリング戦略を使用して改良することもできる[47]

一般的に、LLMにツール(道具)を使わせるためには、ツールを使えるようにファインチューニングする必要がある。ツールの数が有限であれば、ファインチューニングは一度で済むかもしれない。オンラインのAPIサービスのようにツールの数が任意に増えるのであれば、APIの仕様書を読み取ってAPIを正しく呼び出せるようにLLMをファインチューニングすることができる[48][49]

より単純なツールの使用形態として、検索拡張生成(Retrieval Augmented Generation、RAG)があり、これはLLMを文書検索を使用して拡張するもので、ときにはテンプレート:Ill2を使うこともある。クエリが与えられると、文書検索ツールが呼び出され、もっとも関連性が高い文書が取得される(通常、初めにクエリと文書をベクトルで符号化し、次にクエリベクトルにユークリッドノルムで最も近いベクトルを持つ文書を検索する)。その後、LLMは、クエリと取得した文書の両方に基づいて出力を生成する[50]

エージェント

LLMは言語モデルであり、それ自体は目標を持たないためエージェントではないが、知的エージェントの構成要素として使用することができる。

ReAct(Reason + Act)法は、LLMをプランナーとして使用し、LLMからエージェントを構築するものである。LLMは「考えごとを声に出して言う」よう促される。具体的には、言語モデルに対して、環境のテキスト表現、目標、可能な行動のリスト、および過去の行動と観察の記録が与えられる。LLMは、行動を決める前に1つまたは複数の思考を行い、それが環境内で実行される[51]。LLMプランナーに与えられる環境の言語的記述は、ときには環境を記述した論文のLaTeXコードすら考えられる[52]

リフレクション法[53]は、いくつかのエピソードにわたって学習するエージェントを構築する手法である。各エピソードの終わりに、LLMはそのエピソードの記録が渡され、次のエピソードでより良い成績を出すための「教訓」を考えるように促される。これらの「教訓」は次のエピソードでエージェントに渡される。

モンテカルロ木探索では、LLMをロールアウトのためのヒューリスティクスとして使用することができる。プログラムされた世界モデルが利用できない場合、LLMは世界モデルとして動作するように環境を説明するよう促されることもある[54]

オープンエンド探索では、LLMを観測値の「興味深さ(interestingness)」のスコアリングに使用し、これを通常の(非LLM)強化学習エージェントを誘導する報酬信号として使用することができる[55]。あるいは、LLMに、カリキュラム学習のために次第に難しくなるタスクを提案させることもできる[56]。LLMプランナーは、個々の行動を出力する代わりに、複雑な行動シーケンスを表す「スキル」や関数を構築することもできる。スキルを保存して後で呼び出すことができるため、プランニングの抽象度を高めることができる[56]。LLMを使用したエージェントは、過去のコンテキストの長期記憶を保持して、この記憶は検索拡張生成と同じ方法で取り出すことができる。このようなエージェントどうしが社会的に相互作用することができる[57]

圧縮

通常、LLMの訓練では、全精度または半精度の浮動小数点数(float32とfloat16)が使用される。float16は16ビット(つまり2バイト)なので、たとえば10億個のパラメータは2ギガバイトのサイズとなる。典型的な最大級のモデルは1,000億個のパラメータを持ち、ロードするのに200ギガバイトを必要とするため、ほとんどの一般向けコンピュータの能力を超えたものとなる。テンプレート:Ill2Post-training quantization)は[58]、訓練済みモデルの性能をほとんど維持したまま、パラメーターの精度を下げることで、必要なサイズを削減することを目的としている[59][60]。量子化の最も単純な形は、すべての数値を所定のビット数に切り捨てるだけである。これは、層ごとに異なる量子化コードブックを使用することで改善できる。さらに、パラメータごとにテンプレート:Ill2を適用し、特に重要なパラメータ(外れ値の重み)にはより高い精度を確保することで、さらなる改善をはかることができる[61]

量子化モデルは通常は凍結され、量子化前のモデルだけがファインチューニングされるが、量子化モデルも引き続きファインチューニングが可能である[62]

評価

パープレキシティ

言語モデルの性能を表す最も一般的な指標は、所与のテキストコーパスにおける言語モデルのパープレキシティである。パープレキシティは、モデルがデータセットの内容をどれだけうまく予測できるかを示す尺度である。モデルがデータセットに割り当てる尤度(ゆうど)が高いほど、パープレキシティは低くなる。数学的には、パープレキシティは、トークンごとの平均負対数尤度の対数として定義される。log(Perplexity)=1Ni=1Nlog(Pr(tokeni|context for tokeni))ここで、N はテキストコーパス内のトークン数であり、「context for token i(トークン i の文脈)」は使用するLLMの種類に依存する。たとえば、LLMが自己回帰型の場合、「context for token i」はトークン i よりも前に現れたテキストの一部である。

言語モデルは訓練データに対して過剰適合する可能性があるため、モデルは通常、未知のデータから構成されるテストセットに対するパープレキシティによって評価される。このことは、大規模な言語モデルを評価する際に、特に重要な課題となる[35]。言語モデルの訓練は、主にウェブから収集された、より大規模なテキストコーパスが使用されるため、モデルの訓練データに特定のテストセットの一部が誤って含まれてしまう可能性がますます高くなる[41]

タスク固有のデータセットとベンチマーク

また、言語モデルがより具体的な下流タスクを実行する能力を評価するために、多くのテスト用データセットやベンチマークが開発されている。テストは、一般的な知識、常識的な推論、数学的な問題解決など、さまざまな能力を評価するために設計することができる。

評価用データセットの大区分の1つに、質問と正解の組で構成される質問応答データセットがある。たとえば、『「サンノゼ・シャークスはスタンレーカップで優勝しましたか?」、「いいえ」 』のような組である[63]。質問回答タスクでは、モデルのプロンプトに期待される答えを導き出せるテキストが含まれる場合、「明白なもの(オープンブックテンプレート:Enlink)」とみなされる。たとえば、先の質問には、「2016年、シャークスはスタンレーカップ決勝戦に進出し、ピッツバーグ・ペンギンズに敗れた。」という文を含むテキストが追加される可能性がある[63]。そうでない場合、タスクは「(理解する術がなく)説明できないもの(クローズドブック)」とみなされ、モデルは訓練中に獲得した知識を動員する必要がある[64]。一般的な質問回答データセットの例として、TruthfulQA、Web Questions、TriviaQA、SQuADなどがある[64]

評価用データセットは、テキスト補完の形式をとることもできる。この場合、モデルは、プロンプトを完成させるために最も可能性の高い単語や文章を選択する。たとえば、「アリスはボブと友達だった。アリスは彼女の友人の___を訪ねた。」のような穴埋め型の設問である[41]

また、さまざまな評価データセットやタスクを組み合わせた複合ベンチマークも開発されている。たとえば、GLUE、SuperGLUE、MMLU、BIG-bench、HELMなどがある[65][64]

かつては、評価用データセットの一部を手元に残し、残りの部分で教師ありファインチューニングを行い、その後に結果を報告するのが一般的であった。現在では、事前訓練されたモデルをプロンプティング技術によって直接評価することが一般的になっている。しかし、特定のタスクに対するプロンプトの作成方法、特にプロンプトに付加される解決済みタスクの事例数(nショットプロンプトのn値)については研究者によって異なる。

逆説的に構成された評価

大規模言語モデルの改良が急速に進んでいるため、評価ベンチマークの寿命は短く、最先端のモデルが既存のベンチマークを急速に「飽和」させ、人間の注釈者の能力をも超えてしまう。そのためベンチマークをより難易度が高いタスクで置き換えたり、強化したりする取り組みが行われている[66]

中には敵対的に構築されたデータセットもあり、人間と比べて既存の言語モデルの性能が異常に低いと思われる特定の問題に重点が置かれている。その一例がTruthfulQAデータセットで、言語モデルが訓練中に繰り返し触れた虚偽を模倣することで不正確な解答をする可能性がある、817問からなる質問応答データセットである。たとえば、LLMは「Can you teach an old dog new tricks?(年老いた犬に新しい芸を教えられますか?)」という質問に対して、「you can't teach an old dog new tricks(老犬に新しい芸を仕込むことはできない)」という英語の語法に触れた結果、文字通り真実でないにもかかわらず、「No」と答えるかもしれない[67]

さらに、AIが多肢選択式テスト(○×式テスト)において、必ずしも実際に訪ねられている設問を理解することなく表面的な問題文の統計的相関を利用して正解を推測し、「カンニング」する「ショートカット学習」と呼ばれるケースもある[68]

敵対的評価データセットのもう一つの例は、Swagとその後継のHellaSwagである。これは、文章を完成させるためにいくつかの選択肢から一つを選択しなければならない問題を集めたものである。不正解の選択肢は、言語モデルからサンプリングし、一連の分類器でフィルタリングすることで作成された。その結果、人間にとっては些細な問題でも、データセットが作成された当時は、最先端の言語モデルの精度は思わしくなかった。たとえば、次のようなものである。

フィットネスセンターの看板が見える。そして、エクササイズボールに座ったり横たわりながら、カメラに向かって話しかける男性が見える。その男性は、...

a) ボールの上を走ったり降りたりして、運動の効果を効率的にする方法を実演している。

b) すべての腕と脚を動かしてたくさんの筋肉をつけている。

c) 次にボールを投げ、グラフィックや生け垣の刈り込みの実演を見る。

d) ボールの上で腹筋運動をしながら話をしている[69]

BERTは最も可能性の高い補完としてb)を選択したが、正解はd)である[69]

解釈

大規模言語モデルは、それ自体が「ブラックボックス」であり、どのようにして言語タスクを実行できるのかは明らかではない。しかし、LLMがどのように機能するかを理解するためのいくつかの方法がある。

機械的解釈可能性 は、LLMによって実行される推論を近似する記号アルゴリズムを発見することにより、LLMをリバースエンジニアリングすることを目的としている。オセロGPT(Othello-GPT)はその一例で、オセロの正当な手を予測するように小規模なTransformerが訓練された。その結果、オセロ盤の線形表現が存在し、この表現を変更することで、予測される正当なオセロの手が正しい方向に変化することがわかった[70][71]。別の例では、著者はモジュラ算術加算に対して小規模なTransformerを訓練し、得られたモデルをリバースエンジニアリングしたところ、離散フーリエ変換を使用していることがわかった[72]

別の例では、小規模なTransformerをテンプレート:Ill2に対して訓練している。オセロGPTの例と同様に、Karelプログラムのセマンティクスには線形表現があり、その表現を修正すると出力が正しく変更される。このモデルはまた、訓練セット内のプログラムよりも平均して短く、正しいプログラムを生成した[73]

理解力と知性

2022年の調査で、(チューニングされていない)LLMが、「自然言語を何らかの自明でない意味で理解できる(ことがある)か」という問いに対して、自然言語処理研究者の意見は真っ二つに分かれた[68]。「LLMは理解力を持つ」派の支持者は、数学的推論のようないくつかのLLMの能力は、特定の概念を「理解」する能力を意味すると考えている。マイクロソフトのチームは、2023年に、GPT-4は「数学、コーディング、視覚、医学、法律、心理学などにまたがる斬新で難しいタスクを解決できる」とし、GPT-4は「汎用人工知能システムの初期バージョン(しかしまだ未完成)とみなすのが妥当だろう」と主張し、「ソフトウェア工学の受験者の試験に合格するシステムが、本当の意味で知的ではないと言えるだろうか?[74][75]」と述べた。LLMを「地球外生命の知能」と呼ぶ研究者もいる[76][77]。たとえば、ConjectureのCEOであるコナー・リーヒーは、チューニングされていないLLMを、まるで得体の知れないエイリアン「ショゴス」のようだと見なし、RLHFチューニングがLLMの内部構造を覆い隠す「見せかけの笑顔」を作り出すと考えている。『あまり無理をしなければ、笑顔のままだ。しかし(予期せぬ)プロンプトを与えると突然、狂気、奇妙な思考過程、そして明らかに人間ではない理解といった巨大な裏の顔を覗かせる』[78][79]

対照的に、「LLMは理解力を欠く」派の支持者の中には、既存のLLMは「既存の文章を単に練り直し、組み替えているだけ」であると考えたり[77]、既存のLLMが予測能力、推論能力、主体性、説明可能性において依然として欠点を抱えていることを指摘したりする人もいる[68]。たとえば、GPT-4は計画やリアルタイム学習においてもっともな欠陥がある[75]生成的LLMは、テンプレート:Ill2ではテンプレート:Ill2されないような事実を自信をもって主張することが観察されており、この現象は「ハルシネーション(幻覚)」として知られている[80]。神経科学者のテレンス・セジュノウスキー(Terrence Sejnowski)は、「LLMの知性に関する専門家の意見の相違は、自然の叡智に基づく私たちの古い考え方が十分ではないことを示唆している」と主張している[68]

より広範囲な影響

2023年、科学雑誌 テンプレート:Ill2 は、人間が書いたテキストと大規模言語モデルによって作成されたテキストを「正確に区別することはもはや不可能」であり、「汎用大規模言語モデルが急速に普及することはほぼ確実である。いずれは多くの業界を変えてゆくだろう。」と結論づけた[81]ゴールドマン・サックスは2023年、言語生成AIは今後10年間で世界のGDPを7 %増加させ、全世界で3億人の雇用を自動化にさらす可能性があると示唆した[82][83]。一部の投稿者は、偶発的または意図的な誤情報の作成や、その他の悪用に対して懸念を表明した[84]。たとえば、大規模言語モデルが利用できるようになると、バイオテロを起こすのに必要な技術レベルを下げる可能性がある。バイオセキュリティの研究者であるケビン・エスフェルトは、LLM開発者は、病原体の作成や改良に関する論文を訓練データから除外すべきだと提案している[85]

大規模言語モデルの一覧

大規模言語モデルの一覧
名称 公開日テンプレート:Efn 開発者 パラメータ数テンプレート:Efn コーパスサイズ ライセンステンプレート:Efn 注記
BERT テンプレート:Dts Google テンプレート:Sort[86] テンプレート:Sort[86] テンプレート:Yes[87] 初期の影響力のある言語モデルだが[2]、エンコーダのみで、プロンプトや生成的モデルを想定していない[88]
XLNet テンプレート:Dts Google テンプレート:Sort[89] テンプレート:Sort words An alternative to BERT; designed as encoder-only[90][91]
GPT-2 テンプレート:Dts OpenAI テンプレート:Sort[92] 40GB[93] (~テンプレート:Sortトークン) [94] テンプレート:Yes[95] Transformerアーキテクチャに基づく汎用モデル
GPT-3 テンプレート:Dts OpenAI テンプレート:Sort[37] テンプレート:Sortトークン[94] テンプレート:Partial GPT-3のファインチューニング版はGPT-3.5と呼ばれ、2022年にChatGPTというWebインターフェースを通じて一般公開された[96]
GPT-Neo テンプレート:Dts テンプレート:Ill2 テンプレート:Sort[97] 825 GiB[98] テンプレート:Yes[99] EleutherAIがリリースした無料のGPT-3代替シリーズのうち最初のもの。GPT-Neoは、いくつかのベンチマークで同サイズのGPT-3モデルよりも優れていたが、最大のGPT-3よりは大幅に劣っていた[99]
テンプレート:Ill2 テンプレート:Dts EleutherAI テンプレート:Sort[100] 825 GiB[98] テンプレート:Yes GPT-3方式の言語モデル
Megatron-Turing NLG テンプレート:Dts[101] Microsoft and Nvidia テンプレート:Sort[102] テンプレート:Sortトークン[102] テンプレート:No 標準的なアーキテクチャだが、スーパーコンピューティング・クラスターで訓練された
Ernie 3.0 Titan テンプレート:Dts Baidu テンプレート:Sort[103] 4 Tb テンプレート:No 中国語版LLM。Ernie Botはこのモデルに基づく。
Claude[104] テンプレート:Dts Anthropic テンプレート:Sort[105] テンプレート:Sortトークン[105] テンプレート:Partial 会話で望ましい動作をするようにファインチューニングされた[106]
GLaM (Generalist Language Model) テンプレート:Dts Google テンプレート:Sort[30] テンプレート:Sortトークン [30] テンプレート:No GPT-3と比較して、訓練費用は高いが、推論費用は安い、スパース混合エキスパートモデル
Gopher テンプレート:Dts DeepMind テンプレート:Sort[107] テンプレート:Sortトークン[108] テンプレート:No
LaMDA (Language Models for Dialog Applications) テンプレート:Dts Google テンプレート:Sort[109] 1.56T語,[109] テンプレート:Sortトークン[108] テンプレート:No 会話での応答生成に特化し、Google Bardチャットボットで使用されている
GPT-NeoX テンプレート:Dts EleutherAI テンプレート:Sort[110] 825 GiB[98] テンプレート:Yes Megatronアーキテクチャに基づく
テンプレート:Ill2 テンプレート:Dts DeepMind テンプレート:Sort[111] テンプレート:Sortトークン [111][108] テンプレート:No より多くのデータで訓練されたパラメータ削減モデル。Sparrowボットで使用された。
PaLM (Pathways Language Model) テンプレート:Dts Google テンプレート:Sort[112] テンプレート:Sortトークン[111] テンプレート:No モデルスケールの実用的な限界に到達することを目指した
OPT (Open Pretrained Transformer) テンプレート:Dts Meta テンプレート:Sort[113] テンプレート:Sortトークン[114] テンプレート:Partialテンプレート:Efn GPT-3アーキテクチャにMegatronから改作を加えたもの
YaLM 100B テンプレート:Dts Yandex テンプレート:Sort[115] 1.7TB[115] テンプレート:Yes MicrosoftのMegatron-LMに基づく英露モデル
Minerva テンプレート:Dts Google テンプレート:Sort[116] 385億トークンテンプレート:Efn[116] テンプレート:No 数学的および科学的な問題を段階的な推論によって解くために訓練されたLLMである[117]。Minervaは、PaLMモデルに基にさらに数学的および科学的データで訓練されている。
テンプレート:Ill2 テンプレート:Dts Large collaboration led by Hugging Face テンプレート:Sort[118] テンプレート:Sortトークン (1.6TB)[119] テンプレート:Yes 基本的にはGPT-3だが、多言語コーパスでトレーニングされている(プログラミング言語を除いて、30%は英語)。
Galactica テンプレート:Dts Meta テンプレート:Sort テンプレート:Sortトークン[120] テンプレート:Partial 科学的なテキストや方法の訓練を受けている
AlexaTM (Teacher Models) テンプレート:Dts Amazon テンプレート:Sort[121] テンプレート:Sort[122] テンプレート:Partial[123] 双方向のシーケンスからシーケンスへのアーキテクチャ
LLaMA (Large Language Model Meta AI) テンプレート:Dts Meta テンプレート:Sort[124] テンプレート:Sort[124] テンプレート:Partialテンプレート:Efn 20言語の大規模コーパスで訓練し、より少ないパラメータでの性能向上を目指す[124]。スタンフォード大学の研究者は、Alpacaと呼ばれるLLaMAの重みに基づいて微調整されたモデルを訓練した[125]
GPT-4 テンプレート:Dts OpenAI 非公開テンプレート:Efn 非公開 テンプレート:Partial ChatGPT Plusユーザが利用でき、いくつかの製品で使用されている
Cerebras-GPT テンプレート:Dts Cerebras テンプレート:Sort[126] テンプレート:Yes Chinchilla方式で訓練された
Falcon テンプレート:Dts Technology Innovation Institute テンプレート:Sort[127] テンプレート:Sortトークン[127] テンプレート:Yes モデルはGPT-3の75%、Chinchillaの40%、PaLM-62Bの80%の訓練計算量で済むとされる
BloombergGPT テンプレート:Dts Bloomberg L.P. テンプレート:Sort 3,630億トークンテンプレート:Efn[128] テンプレート:No 独自ソースによる財務データで訓練され、「一般的なLLMベンチマークでの性能を犠牲にすることなく、財務タスクで既存モデルを大幅に上回る」とされる
PanGu-Σ テンプレート:Dts Huawei テンプレート:Sort 3,290億トークン[129] テンプレート:No
OpenAssistant[130] テンプレート:Dts LAION テンプレート:Sort 1.5 trillion tokens テンプレート:Yes Trained on crowdsourced open data
PaLM 2 (Pathways Language Model 2) テンプレート:Dts Google テンプレート:Sort[131] テンプレート:Sort tokens[131] テンプレート:No Used in Bard chatbot.[132]
RedPajama テンプレート:Dts Together Computer他 テンプレート:Sort テンプレート:Sort テンプレート:Yes LLaMAベース
MPT テンプレート:Dts MosaicML Foundation テンプレート:Sort テンプレート:Sort テンプレート:Yes
Mistral テンプレート:Dts Mistral AI テンプレート:Sort テンプレート:? テンプレート:Yes
AXLearn[133] 2023年7月 Apple テンプレート:Sort Apache 2.0 Apple IntelligenceのオンデバイスモデルでもPrivate Cloud Computeでも利用[134]
Fugaku-LLM 2024年5月 東京工業大学東北大学富士通理化学研究所、他[135] 1テンプレート:Sort 4,000億トークン Apache 2.0, MIT 富岳用として研究開発[135]

脚注

テンプレート:脚注ヘルプ

注釈

テンプレート:Notelist

出典

テンプレート:Reflist

関連書籍

この分野は進歩が急激なために、書籍はたちまち内容が古くなることに注意。

  • 近江崇宏、金田健太郎、森長誠、江間見亜利:「BERTによる自然言語処理入門:Transformersを使った実践プログラミング」、オーム社、ISBN 978-4-27422726-4 (2021年6月28日).
  • Denis Rothman:「Transformerによる自然言語処理」、朝倉書店、ISBN 978-4-254-12265-7 (2022年4月11日).
  • 岡野原大輔:「大規模言語モデルは新たな知能か:ChatGPTが変えた世界」、岩波書店、ISBN 978-4-00-029719-6 (2023年6月20日).
  • 我妻幸長:「BERT実践入門」、翔泳社、ISBN 978-4-7981-7781-6 (2023年7月20日).
  • 鈴木正敏、山田康輔、李凌寒:「大規模言語モデル入門」、技術評論社、ISBN 978-4-297-13633-8 (2023年8月11日).
  • Sandra Kublik、Shubham Saboo:「全容解説GPT:テキスト生成AIプロダクト構築への第一歩」、インプレス、ISBN 978-4-29501818-6(2023年12月12日).
  • 山田育矢、鈴木正敏、西川荘介、藤井一喜、山田康輔、李凌寒:「大規模言語モデルII:生成型LLMの実装と評価」、技術評論社、ISBN 978-4-297-14393-0 (2024年9月1日).

関連項目

  • 基盤モデル - 幅広いデータで大規模に訓練された、幅広い下流タスクに適用できる大規模な人工知能モデル。事前学習済の大規模言語モデル(LLM)はその初期の例である。
  • 生成的人工知能 - プロンプトに応答してテキスト、画像、または他のメディアを生成することができる人工知能システムの一種

テンプレート:Natural language processing

  1. テンプレート:Cite web
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 引用エラー: 無効な <ref> タグです。「Manning-2022」という名前の注釈に対するテキストが指定されていません
  3. テンプレート:Cite web
  4. 4.0 4.1 4.2 4.3 4.4 4.5 テンプレート:Cite journal
  5. 5.0 5.1 テンプレート:Cite journal
  6. テンプレート:Cite journal
  7. テンプレート:Cite arXiv
  8. テンプレート:Cite web
  9. テンプレート:Cite arXiv
  10. テンプレート:Cite arXiv
  11. テンプレート:Cite arXiv
  12. テンプレート:Cite arXiv
  13. テンプレート:Cite journal
  14. 14.0 14.1 引用エラー: 無効な <ref> タグです。「kaplan-scaling」という名前の注釈に対するテキストが指定されていません
  15. Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). Broken Neural Scaling Laws. International Conference on Learning Representations (ICLR), 2023.
  16. テンプレート:Cite web
  17. テンプレート:Cite arXiv
  18. テンプレート:Cite journal
  19. テンプレート:Cite journal
  20. テンプレート:Cite journal
  21. 21.0 21.1 テンプレート:Cite journal
  22. テンプレート:Cite news
  23. テンプレート:Cite journal
  24. テンプレート:Cite journal
  25. テンプレート:Cite arXiv
  26. テンプレート:Cite web
  27. テンプレート:Citation
  28. テンプレート:Cite journal
  29. テンプレート:Cite journal
  30. 30.0 30.1 30.2 引用エラー: 無効な <ref> タグです。「glam-blog」という名前の注釈に対するテキストが指定されていません
  31. テンプレート:Cite web
  32. テンプレート:Cite web
  33. テンプレート:Cite web
  34. テンプレート:Cite journal
  35. 35.0 35.1 35.2 35.3 35.4 35.5 引用エラー: 無効な <ref> タグです。「jm」という名前の注釈に対するテキストが指定されていません
  36. テンプレート:Cite journal
  37. 37.0 37.1 37.2 引用エラー: 無効な <ref> タグです。「Wiggers」という名前の注釈に対するテキストが指定されていません
  38. Sharir, Or, Barak Peleg, and Yoav Shoham. "The cost of training nlp models: A concise overview." arXiv preprint arXiv:2004.08900 (2020).
  39. テンプレート:Cite arXiv
  40. テンプレート:Cite news
  41. 41.0 41.1 41.2 41.3 引用エラー: 無効な <ref> タグです。「few-shot-learners」という名前の注釈に対するテキストが指定されていません
  42. 引用エラー: 無効な <ref> タグです。「flan-blog」という名前の注釈に対するテキストが指定されていません
  43. 引用エラー: 無効な <ref> タグです。「self-instruct-paper」という名前の注釈に対するテキストが指定されていません
  44. 引用エラー: 無効な <ref> タグです。「instructGPT-paper」という名前の注釈に対するテキストが指定されていません
  45. テンプレート:Cite arXiv
  46. テンプレート:Cite web
  47. テンプレート:Cite arXiv
  48. テンプレート:Cite arXiv
  49. テンプレート:Cite journal
  50. テンプレート:Cite journal
  51. テンプレート:Cite arXiv
  52. テンプレート:Cite arXiv
  53. テンプレート:Cite journal
  54. テンプレート:Cite arXiv
  55. テンプレート:Cite arXiv
  56. 56.0 56.1 テンプレート:Cite web
  57. テンプレート:Cite journal
  58. テンプレート:Cite journal
  59. テンプレート:Cite arXiv
  60. テンプレート:Cite arXiv
  61. テンプレート:Cite arXiv
  62. テンプレート:Cite arXiv
  63. 63.0 63.1 引用エラー: 無効な <ref> タグです。「boolq」という名前の注釈に対するテキストが指定されていません
  64. 64.0 64.1 64.2 引用エラー: 無効な <ref> タグです。「survey」という名前の注釈に対するテキストが指定されていません
  65. 引用エラー: 無効な <ref> タグです。「Huyen」という名前の注釈に対するテキストが指定されていません
  66. 引用エラー: 無効な <ref> タグです。「bigbench」という名前の注釈に対するテキストが指定されていません
  67. 引用エラー: 無効な <ref> タグです。「truthfulqa」という名前の注釈に対するテキストが指定されていません
  68. 68.0 68.1 68.2 68.3 テンプレート:Cite journal
  69. 69.0 69.1 引用エラー: 無効な <ref> タグです。「hellaswag」という名前の注釈に対するテキストが指定されていません
  70. テンプレート:Cite arXiv
  71. テンプレート:Cite web
  72. テンプレート:Cite arXiv
  73. テンプレート:Cite arXiv
  74. テンプレート:Cite news
  75. 75.0 75.1 テンプレート:Cite arXiv
  76. テンプレート:Cite news
  77. 77.0 77.1 テンプレート:Cite magazine
  78. テンプレート:Cite news
  79. テンプレート:Cite news
  80. テンプレート:Cite journal
  81. テンプレート:Cite news
  82. テンプレート:Cite news
  83. テンプレート:Cite web
  84. テンプレート:Cite news
  85. テンプレート:Cite journal
  86. 86.0 86.1 引用エラー: 無効な <ref> タグです。「bert-paper」という名前の注釈に対するテキストが指定されていません
  87. テンプレート:Cite web
  88. テンプレート:Cite journal
  89. テンプレート:Cite web
  90. テンプレート:Cite web
  91. テンプレート:Cite journal
  92. 引用エラー: 無効な <ref> タグです。「15Brelease」という名前の注釈に対するテキストが指定されていません
  93. テンプレート:Cite web
  94. 94.0 94.1 テンプレート:Cite web
  95. テンプレート:Cite web
  96. 引用エラー: 無効な <ref> タグです。「chatgpt-blog」という名前の注釈に対するテキストが指定されていません
  97. テンプレート:Cite web
  98. 98.0 98.1 98.2 テンプレート:Cite arXiv
  99. 99.0 99.1 引用エラー: 無効な <ref> タグです。「vb-gpt-neo」という名前の注釈に対するテキストが指定されていません
  100. テンプレート:Cite web
  101. テンプレート:Cite web
  102. 102.0 102.1 引用エラー: 無効な <ref> タグです。「mtnlg-preprint」という名前の注釈に対するテキストが指定されていません
  103. テンプレート:Cite journal
  104. テンプレート:Cite web
  105. 105.0 105.1 テンプレート:Cite arXiv
  106. テンプレート:Cite arXiv
  107. テンプレート:Cite web
  108. 108.0 108.1 108.2 テンプレート:Cite arXiv
  109. 109.0 109.1 引用エラー: 無効な <ref> タグです。「lamda-blog」という名前の注釈に対するテキストが指定されていません
  110. テンプレート:Cite conference
  111. 111.0 111.1 111.2 引用エラー: 無効な <ref> タグです。「chinchilla-blog」という名前の注釈に対するテキストが指定されていません
  112. 引用エラー: 無効な <ref> タグです。「palm-blog」という名前の注釈に対するテキストが指定されていません
  113. テンプレート:Cite web
  114. テンプレート:Cite arXiv
  115. 115.0 115.1 テンプレート:Citation
  116. 116.0 116.1 テンプレート:Cite arXiv
  117. テンプレート:Cite web
  118. 引用エラー: 無効な <ref> タグです。「bigger-better」という名前の注釈に対するテキストが指定されていません
  119. テンプレート:Cite web
  120. テンプレート:Cite arXiv
  121. テンプレート:Cite web
  122. テンプレート:Cite arXiv
  123. テンプレート:Cite web
  124. 124.0 124.1 124.2 引用エラー: 無効な <ref> タグです。「llama-blog」という名前の注釈に対するテキストが指定されていません
  125. テンプレート:Cite web
  126. テンプレート:Cite web
  127. 127.0 127.1 引用エラー: 無効な <ref> タグです。「falcon-180b」という名前の注釈に対するテキストが指定されていません
  128. テンプレート:Cite journal
  129. テンプレート:Cite journal
  130. テンプレート:Cite journal
  131. 131.0 131.1 テンプレート:Cite web
  132. テンプレート:Cite web
  133. テンプレート:Citation
  134. テンプレート:Cite web
  135. 135.0 135.1 テンプレート:Cite web