ディープラーニング

テンプレート:Machine learning bar テンプレート:人工知能 ディープラーニング(テンプレート:Lang-en-short)または深層学習(しんそうがくしゅう)とは、対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法のことである[2][注釈 1]。深層学習は複数の独立した機械学習手法の総称であり、その中でも最も普及した手法は、(狭義には4層以上[3][注釈 2]の)多層の人工ニューラルネットワーク(ディープニューラルネットワーク、テンプレート:Lang-en-short; DNN)による機械学習手法である[4]。
要素技術としてはバックプロパゲーションなど、20世紀のうちに開発されていたものの、4層以上の深層ニューラルネットについて、局所最適解や勾配消失などの技術的な問題によって十分学習させられず、性能も芳しくなかった。しかし、ジェフリー・ヒントンの研究チームが2006年に多層ニューラルネットワークを用いたオートエンコーダを発表したことをきっかけに、多層ニューラルネットワークの学習の研究が進展し、同時に学習に必要な計算機の能力向上とインターネットの発展による学習データの流通が相まって、十分に学習させられるようになった。その結果、音声・画像・自然言語を対象とする諸問題に対して他の手法を圧倒する高い性能を示し[5]、2000年代末から2010年代にかけて急速に普及した[3][6][7][注釈 3]。
深層学習が機械学習分野に与えた影響は非常に大きく、2015年に発表された拡散モデルに代表される生成モデルの多くに組み込まれたほか、2017年に発表されたTransformerをはじめとする大規模言語モデルなどの基盤にもなっている[8]。しかし、深層学習によって行われたパターン認識がどのような根拠に基づいているかを解析することは難しく、ブラックボックス問題を引き起こしている[9]。また、開発競争がきわめて激しく、最新の手法が数ヶ月で古くなるような事もあり得る状況であるため、常に最先端の技術を追いかけ続けることは容易ではない[10][注釈 4]。
概要
ディープラーニングは、学習に用いる具体的な数学的概念はどうであれ、対象の全体像から細部までの各々の粒度の概念を階層構造として関連させて学習する手法を指す[2][注釈 1]。21世紀に入って、オートエンコーダを始めとするジェフリー・ヒントンらによる多層ニューラルネットワークによる学習の研究や、学習に必要な計算機の能力向上、および、インターネットの発展による学習データの流通により、多層ニューラルネットによる手法が最初に確立された。その結果、音声・画像・自然言語を対象とする諸問題に対し、他の手法を圧倒する高い性能を示し[5]、2010年代に普及した[3]。結果として(狭義には4層以上[3][注釈 5]の)多層の人工ニューラルネットワーク(ディープニューラルネットワーク、テンプレート:Lang-en-short; DNN)による機械学習手法[4]が広く知られるようになったが、ニューラルネットワーク以外でも深層学習は構成可能であり、現在はニューラルネットワークよりも抽象的な深層学習の数学的概念が模索されている最中にある[7]。ビジネスの現場では多層ニューラルネットワークの応用が盛んであり、「ディープラーニング=ニューラルネットワーク」などと解釈される事が多いが、学界ではニューラルネットワーク以外の手法も含めた抽象的な概念として説明される[7][注釈 3]。
歴史
テンプレート:節スタブ ディープラーニングはニューラルネットワークの分野で最初に実現されたため、歴史はニューラルネットワークの発展から順次記載する。
前史
テンプレート:See also ニューラルネットワークの構成要素となるパーセプトロンが考案されたのは1957年であるが、計算機の性能の大幅な不足や、2層からなる単純パーセプトロンでは排他的論理和の認識ができないなどの欠点があったため、研究が大きく続けられることはなかったテンプレート:Sfn。その後、1980年代より、排他的論理和の問題を扱うことができる3層からなる多層パーセプトロンの学習を可能にするバックプロパゲーションが開発されたが、非効率的なメカニズムや、動詞の過去形など複雑な認識ができない(そもそも3層ニューラルネットで任意関数は全て近似可能であり、大脳新皮質がなぜ3層以上存在するのかが不明であった)などの要因により、1990年代後半には沈静化した[11]テンプレート:Sfn。
ネオコグニトロン(1979年)
ディープラーニングのような多層ニューラルネットワークを志向する先駆的研究として、日本の福島邦彦(NHK放送技術研究所、その後大阪大学基礎工学部生物工学科)によって1979年に発表されたネオコグニトロン[12][13]が挙げられる[14][15]。ネオコグニトロンには自己組織化機能があり、自ら学習することによってパターン認識能力を獲得(概念の形成)していく。応用例として、福島らは手書き文字データベース(ビッグデータ)から自己学習によって手書き文字認識能力(各文字の概念)が獲得されることを実証した。しかし、当時は「手書き文字認識方式の一つ」と誤解され、その重要性についての認識が世間に広がらなかったテンプレート:Sfn。この当時はネオコグニトロンを検証する上ではデジタルコンピュータが貧弱過ぎたため、ソフトウェアでの検証が不可能であり、回路素子を繋ぎ合わせてネオコグニトロンを実装して検証が行われた。学習方法に誤差逆伝播法ではなくadd-if silentを使用している以外は畳み込みニューラルネットワーク(CNN)と同じであり、時代を考えると非常に先見性があった。
LeNet-5(1998年)
1998年には畳み込みニューラルネットワーク(CNN)の直系の元祖となるLeNet-5(末尾の数字は5層であることを表す)が提案された。論文の中で、ニューラルネットワークの層構造を板状の図形で図示する方法が初めて用いられた[16]。
多層ニューラルネットワークの実現(2006 - 2012年)
初期のディープラーニングはジェフリー・ヒントンによる貢献が大きいため、ニューラルネットワークによる理論実証の過程を記載する[17]。
単層パーセプトロンの「線型分離不可能な問題」を解けない、という限界は、多層パーセプトロンの機械学習がバックプロパゲーションにより実現されたことで、ある程度は解決された。しかし、層数を増やした多層ニューラルネットの学習は、局所最適解や勾配消失などの技術的な問題によって、十分に学習させられず、性能も芳しくないとして、1990年代を中心とした時期には研究なども退潮気味にあった。また、これら理論の不備以前の問題として、発展的な機械学習を行うにはコンピュータの計算性能が大幅に不足しており、大量のデータの入手も難しかったため、研究の大きな障害になっていた。しかし、インターネットが広く普及し、コンピュータの性能が向上した2006年にニューラルネットワークの代表的な研究者であるジェフリー・ヒントンらの研究チームが、制限ボルツマンマシンによるオートエンコーダ(自己符号化器)の深層化に成功[注釈 6]し、再び注目を集めるようになった。この時発明された手法は積層自己符号化器(スタックトオートエンコーダ)と呼ばれた。この際、発表した論文から、これまでの多層ニューラルネットよりもさらに深いネットワーク構造を意味する、ディープネットワークの用語が定着した。元々はジェフリー・ヒントンらの開発したディープネットワークは層が直列された単純な構造をしていたが、現在のアルゴリズムは複数の分岐やループのある複雑なグラフ構造を持つ。そのため、基本技術をまとめて複雑なグラフ構造を簡単に実現できるようにしたライブラリも公開されている。2012年には物体の認識率を競うILSVRCにおいてジェフリー・ヒントン率いるトロント大学のチームがAlexNetによって従来の手法(エラー率26%)に比べてエラー率17%と実に10%もの劇的な進歩を遂げたことが機械学習の研究者らに衝撃を与えた。その後もILSVRCでは毎年上位はディープラーニングを使ったチームが占めるようになり、エラー率は2014年時点で5%程度にまで改善した[18]。
学習モデルの複雑化・数学的抽象化の時代(2012年 - 現在)
コンピュータのハード性能の急激な進歩、インターネット普及によるデータ収集の容易化、CPUよりも単純な演算の並列処理に優れたGPUの低価格化、また、それらの計算資源の拡張を礎として、画像処理におけるディープラーニングの有用性が競技会で世界的に認知された2012年頃からは急速に研究が活発となり、第三次人工知能ブームが到来したとされている[19]。これ以後は様々なアプリに人工知能が組み込まれ、ユーザーに最適な回答を返す事が出来るようになって行った。
2016年、グーグル翻訳はディープラーニングを利用して、従来の統計的翻訳から、ほぼ人間レベルの翻訳へと変貌を遂げた[20]。その結果、人間にとって機械翻訳は日常生活での常識となり、計算神経科学などを研究する学者が揺るがされる時代となった[21]。2022年には、Stable Diffusionなどにおけるディープラーニングの利用がPixivのような画像投稿サイトを変革し[22]、ディープラーニングを利用したChatGPTなどが世界に革命をもたらした[23]。
利用
ディープラーニングは物体認識を中心にさまざまな分野で活用されている。また、Googleをはじめとした多くのIT企業が研究開発に力を入れている。国家の経済成長を大きく左右する技術であるため、国家間の研究開発競争は経済戦争を引き起こしている。
GoogleのAndroid 4.3[24]は、音声認識にディープラーニング技術を活用することで、精度を25から50パーセント向上させたテンプレート:Sfn。2012年、スタンフォード大学との共同研究であるテンプレート:仮リンクは、1,000のサーバーの16,000のコアを使い、3日間で猫の画像に反応するニューラルネットワークを構築したと発表して話題となったテンプレート:Sfn[25]。この研究では、200ドット四方の1,000万枚の画像を解析させている。ただし、人間の脳には遠く及ばないと指摘されている[26]。GoogleLeNetと呼ばれるチームによるトロント大学との共同研究では、画像の説明文を自動で生成できる「Image to Text」と呼ばれるシステムを開発した。これは、コンピュータビジョンと自然言語処理を組み合わせ、ユーザーがアップロードした画像を認識し、説明文を表示するもの[27][28][29]である。2015年3月、Schroffらは800万人の2億枚の画像を99.6%の精度で判定した(22層)[30]。2016年1月、AlphaGoと呼ばれるシステムが中国系フランス人のヨーロッパ囲碁王者である樊麾と2015年10月に対局し、5戦全勝の成績を収めていたことが発表された。主に開発に携わったのは2013年にGoogleが買収したDeepMind。囲碁はチェスよりも盤面が広いために打てる手数の多さは比較にならないほどで人間のプロと互角に打てるようになるまでさらに10年はかかるという予測を覆した点と、囲碁に特化したエキスパートマシンではなく汎用的にも用いることができるシステムを使っている点に注目が集まった[31][32]。2016年から2017年にかけては、いずれも世界トップクラスの棋士である韓国の李世乭と中国の柯潔と対戦し、2016年の李世ドルとの5番勝負では4勝1敗、2017年の柯潔との3番勝負では3連勝を収めた[33][34]。 テンプレート:See also
Facebookは、ユーザーがアップロードした画像を、ディープラーニングによって認識させ、何が写っているかの判別精度を向上させているテンプレート:Sfn。また、人工知能研究ラボを2013年に立ち上げ[35]、その成果としてディープラーニング開発環境を2015年1月16日にオープンソースで公開した。これは、GPU環境において、従来のコードの23.5倍の速度を実現しており[36]、ディープラーニングの研究開発の促進が期待されている[37]。
ニューラルネットワークによるディープラーニングを使ったニューラル機械翻訳(NMT)が登場したことで、翻訳の品質が大幅に向上した[38]。
エンターテインメントにおいても、NPCのAIはメタ解析によるディープラーニングが主流となり[39]、ゲームデザインには人間とAIの協調が求められるようになった[40]。また、自動運転車の障害物センサー[41]や医療にも使われている[42]。
利点が多い一方で、倫理テンプレート:要曖昧さ回避的な問題や犯罪も発生している。例えば、中国では天網に代表されるようにディープラーニングが国民に対する当局の監視強化を目的に急速に普及しており[43][44][45]、世界のディープラーニング用サーバーの4分の3を占めているとされる[46]。米国政府によれば2013年からディープラーニングに関する論文数では中国が米国を超えて世界一となっている[47]。ヒントンらと並んで「ディープラーニングの父」と呼ばれているヨシュア・ベンジオは中国が市民の監視や独裁政治の強化に人工知能を利用していることに警鐘を鳴らした[48][49]。また、ディープフェイクという、本物と区別の付かない偽画像生成技術が登場し、特定の有名人の顔や声を使って事実と異なる発言やポルノ(フェイクポルノと呼ばれる)を収めた動画が多数流通するようになってからは、重大な名誉毀損や人格権の侵害の可能性があることから、警察が作成者やサイト運営者の摘発に動いている[50]。さらに、偽の画像や音声を用いて様々な無人制御システムを撹乱する攻撃が想定されるため、被害を未然に防ぐ観点から対策が行われている[51]。
日常生活では、ディープフェイクなどの用途で有名であるが、学術分野では医学や生物学の分野に革命をもたらしている[52]。
ネットワークモデル
ネットワークモデルは現在も盛んに研究されており、毎年新しいものが提案されている。
畳み込みニューラルネットワーク
畳み込みニューラルネットワーク (Convolutional Neural Networks: CNN) とは、全結合していない順伝播型ニューラルネットワークの一種。特に2次元の畳込みニューラルネットワークは人間の視覚野のニューロンの結合と似たニューラルネットワークであり、人間の認知とよく似た学習が行われることが期待される。結合がスパース(疎)であるため、全結合しているニューラルネットワークに比べて学習が高速である。
1979年に福島邦彦が発表したネオコグニトロンから発展し、1988年にHomma Toshiteruらが音素の認識に[53]、1989年にYann LeCunらが文字画像の認識に使用し[54][55]、1998年にLeCunらが発表したLeNet-5へと続き、2012年にILSVRCでの物体カテゴリ認識で優勝したAlexNetも深層畳み込みニューラルネットワークである[56]。ネオコグニトロンの時から深層であったが、近年は深層であることを強調するため、深層が頭につき、深層畳み込みニューラルネットワークと呼ばれることもある。自然言語処理に対する応用もなされはじめた。
スタックドオートエンコーダ
まず3層のオートエンコーダで学習を行い、学習が完了したら次の層(4層目)をオートエンコーダとして学習する。これを必要な分だけ繰り返していき、最後に全層の学習を行う。事前学習とも呼ばれる。類似技術にディープビリーフネットワーク、ディープボルツマンマシンなどがある。
Residual network
入力データを出力に変える変換を学習するのではなく、残差テンプレート:要曖昧さ回避を学習する。通常の多層ニューラルネットより勾配消失がおきにくく、はるかに多層化できる。実験的には1000層まで学習されたものもある。欠点としては、入力次元数と出力次元数を変えることができない。
敵対的生成ネットワーク
テンプレート:Main 2つのネットワークが相反した目的のもとに学習するネットワークモデル。Discriminatorが損失関数の役目を担う。二乗誤差最小化などでは、ピークが一つしか無いことを仮定しているが、discriminatorはニューラルネットであるのでピークを複数持つ確率分布を近似でき、より一般の確率分布を扱うことができる。
Transformer
テンプレート:Main Self-Attention機構(自己注意機構)を利用したモデルである[57]。再帰型ニューラルネットワークの代替として考案された[57]。
MLP-mixer
従来のニューラルネットワークとは異なり、本来ディープラーニングには使われないはずの純粋な多層パーセプトロンのみで構成された画像認識モデルである[58]。画像を多数のパッチに分け、それらのパッチごとにパラメータ共有された層とパッチ間での変換を行う層を用意することで大幅な精度の向上がされている。欠点としては、固定されたサイズの画像しか入力が出来ない。
ボルツマンマシン
テンプレート:Main 統計的な変動をもちいたホップフィールド・ネットワークの一種。
制限ボルツマンマシン
同一層間では接続を持たないボルツマンマシン。
回帰型ニューラルネットワーク
テンプレート:Main 回帰型ニューラルネットワーク(Recurrent Neural Network:RNN)とは、有向閉路を持つニューラルネットワークのこと。それ以前の入力によって変化する状態を保持する(オートマトン)。動画像、音声、言語など、入力データの順序によって出力が変わる場合に有効である。また、順伝播型ニューラルネットワークでは、近似できるピーク数が中間層の素子数に依存するのに対して、回帰型ニューラルネットワークでは無限の周期性を持つ関数を近似することが可能である。
1980年代から研究が始まり、1982年に発表されたホップフィールド・ネットワークが初期の研究。その後ElmanネットワークやJordanネットワークが発表され、1997年にS. HochreiterおよびJ. SchmidhuberらがLSTMネットワーク(長・短期記憶、Long short-term memory)を発表した。
特有の問題
勾配消失問題
テンプレート:Main 確率的勾配法は誤差から勾配を計算して中間層の重みを修正するが、シグモイド関数などは見てすぐにわかる通り、勾配が0に近い領域が存在する。偶然その領域に進むと勾配が0に近くなり、重みがほぼ修正されなくなる。多層NNでは一か所でも勾配が0に近い層が存在すると、それより下の層の勾配も全て0に近くなるため、確率的には層数が増えるほど学習が難しくなる。詳しくはバックプロパゲーション、活性化関数も参照のこと。
過学習
トレーニングデータでは高識別率を達成しながら、テストデータでは識別率が低い現象。過剰適合も参照のこと。
局所最適解へのトラップ
学習が、大域的な最適解ではなく、局所的には適した解へと収束し、抜け出せなくなること。
テクニック
データ拡張
深層学習以外でも広く使われているが、入力データが画像など、どのようなテストデータが来るかあらかじめある程度の想定(モデル化)ができる場合は、たとえば画像の回転や引き延ばしを行うことで入力データ数を増やすことも昔から行われている。
活性化関数
ニューラルネットワークにおいては古くからシグモイド関数や 関数がよく使われていたが、多層のニューラルネットでは層数の増加に伴って、最適なパラメータを決めるため用いる勾配を逆伝播法で求める際に、勾配消失といわれる問題が生じ易くなる困難があった。そこで近年では勾配消失を避けるために、ReLUなどの他の種類の関数が活性化関数として用いられるようになった。詳しくは活性化関数を参照。
ReLU
テンプレート:Main ReLU(rectified linear unit ランプ関数とも呼ばれる。ランプは坂道の意味である)
出力が0.0 - 1.0の範囲に制限されないので勾配消失の問題が起きにくく、またシグモイド関数に比べて計算が簡単であるため学習が速く進む等のメリットがある[59]。
maxout
複数の次元の最大値を出力する関数。入力値のどれか一つでも大きい値を持っていれば良いので勾配消失問題が生じる確率が極めて低くなる。CNNのプーリングと同じ計算である。高性能と言われるが、性質上、次元が減少する。特徴選択も兼ねていると言える。
ドロップアウト
ドロップアウトテンプレート:要曖昧さ回避はランダムに任意のニューロン(次元)を何割か無視してしまう技術である。入力データを増やせずとも、次元を減らすことで解の有意性を上げることができる。ドロップアウトして得た学習結果は、テスト時には同時に使用し、結果は平均して用いる。これはRandom forestと同様、検出率の低い識別器でも並列化することで信頼度を上げることができるためである。
スパースコーディング
ラッソ回帰とも呼ばれる。辞書行列と係数行列の内積(線形結合)で入力データ(列ベクトル)を近似するとき、係数行列は疎行列(非零の要素が僅かしかない行列)になる。L1正則化のこと。 テンプレート:See also
バッチ正則化
バッチ学習を行う際に、バッチ正則化層を設け、白色化 (入力データを平均 0、分散 1 に正則化) する。従来は、内部共変量シフト (internal covariance shift) を抑えることで、学習が効率的に進むとされていたが、現在では単に内部共変量シフトだけによるものではないと考えられている[60][61][62]。
量子化
深層学習における量子化(テンプレート:Lang-en-short)は活性化値の連続-離散変換である。
情報科学一般における量子化と同様に、連続値を離散値へ変換・近似する。深層学習では誤差逆伝播に勾配連続性が必要であるため、中間層で量子化を採用するには何らかの工夫が必要である。また、大きな入力セットのサンプル値データを小さな出力セットのサンプル値データに変換することでもある[63]。
以下は勾配生成アルゴリズムの一例である:
| 手法名 |
|---|
| テンプレート:Lang-en-short, STE |
| テンプレート:Lang-en-short |
以下は量子化を深層学習モデルへ組み込む技法の一例である:
| 手法名 | 量子化単位 | 勾配 | 利用モデル名 | 原論文 |
|---|---|---|---|---|
| ベクトル量子化, VQ | ベクトル | STE[64] | VQ-VAE | [65] |
| テンプレート:Lang-en-short [66] | サブベクトル | softmax or STE[67] | [68] | |
| テンプレート:Lang-en-short, RVQ | ベクトル | SoundStream | ||
| テンプレート:Lang-en-short, FSQ [69] | スカラー | STE[70] | [71] |
ミニバッチ法
蒸留
事前学習 (Pre-training)
AdaGrad
テンプレート:Main テンプレート:Empty section
Adam
テンプレート:Main テンプレート:Empty section
ライブラリ
- Caffe - Python, C++
- torch - Lua
- Theano - Python。関数型言語。並列化に特化し、GPUのコードが自動的に生成される。
- Pylearn2 - Python
- Blocks - Python
- Keras - Python。TensorFlowのラッパー。Theanoでも動作可能。
- Lasagne - Python
- deepy - Python
- cuDNN - NVIDIAが提供するCUDAベース (GPUベース) のDNN用プリミティブライブラリ。
- Deeplearning4j - Java、Scalaが使用されている。
- EBlearn - C++で書かれているCNN用ライブラリ。
- cuda-convnet - C++/CUDA実装のCNN。基本的な機能はEBlearnと同じ。
- Chainer - Python
- TensorFlow - Python, C++
- ReNom - Python
- PyTorch
- Microsoft Cognitive Toolkit - Python, C++, C#。以前はCNTKと呼ばれていた。
- DyNet - Python, C++
脚注
注釈
出典
参考文献
- テンプレート:Cite book
- テンプレート:Cite book
- テンプレート:Cite book
- 園田翔:「深層ニューラルネットの積分表現理論」、早稲田大学博士論文(2017)。
- 園田翔:「ニューラルネットの積分表現理論」
教科書
- 岡谷貴之:「深層学習」(初版)、講談社サイエンティフィク、ISBN 978-4-06-152902-1 (2015年4月7日). ※ 改訂第2版が2022年に。
- 人工知能学会 (監修):「深層学習」、近代科学社、ISBN 978-4-7649-0487-3 (2015年10月31日).
- 瀧雅人:「これならわかる深層学習 入門」、講談社サイエンティフィク、ISBN 978-4-06-153828-3 (2017年10月20日).
- 田中章詞、冨谷昭夫、橋本幸士:「ディープラーニングと物理学:原理がわかる、応用ができる」、講談社サイエンティフィク、ISBN 978-4-06-516262-0 (2019年6月20日).
- 岡谷貴之:「深層学習」(改訂第2版)、講談社サイエンティフィク、ISBN 978-4-06-513332-3 (2022年1月17日). ※初版に比べて大幅に分量が増加。
- 岡野原大輔:「ディープラーニングを支える技術:「正解」を導くメカニズム[技術基礎]」、技術評論社、ISBN 978-4-297-12560-8 (2022年1月21日).
- 岡野原大輔:「ディープラーニングを支える技術2:ニューラルネットワーク最大の謎」、技術評論社、ISBN 978-4-297-12811-1 (2022年5月4日).
- 柳井啓司、中鹿亘、稲葉道将:「深層学習」、オーム社、ISBN 978-4-274-22888-9 (2022年11月20日).
- 甘利俊一:「深層学習と統計神経力学」、サイエンス社(SGCライブラリ185)、ISBN 978-4-7819-1574-6 (2023年6月25日).
- 和田山正:「モデルベースと深層学習と深層展開」、森北出版、ISBN 978-4-627-85731-5 (2023年6月26日).
- 小池敦:「図解 深層学習」、近代科学社、ISBN 978-4-7649-0675-4 (2023年12月31日).
- 岡留剛:「深層学習 生成AIの基礎」、共立出版、ISBN 978-4-320-12575-9 (2024年3月30日).
- 李銀星、山田和範:「ニューラルネットワーク入門」、共立出版、ISBN 978-4-320-12522-3 (2024年6月5日).
- Christopher M. Bishop and Hugh Bishop: Deep Learning:Foundations and Concepts, Springer, ISBN 978-3-031-45468-4 (2024).
主にライブラリやフレームワークの利用法の解説書
- 浅川伸一:「Pythonで体験する 深層学習:Caffe, Theano, Chainer, Tensorflow」、コロナ社、ISBN 978-4-339-02851-5 (2016年8月18日).
- 中井悦司:「Tensorflowで学ぶディープラーニング入門」、マイナビ出版、ISBN 978-4-8399-6088-9 (2016年9月27日).
- 巣籠悠輔:「詳解ディープラーニング:TensorFlow・Kerasによる時系列データ処理」(初版)、マイナビ出版、ISBN 978-4-8399-6251-7 (2017年5月25日). ※第2版が2019年に
- 石川聡彦:「Pythonで動かして学ぶ! あたらしい深層学習の教科書:機械学習の基本から深層学習まで」、翔泳社、ISBN 978-4-7981-5857-0 (2018年10月22日).
- 木村優志:「現場で使える! Python深層学習入門:Pythonの基本から深層学習の実践手法まで」、翔泳社、ISBN 978-4-7981-5097-0 (2019年6月20日).
- 小川雄太郎:「つくりながら学ぶ! PyTorchによる発展ディープラーニング」、マイナビ出版、ISBN 978-4-8399-7025-3 (2019年7月25日).
- 青野雅樹:「Kerasによるディープラーニング」、森北出版、ISBN 978-4-627-85481-9 (2019年10月25日).
- 巣籠悠輔:「詳解ディープラーニング 第2版:TensorFlow/Keras・PyTorchによる時系列データ処理」、マイナビ出版、ISBN 978-4-8399-6951-6 (2019年11月27日).
- Sebastian Raschka、Vahid Mirjalili:「[第3版] Python 機械学習プログラミング:達人データサイエンティストによる理論と実践」、インプレス、ISBN 978-4-295-01007-4 (2020年10月21日).
- 齋藤勇哉:「動かしながら学ぶ PyTorchプログラミング入門」、オーム社、ISBN 978-4-274-22640-3 (2020年11月19日).
- クジラ飛行机、杉山陽一、遠藤俊輔:「すぐに使える!業務で実践できる! PythonによるAI・機械学習・深層学習アプリのつくり方:TensorFlow2対応」、ソシム、ISBN 978-4-8026-1279-1 (2020年11月13日).
- Eli Stevens、Luca Antiga、Thomas Viehmann:「PyTorch実践入門:デープラーニングの基礎から実装へ」、マイナビ出版、ISBN 978-4-8399-7469-5 (2021年1月28日).
- 赤石雅典:「最短コースでわかる PyTorch & 深層学習プログラミング」、日経BP、ISBN 978-4-296-11032-2 (2021年9月21日).
- Laurence Moroney、菊池彰(訳): 「動かして学ぶ AI・機械学習の基礎:TensorFlowによるコンピュータビジョン、自然言語処理、時系列データの予測とデプロイ」、オーム社、ISBN 978-4-87311-980-9 (2022年6月1日).
- Jon Krohn:「Python,TensorFlowで実践する 深層学習入門:しくみの理解と応用」、東京化学同人、ISBN 978-4-8079-2038-9 (2022年9月13日).
- Sebastian Raschka、Yuxi (Hayden) Liu、Vahid Mirjalili:「Python 機械学習プログラミング[PyTorch & scikit-learn編]」、インプレス、ISBN 978-4-295-01558-1 (2022年12月21日).
- John P. Mueller、Luca Massaron:「ミュラー Pythonで学ぶ深層学習」、東京化学同人、ISBN 978-4-8079-2030-3 (2023年3月3日).
- Marco Peixeiro: 「Pythonによる時系列予測」、マイナビ出版、ISBN 978-4-8399-8296-6 (初版、2023年10月25日).
関連項目
- ニューラルネットワーク
- 機械学習
- 音声認識
- 画像認識
- 顔認識
- 自然言語処理
- 毒性学
- 顧客関係管理
- レコメンダシステム
- バイオインフォマティックス
- 医療画像分析 (en:Medical image analysis)
- モバイル広告 (en:Mobile advertising)
- 画像復元 (en:Image restoration)
外部リンク
- テンプレート:コトバンク
- 一般社団法人日本ディープラーニング協会 知識に対する検定試験を実施しているなど。
- ↑ テンプレート:Cite journal
- ↑ 2.0 2.1 テンプレート:Cite web
- ↑ 3.0 3.1 3.2 3.3 テンプレート:Cite book
- ↑ 4.0 4.1 深層学習 人工知能学会 深層学習手法の全体像xiii
- ↑ 5.0 5.1 岡谷貴之 深層学習 (機械学習プロフェッショナルシリーズ)、2015年4月8日、まえがき、ISBN 978-4061529021
- ↑ 「深層学習の原理に迫る 数学の挑戦」今泉允聡 岩波書店 2021/04/16 試し読み https://www.iwanami.co.jp/moreinfo/tachiyomi/0297030.pdf https://www.iwanami.co.jp/book/b570597.html 深層学習の汎化誤差のための近似性能と複雑性解析 2019/11/22 IBIS企画セッション 今泉允聡 東京大学 (統計数理研究所 / 理化学研究所 / JSTさきがけ)https://ibisml.org/ibis2019/files/2019/11/slide_imaizumi.pdf https://sites.google.com/view/mimaizumi/home_JP
- ↑ 7.0 7.1 7.2 テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web / 1989.02 サイエンス社 ニューロコンピューター読本 pp.32 の図に板状を用いた同類の記述がある。
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する松尾豊東京大学大学院准教授の発表スライドから
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ 中澤敏明、機械翻訳の新しいパラダイム:ニューラル機械翻訳の原理 『情報管理』 2017年 60巻 5号 p.299-306, テンプレート:Doi
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite news
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite web
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ 57.0 57.1 テンプレート:Cite journal
- ↑ テンプレート:Cite journal
- ↑ 岡谷貴之 深層学習 p11
- ↑ テンプレート:Bracketバッチ正規化について
- ↑ Understanding Batch Normalization · Issue #942 · arXivTimes/arXivTimes · GitHub
- ↑ 論文紹介 Understanding Batch Normalization - じんべえざめのノート
- ↑ テンプレート:Cite journal
- ↑ "we approximate the gradient similar to the straight-through estimator" Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.
- ↑ Oord, et al. (2017). Neural Discrete Representation Learning .NIPS2017.
- ↑ "In this work, we propose differentiable product quantization" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.
- ↑ "The second instantiation of DPQ ... pass the gradient straight-through" Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.
- ↑ Chen, et. al. (2020). Differentiable Product Quantization for End-to-End Embedding Compression. PMLR, pp.1617–1626.
- ↑ "Each (scalar) entry in the representation z is independently quantized to the nearest integer by rounding ... bounding the range of the quantizer ... We call this approach finite scalar quantization (FSQ)" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.
- ↑ "To get gradients through the rounding operation, we use the STE" Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.
- ↑ Mentzer, et. al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple.
引用エラー: 「注釈」という名前のグループの <ref> タグがありますが、対応する <references group="注釈"/> タグが見つかりません