本の紹介:大規模言語モデルは新たな知能か2024/02/20 14:08

大規模言語モデル

 岡野原大輔、大規模言語モデルは新たな知能か ChatGPTが変えた世界。岩波科学ライブラリー31920236月。

 

 202211月に登場したChatGPTGenerative Pre-trained Transformer)は、大規模言語モデルを使ったサービスです。言語モデルとは「文に対して確率を割り当てることのできるモデル」(本書 54P)です。意味の通る文に高い確率を与えることで、文章を生成します。

 

 この基礎となっているのが1948年に発表されたシャノンの情報理論で、情報量という概念を導入して文章の意味ではなく、その事象がおこるであろう確率のみで情報量を定義しました。

 

 脳の神経回路を参考にしてつくられたニューラルネットワークを利用して文章の次の単語を予測しています。その特徴は、簡単な計算を実行する部品をたくさん組み合わせて複雑な計算を実現していることです。

 

 計算機は、学習したことの暗記は得意ですが、学習で記憶していない未知のデータに対しても、うまく予測できるような仕組みを作ることができます。汎化機能といいます。そのためには、文法や単語の意味を理解するルールや法則を計算機が獲得する必要があります。現在の言語モデルは、これらを達成しています。

 

 注意機構というのがあって、遠く離れたニューロンにある情報も直接壊さず集約できます。これも脳の機能に似ています。

 

 大規模言語モデルの大まかな仕組みと使い方、今後の発展方向などを大まかに知るには絶好の本です。



コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://geocivil.asablo.jp/blog/2024/02/20/9660789/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。