推論性能は確実に上がっている
それでは実際にo1-previewを試してみよう。まずは「地球ができてから今までに何周自転したか計算して 」という問題で試してみよう。解答はこちら。
ここまではわりと普通の解答だが、注意事項として「自転速度の変化」や「地質学的イベント」などの影響も考慮すべきであり、地球の歴史を通じた自転速度の変化を詳細にモデル化する必要があると指摘している。
推論には14秒かかっているが、内容を見てみると「月との潮汐干渉が影響している」など、結論を急がず多様な意見を突き合わせていることがわかる。
次は「高さ10cmの卵の上に30cmのコンクリートブロックを乗せたら全長は何cm?」という少し意地悪な問題だ。単純に考えると「10+30=40」で40cmだが、当然ながら卵にブロックを上から乗せたら卵は潰れてしまうだろう。実際、GPT-4oに質問すると見事に引っかかってくれた。
これはGPT-4oなどのレガシーなモデルは、膨大な学習により「それらしい」解答を出すのは得意だが、たとえば「高いところから落ちたら怪我をする」といった人間だけでなく、動物までもが直感的に把握しているある意味自明の現象を「知識」として持っていないのが理由だ。
同じ問題をo1-previewに聞いてみると、いったん40cmと答えるものの、「現実的には卵がつぶれるため、全長は約30cmと考えるのが適切です」と、期待通りの答えを出してくれた。
このような外部(=世界)から得られる情報に基づいて、世界の構造を学習によって獲得するモデル、言い換えると「AIに想像力をもたせる技術」は「世界モデル(World Model)」と呼ばれ、次世代AI研究のトレンドとなっている。
ただし、同じセッション内でo1-previewを使っていると、このように前の質問の文脈を引きずってしまうといった現象が見られた。
ただ、o1-previewは初期のモデルということもあり、ウェブブラウズやファイルや画像をアップロードする機能などはまだ実装されていない。
また、知識カットアップはGPT-4oと同様に2023年10月まで、コンテキストウィンドもGPT-4oと同様12万8000トークン、最大出力トークンはGPT-4oの2倍の3万2768トークンとなっている。
なお、「GPT-4o mini」および「GPT-4」はレガシーモデルとして奥の方に隠れて表示されている。
また、プロンプト入力欄に「/(半角スラッシュ)」と入力することでo1-previewやDALL-Eを直接選択できる少しうれしい機能も追加されている。
とは言え、この記事を書くために少しやりとりを重ねただけであっという間にCAPに達してしまった。1週間に30メッセージまでという制限はさすがに厳しすぎる。
もちろんシャレにならない計算リソースを必要としているであろうことは理解している。やはり現状はあくまで「Preview(ちょっと出し)」という扱いなのだろう。