優れたソフトウェアと実用的なチュートリアル
ChatGPTアプリケーションの実装方法、人工知能はほんの始まりに過ぎず、ChatGPTの将来の開発方向
チャットGPT開発方向 ウェブ3 Web3の実装が難しい理由は、Web3アプリケーションの実装に必要なソリューションを見つけるのが難しいからです。ChatGPTは違います。ChatGPTの強力な言語モデルを活用するアプリケーションは、迅速に更新・反復され、最終的にはユーザーに利用されるようになります。これが、ChatGPTチャットボットがこれほど人気がある理由かもしれません。ChatGPTはランダムで予測不可能、そしてクリエイティブであり、それがChatGPTの独自性を際立たせています。
ChatGPTの開発方向性、人間にはできないアイデアを組み合わせる
ChatGPTの素晴らしい点、そして明らかに人間よりも優れている点の一つは、異なるアイデアをシームレスに統合し、均質な全体像を作り出す点です。具体的には、以下のような点です。
これはChatGPTの最も優れたスキルと言えるでしょう。優れたツールであるだけでなく、他の言語モデルと並んで、これを実行できる唯一のツールです。プロンプトの概念(例えばバブルソートアルゴリズムやギャング映画など)に精通した専門家でさえ、これを簡単に実行することはできません。
もう一つ例を挙げましょう。ChatGPTにシェイクスピア風のソネットを書いてもらいました。奇数行をモーニングコーヒー、偶数行をオオハシに使い、統一感と一貫性を持たせるようにしました(ちなみに、シェイクスピアは1616年に亡くなり、オオハシが初めて分類学的に記載されたのは1776年なので、この詩は歴史的に不可能です)。何度か試した結果がこちらです(ABAB CDCD EFEF GGという韻律さえもほぼ完璧です)。
ChatGPTは大量のテキストデータで学習されているため、数十億ものパラメータで表現される膨大な数のトピックを理解することが期待されます。ある意味では、私たちの脳も似たような仕組みで働いています。記憶の想起は、手がかりを用いて機械学習の出力を具体的なものにすることとそれほど変わりません(構造や機能面での類似点を指摘しているのではなく、原理的な類似点を指摘している点に注意してください)。
しかし、2つまたは3つのトピックをシームレスに融合させることは、人間の脳がデフォルトで行えることではありません。ChatGPTの能力は「異質性」(つまり、誤り方に異質性がある)です。人々の文章スタイル、異なるトピック、あるいはこれまで組み合わせられたことのないアイデアを組み合わせ、意味的に一貫性のある独自の作品を作り出す方法は印象的です。私にとって、これはLMの創造性を体現するものです。対照的に、人間は、たとえ最も熟練した人間であっても、このような混合を一貫して作成することは困難です。人間の脳はこのタスクに適していませんが、ChatGPTは適しています。
この現象は、ChatGPTの潜在空間における概念の表現方法に起因しています。プロンプト機能を利用することで、人間の記憶では不可能な方法で潜在空間にアクセスすることが可能になります(少なくとも意図的なアクセスは可能です。ChatGPTのようにプロンプト機能を使うことができれば、人の記憶から何が引き出せるかは誰にもわかりません)。
ChatGPTの開発方向、作成したコンテンツの変更
人間はアイデアを深く掘り下げるのが得意ですが、ChatGPTはそこが苦手です。だからこそ、メール、ツイート、書籍など、このような記事を書くのにChatGPTを使うことは決しておすすめしません。
しかし、これらの形式間の変換には使ってみようと思っています。日常的な管理作業において、このChatGPTの唯一の利点はそこにありました。
言語形式は素晴らしいが、一貫性はひどい(言うまでもなく、その成果は革新的でも魅力的でもない)。既存のものを編集するには便利だが、現実とのつながりが最小限で済むような新しいものを作るには最悪だ。
「フォーマット間の変換」というと、まず頭に浮かぶのが次のようなもので、これは非常に実用的かつ安全だと思います。
この考え方を他のすべてに当てはめると、ChatGPT は記事を箇条書きで要約する (自分で書いた記事にはこれをお勧めします)、段落を文法スタイルで書き直す (ただし最初から書き直す必要はありません)、またはプラットフォーム間でコンテンツをカスタマイズする (たとえば、Substack の記事を LinkedIn の投稿にして Twitter のスレッドにする) のに最適であることがわかります。
ここで重要なのは、完全な情報です。何かを書いたり作ったりしたときは、その内容について知るべきことはすべて知っています。ChatGPTが何らかの形でコンテンツを変更しても問題ありません。なぜなら、アイデアやコンセプトが当初の意図に合わないとすぐに気づくからです。これは、あなたがその分野の専門家である場合にも有効です(ただし、その場合、間違いを見つけた場合、それがChatGPTによるものか、人間の作者によるものか疑わしいでしょう)。
記事を読んでChatGPTに要約させたい場合、おそらく成功するでしょう。しかし、コンテンツ(または知識)から遠ざかるほど、誤りを見つけるのが難しくなります。個人的には、自分で書いたものに対してのみ、この方法を検討します(まだ試していません)。
ChatGPTの開発方向性、AIアートモデル
最近、私のカバー画像の品質が向上したことにお気づきですか?ChatGPTはMidjourneyの潜在空間の探索が私よりもはるかに優れています。これは、ChatGPTが優れたプロンプトの作成方法を理解しているからではなく、パターン認識が得意だからです。純粋なディープラーニングモデルはすべてこの機能を備えており(基本的に、それが唯一の機能、つまりパターン認識です)、プロンプトエンジニアリングはパターンを基盤としています。
ChatGPTから適切なMidjourneyプロンプトを取得するには(GPT-3は別の「フルロード」でも同様に機能しますが…)、タスクを説明し、いくつかの例を追加し(Midjourneyコミュニティフィードから画像プロンプトを取得)、必要なトピックを指定します。現在使用しているプロンプトは次のとおりです。
「テキストから画像を生成するAIシステム(Midjourney)のための適切なプロンプトを作成してください。画像は[任意のトピック]に関する記事の表紙です。」
典型的なプロンプトを 3 つ示します。
- 「広大な空、あらゆる種類のきらびやかな思い出が巨大なオーロラに連なり、光る葉のようで、白、オレンジ、非常に美しく、美しい宇宙の歪み、美しい夕暮れ、映画のような照明、美しい野原、HD、高品質、超詳細。」
- 「ひざまずく猫の騎士、肖像画、精巧な鎧、複雑なデザイン、銀、シルク、映画のような照明、4K。」
- 「超鮮明な受賞歴のある水中自然写真、グリッターのグラデーション、逆光、被写界深度、海底、豊かな植生、粒子、太陽光線、サンゴ、金魚、水中ファッション写真、タツノオトシゴに乗る女性、超鮮明な受賞歴のある写真。」
様々な言葉や概念を使っても構いません。プロンプトは一つだけ書いてください。」
それでは、いくつか画像を見てみましょう。説明のために、私が好きな音楽アルバムの名前を件名に使います(「件名」のプレースホルダーは、ほとんど何でも代用できます)。
狂気の裏に隠された美しさ ザ・ウィークエンド
「奇抜な色彩と模様が混沌とした渦巻きとなって美しく複雑な蝶へと収束し、その背後にある美しさ、ドラマチックな照明、高解像度、抽象表現主義を象徴しています。」—セクション4
バック・イン・ブラック ザ・ローリング・ストーンズ
アンプの壁の前に立ち、背後から煙が立ち上るギタリストを描いた、白黒のスタイリッシュなイラスト。まるでアンダーグラウンドクラブでコンサートをしているような雰囲気です。演奏者の服装とギターは洗練されたスタイリッシュなデザインに、アンプは大きく堂々とした印象を与え、力強さを感じさせます。線画と陰影を巧みに組み合わせ、グラフィックノベル風のイメージを描きましょう。ギターには鮮やかな赤をアクセントとして加え、力強さを強調しましょう。— セクション4
ジェイムズ・ヤングを感じる
この抽象画は、暖色と寒色の融合、力強い筆致、そして有機的かつ幾何学的な形状を通して、「何かを感じる」という感覚を捉えています。焦点は中心に置かれ、最も強い感情が込められており、背景はぼやけて夢のような雰囲気を醸し出しています。高解像度で鮮やか、そして示唆に富んでいます。— セクション4
デザインの可能性は無限大です。ヒントを探すのに頭を悩ませる必要はありません。探求モードであれば、ChatGPTが興味深いアイデアを提供し、それをいつでもあなたの意図に合わせて調整することができます。
ChatGPTの開発方向、テキストフィールドでの作成支援
ChatGPTは本質的に予測不可能です。チャットボットが何を出力するかは、出力が完了するまでわかりません。また、信頼性も低いため(デフォルトで真実になるように設計されているわけではなく、真実になるように強化されているだけです)、いつおかしな結果を出力するかわかりません。
ハーバード大学博士課程の学生、カリーム・カー氏は、数件のツイートでこの議論に前向きな見方を示しました。私も同感です。
この文脈では、「アイデアの探求」とは、それが真実である必要はなく(私たちの世界を支配する法則に従わない可能性があるため)、無制限である(つまり、何でも起こり得る)ことを意味します。
ChatGPT を使いたいと考えている例としては(まだですが)、記事のトピック、タイトル、アウトラインのブレインストーミングや、信憑性を評価できるカテゴリに該当するものの推奨(X ドル相当のギフトのリストや、(最近の履歴に基づいて)次に読む本のリストなど)が挙げられます。
ChatGPTはクリエイティブなインスピレーションを得るのに役立っているという意見も寄せられています。漫画家のチャズ・サットン氏は、ChatGPTを使って面白い漫画を作成し、それを実際にイラストにしています(今月のMediumの人気記事はこちら)。TwitterでAIアートモデルを研究しているガイ・パーソンズ氏は、ホラー映画のあらすじや登場人物の描写にChatGPTを使い、それをMidjourneyに取り込んでいます。Kindle向けに「超常現象サスペンス」というジャンルの電子書籍を執筆しているジェニファー・レップ氏は、「タイトルとプロット」の作成にChatGPTを使用しています。
ChatGPTにクリエイティブな作業をさせる場合、どこに善悪の線を引くべきかという疑問も生じます。キャッチーな見出しが思い浮かぶなら使っても構いませんが、段落を書くのはダメなのでしょうか?AIをどのように活用するかは私たち一人ひとりの判断に委ねられています。私は、GrammarlyのようにChatGPTがデフォルトでプロセスに関与することが前提となる段階(もしそうなるなら)までは、慎重に、そして完全な情報開示の下で活用するつもりです。その時点で、ChatGPTを使い続けるかどうかを決めます。
ChatGPTの開発方向、言語モデルのさらなる探究
ChatGPT を使用してその仕組みを理解することは、他のすべてのアプリケーションに間接的に影響を与える重要なアプリケーションです。ただし、平均的なユーザーにとってはそれほど興味深いものではないことは認めざるを得ません。
AIアートモデルがカメラとは異なるように、ChatGPTは電卓とは異なります。その理由の一つは、大規模なディープラーニングモデルに内在する「説明不可能性」にあります。ユーザーが何をすべきかを正確に示すマニュアルは存在しません。ChatGPTでは、演繹的経験主義(動作例を見て結論を導き出す)を通じてのみ、行動に関する洞察を得ることができます。
ChatGPTを使って学習するという行為自体、非常にユニークな応用です。このカテゴリーに該当するコンシューマー向け製品は他に知りません(選択ではなく、必要に迫られて)。その手法は、一連の実験を実施してモデルの機能をテストし、どこでうまく機能し、どこで機能しないかというメンタルモデルを構築することです(Gary Marcus氏らはChatGPTのバグに関するドキュメントを作成中です)。
私のテストはそれほど厳密なものではありませんでしたが、LMの限界を示す上で大きなインスピレーションの源となりました。GPT-3を使った記事を書き、最後にだけそれを公開しました。また、GPT-3とJ1-Jumboの出力を交換して、私が介入しなかった場合の会話がどうなるかを確認しました。さらに、Lexと共同で記事を執筆し、Lexが私の主張に一致する議論を展開できないことを強調しました。
私の知る限り、この分野で最も公的な研究を行っているのはライリー・グッドサイド氏でしょう。彼はGPT-3、ChatGPT、そして最近ではClaudeを研究しており、OpenAIとAnthropic以外ではおそらく誰よりも深く研究しています。彼はChatGPTの安全フィルターが機能しなくなる可能性をいち早く発見した外部研究者の一人であり、タイムリーなインジェクションを提案しました。これは潜在的に有害ではあるものの、モデルを保有する企業に、そうでなければ見過ごされてしまう可能性のある欠陥を修正するための洞察を提供する可能性があります。こうした種類のテストは、生成AIモデル内部で何が起こっているかをより深く理解するために使用できる数少ない方法の一つです。