OpenAI、AIモデルのマルチモーダル対応やファインチューニング機能強化を発表 無料でどこまで使える?:コスト効率を高めるプロンプトキャッシングも導入 OpenAIは、同社のAIモデル向けの「Realtime API」(パブリックβ版)、「Chat Completions API」の音声入出力サポート、「ビジョンファインチューニング」機能、「Model Distillation」スイート、「プロンプトキャッシング」を発表した。
Googleは8月13日(現地時間)、自社イベント「Made by Google」の中で、同社のマルチモーダル生成AI「Gemini」をAndroidスマートフォン「Pixel 9」シリーズの端末内で実行できるようにすると発表した。 実行可能となるモデルは、Geminiの中でも軽量な「Gemini Nano」。クラウド上での処理でも安全性に問題ないとしつつ、中でも電話内容の要約や暗号化されたテキストメッセージの処理など、最もプライベートな情報についてはGemini Nanoを端末内で実行することで、クラウドにデータを送らずにAI処理が可能になるという。 Gemini Nanoは、テキストの他に音声や画像も扱えるマルチモーダル大規模言語モデル。「Pixel 8 Pro」でも端末内でGemini Nanoの実行が可能だったが、テキストのみでマルチモーダルには対応していなかった。日本語対応は現時
以下の記事が面白かったので、簡単にまとめました。 ・GPT-4o mini: advancing cost-efficient intelligence 1. GPT-4o mini の概要「GPT-4o mini」は、インテリジェンスをより手頃な価格にすることで、AIで構築されるアプリの範囲を大幅に拡大すると期待しているモデルです。MMLUで82%のスコアを獲得し、現在「LMSYS leaderboard」のチャットで「GPT-4」を上回っています。価格は、入力トークン100万個あたり15セント、出力トークン100万個あたり60セントで、以前のモデルよりも1桁手頃な価格で、「GPT-3.5 Turbo」よりも60%以上安価です。 「GPT-4o mini」は、低コストと低レイテンシで、複数のモデル呼び出しを連鎖または並列化するアプリ (複数のAPIの呼び出しなど)、大量のコンテキストをモ
EUはデジタル市場法やデジタルサービス法で大手デジタルプラットフォームやその運営企業を厳しく規制しており、AppleやGoogle、Meta、Microsoftなどのビッグテックはその対応に追われています。大規模言語モデルのLlamaを開発するMetaが、2024年中にリリースする予定のマルチモーダルAIをEUでは提供しないことを発表しました。 Meta won't bring future multimodal AI models to EU https://www.axios.com/2024/07/17/meta-future-multimodal-ai-models-eu 海外ニュースメディアのAxiosによると、Metaは自社で開発する大規模言語モデル・Llamaをベースとして、映像・音声・画像・テキストを推論できるマルチモーダルAIのリリースを2024年中に予定しているとのこと
三菱電機が組み込みソフトウエア開発への生成AI(人工知能)活用を進めている。ソフトウエア開発に関連する過去数十年分のドキュメントの要約文を生成AIにより作成。これを検索用のインデックスとして使うことで、エンジニアの作業工数を最大40%削減できると見込む。 2024年6月20日に開催されたアマゾン ウェブ サービス ジャパン(AWSジャパン)の年次イベント「AWS Summit Japan」で、PoC(概念実証)の成果として明らかにした。今後は実用上必要最小の機能を備えたサービスであるMVP(Minimum Viable Product)として、従業員向けのアプリケーションを開発する予定だ。 三菱電機の組み込みソフトの開発部門では、製品開発部門から改修依頼を受けると、改修対象のソフトウエアの仕様書を検索して改修内容に関連する記述を確認。それを基にソフトウエアのソースコードを確認し、ソースコー
「この1年で、この業界は大きく変わりました」 生成AIブームの火付け役とも言える米OpenAIでチーフアーキテクトを務めるコリン・ジャーヴィス氏は力強くこう語る。 OpenAIが開発するChatGPTや、グーグルのGemini、マイクロソフトのCopilotをはじめ、各社が生成AIの開発にしのぎを削っている。6月上旬、ドイツ・ベルリンで開催された欧州最大のテックカンファレンス「Tech Open Air(TOA)」に登壇したコリン氏は、世界で盛り上がりを見せる生成AIの「今後」起きうる展開について言及した。 あくまでも「推測」であると前置きした上で、「テキストモデルのさらなる進化」「安価かつ高速化」「カスタマイズ性の増加」「モダリティの増加」の4つが進んでいくのではないかと語った。 生成AI「次」に起きること 「テキストモデルの進化」は、この1年半の間に生成AI業界で起きていたことの「続き
日本電信電話(NTT)は3月25日、独自に開発した大規模言語モデル(LLM)「tsuzumi」の商用提供を企業向けに開始した。代表取締役社長を務める島田明氏は「2027年までに売上1000億円を目指す」と述べた。 tsuzumiは、NTTが2023年11月に発表した国産LLMだ。特徴の1つはモデルを大幅に軽量化した点で、パラメーター数は軽量版で70億と、OpenAIが提供する「GPT-3」の25分の1程度しかない。これによって、1つのGPUで動作し、大規模ハードウェア不要で事務所内でのオンプレミス利用にも対応する。 2つ目の特徴は「世界トップレベルの日本語処理能力」だ。パラメーターを軽量化したにも関わらず、GPT3.5と日本語性能で比較した場合の勝率は8割を超え、英語においても高い処理能力を達成しているという。さらに、マルチモーダルにも対応し、パワーポイントの図表読解や聴覚も備える。 3つ
2024年の生成AIはどうなる? サイバーエージェントなどIT企業4社の“本音” 「OpenAI強すぎる問題」に活路はあるか(1/3 ページ) ChatGPTが注目を集め、生成AI導入の機運が一気に広がった2023年。先進的なIT企業はどのように取り組んでいるのか。日本で生成AIの開発、実装に携わるIT企業4社が生成AI活用の現状と2024年の生成AIの展望を語った。 トークセッションは、2023年12月22日開催の企業による研究発表カンファレンス「CCSE2023」で実施。登壇者は、サイバーエージェントの石上亮介さん、rinnaの沢田慶さん、メルカリの大嶋悠司さん、Sansanの猿田貴之さんの4人だ。 2024年の生成AIはどうなる? カギは「マルチモーダル化」 2023年は生成AIが脚光を浴びた1年となった。チャット型で柔軟な受け答えを実現した「ChatGPT」が世界的に注目の的となり
Googleが2023年12月6日に発表した大規模言語モデル(LLM)の「Gemini」は、文字だけではなく画像や映像なども理解してユーザーとやり取りができるマルチモーダリティが大きな特徴で、Googleが公開したGeminiの性能を示すデモムービーは大きな話題となりました。しかし、このムービーで示されたGeminiのデモはフェイクではないかと指摘されています。 Google’s best Gemini demo was faked | TechCrunch https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/ フェイクだと指摘されたデモムービーが以下。 Hands-on with Gemini: Interacting with multimodal AI - YouTube Bloombergの記者で
この記事で行なっていること 凄すぎて”ズキズキワクワク"が止まりません はじめに ついこの間、ChatGPTは2022年1月までの情報を学習した、というい発表がありましたが、さらに今回のアップデートで 画像解析機能(GPT-4V) が追加され、アップロードした画像を使った新たなタスクの実行が可能になってます。そして、それが凄すぎます 衝撃的な投稿 まずはこちらの衝撃的な投稿をご覧ください。 動画は自転車の画像と共に「サドルを下げる手助けをしてください」で始まります。 ChatGPTからレコメンドが返ってきますが、それに対して、質問者は追加で ポイントになりそうな部分を拡大してアップロード マニュアルと自分の持っているツールの写真もアップロード します。 その結果、その質問者は、サドルを下げることに成功!そんな内容です。 自分の環境で、画像解析機能(GPT-4V)を使えるのか? さて、画像解
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文をまとめました。 生成AI論文ピックアップ画像内の形や場所を言葉で説明するAI「Ferret」 Apple含む研究者らが開発 画像から高品質なコードを生成できるオープンソースのAIモデル「LLaVA-1.5」 Microsoft含む研究者らが開発 低解像度画像の学習だけで、高品質な高解像度画像(4K)を生成 中国テンセント含む研究者ら「ScaleCrafter」開発 ブラウザ上で可能 5枚ほどの顔写真からAI顔写真を生成するWebUIプラグイン「EasyPhoto」
こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の後編です。前編はこちら。Technical Reportはこちら。 Databricksのユーザー会でChatGPTの勉強会やります。 注意 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 3 デプロイメントの準備 OpenAIはより安全なローンチに備えるために8月上旬以来、GPT-4とデプロイメント計画に対してイテレーション[21]を行ってきました。我々は、これによってリスクの浮上を押し留めていると信じていますが、完全に排除したわけではありません。現在のデプロイメントは、デプロイメントによるリスクの最小化と、ポジティブなユースケースの実現、デプロイメントからの学習のバランスをとっています。この期間における我
こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の前編です。後編はこちら。Technical Reportはこちら。 Databricksのユーザー会でChatGPTの勉強会やります。 注意 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。 脚注、参考文献、Appendixなどは本文をご覧ください。 アブストラクト 大規模言語モデル(LLM)は、ブラウジング、音声アシスタント、コーディングアシスタントツールを含む、我々の生活における多くのドメインで活用されており、非常に大きな社会的インパクトをもたらす可能性を持っています。[1, 2, 3, 4, 5, 6, 7]このシステムカードでは、モデルのGPTファミリーの最新のLLMであるGPT-4を分析します。[8, 9, 10]最初に、モデルの制限(例: 実際は誤っているの
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 Microsoftに所属する研究者らが発表した論文「DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention」は、複数枚の画像とテキストを処理できる大規模言語モデル(LLM)を提案した研究報告である。DeepSpeed-VisualChatは最大70Bパラメータの言語モデルのサイズにおいて優れた拡張性を示した。 米OpenAIは9月25日に、ChatGPTに音声および画像の認識機能を追加したと発表した。多くのメ
関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり 従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。 テキスト中心の処理能力 従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。 しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。 画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が
OpenAIは9月25日、ChatGPTのバージョンアップを発表しました。PlusプランとEnterpriseプランのユーザー向けに今後2週間でロールアウトを予定。 iOSとAndroidアプリではChatGPTと音声と画像を含む会話が可能になり、その他のプラットフォームでは、画像を含んだ会話ができるようになります。自転車のサドルの高さを変える方法をChatGPTに聞いて、この場所でいいかと写真で提示すると、それは違うと返答。使う道具はこれでいいかとツールボックスの写真を見せると、その中からアーレンキーを使えという指示が飛んでくるといった具合です。 モバイルアプリでの画像を含む会話がどのようなインタフェースであるかは、下記のX(Twitter)動画で見ることができます。 OpenAIはこの機能を課金ユーザー以外にも順次開放していくと述べており、開発者も利用可能にする計画なのでAPIでの提供
We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about. We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT w
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く