[B! マルチモーダル] nagggのブックマーク

naggg id:naggg

マルチモーダルに関するnagggのブックマーク (34)

OpenAI、AIモデルのマルチモーダル対応やファインチューニング機能強化を発表　無料でどこまで使える？
OpenAI、AIモデルのマルチモーダル対応やファインチューニング機能強化を発表　無料でどこまで使える？：コスト効率を高めるプロンプトキャッシングも導入 OpenAIは、同社のAIモデル向けの「Realtime API」（パブリックβ版）、「Chat Completions API」の音声入出力サポート、「ビジョンファインチューニング」機能、「Model Distillation」スイート、「プロンプトキャッシング」を発表した。
naggg 2024/10/08
AI

マルチモーダル
リンク
Googleのマルチモーダル生成AI「Gemini Nano」がAndroidスマホ「Pixel 9」の端末内で実行可能に
Googleは8月13日（現地時間）、自社イベント「Made by Google」の中で、同社のマルチモーダル生成AI「Gemini」をAndroidスマートフォン「Pixel 9」シリーズの端末内で実行できるようにすると発表した。実行可能となるモデルは、Geminiの中でも軽量な「Gemini Nano」。クラウド上での処理でも安全性に問題ないとしつつ、中でも電話内容の要約や暗号化されたテキストメッセージの処理など、最もプライベートな情報についてはGemini Nanoを端末内で実行することで、クラウドにデータを送らずにAI処理が可能になるという。 Gemini Nanoは、テキストの他に音声や画像も扱えるマルチモーダル大規模言語モデル。「Pixel 8 Pro」でも端末内でGemini Nanoの実行が可能だったが、テキストのみでマルチモーダルには対応していなかった。日本語対応は現時
naggg 2024/08/14
AI

Google

Gemini

大規模言語モデル

マルチモーダル
リンク
GPT-4o mini の概要｜npaka
以下の記事が面白かったので、簡単にまとめました。・GPT-4o mini: advancing cost-efficient intelligence 1. GPT-4o mini の概要「GPT-4o mini」は、インテリジェンスをより手頃な価格にすることで、AIで構築されるアプリの範囲を大幅に拡大すると期待しているモデルです。MMLUで82%のスコアを獲得し、現在「LMSYS leaderboard」のチャットで「GPT-4」を上回っています。価格は、入力トークン100万個あたり15セント、出力トークン100万個あたり60セントで、以前のモデルよりも1桁手頃な価格で、「GPT-3.5 Turbo」よりも60%以上安価です。「GPT-4o mini」は、低コストと低レイテンシで、複数のモデル呼び出しを連鎖または並列化するアプリ (複数のAPIの呼び出しなど)、大量のコンテキストをモ
naggg 2024/07/22
AI

マルチモーダル

Gemini

ChatGPT
リンク
MetaがLlamaベースのマルチモーダルAIをEUには提供しない方針を明らかに
EUはデジタル市場法やデジタルサービス法で大手デジタルプラットフォームやその運営企業を厳しく規制しており、AppleやGoogle、Meta、Microsoftなどのビッグテックはその対応に追われています。大規模言語モデルのLlamaを開発するMetaが、2024年中にリリースする予定のマルチモーダルAIをEUでは提供しないことを発表しました。 Meta won't bring future multimodal AI models to EU https://www.axios.com/2024/07/17/meta-future-multimodal-ai-models-eu 海外ニュースメディアのAxiosによると、Metaは自社で開発する大規模言語モデル・Llamaをベースとして、映像・音声・画像・テキストを推論できるマルチモーダルAIのリリースを2024年中に予定しているとのこと
naggg 2024/07/19
AI

マルチモーダル

EU
リンク
三菱電機がClaude 3活用で「工数4割減」、仕様書の図表解析にマルチモーダルが威力
三菱電機が組み込みソフトウエア開発への生成AI（人工知能）活用を進めている。ソフトウエア開発に関連する過去数十年分のドキュメントの要約文を生成AIにより作成。これを検索用のインデックスとして使うことで、エンジニアの作業工数を最大40%削減できると見込む。 2024年6月20日に開催されたアマゾンウェブサービスジャパン（AWSジャパン）の年次イベント「AWS Summit Japan」で、PoC（概念実証）の成果として明らかにした。今後は実用上必要最小の機能を備えたサービスであるMVP（Minimum Viable Product）として、従業員向けのアプリケーションを開発する予定だ。三菱電機の組み込みソフトの開発部門では、製品開発部門から改修依頼を受けると、改修対象のソフトウエアの仕様書を検索して改修内容に関連する記述を確認。それを基にソフトウエアのソースコードを確認し、ソースコー
naggg 2024/06/25
AI

マルチモーダル
リンク
OpenAIがドイツの技術イベントで語った｢生成AIの次｣に起きること。加速する4つの変化とは
｢この1年で、この業界は大きく変わりました｣生成AIブームの火付け役とも言える米OpenAIでチーフアーキテクトを務めるコリン・ジャーヴィス氏は力強くこう語る。 OpenAIが開発するChatGPTや、グーグルのGemini、マイクロソフトのCopilotをはじめ、各社が生成AIの開発にしのぎを削っている。6月上旬、ドイツ・ベルリンで開催された欧州最大のテックカンファレンス｢Tech Open Air（TOA）｣に登壇したコリン氏は、世界で盛り上がりを見せる生成AIの｢今後｣起きうる展開について言及した。あくまでも｢推測｣であると前置きした上で、｢テキストモデルのさらなる進化｣｢安価かつ高速化｣｢カスタマイズ性の増加｣｢モダリティの増加｣の4つが進んでいくのではないかと語った。生成AI｢次｣に起きること｢テキストモデルの進化｣は、この1年半の間に生成AI業界で起きていたことの｢続き
naggg 2024/06/12
よめなかったけどもブクマ

AI

マルチモーダル
リンク
NTT、国産の生成AI「tsuzumi」サービス開始--「2027年に売上1000億円」と島田社長
日本電信電話（NTT）は3月25日、独自に開発した大規模言語モデル（LLM）「tsuzumi」の商用提供を企業向けに開始した。代表取締役社長を務める島田明氏は「2027年までに売上1000億円を目指す」と述べた。 tsuzumiは、NTTが2023年11月に発表した国産LLMだ。特徴の1つはモデルを大幅に軽量化した点で、パラメーター数は軽量版で70億と、OpenAIが提供する「GPT-3」の25分の1程度しかない。これによって、1つのGPUで動作し、大規模ハードウェア不要で事務所内でのオンプレミス利用にも対応する。 2つ目の特徴は「世界トップレベルの日本語処理能力」だ。パラメーターを軽量化したにも関わらず、GPT3.5と日本語性能で比較した場合の勝率は8割を超え、英語においても高い処理能力を達成しているという。さらに、マルチモーダルにも対応し、パワーポイントの図表読解や聴覚も備える。 3つ
naggg 2024/03/26
GPT-4との比較が気になるなぁ

AI

マルチモーダル

大規模言語モデル
リンク
2024年の生成AIはどうなる？　サイバーエージェントなどIT企業4社の“本音”　「OpenAI強すぎる問題」に活路はあるか
2024年の生成AIはどうなる？　サイバーエージェントなどIT企業4社の“本音”　「OpenAI強すぎる問題」に活路はあるか（1/3 ページ） ChatGPTが注目を集め、生成AI導入の機運が一気に広がった2023年。先進的なIT企業はどのように取り組んでいるのか。日本で生成AIの開発、実装に携わるIT企業4社が生成AI活用の現状と2024年の生成AIの展望を語った。トークセッションは、2023年12月22日開催の企業による研究発表カンファレンス「CCSE2023」で実施。登壇者は、サイバーエージェントの石上亮介さん、rinnaの沢田慶さん、メルカリの大嶋悠司さん、Sansanの猿田貴之さんの4人だ。 2024年の生成AIはどうなる？　カギは「マルチモーダル化」 2023年は生成AIが脚光を浴びた1年となった。チャット型で柔軟な受け答えを実現した「ChatGPT」が世界的に注目の的となり
naggg 2024/02/02
AI

ChatGPT

マルチモーダル
リンク
マルチモーダルAI「Gemini」の性能をアピールするGoogleの公式ムービーはフェイクだったという指摘
Googleが2023年12月6日に発表した大規模言語モデル(LLM)の「Gemini」は、文字だけではなく画像や映像なども理解してユーザーとやり取りができるマルチモーダリティが大きな特徴で、Googleが公開したGeminiの性能を示すデモムービーは大きな話題となりました。しかし、このムービーで示されたGeminiのデモはフェイクではないかと指摘されています。 Google’s best Gemini demo was faked | TechCrunch https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/ フェイクだと指摘されたデモムービーが以下。 Hands-on with Gemini: Interacting with multimodal AI - YouTube Bloombergの記者で
naggg 2023/12/10
"「このムービーはGeminiで構築されるマルチモーダリティのユーザーエクスペリエンスがどのようなものになり得るかを示しています。私たちは開発者にインスピレーションを与えるためにこのムービーを作りました」"

AI

Gemini

Google

マルチモーダル
リンク
GPT-4V: 驚きを隠せない進化！凄すぎて"ズキズキワクワク"が止まりません！！！ - Qiita
この記事で行なっていること凄すぎて”ズキズキワクワク"が止まりませんはじめについこの間、ChatGPTは2022年1月までの情報を学習した、というい発表がありましたが、さらに今回のアップデートで画像解析機能(GPT-4V) が追加され、アップロードした画像を使った新たなタスクの実行が可能になってます。そして、それが凄すぎます衝撃的な投稿まずはこちらの衝撃的な投稿をご覧ください。動画は自転車の画像と共に「サドルを下げる手助けをしてください」で始まります。 ChatGPTからレコメンドが返ってきますが、それに対して、質問者は追加でポイントになりそうな部分を拡大してアップロードマニュアルと自分の持っているツールの写真もアップロードします。その結果、その質問者は、サドルを下げることに成功！そんな内容です。自分の環境で、画像解析機能(GPT-4V)を使えるのか？さて、画像解
naggg 2023/10/28
AI

ChatGPT

マルチモーダル
リンク
アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明（生成AIウィークリー） | テクノエッジ TechnoEdge
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文をまとめました。生成AI論文ピックアップ画像内の形や場所を言葉で説明するAI「Ferret」　Apple含む研究者らが開発画像から高品質なコードを生成できるオープンソースのAIモデル「LLaVA-1.5」　Microsoft含む研究者らが開発低解像度画像の学習だけで、高品質な高解像度画像（4K）を生成　中国テンセント含む研究者ら「ScaleCrafter」開発ブラウザ上で可能　5枚ほどの顔写真からAI顔写真を生成するWebUIプラグイン「EasyPhoto」
naggg 2023/10/27
研究

AI

Apple

マルチモーダル

大規模言語モデル
リンク
[翻訳] GPT-4 System Card (後編) - Qiita
こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の後編です。前編はこちら。Technical Reportはこちら。 Databricksのユーザー会でChatGPTの勉強会やります。注意本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。脚注、参考文献、Appendixなどは本文をご覧ください。 3 デプロイメントの準備 OpenAIはより安全なローンチに備えるために8月上旬以来、GPT-4とデプロイメント計画に対してイテレーション[21]を行ってきました。我々は、これによってリスクの浮上を押し留めていると信じていますが、完全に排除したわけではありません。現在のデプロイメントは、デプロイメントによるリスクの最小化と、ポジティブなユースケースの実現、デプロイメントからの学習のバランスをとっています。この期間における我
naggg 2023/10/13
AI

ChatGPT

マルチモーダル

研究

あとで読む
リンク
[翻訳] GPT-4 System Card (前編) - Qiita
こちらの後半にあるGPT-4 System Cardの翻訳です。前後編の前編です。後編はこちら。Technical Reportはこちら。 Databricksのユーザー会でChatGPTの勉強会やります。注意本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。脚注、参考文献、Appendixなどは本文をご覧ください。アブストラクト大規模言語モデル(LLM)は、ブラウジング、音声アシスタント、コーディングアシスタントツールを含む、我々の生活における多くのドメインで活用されており、非常に大きな社会的インパクトをもたらす可能性を持っています。[1, 2, 3, 4, 5, 6, 7]このシステムカードでは、モデルのGPTファミリーの最新のLLMであるGPT-4を分析します。[8, 9, 10]最初に、モデルの制限(例: 実際は誤っているの
naggg 2023/10/13
AI

ChatGPT

マルチモーダル

研究

あとで読む
リンク
https://cdn.openai.com/papers/gpt-4-system-card.pdf
naggg 2023/10/13
あとで読む

AI

ChatGPT

マルチモーダル

研究
リンク
米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 Microsoftに所属する研究者らが発表した論文「DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention」は、複数枚の画像とテキストを処理できる大規模言語モデル（LLM）を提案した研究報告である。DeepSpeed-VisualChatは最大70Bパラメータの言語モデルのサイズにおいて優れた拡張性を示した。米OpenAIは9月25日に、ChatGPTに音声および画像の認識機能を追加したと発表した。多くのメ
naggg 2023/10/01
"米OpenAIは9月25日に、ChatGPTに音声および画像の認識機能を追加したと発表した。多くのメディアで取り上げられたこのニュースに隠れて、Microsoftも同日に画像認識能力を持つチャットAIを公表していた"

AI

マルチモーダル
リンク
ChatGPTを使ってカラーパレットを生成、何故その色を選んだかの解説や、プレビューやアクセシビリティなどを確認も出来る・「HueHive」
naggg 2023/10/01
AI

ChatGPT

マルチモーダル
リンク
Hironobu Takagi / 高木啓伸 @hirotakagi 昨日、ChatGPTが画像入力対応したので「視覚障害者のためにこの画像を説明してください」というプロンプトで試しています。結論：アクセシビリティの時代が変わる！生成例↓ 画像は、晴れた空の下の現代的な都市環境を示しています。最前面には、白い文字で「Miraikan」と書かれた目立つ青い看板があります。このロゴは、線で区切られたスタイル化された地球儀から成っています。上向きの矢印と「P」の文字は駐車場の方向を示しており、「100M」
naggg 2023/10/01
AI

ChatGPT

マルチモーダル
リンク
OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB
関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。テキスト中心の処理能力従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が
naggg 2023/10/01
AI

ChatGPT

マルチモーダル
リンク
ChatGPT、画像と音声使った会話が可能に。Plusユーザーはモバイルアプリでマルチモーダルに | テクノエッジ TechnoEdge
OpenAIは9月25日、ChatGPTのバージョンアップを発表しました。PlusプランとEnterpriseプランのユーザー向けに今後2週間でロールアウトを予定。 iOSとAndroidアプリではChatGPTと音声と画像を含む会話が可能になり、その他のプラットフォームでは、画像を含んだ会話ができるようになります。自転車のサドルの高さを変える方法をChatGPTに聞いて、この場所でいいかと写真で提示すると、それは違うと返答。使う道具はこれでいいかとツールボックスの写真を見せると、その中からアーレンキーを使えという指示が飛んでくるといった具合です。モバイルアプリでの画像を含む会話がどのようなインタフェースであるかは、下記のX（Twitter）動画で見ることができます。 OpenAIはこの機能を課金ユーザー以外にも順次開放していくと述べており、開発者も利用可能にする計画なのでAPIでの提供
naggg 2023/09/26
AI

ChatGPT

マルチモーダル
リンク
ChatGPT can now see, hear, and speak
We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about. We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT w
naggg 2023/09/26
マルチモーダルの市民化だな！

AI

ChatGPT

マルチモーダル
リンク
1 2 次のページ