Chat(チャット)GPTなど話題の生成人工知能(AI)は人間のような自然な文章やイラストをつくりだす。脳の神経回路の働きをモデルとする「深層学習(ディープラーニング)」と呼ぶ技術が基盤となる。登場して20年近くたつが、なぜ優れているのかはわかっていない。数学や統計学を駆使して謎解きに挑む研究が進んでいる。「深層学習はなぜうまくいくのか。正直にいえば、よくわからないところがある」。深層学習の原
前書き 注意:ここに書いていることは2020年代としては、古すぎる見解になっている。 近年の自己教師あり学習の大幅な進展で、ここで述べているようなアプローチは大幅に古めかしいものになっている。 ・自己教師あり学習の進展は、画像認識タスクに対する共通のbackbone を作り出しており、後段で個々の画像認識タスクに対するfine-tuningをするアプローチに変わってきている。 ・そのため、ラベル付きの限られたデータで特徴量の抽出をしていたのが、自己教師あり学習に基づく特徴量の抽出になっている。 ・各人、自己教師あり学習について調べることをお勧めする。 主旨 単純に学習データを追加するだけでは学習が改善しないことがある。そのような場合へのヒントを著者の限られた経験の中から記述する。 はじめに 画像認識の機械学習を改善するためにはデータを追加すればよい。 そう思っている人が大半だろう。 ただ、
2020.09.08 ITニュース 2015年7月以来5年ぶり2度目となる、東京大学大学院工学系研究科教授で日本ディープラーニング協会理事長の松尾豊さんのインタビューをお届けする。 エンジニアtypeでは今年7月にも、AIテクノロジー企業ABEJA主催のオンラインイベント「DX2020」で行われたABEJA岡田陽介代表との対談「With/Afterコロナ時代におけるDXとAI」をレポートしている。 >>【松尾豊×ABEJA岡田陽介対談】日本企業でDX、AI活用が進まない5つの理由とその処方箋 この記事では「日本企業でDXが進まない理由とその解決策」にテーマを絞るべく割愛したが、講演の中でディープラーニング研究の今を問われた松尾教授は「画像認識系の技術がだいぶ成熟して、アプリケーションもだいぶ出てきた。世の中には”出切った”雰囲気さえ出ている。ところが今(アカデミア方面では)かなり面白いこと
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米カリフォルニア大学マーセド校の研究チームが開発した「LipType」は、音のない口パク映像を音声に変換する、深層学習を用いた読唇システムだ。スマートフォンのインカメラで口パクを自撮りして、話者の唇の動きを読み取る。 音声認識は、周囲が騒がしい場合には信頼性が低く、図書館や電車内などではプライバシーやセキュリティが損なわれる。声が出せない障害のある人はそもそも音声認識が使えない。 解決策としては、口パクのような無声発話による音声入力が挙げられる。無声発話時に動く顎の動きを捉えて音声に変換するものや、無声発話時に顎の下に設置したセンサーから皮膚が変動する顎運動と舌筋の運動を計測し音声に変換す
はじめに こんにちは。Yuki | Kagglerです! 先日、Shopeeコンペの順位が確定して銀メダルをいただき、晴れてCompetition Expertになることができました。区切りがいいのでここまで取り組んできたことをまとめてみました。 ※ 6/28追記:Amazonのリンクが切れていたので貼り直しました! プログラミング&機械学習を始めて一年、ようやく Kaggle Expertになることができました!! 行列も正規分布も知らず、ターミナルなんて触ったこともない状態からのスタートでしたが、ようやくここまで来ました。 ここまで来れたのは偏にこれまで関わってきた皆様のお陰です。これからも頑張ります!! pic.twitter.com/kMkaFhqhU9 — ユウキ | Kaggler (@Yuki_Kaggler) May 12, 2021 この記事の対象者 Kaggleをやって
近年のAIは、人間が手を加えなくてもコンピューターが自動的に大量のデータからそのデータの特徴を発見する「ディープラーニング(深層学習)」という学習手法で動いています。このディープラーニングは、コンピューターゲームに代表されるリアルタイム画像処理に特化した演算装置・プロセッサであるGPUで処理されるというのが通例ですが、ライス大学のコンピューター科学者がIntelと共同で「GPUに比べて最大15倍も高速にディープラーニングできるCPU向けソフトウェア」を開発しました。 ACCELERATING SLIDE DEEP LEARNING ON MODERN CPUS:VECTORIZATION, QUANTIZATIONS, MEMORY OPTIMIZATIONS, AND MORE (PDFファイル)https://proceedings.mlsys.org/paper/2021/file/
任天堂がNintendo Switch向けに昨年9月に発売した『スーパーマリオ 3Dコレクション』について、フランスに所在する子会社Nintendo European Research & Development(NERD)が、その開発に貢献していたことを明らかにしている。 『スーパーマリオ 3Dコレクション』は、NINTENDO 64向けに1996年に発売された『スーパーマリオ64』、ニンテンドー ゲームキューブにて2002年に発売された『スーパーマリオサンシャイン』、そしてWii向けに2007年に発売された『スーパーマリオギャラクシー』の3作品をセットにして、Nintendo Switchに移植した作品だ。オリジナル版からは、解像度の向上や16:9画面への対応、またJoy-Con操作への最適化などがおこなわれている。 NERDは、ビデオコーデックを手がけるMobiclipを前身とし、2
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米テキサス大学オースティン校とカナダ・マギル大学による研究チームが開発した「C-Space Tunnel Discovery for Puzzle Path Planning」は、パズル「知恵の輪」の攻略を計算する深層学習フレームワークだ。 簡単に外せない2つ以上の物体を脱着して遊ぶ知恵の輪は、シンプルでありながら奥が深いゲーム。今回は、知恵の輪を外すための経路を自動で導き出す解法アルゴリズムを開発した。 今回のアプローチでは、お互いの形状から解法に関与している可能性の高いポイントを特定し、衝突しないポイント同士の組み合わせペアをセット。このペアを滑らせる際の向きや回転を生成し、それらをつ
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 京都大学の研究チームが開発した「Non-Local Musical Statistics as Guides for Audio-to-Score Piano Transcription」は、Web上のピアノ演奏動画の音声データから楽譜を作成する、深層学習(ディープラーニング)を用いた自動変換システムだ。 システムは、3段階で構成される。1段階目は、入力された動画の音の信号に対してMIDIシーケンスを深層学習ネットワークで推定(Multipitch detection)する。ピッチ解析用とベロシティ推定用のネットワークを別々で学習し、その出力を組み合わせてMIDIシーケンスを合成する。2段
機械学習を「社会実装」する際に待ち受けている罠と、その解決方法の考察です。 ※この資料は、東京大学グローバル消費インテリジェンス寄附講座(GCI)2020 Summerの講義で使用したものです。 https://gci.t.u-tokyo.ac.jp/gci-2020-summer/ ※2…
(Image by Dirk Wouters from Pixabay) この記事は毎年恒例のスキル要件記事の2021年版です。昨年版は以下のリンクからご覧ください。 今回は、試験的に「データアーキテクト」についても触れています(詳細は後述)。残り2つの職種については基本的な内容はそれほど大きくは変わっていませんが、先般公開した推薦書籍リスト記事の時と同じ変更点が一つだけあります。それは「機械学習エンジニアのスキル要件」は今回は想定していない(というか例示できない)という点です。これまた詳細は後述しますが、端的に言えば「分野ごとの細分化が過剰に進んでいる」という印象があるためです。 ということで、前回までとは違って「職種ごと」に定義とスキル要件(書けるようであれば)を挙げていくスタイルになっています。なお、言わずもがなですが以下に挙げる3職種の説明は僕個人のこれまでの経験や見聞や伝聞をもと
『人工知能は人間を超えるか』(KADOKAWA)などの著書でも知られる松尾豊さん(2020年 年頭所感)より 一般社団法人日本ディープラーニング協会(JDLA)は2021年1月4日、AI(人工知能)研究の第一人者で、JDLA理事長も務める東京大学大学院工学系研究科 教授の松尾豊さんによる年頭所感を発表した。 年頭所感のなかで、松尾豊さんは2020年を振り返り、コロナ禍に進んだデジタルの浸透に触れ、2020年の大きなトピックとして、Open AIが開発した言語モデル「GPT-3」および、「ディープラーニングを含むAI技術の立ち位置が問い直される年であったこと」の2つを挙げている。 「デジタルに関しての浸透が一気に進んだ年でもあった」 「皆様、あけましておめでとうございます。 昨年は、コロナ禍により社会全体が大きな変化を余儀なくされた年でした。人々の日常生活や仕事に大きな影響があり、さまざまな
日本ディープラーニング協会(以下JDLA)は、2020年 第3回 G検定を2020年11月7日(土)に実施。7,250名が受験し、4,318名の合格者が誕生しました。ディープラーニングをビジネスへ活用する人材であるG検定の合格者は、累計31,695名となりました。 JDLAは、2020年 第3回 G検定(ジェネラリスト検定)を2020年11月7日(土)に実施しました。今回G検定の受験者数は7,250名。そのうち合格者数は4,318名で、合格率は59.56%でした。 2017年のスタートより受験者/合格者数ともに拡大し続け、G検定の合格者数は今回試験で累計3万人を超える結果となりました。 AI(人工知能)分野の中でも特に成果を出しているディープラーニング技術の産業応用が進み、日本の産業競争力が向上することを目指し、JDLAではより多くのビジネスパーソンに学んでいただけるよう、引き続きジェネラ
APIの連携によって事業者は、AIの開発に必要な学習データや計算コストなどの初期投資をかけずに、自社サービスへのコメントの健全化に役立てることができるという。 今後もヤフーは誹謗中傷など悪質コメントに対する取り組みを進め、インターネット空間の健全化を目指すとしている。 関連記事 ヤフー、“ヤフコメ”のパトロールAIを外部提供へ 1日に2万件の誹謗中傷を削除可能 ヤフーが、「Yahoo!ニュース」コメント欄の健全化のため使用しているAIを、外部の事業者にも提供すると発表した。1日に平均約2万件の悪質な投稿を削除できる自然言語処理モデルを横展開し、投稿型サービスの健全化を図る。6月中をめどに、悪質なコメントへの対策強化に向けた検討会も開催する。 “繋がりすぎる”ネット時代の誹謗中傷問題、解決策はあるのか リアリティーショー番組でのSNS中傷を発端として、インターネット上の悪質な投稿に関する議論
著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。 このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。 概要 Dwango Media Villageの廣芝です。 誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。 声の変換技術には、リアルタイム性と品質のトレードオフがあります。 既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。 品質を優先した声変換
コンテンツブロックが有効であることを検知しました。 このサイトを利用するには、コンテンツブロック機能(広告ブロック機能を持つ拡張機能等)を無効にしてページを再読み込みしてください。 ✕
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く