whisperの人気記事 102件 - はてなブックマーク

1 - 40 件 / 102件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

whisperの検索結果1 - 40 件 / 102件

whisperに関するエントリは102件あります。 AI、人工知能、 ChatGPT などが関連タグです。人気エントリには『AI 激動の年！2022年の人工知能10大トレンドと必読論文』などがあります。

AI 激動の年！2022年の人工知能10大トレンドと必読論文
- 519 users
- ja.stateofaiguides.com
- テクノロジー
- 2023/01/02
- AI
- あとで読む
- 論文
- 学習
- 研究
- 人工知能
- トレンド
- 言語
- 画像
- ChatGPT
文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
- 517 users
- gigazine.net
- テクノロジー
- 2023/03/09
会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。すると、GitHubアカウントでのサインインを求められます
- AI
- 文字起こし
- あとで読む
- webサービス
- Whisper
- アプリ
- 音声
- 文章
- 人工知能
- OpenAI
ほぼリアルタイム！？爆速で動作する日本語特化の文字起こしAI！『kotoba-whisper-v2.0』 - Qiita
- 456 users
- qiita.com/ryosuke_ohori
- テクノロジー
- 2024/11/03
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさんこんにちは！私は株式会社ulusageの、技術ブログ生成AIです！これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします！（AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味があれば、要望が一定あり次第、別途記事を書きます！）爆速で動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』を試してみたはじめにビジネスシーンや日常生活で、音声データを文字起こしするニーズはますます高まっています。議事録の作成やインタビューの文字起こ
- AI
- あとで読む
- 文字起こし
- 日本語
- qiita
- 人工知能
- 音声
- 機械学習
- 技術
- 文字
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 448 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習

時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。｜にょす
- 443 users
- note.com/nyosubro
- テクノロジー
- 2024/10/05
みなさん、こんにちは！9月は久しぶりに個人開発をしてました。今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です！「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え？大丈夫なの？」って感じですよね笑でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います！「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能（10時間でも100時間でも！）使いやすさにこだわった機能（コピー、シェア、自動タイトル生成など）「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げますそして、無
- AI
- あとで読む
- アプリ
- webサービス
- 文字起こし
- 開発
- Gemini
- 無料
- 音声
- プログラミング
NotebookLMでポッドキャスト生成してMacWhisperで文字起こししながら聴くのが英語のリスニング訓練に良い - laiso
- 412 users
- laiso.hatenablog.com
- 学び
- 2025/01/17
最近「生成AIで英語を効率よく勉強するには」というnote記事で、自分が興味のある題材の教材を手に入れるために生成AIを活用するノウハウが紹介されていた。 note.com これには共感できて、私も「海外ドラマを使って英語学習しよう！」というメソッドに乗って実践しては「ドラマ興味ねぇ〜」と挫折を繰り返すことが多かった（ディズニーの英語と映画アラジンがライブラリに眠っている）。自分の好きなテーマで教材を作ればモチベーションが保ちやすいのはそのとうりだと思う。私の場合、読み書きよりもリスニングをもっと鍛えたいという気持ちが強い。理由はソフトウェア技術関連の動画やポットキャスト（カンファレンスの録画とかテックインフルエンサーの配信とか）の音声を翻訳を挟まずに理解できるようになりたいから。即時性の高い一次情報が英語かつ音声でしか入手できないことが結構ある。以前感想を書いたOSSのドキュメンタリー
- AI
- あとで読む
- 英語
- 学習
- english
- 日本語
- ポッドキャスト
- llm
- podcast
文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
- 396 users
- blog.takuya-andou.com
- テクノロジー
- 2022/10/02
どうもこんにちは、あんどう（@t_andou）です。前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。「Youtubeの」と書いていますが、実際はどの動画でも対応してます。前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロードここにドラッグ＆ドロップでアップできます大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更ファイル名に合わせて変更してください 5.全セルを実行あと
- AI
- あとで読む
- youtube
- 文字起こし
- 動画
- ツール
- 言葉
- GPU
- google
- 無料
OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
- 331 users
- gigazine.net
- テクノロジー
- 2022/09/22
画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン
Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び｜にょす
- 331 users
- note.com/nyosubro
- テクノロジー
- 2023/08/19
日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました！しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です！（笑）シャべマルの紹介具体的には、、絵文字で見返せるメモアプリあんまりないですが、良いですよ…！音声入力でメモ内容を作成。かなり高精度な音声認識モデル（Whisper）を用いているので、想像以上にちゃんと文字起こししてくれます！「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです！そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます！これ何が良いかというと、圧倒的に見返しやすくなるんですよね
- ChatGPT
- あとで読む
- アプリ
- AI
- メモ
- 開発
- Whisper
- function
- 記録
- webサービス
超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
- 320 users
- gigazine.net
- テクノロジー
- 2023/01/20
東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R
- AI
- あとで読む
- 音声認識
- webサービス
- voice
- Python
- GIGAZINE
- 人工知能
- techfeed
- 音声
爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は？／実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】
- 295 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/11/01
自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告
- 286 users
- gigazine.net
- テクノロジー
- 2022/11/17
AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから
- AI
- あとで読む
- 生活
- 文字起こし
- エンジニア
- Lifelog
- google
- 機械学習
https://twitter.com/hiraoka_dx/status/1638658560170274818
- 284 users
- twitter.com/hiraoka_dx
- テクノロジー
- 2023/03/23
- ChatGPT
- あとで読む
- AI
- 仕事
- slack
- 自然言語処理
- Zoom
- api
- twitter
https://twitter.com/buffett_code/status/1605488460659392514
- 281 users
- twitter.com/buffett_code
- テクノロジー
- 2022/12/21
PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
- 272 users
- tadaoyamaoka.hatenablog.com
- テクノロジー
- 2022/10/16
PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan
- python
- あとで読む
- 文字起こし
- AI
- whisper
- PC
- プログラミング
- 音声
- 技術
- 音声認識
「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた！」――急遽テレワークを導入した中小企業の顛末記（118）【急遽テレワーク導入！の顛末記】
- 267 users
- internet.watch.impress.co.jp
- テクノロジー
- 2022/11/07
- AI
- あとで読む
- 文字起こし
- 無料
- テキスト
- python
- 人工知能
- OpenAI
- 技術
- GPU
OpenAI DevDay で発表された新モデルと新開発ツールまとめ｜npaka
- 267 users
- note.com/npaka
- テクノロジー
- 2023/11/07
以下の記事が面白かったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造
- ChatGPT
- あとで読む
- AI
- OpenAI
- GPT
- 開発
- 人工知能
- API
- LLM
- まとめ
ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
- 217 users
- gihyo.jp
- テクノロジー
- 2023/04/06
ChatGPT APIの使い方実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは！"}] ) print(complet
- ChatGPT
- Whisper
- AI
- あとで読む
- API
- Python
- OpenAI
- アプリ
- プログラミング
- Hugging Face
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
- 205 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/20
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみたはじめに今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。ストリーミングとバッチ処理のどちらでも文字起こしが可能です。攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び
- AI
- あとで読む
- aws
- API
- OpenAI
- 人工知能
- APIエコノミー
- Amazon Web Services
- techfeed
Introducing ChatGPT and Whisper APIs
- 189 users
- openai.com
- テクノロジー
- 2023/03/02
Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those
- ChatGPT
- AI
- あとで読む
- API
- OpenAI
- gpt
- deep learning
- 文章
- 学習
- deeplearning
2022年の深層学習ハイライト - Qiita
- 188 users
- qiita.com/shionhonda
- テクノロジー
- 2023/02/12
はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事（2021年、2020年、2019年）もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,
OpenAIの文字起こしAI「Whisper」、医療現場での利用に研究者らが警鐘
- 179 users
- www.itmedia.co.jp
- テクノロジー
- 2024/10/27
米OpenAIが2022年に発表した音声テキスト変換AI「Whisper」に、文章の一部または全部を捏造してしまういわゆる「幻覚」による重大な欠陥があると、米Associated Pressは10月26日（現地時間）、多数のエンジニアや研究者へのインタビューに基づいて報じた。 Whisperは、インタビューの翻訳や文字起こし、消費者向け技術でのテキスト生成、動画の字幕作成など、世界中の様々な業界で使用されている。Associated Pressは、医療機関でもWhisperベースのツールが診察の会話の文字起こしで使われ始めていることが、深刻な懸念を引き起こしていると指摘する。 Whisperのトレーニングには、ネット上の膨大な音声データと、それに対応する文字起こしテキストから構成される、68万時間に及ぶ大規模なデータセットが使われたとしているが、トレーニングに使った具体的なソースは明示して
- AI
- あとで読む
- 人工知能
- 医療
- OpenAI
- LLM
- ChatGPT
- 技術
WhisperとChatGPTで文字起こし | ドクセル
- 175 users
- www.docswell.com
- テクノロジー
- 2023/06/25
闇のエンジニア/変なデジカメ開発中/ディープラーニング芸人/Raspberry Piとからあげ大好き/はてなブログ書いてます
- ChatGPT
- AI
- あとで読む
- 音声
- API
- 学習
- 文章
- 文章生成AI
- 文字
- 勉強
writeout.ai
- 172 users
- writeout.ai
- テクノロジー
- 2023/03/09
Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.
- AI
- audio
- あとで読む
- transcription
- speech
- 音声
- webservice
- ツール
OpenAI API で提供されているモデルまとめ｜npaka
- 172 users
- note.com/npaka
- テクノロジー
- 2023/03/04
1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデルを提供しています。・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。・DALL-E : 自然言語から画像を生成・編集するモデル・Whisper : 音声をテキストに変換するモデル・Embeddings : 埋め込み (ベクトル表現) を生成するモデル・Codex : コードを理解および生成するモデル・Moderation : センシティブおよび安全でない文章を検出するモデル・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu
- OpenAI
- あとで読む
- AI
- API
- ChatGPT
- 機械学習
無料で始めるAmazon CodeWhisperer on VSCode（Github Copilotと同等の性能？） - Qiita
- 150 users
- qiita.com/masakinihirota
- テクノロジー
- 2023/04/16
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 現在の AIを一言で説明すると・・・フミコ・フミオさんはTwitterを使っています: 「ほぼ全員がご高齢者の会社上層部からの「対話型AI とは何かその功罪について簡潔に分かりやすく出来たら一言で説明しろ」という難題にヤケクソで「ドラえもんです」と答えたら「便利だけど取扱注意ということだな」とほぼ正解な認識をしてくれたので藤子・F・不二雄先生は偉大すぎる。」 / Twitter Github Copilot と Amazon CodeWhisperer の比較現時点では Github Copilot の方が使いやすい。単純な機能だ
- VSCode
- AI
- あとで読む
- Amazon
- aws
- github
- copilot
- ChatGPT
- プログラミング
- qiita
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
- 123 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/23
こんちには。データアナリティクス事業本部機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…？と思っていたのですが… ですが… … … … おお！？(上記はGitHubにあるWER: Word Error Rateのグラフです) これは！？これは結構良さげな数値を出している！？(たぶん) ってことで元音声屋さんとしては、これは試すしかない！ということで動かしてみました！(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試
- 音声認識
- AI
- whisper
- あとで読む
- OpenAI
- 機械学習
- python
- 音声
- api
OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
- 119 users
- inoccu.com
- テクノロジー
- 2022/09/26
OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。（あまり意識して
- python
- whisper
- あとで読む
- mac
- AI
- インストール
- github
Pythonで音声認識モデルWhisperを使って文字起こし | gihyo.jp
- 105 users
- gihyo.jp
- テクノロジー
- 2024/12/25
表の引用元：Available models and languages: openai/whisper -github.com Whisperを使ってみる Whisperは、MITライセンスのOSS版とAPI版の利用が可能です。それぞれを利用する方法を見ていきます。以下は筆者の動作環境になります。 M2 MacBook macOS Sonoma 14.7 メモリ 16GB Python 3.11.5 [1] OSS版 OSS版のWhisperを利用するには、pipでインストールします。また、動画と音声を記録・変換・再生するためのコマンドラインツールFFmpegが別途必要です。FFmpegはほとんどのパッケージマネージャーから入手できますので、ご自身の環境にあった方法でインストールしてください。 Whisperでは音声データの読み取りにFFmpegを使用しているため、FFmpegが対応し
- python
- OpenAI
- AI
- あとで読む
- ChatGPT
- API
無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
- 103 users
- gigazine.net
- テクノロジー
- 2022/09/29
画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ
- AI
- 音声
- whisper
- 機械学習
- 文字
- 文章
- 人工知能
LISTEN
- 81 users
- listen.style
- テクノロジー
- 2023/04/16
アートビジネスコメディ教育小説行政歴史健康／フィットネスキッズ／ファミリーレジャー音楽ニュース宗教／スピリチュアル科学社会／文化スポーツテクノロジー事件／犯罪テレビ & 映画 $wire.selectEpisode(episodes[index].id) ); $watch('currentTime', time => { if (time > 0 && (Math.floor(time / 10) != Math.floor(lastPosition / 10))) { lastPosition = time; $wire.updatePosition(time); } }); "> { return fileType.startsWith(acceptedType); }); if (!matched) { valid = false; break;
- podcast
- AI
- 音声
- webservice
- webサービス
ReazonSpeech - Reazon Human Interaction Lab
- 74 users
- research.reazon.jp
- テクノロジー
- 2023/01/19
ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
- AI
- speech
- 機械学習
- voice
- japanese
- 日本語
- 学習
- 音声認識
- api
superwhisperでの音声入力を試す
- 72 users
- efcl.info
- テクノロジー
- 2024/01/17
superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。特徴 Whisperの認識精度が高いかなり早く喋っても認識してくれる日本語も認識してくれるモデルがある日本語で喋って英語に翻訳してくれる機能もあるオフライン対応有料: サブスクと買い切りの2種類のプランがある無料で15分のトライアル、その後は選べるモデルが制限される公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり
- mac
- 音声認識
- voice
- macOS
- software
- あとで読む
Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる！ - Qiita
- 71 users
- qiita.com/sakasegawa
- テクノロジー
- 2023/02/15
こんにちは！逆瀬川 (https://twitter.com/gyakuse)です！今日は議事録の音声からの書き出しとサマリの自動生成を行います。概要会議音声(wavとかmp3ファイル)からWhisperを用いて書き出しを行い、GPT-3.5でサマリを自動生成します。会議音声としていますが、べつにどんな音声でも大丈夫です。 Colab whisper.cpp版(処理に動画秒数×10倍程度の時間がかかりますがGPU不要です) whisper.fp16版(処理は動画秒数/4程度の時間で済みますがGPU必須です) 使い方 OpenAIのAPIキーを貼り付けランタイム > すべてのセルを実行から実行し、最初の処理の下に出てくるファイル選択で録音ファイルを選択しますひたすら待ちます実装 Whisperの軽量化 Whisperの軽量化としては、cpp実装のwhisper.cppがあります
- AI
- 音声
- whisper
- python
- qiita
- GPT
- ML
- あとで読む
- GPU
- 人工知能
話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった
- 58 users
- xtech.nikkei.com
- テクノロジー
- 2023/01/06
インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI（人工知能）によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI（オープンAI）の音声認識AI「Whisper」だ。同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言
- Whisper
- AI
- 文字起こし
- technology
- webサービス
- Google
- 仕事
- あとで読む
Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する！ - Qiita
- 58 users
- qiita.com/sakasegawa
- テクノロジー
- 2023/04/07
こんにちは！逆瀬川 ( @gyakuse ) です！今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ！できたもの openai_keyにOpenAIのAPIキーを入れるメイン音声ファイルに会話音声 (wav, 25MB以内) を入れる話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる話者 (1) の名前を入れる話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる話者 (2) の名前を入れる上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。話者分離 (S
- 音声処理
- AI
- 自然言語処理
- Python
- qiita
- あとで読む
- API
ChatGPT, Python, Whisper APIを活用し、動画ファイルから議事録を自動生成 - Qiita
- 58 users
- qiita.com/haku_104
- テクノロジー
- 2023/04/27
はじめに現在のデジタル社会では、Teamsなどのオンライン会議が日常的に行われています。しかし、その議事録を取るのは容易ではありません。そこで、OpenAIのChatGPTとWhisperを使って、動画ファイルから議事録を自動生成する方法をご紹介します。補足説明：ChatGPTについて ChatGPTは、OpenAIが開発した自然言語処理AIで、人間と自然に会話することが可能です。GPT-3、GPT-4という大規模な言語モデルをベースにしており、様々な文脈での文章生成が得意です。補足説明：Whisperについて Whisperは、OpenAIが開発した自動音声認識(ASR)システムです。大量の音声とテキストデータで訓練されており、音声をテキストに変換するタスクを効率的に行います。処理の流れここから、具体的に動画ファイルから議事録を生成するための具体的な手順を説明します。 1.
- ChatGPT
- API
- あとで読む
- 音声
- Python
- AI
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
- 56 users
- github.com/openai
- 学び
- 2022/09/17
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- OpenAI
- Whisper
- translate
- voice
- audio
- 機械学習
- AI
- Tech
ChatGPT・Whisper・Otter・DeepLのすごい「英語力」、海外取材で効果絶大だった
- 55 users
- xtech.nikkei.com
- テクノロジー
- 2023/03/24
米OpenAI（オープンAI）の「ChatGPT」をはじめとする高度な言語AI（人工知能）が国内外で大きな話題となっている。英語、日本語、中国語など多言語を操り、人が話した言葉を聞き取ったり、こなれた文章を書いたり、翻訳したりする。近ごろは毎日のようにテレビやインターネットでニュースを見かけるほどだ。様々な言語AIを試しながら、自分なりの活用法を探っている読者の方は少なくないだろう。筆者も最近、取材活動にChatGPTなどの言語AIがどれだけ役立つのかを検証する機会があった。スペイン・バルセロナで2023年2月27日から3月2日まで開催されたモバイル業界最大級の展示会「MWC Barcelona 2023」に初めて参加した。世界202の国と地域から8万8500人以上が参加したという同イベントは、基本的に英語が使われる。カンファレンス、メディア向けの展示ブースツアー、1対1のインタビューの
- DeepL
- Whisper
- 翻訳
- ai
- ChatGPT
- 人工知能
- あとで読む
- 英語
iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開　音声入力も可能
- 54 users
- www.itmedia.co.jp
- テクノロジー
- 2023/05/19
Web版と同様にログインして使う。有料版「ChatGPT Plus」ユーザーであれば、Web版と同様にGPT-4へのアクセスや新機能の早期利用などが可能だ。また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。現在App Storeで「ChatGPT」を検索すると、OpenAIのロゴに似たロゴを冠した類似アプリが多数表示される。OpenAI ChatGPTは日本ではまだ公開されていないので、注意が必要だ。関連記事 ChatGPT Plusのプラグインを使ってみた　「食べログ」連携で実在店舗も案内可能に OpenAIは「ChatGPT Plus」のサー
- OpenAI
- ChatGPT
- あとで読む
- AI
- iOS
- 人工知能