OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/
数式のスクリーンショットを撮影するだけでLaTeX形式に変換してくれる「Mathpix Snipping Tool」のUbuntu版がリリースされています。詳細は以下から。 当時スタンフォード大学の博士課程だったNicolas JimenezさんがiOS向けに開発した数式専用のOCR/Solverアプリ「Mathpix」は現在、iOS以外にもMac/Windows向けアプリが公開されていますが、昨日、新たにUbuntu向けの「Mathpix Snipping Tool for Ubuntu(以下、Mathpix for Ubuntu)」が公開されたそうです。 Take a screenshot of math and paste the LaTeX into your editor, all with a single keyboard shortcut. Mathpix – Mathpi
近年、災害による資料アーカイブの必要性や専門家の減少、資料の経年劣化などを理由に、歴史的資料のデジタル化・テキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。 今回発表された技術は、江戸期以前のくずし字を自動で判読し、テキストデータ化することを可能にするもの。同社は2013年より、さまざまな書籍をデータ化する「高精度全文テキスト化サービス」を提供しており、同サービスで確立したシステム基盤に、公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで、同技術を実現したそうだ。2014年度に実施した原理検証実験では、くずし字の書物を80%以上の精度でOCR処理することに成功した。
極秘システム「PRISM」を用いてアメリカの情報機関が個人情報を参照していたことが発覚していますが、これらの情報機関にデータ収集されないようにOCRなどでのテキスト解析が困難なフォント「ZXX」、がロードアイランド・デザイン・スクールの卒業生であるSang Munさんにより製作されました。 Making Democracy Legible: A Defiant Typeface — The Gradient — Walker Art Center http://blogs.walkerart.org/design/2013/06/20/sang-mun-defiant-typeface-nsa-privacy/ Introducing the NSA-Proof Font | Motherboard http://motherboard.vice.com/blog/introducing-
昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。 調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。 【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ? Google Drive OCRの使い方 GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に サービス開始したオンラインストレージ『Google Dri
オーリッドという日本のIT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」(写真、3冊1500円)は、そのサービスの目玉だ。 見た目はごく普通のノート。メモをしたり、議事録をとったり、普通のノートとして使える。ノートをiPhone付属のカメラで撮影し、KYBERのWebサイトにアップロードすると、画像のデータがクラウドサーバー上で管理される(Androidには10月対応予定)。そこまではこれまでのクラウドサービスにもあったもの。「Evernote」を思い浮かべる人もいるだろう。 だが、話はここからだ。 しばらくすると、手書きのメモが文字データになって送られてくる。いわゆるOCR(画像からの文字起こし)だが、その精度は異様に高い。ほぼ完璧だ。納品までも最速
2007年に慶応大学の江戸末期、明治初期の活字のOCR化に挑戦していたが、 それは、もう解読済みになっている。 なら、Google は、今何を企んでいるのか? Google Books 慶応大学プロジェクト 明治の図書のOCR解析作業完了 學問すゝめ 自第一篇至第十七篇 「天」「西洋」で、検索 検索成功(2011.1.22確認)
電子化の現場からみたOCRの動向 1. はじめに インターネットを通じて、自宅や職場などから閲覧できる本が増えている。あるものは無料で、あるものは有料で閲覧することができる。電子化された本がインターネット上で公開される利点は、いつでも/どこでも読むことができるということだけではない。これまで目当ての本を探そうとすると、タイトル、著者名、分類などを頼りに探すしかなかったが、電子化された本は、その中の文章や内容の一部からでも検索可能となる。つまり、インターネット上に電子化された本が公開されると、本の探し方/使い方が変わる、と言える。この新しい「本の探し方/使い方」を陰で支えているのが「光学式文字読取装置」(Optical Character Reader:OCR)というテクノロジーである。本稿では、本や新聞の電子化に携わる者(1)の視点で、OCRの動向を紹介する。 2. OCRはどのように使
電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。 Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find related words such that a high search accuracy (>95-98%) would still be possible from newspaper content because of repeated significant words. http://www.dlib.org/dlib/july09/munoz/07munoz.html とい
日経新聞の朝刊で「国会図書館の本、有料ネット配信 400万冊対象、11年にも」を見て、「ブック検索著作権問題、Google期限まで半月 [BM時評] 」で紹介したようにグーグル・ブック検索に押しまくられた国内勢も反転、攻勢に出るのかと思いました。ところが、調べると、とんでもない時代錯誤をしていらっしゃるのです。これは頭が痛い!! 日経の記事には、こうあります。「国立国会図書館は、日本文芸家協会、日本書籍出版協会と共同で、デジタル化した同図書館の蔵書をインターネットで有料配信するサービスを始める。両協会が著者など権利者に許可を取り、個人がネット上で同図書館の蔵書を読めるようにする」「9月に同図書館と両協会が中心となり協議会を設立する。10年3月までに利用者から著作権料をいくら徴収するかなど詳細を詰めたうえで、11年春には利用者から集めた著作権料を作家などに分配する社団法人か財団法人を発足さ
国会図書館とグーグルのデジタルデータは 似て非なるもの ここまで「本」のデジタル化という表現をしてきましたが、そのデジタル化の具体的な内容については説明していませんでしたので、今回は「デジタル化の中身」を取り上げたいと思います。グーグルでのデジタル化と、現段階における国会図書館のデジタル化とはその実態においてかなりの違いがあるからです。 前回、国会図書館は約15万冊の蔵書のデジタル化を終え、今回の補正予算によって新たに75万冊の蔵書デジタル化を進める計画が進行中であることを説明しました。この国会図書館のデジタル化データは、現段階では全て画像となっています。「本」のページをスキャンしたイメージが画像データとして保存されている、ということです。もちろん、「本」のタイトルや著者名、発行年月日といった情報は別途デジタルデータ化され、画像データと関連付けて保存されています。国会図書館が提供してい
ニュージーランド国立図書館が、2001年から実施している新聞デジタル化プロジェクト(ウェブサイト“Papers Past”で公開中)に関連して、デジタル化した画像をOCRを使ってテキスト化する際に、白黒二値(bitonial)画像とグレイスケール(greyscale)画像とで正確さにどの程度相違があるかを調査した結果を、D-Lib Magazine誌2009年3/4月号で発表しています。これによると、白黒二値の方が少し正確性が高いが、双方に有意な差は見られなかったとのことで、プロジェクトチームは同館に対し、当面は白黒二値でのデジタル化を続けることと、継続的に関連情報を収集しデジタル化方針をレビューすることを勧告しています。 Tracy Powell ; Gordon Paynter. Going Grey?: Comparing the OCR Accuracy Levels of Bit
Googleで、紙の文書をスキャニングして作成した(テキスト情報をもたない)画像PDFも検索可能になった、とGoogle社がOfficial Google Blogで発表しています。 同社のOCR技術によって画像PDFからテキスト情報を抽出しインデクスすることにより、検索が可能になったとのことです。 A picture of a thousand words? http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html Google、スキャン文書も検索対象に – MarkeZine http://markezine.jp/article/detail/5822
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く