[B! ocr] myrmecoleonのブックマーク

myrmecoleon id:myrmecoleon

ocrに関するmyrmecoleonのブックマーク (32)

熊本大学とTOPPAN、くずし字AI-OCRで未解読だった「細川家文書」約5万枚の解読に成功。検索システムも構築　
myrmecoleon 2024/07/30
ai

history

ocr

search

technology
リンク
GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか？さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね？」って思っちゃったわけです。ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。やりたいことやってみるとりあえずやってみる請求書名刺参考文献感想やりたいこと今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ
myrmecoleon 2024/06/10
前にGPT-4oにOCRさせたら、書かれてないことをもっともらしく作文し出して面白かった。OCRだけを目的にするなら特化したAIライブラリもっとありそうな気はする。

ocr

ai
リンク
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。リポジトリ : https://github.com/ndl-lab/
myrmecoleon 2022/04/26
国立国会図書館

ocr

programing

open

図書館

japanese
リンク
数式のスクリーンショットを撮影するだけでLaTex形式に変換してくれる「Mathpix Snipping Tool」のUbuntu版がリリース。 | AAPL Ch.
数式のスクリーンショットを撮影するだけでLaTeX形式に変換してくれる「Mathpix Snipping Tool」のUbuntu版がリリースされています。詳細は以下から。当時スタンフォード大学の博士課程だったNicolas JimenezさんがiOS向けに開発した数式専用のOCR/Solverアプリ「Mathpix」は現在、iOS以外にもMac/Windows向けアプリが公開されていますが、昨日、新たにUbuntu向けの「Mathpix Snipping Tool for Ubuntu(以下、Mathpix for Ubuntu)」が公開されたそうです。 Take a screenshot of math and paste the LaTeX into your editor, all with a single keyboard shortcut. Mathpix – Mathpi
myrmecoleon 2018/10/08
math

ocr

tex
リンク
Google Driveで画像を開いたと思ったら文字が全て書き起こされているという事態に衝撃の人々「マジかよ!」「あ!ホントだ」
マコなり社長 @mako_yukinari あ…ありのまま今　起こった事を話すぜ！「おれは　Google Driveで画像を開いたと思ったら　いつのまにか文字がすべて書き起こされていた」な…　何を言っているのか　わからねーと思うがおれも　何をされたのか　わからなかった… pic.twitter.com/DFGD03VH9z 2018-02-01 09:46:18
myrmecoleon 2018/02/02
google

OCR

technology

twitter

review
リンク
https://docs.google.com/presentation/d/1LHplQ8nqNJNxaqY7DL4eM329jZKfO-E15XHoadYeLfE/mobilepresent?slide=id.g240ca7fffa_0_15369
myrmecoleon 2017/08/05
GoogleのOCRのAPI出来いいんだなあ。ちょうど探してたから今度使おう

comic

api

ocr

web

service
リンク
貴重な資料を後世に--江戸期以前の“くずし字”を判読するOCR技術が凸版印刷から [インターネットコム]
近年、災害による資料アーカイブの必要性や専門家の減少、資料の経年劣化などを理由に、歴史的資料のデジタル化・テキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。今回発表された技術は、江戸期以前のくずし字を自動で判読し、テキストデータ化することを可能にするもの。同社は2013年より、さまざまな書籍をデータ化する「高精度全文テキスト化サービス」を提供しており、同サービスで確立したシステム基盤に、公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで、同技術を実現したそうだ。2014年度に実施した原理検証実験では、くずし字の書物を80％以上の精度でOCR処理することに成功した。
myrmecoleon 2015/07/03
technology

ocr

text

scan

history

document

japan
リンク
OCRなどでのテキスト解析を困難にするフォント「ZXX」
極秘システム「PRISM」を用いてアメリカの情報機関が個人情報を参照していたことが発覚していますが、これらの情報機関にデータ収集されないようにOCRなどでのテキスト解析が困難なフォント「ZXX」、がロードアイランド・デザイン・スクールの卒業生であるSang Munさんにより製作されました。 Making Democracy Legible: A Defiant Typeface — The Gradient — Walker Art Center http://blogs.walkerart.org/design/2013/06/20/sang-mun-defiant-typeface-nsa-privacy/ Introducing the NSA-Proof Font | Motherboard http://motherboard.vice.com/blog/introducing-
myrmecoleon 2013/06/27
OCRというか読みづらい……

ocr

font

technology
リンク
無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね
昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ？ Google Drive OCRの使い方 GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去にサービス開始したオンラインストレージ『Google Dri
myrmecoleon 2012/11/16
ocr

google

review
リンク
日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)
オーリッドという日本のIT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」（写真、3冊1500円）は、そのサービスの目玉だ。見た目はごく普通のノート。メモをしたり、議事録をとったり、普通のノートとして使える。ノートをiPhone付属のカメラで撮影し、KYBERのWebサイトにアップロードすると、画像のデータがクラウドサーバー上で管理される（Androidには10月対応予定）。そこまではこれまでのクラウドサービスにもあったもの。「Evernote」を思い浮かべる人もいるだろう。だが、話はここからだ。しばらくすると、手書きのメモが文字データになって送られてくる。いわゆるOCR（画像からの文字起こし）だが、その精度は異様に高い。ほぼ完璧だ。納品までも最速
myrmecoleon 2011/09/22
メカニカルタルクなcrowd OCRサービス。面白い。OCRと目視判定の仕分けが有効。

ocr

business
リンク
『Google は、江戸末期の活字のＯＣＲに成功している。』
2007年に慶応大学の江戸末期、明治初期の活字のＯＣＲ化に挑戦していたが、それは、もう解読済みになっている。なら、Ｇｏｏｇｌｅ　は、今何を企んでいるのか？Ｇｏｏｇｌｅ　Ｂｏｏｋｓ　慶応大学プロジェクト　明治の図書のＯＣＲ解析作業完了學問すゝめ自第一篇至第十七篇「天」「西洋」で、検索　検索成功（2011.1.22確認）
myrmecoleon 2011/01/31
うわ。GoogleのOCR技術は江戸時代の活字までいけるようになったんか……。

google

book

ocr
リンク
国立国会図書館における全文テキスト化実証実験の出版社等との共同実施について | 国立国会図書館-National Diet Library
昨今、出版物のデジタル利用をめぐる動きが関心を集めています。このようなデジタル出版データの利活用に向けた動きに対応するため、国立国会図書館では、過去から現在に至る出版物を対象とした、統合的かつ高度な全文テキスト検索における技術的課題に関する実証実験を行います。この度、デジタル出版データの提供等の面で、実験参加にご賛同いただける出版社、印刷会社等を広く募集します。希望される場合は、下記「応募方法」に従いご応募ください。
myrmecoleon 2010/07/21
国立国会図書館

book

scan

ocr

test

publish
リンク
国会図書館が出版物の全文テキスト化実験、参加出版社・印刷会社を募集　
myrmecoleon 2010/07/21
「実験で用いる汎用フォーマットは、テキストデータに、出版物のタイトルや目次、本文、章などの構造を示す情報が付加されたもの」このへん気になる。長尾館長の本のイメージ？

国立国会図書館

ocr

test

book

scan

publish
リンク
CA1718 – 動向レビュー：電子化の現場からみたOCRの動向 / denshikA
電子化の現場からみたOCRの動向 1. はじめに　インターネットを通じて、自宅や職場などから閲覧できる本が増えている。あるものは無料で、あるものは有料で閲覧することができる。電子化された本がインターネット上で公開される利点は、いつでも／どこでも読むことができるということだけではない。これまで目当ての本を探そうとすると、タイトル、著者名、分類などを頼りに探すしかなかったが、電子化された本は、その中の文章や内容の一部からでも検索可能となる。つまり、インターネット上に電子化された本が公開されると、本の探し方／使い方が変わる、と言える。この新しい「本の探し方／使い方」を陰で支えているのが「光学式文字読取装置」（Optical Character Reader：OCR）というテクノロジーである。本稿では、本や新聞の電子化に携わる者(1)の視点で、OCRの動向を紹介する。 2. OCRはどのように使
myrmecoleon 2010/06/22
お。simpleAの人が。っていうか，最近は変名でも普通に記事書けるようになったのカレントアウェアネス。

図書館

digital

book

ocr
リンク
経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる - 電子化
電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。 Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find related words such that a high search accuracy (>95-98%) would still be possible from newspaper content because of repeated significant words. http://www.dlib.org/dlib/july09/munoz/07munoz.html とい
myrmecoleon 2009/09/14
book

digital

ocr

scan

search

review
リンク
知識ベースに基づいた図書目録カードの理解 | CiNii Research
myrmecoleon 2009/08/29
card

catalog

format

review

ocr
リンク
Blog vs. Media 時評 | 国会図書館の蔵書デジタル化、あまりな時代錯誤
日経新聞の朝刊で「国会図書館の本、有料ネット配信　400万冊対象、11年にも」を見て、「ブック検索著作権問題、Google期限まで半月 [BM時評] 」で紹介したようにグーグル・ブック検索に押しまくられた国内勢も反転、攻勢に出るのかと思いました。ところが、調べると、とんでもない時代錯誤をしていらっしゃるのです。これは頭が痛い！！日経の記事には、こうあります。「国立国会図書館は、日本文芸家協会、日本書籍出版協会と共同で、デジタル化した同図書館の蔵書をインターネットで有料配信するサービスを始める。両協会が著者など権利者に許可を取り、個人がネット上で同図書館の蔵書を読めるようにする」「９月に同図書館と両協会が中心となり協議会を設立する。10年３月までに利用者から著作権料をいくら徴収するかなど詳細を詰めたうえで、11年春には利用者から集めた著作権料を作家などに分配する社団法人か財団法人を発足さ
myrmecoleon 2009/08/07
デジタル化を先にやろうが一緒にやろうが，OCRの手間はさほど変わらないのだが。Googleでさえ日本語のOCRはまだまだ不十分。技術出来てからあとで一気にやろうぜ／ボーンデジタルの方はWARPとかでやるのかなと

図書館

digital

book

ocr
リンク
グーグル和解問題を国会図書館の動きから考える（2） | 「黒船」グーグルが日本に迫るデジタル開国 | ダイヤモンド・オンライン
国会図書館とグーグルのデジタルデータは似て非なるものここまで「本」のデジタル化という表現をしてきましたが、そのデジタル化の具体的な内容については説明していませんでしたので、今回は「デジタル化の中身」を取り上げたいと思います。グーグルでのデジタル化と、現段階における国会図書館のデジタル化とはその実態においてかなりの違いがあるからです。前回、国会図書館は約15万冊の蔵書のデジタル化を終え、今回の補正予算によって新たに75万冊の蔵書デジタル化を進める計画が進行中であることを説明しました。この国会図書館のデジタル化データは、現段階では全て画像となっています。「本」のページをスキャンしたイメージが画像データとして保存されている、ということです。もちろん、「本」のタイトルや著者名、発行年月日といった情報は別途デジタルデータ化され、画像データと関連付けて保存されています。国会図書館が提供してい
myrmecoleon 2009/07/15
「OCR…最大のネックはどうやら「権利者の意向」」

google

国立国会図書館

book

scan

ocr

review

著作権
リンク
白黒二値画像とグレイスケール画像とで、OCRの正確さに差はあるか？（Nz）
ニュージーランド国立図書館が、2001年から実施している新聞デジタル化プロジェクト（ウェブサイト“Papers Past”で公開中）に関連して、デジタル化した画像をOCRを使ってテキスト化する際に、白黒二値（bitonial）画像とグレイスケール（greyscale）画像とで正確さにどの程度相違があるかを調査した結果を、D-Lib Magazine誌2009年3/4月号で発表しています。これによると、白黒二値の方が少し正確性が高いが、双方に有意な差は見られなかったとのことで、プロジェクトチームは同館に対し、当面は白黒二値でのデジタル化を続けることと、継続的に関連情報を収集しデジタル化方針をレビューすることを勧告しています。 Tracy Powell ; Gordon Paynter. Going Grey?: Comparing the OCR Accuracy Levels of Bit
myrmecoleon 2009/03/18
「白黒二値の方が少し正確性が高いが、双方に有意な差は見られなかった」日本語だとどうなのかな。

ocr

technology

review
リンク
Googleで画像PDFも検索可能に
Googleで、紙の文書をスキャニングして作成した（テキスト情報をもたない）画像PDFも検索可能になった、とGoogle社がOfficial Google Blogで発表しています。同社のOCR技術によって画像PDFからテキスト情報を抽出しインデクスすることにより、検索が可能になったとのことです。 A picture of a thousand words? http://google blog.blogspot.com/2008/10/picture-of-thousand-words.html Google、スキャン文書も検索対象に – MarkeZine http://markezine.jp/article/detail/5822
myrmecoleon 2008/11/06
なん……だと……？／とある飲み会で，国民のほとんどが流刑者の子孫なために，情報公開で出してる公文書を全部画像PDF（検索できない）にしてる国があるとか聞いたのを思い出した。

google

web

pdf

ocr

scan
リンク
1 2 次のページ