AI OCRを利用することで、手書き文字の認識精度が向上します。癖字、達筆、個性的な文字も高精度に認識することが可能となります。 AI OCRを利用することで、従来、精度向上が難しいとされた「文字や行の接触」「かすれ文字」などの認識精度が劇的に改善し、地紋領域に書かれた文字(文字の背景に地紋や情景画像があるケース)、罫線にかかる文字、取り消し線なども高精度に認識できるように進化しました。 また、AI OCRが得意とするドキュメント画像理解により、今までOCRで実現困難とされていた書類(文書/帳票)も高精度でOCRできます。従来のOCRでは、あらかじめレイアウトが決まっている「定型帳票」の運用がほとんどでしたが、AI OCRでは、注文書や領収書のような企業/店舗や種類ごとにレイアウトが異なる「準定型帳票」にも対応可能となり、加えて、契約書や図面などのフリーフォーマットで作成された文書への対応
OCRとは OCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)とは、手書き文字や印刷された文字を含む紙書類を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術です。 OCRは、紙メディアとして保存されている情報を効率よくデジタル化することが可能です。デジタル化された情報は、プラットフォームを問わずあらゆる方面で活用することができます。 OCRの活用方法 OCRは、「伝票(帳票)処理用OCR」と「文書(活字文書)OCR」の大きく2つに分類され、それぞれ「データ入力」や「文書管理」の用途で活用されています。 データ入力 データ入力で用いられる原稿は、主に「伝票」や「帳票」と呼ばれ、定形および準定型文書となります。OCRの利用面から「伝票(帳票)処理用OCR」と分類されます
はじめに アクセンチュアの赤石です。必要があって、OCR機能をいろいろ調べています。 Google では、Google Vision APIとGoogle Driveの機能があります。 Google Vision APIの記事 Google Driveの記事 大量にOCRをしたい場合は、普通に考えるとAPIとして使えるGoogle Vision API一択なわけですが、どうも軽くテストした限り、Google Drive APIの方が認識精度が高いみたいなのです。そもそも、同じグーグルで同じ機能のエンジンが2つあることからして謎なのですが。。。 それで、普通であればUI経由で使うGoogle DriveのOCR機能をAPIで使いたいと思ってしまったわけです。 結論として、頑張ればGoogle DriveのOCR機能をAPIで使うことは可能でした。 当記事は、そのための手順を示すものとなります
We live in times when any organization or company to scale and to stay relevant has to change how they look at technology and adapt to the changing landscapes swiftly. We already know how Google has digitized books. Or how Google earth is using NLP (or NER) to identify addresses. Or how it is possible to read text in digital documents like invoices, legal paperwork, etc. But how does it work exact
はじめに 概要 昨年主要なパブリッククラウドであるAzure,GCP,AWSのOCRサービスの比較記事を書きましたが、クラウドの世界は進化が早いですね。 2021年にそれぞれのサービスでアップデートがありましたので、改めて比較してみたいと思います。 以下の前回の比較記事です。 【2021年版】Azure/GCP/AWS OCRサービス比較 実は今回、マイクロソフトから最新のAPIのプライベートプレビュー版を入手しました。 プライベートプレビュー版なのでバージョンアップ内容の詳細は控えますが、日本語手書き文字の認識精度が猛烈に向上しています。 (2022/05/02 追記) 2022年2月にパブリックプレビューに移行しました。 バージョンアップ内容の詳細はこちらをご確認ください。 この記事の想定読者 クラウドが提供するOCR機能に興味のある方 どのクラウドサービスを導入しようか迷われている方
R&D チームの徳田(@dakuton)です。 最近は画像とテキストの狭間にいます。 今回記事のまとめ 簡単にまとめると以下のとおりです。 いくつかの超解像(高解像度化)モデルがOpenCV extra modules(opencv_contrib)インストール + コード数行記述で導入可能 超解像に限らず、文字が一定サイズ以上になるような前処理 -> OCR解析 を実施すると、OCR精度改善につながることがある 超解像による見た目の滑らかさに比例して、OCR精度改善につながるわけではない 低計算コストな画像拡大から超解像に変更する恩恵は発生しにくい テスト条件を変えた場合、違った結果になる可能性あり(用いるOCRエンジン、画像の劣化条件、OpenCV未提供の後発モデル利用など) 実験内容 利用するOCRエンジンの実行条件は変えずに、前処理部分のみ変更した場合のOCR精度・速度変化を調べま
Sugoi Manga OCR V1.5 (Update on 29/May/2021) Download links: (in the About section, click on show more): https://www.patreon.com/mingshiba For questions and stuffs, feel free to join our discord group: https://discord.com/invite/XFbWSjMHJh List of updates so far: + OCR support for Korean and Chinese + Japanese Furigana removal (great for OCR accuracy) + Papago Translation (good for Korean) + C
はじめに こんばんは、miyaharaです。最近、OCRを利用した業務アプリケーションを作ったりしています。 有名所のOCRライブラリを幾つか試してみたのと、クラウドベースの画像処理APIが使いやすくて、正直ビビりましたので、備忘録も兼ねて記して置きたいと思います。 使ってみたOCRライブラリ・API tesseract-ocr Microsoft Azure Computer Vision API Google Cloud Vision API OpenCV3系から、利用しやすくなった「tesseract-ocr」からはじめ、その後AzureとGCPのAPIを試しました。 今回作成するアプリケーションの制約が、「C#を使うこと」と「WindowsPCで動作するアプリケーションにすること」の2つでしたので、これらに落ち着きました。 (ですので、基本的にNuGetを利用してライブラリが導入で
Windows10にはOCR機能がある Windows10には、UWPアプリ用の機能としてOCRが備わっています。この機能はWindows Runtime APIを通して使用できます。 ということで、ここではWindows Runtimeの機能を利用して、画像から文字を読み取ってみます。 具体的には、UWPアプリ用のAPIであるWindows.Media.OcrをWPFアプリから呼び出して変換を行います。 パッケージ管理方法の変更 まず、Visual Studioのパッケージ参照の方法をPackageReferenceに変更します。 Visual Studioのメニューから、「ツール」→「NuGetパッケージマネージャー」→「パッケージマネージャー設定」の順に選択します。 「オプション」ダイアログが開きますので、「NuGetパッケージマネージャー」の「全般」項目を選択して、「規定のパッケー
<Project Sdk="Microsoft.NET.Sdk"> <PropertyGroup> <OutputType>Exe</OutputType> <TargetFramework>net5.0-windows10.0.19041.0</TargetFramework> <RootNamespace>プロジェクト名</RootNamespace> </PropertyGroup> <ItemGroup> <Compile Include="Program.fs" /> </ItemGroup> </Project> let await (iAsync: Windows.Foundation.IAsyncOperation<'TResult>) = System.WindowsRuntimeSystemExtensions.AsTask(iAsync).Result let pri
D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect
はじめに こんにちは。Daddy's Officeの市川です。 私が10年以上開発を続けているWindowsPCを監視カメラシステムにする「LiveCapture3」。 先日、このソフトにOCR機能を追加して、カメラ映像内の数値を検出できるようにしました。 (この機能により、サーマルカメラを使用した自動温度計測&通知システムの構築が可能です) 「LiveCapture3」のコア機能はC++で実装しているので、C++でOCR機能を実装する必要がありました。 C++でのOCRといえば、「Tesseract」が有名ですが、今回は画像内の数値のみ検出すればよく、そこまで大掛かりにしたくありませんでした。 そこでWindowsのAPIを調べたところ、ありました! Windows.Media.Ocr しかし、よくよく見てみると、これはWinRTっぽい感じ。 つまり、UWPアプリやストアアプリであれば使
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く