ニュースリリースを中心に世の中の最新情報を発信するWebメディア

イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化

イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化
イースト株式会社(本社:東京都渋谷区代々木、 代表:熊野哲也)は、 テキストPDFからの構造化テキストの取り出しに成功し、 この技術を使った岩波新書EPUB化を開始しました。 「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。

抽出アプリは、 PDFに目次頁、 大見出し、 小見出しなど若干のマークを付け、 構造化されたマークダウン(簡易HTML)形式のテキストを出力します。 その際、 画像、 表、 グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、 ルビ、 窓見出し、 頁単位の縦組み/横組み混在なども正しく抽出されます。
このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、 電書協ガイドに沿った正確なEPUBを制作、 「EPUB 3.2」にも対応します。 CMSなので書籍の改訂が容易で、 コンテンツの履歴管理にはGitを使用しています。

イーストは2004年にAdobe本社と契約しAdobe PDFライブラリの販売を開始。 15年間蓄積したPDFドキュメント技術で抽出アプリを開発しました。 日本語で複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と思われ、 新書、 文庫、 一般書、 学術書などの出版物、 学術論文、 そして深層学習(AI)に投入する社内ドキュメントの構造化など、 様々な分野への応用を期待しています。

岩波書店様はこの技術にいち早く着目され、 支援していただき、 EPUB化に活用されています。
「印刷所のPDF最終データを渡しさえすればEPUBにデータ加工してくれる。 夢のような技術がイースト社によって岩波書店との試行錯誤の末に開発された。 岩波書店には新書のほかにも文庫、 ジュニア新書、 少年文庫、 単行本、 全集など、 重版ができないままの資産が数限りなく眠っている。 すべての読書子が、 読みたいときに読みたい本を読みたい形式で読めるような読書環境を提供する。 その理想をかなえてくれるツールを手にできた喜びと恩恵を、 日本の出版業界全体で分かち合いたいと思う。 」(株式会社岩波書店 編集局ライツマネジメント部部長 馬場公彦)

7月31日に日本電子出版協会が主催するセミナーでこの技術を初公開し、 8月8日午後イースト社内で90分の個別セミナーを開催します。
EPUBpack  https://espuback.com
8/8 イースト説明会  https://kokucheese.com/event/index/573173/
7/31 JEPAセミナー  https://kokucheese.com/event/index/568003/
電書協ガイド  http://ebpaj.jp/counsel/guide
イースト株式会社  https://www.est.co.jp
 

プレスリリース素材ダウンロード

https://prtimes.jp/im/action.php?run=html&page=releaseimage&company_id=46987&release_id=1

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です