2022年7月23日
イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化 | |
イースト株式会社(本社:東京都渋谷区代々木、 代表:熊野哲也)は、 テキストPDFからの構造化テキストの取り出しに成功し、 この技術を使った岩波新書EPUB化を開始しました。 「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。 | |
![]() このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、 電書協ガイドに沿った正確なEPUBを制作、 「EPUB 3.2」にも対応します。 CMSなので書籍の改訂が容易で、 コンテンツの履歴管理にはGitを使用しています。 イーストは2004年にAdobe本社と契約しAdobe PDFライブラリの販売を開始。 15年間蓄積したPDFドキュメント技術で抽出アプリを開発しました。 日本語で複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と思われ、 新書、 文庫、 一般書、 学術書などの出版物、 学術論文、 そして深層学習(AI)に投入する社内ドキュメントの構造化など、 様々な分野への応用を期待しています。 岩波書店様はこの技術にいち早く着目され、 支援していただき、 EPUB化に活用されています。 「印刷所のPDF最終データを渡しさえすればEPUBにデータ加工してくれる。 夢のような技術がイースト社によって岩波書店との試行錯誤の末に開発された。 岩波書店には新書のほかにも文庫、 ジュニア新書、 少年文庫、 単行本、 全集など、 重版ができないままの資産が数限りなく眠っている。 すべての読書子が、 読みたいときに読みたい本を読みたい形式で読めるような読書環境を提供する。 その理想をかなえてくれるツールを手にできた喜びと恩恵を、 日本の出版業界全体で分かち合いたいと思う。 」(株式会社岩波書店 編集局ライツマネジメント部部長 馬場公彦) 7月31日に日本電子出版協会が主催するセミナーでこの技術を初公開し、 8月8日午後イースト社内で90分の個別セミナーを開催します。 EPUBpack https://espuback.com 8/8 イースト説明会 https://kokucheese.com/event/index/573173/ 7/31 JEPAセミナー https://kokucheese.com/event/index/568003/ 電書協ガイド http://ebpaj.jp/counsel/guide イースト株式会社 https://www.est.co.jp | |
|