ABSC INTERVIEW

国立国会図書館の取り組み
デジタル化資料の全文テキストデータの
視覚障害者等への提供

全文テキストデータを提供するというのは、出版者のみなさまにとって、ご懸念が強い部分だったと思っております。
私たちはご協力をお願いするという立場ですが、みなさまのご理解のもとにサービスを開始することができ、大変感謝しております。

渡邉(わたなべ)斉志(ただし)
国立国会図書館 関西館
図書館協力課 課長

本田(ほんだ)麻衣子(まいこ)
国立国会図書館 関西館
図書館協力課 課長補佐

写真 国立国会図書館関西館

──国立国会図書館では、2023年3月から、視覚障害等のを対象として、デジタル化資料の全文テキストデータの提供を開始されましたね。昨年(2024年)9月にも、出版者向けに説明会を開催されるなど、提供されるデータは順調に増えているようですが、まずはこのサービスに至る経緯をお聞かせいただけますか?
  当館では、2000年頃から本格的に所蔵資料のデジタル化と公開を進めてきましたが、デジタル化資料のほとんどはテキストデータを持たない画像データで、視覚障害等の方にとっては、必ずしもアクセシブルではありませんでした。そこで、画像データからOCR技術によりテキストデータを作成し、「全文テキストデータ」として、2023年3月から視覚障害等の方に提供を開始しました。これにより、画像データではできなかった、デジタル化資料の音声読み上げや点字ディスプレイでの表示、本文の検索などが可能になりました。
  もともと当館では、2014年から視覚障害等の方に向けて「視覚障害者等用データ送信サービス」という、インターネットを通じて点字データやDAISYデータ等を提供するサービスを行っておりましたので、その枠組みの中で全文テキストデータを提供していくことを検討いたしました。

──テキストデータを利用者に送信するということに対しては、不安に思う出版者も多かったと思いますが、国立国会図書館さんに具体的に届いた声があれば、お聞かせいただけますでしょうか。
  まずは、OCRをかけたままの、未校正のテキストデータを提供するという点にご懸念を示されたと記憶しております。
  次に、テキストデータをダウンロードできる形で提供することになりますので、その取り扱いについても不安の声をお寄せいただきました。対象となる利用者の方はどういう方で、どのように利用することになるのかというお問い合わせもいただきました。
  未校正のテキストデータについては、出版者向け説明会でも大きく二つご説明をさせていただきました。一つは未校正というのがそもそもどの程度のものなのか、全文テキストデータの精度について。全数ではなく、サンプル調査の結果になりますが、図書・雑誌とも平均認識率は95%以上でした。図書に関しては、概ね古いものは認識精度が低く、年代が新しくなるにつれて精度が高くなるという結果でした。
  また、未校正のテキストデータをそのまま提供することに関して、著作権法との関係で問題はないのかといったご質問もいただきました。その点に関しても、著作権法を所管する文化庁のご見解を踏まえまして、機械学習技術等を取り入れたOCR処理プログラムの研究開発事業を行い、テキストデータの質の改善にも努めてきたところです。
  さらに、テキストデータが未校正であることは、なるべく利用者の方にもご理解していただいたうえで使っていただきたいという背景から、提供する全文テキストデータの冒頭には、自動的に凡例が挿入されるようになっています。凡例には、このデータは未校正であり人手による確認を経ていないこと、このデータを使って点字データなど別の視覚障害者等用データを製作する場合は校正を行うことを推奨するといったことが書かれています(本記事小見出し「凡例のデータ」参照)。

──全文テキストデータを提供するにあたって、利用者が視覚障害者等であるかどうかをどのように判断されているのでしょうか。
  このサービスの利用にあたっては、事前に利用者登録をお願いしております。登録のさいには、申請書、ご本人の確認書類、「活字による読書が困難であることを示す書類」、この三点を必ず当館にご提示いただきます。
  「活字による読書が困難であることを示す書類」としては、障害者手帳をご提示いただくことが多いのですが、それ以外にも、例えば医師の診断書等をご提出いただくこともあります。また、当館から利用者の方にどのように読書困難な状況なのかを、電話等でやり取りして確認させていただくこともあります。そのような形で、著作権法上データを提供してよい「視覚障害者等」の方であるということを、必ず事前に確認したうえで登録しております。

──障害をお持ちのが、わざわざ来館されなくても、郵送でも登録ができるということですね。
  はい。「みなサーチ」(編集部註:視覚障害者等が障害に応じて利用しやすい形式の資料を探すことができるサービス。https://mina.ndl.go.jp/)が公開されてからはオンラインでも登録できるようになりました。

──今、電子書籍の製作で課題になっているものの一つに、図版をどうするか、ということがあるんですが、貴館で提供されている全文テキストデータには、代替テキストはあるのでしょうか。
  図版の代替テキストはありません。読み飛ばす形になると思います。

──先ほどおっしゃっていた凡例に、そういうご案内はあるのでしょうか?
  OCR処理により生成されたデータであることを凡例でお伝えしているので、OCRで読み取れないものはテキスト化されていないとご理解いただければと思います。今のところ、実際に全文テキストデータを利用した方から、代替テキストがないことについてご意見をいただいたことはありません。未校正ということをご理解いただいたうえで、うまくご活用いただいているのではないかと考えております。

──今、実際にこのサービスを利用されているのは、どれくらいらっしゃいますか。
  登録されている個人の方は、2024年12月末現在で914名、登録されている図書館等の数は373館です。
  2024年1月から12月の全文テキストデータへのアクセス数は、12か月トータルでおよそ2800件、月平均230件程度でした。視覚障害者等用データ送信サービス全体のアクセス数が、月平均で7万5千件程度なので、全文テキストデータは全体のアクセス数からみると1%にも満たず、本当にごくわずかです。
  利用者の方からの全文テキストデータに関するお問い合わせは、古い資料に対するものが多いように思います。全文テキストデータは本文の内容も検索ができますので、ご自身で色々と資料を調査されている過程で見つけた、という流れで利用されているという印象があります。

──テキストデータ化されている点数は、今、どれくらいですか?
  2025年1月末から新たな全文テキストデータの提供を開始いたしまして、2月中旬には300万点を突破したというところです。全文テキストデータの対象資料は、1987年までに発行された図書と2000年までに発行された雑誌が中心ですが、その他に博士論文などもあります。

──出版者に対して、何かお伝えしたいことはありますか?
  全文テキストデータを提供するというのは、出版者のみなさまにとって、ご懸念が強い部分だったと思っております。私たちはご協力をお願いするという立場ですが、みなさまのご理解のもとに、サービスを開始することができ、大変感謝しております。提供開始から2年が経とうとしていますが、全文テキストデータへのアクセス数は、残念ながらそれほど伸びておりません。全文テキストデータを提供している図書は、40年ほど前までに発行されたものが中心ですが、古い資料はテキストデータの入手も難しいと聞いております。視覚障害等の方に、ぜひもっとご活用いただきたいと思っております。

  当館で実施しております確認手続き(編集部註:著作権法第37条第3項では、同じ形式の視覚障害者等用資料が市場に流通している場合は、著作権者等の許諾を得ずに複製や公衆送信を行うことができないと規定されているため、該当するものがないか、提供開始前に国立国会図書館から出版者に依頼される確認の手続き)においても、出版者の皆様には大変お手数をおかけしております。当館としても入手可能性調査(編集部註:出版者が確認する提供候補資料リストの作成にさいし、国立国会図書館がJPROのデータと突合することで、視覚障害者等用資料が市場で入手可能なものをあらかじめ提供候補から除外すること)を随時行ってまいりますので、引き続きご協力を賜りますと幸いです。

「凡例」のデータ

ユーザ名  User name
ダウンロード日  Download date
タイトル  Title
責任表示  Author
出版者  Publisher
出版年  Publication Date

著作権処理に関する事項
このテキストデータは、著作権法第37条第3項の規定に基づき、視覚障害その他の理由で通常の活字の印刷物の利用が困難な方のために国立国会図書館が製作したものです。著作権法に定められた権利制限規定に該当する場合を除き、又貸し、複製等による第三者への提供はできません。

Information about Copyright
This text data is produced by the National Diet Library (NDL) prepared for people who have difficulties in reading standard printed materials due to visual impairment, etc.under the provisions of Article 37 (3) of the Copyright Act.Except for exceptional cases of limiting copyright provided in the Copyright Act, you may not provide the data to third persons by renting it out or reproducing it, etc.

テキストデータ凡例
このデータは、未校正のテキストデータです。国立国会図書館が所蔵するデジタル化資料の画像を利用してOCR処理により生成されたもので、人手による確認を経ていません。未校正のデータであるため、校正を行った上で新たな視覚障害者等用データを製作することを推奨いたします。

Explanatory notes
・This data is not proofread.We use optical character recognition (OCR) to produce it from digitized materials in the NDL Digital Collections
・We don’t check and correct errors due to OCR misconversion.
・We recommend that you proofread the data when producing new data for persons with print disabilities, because it contains a lot of errors.

(以下、本文)