(※本稿はAIとの対話による自動生成テキストです。筆者は「一文も書かない」制約を課し、語句の最終調整のみを実施しました。)
前回の記事では、独自ドメインを活用して「AIに読ませるための個人HTMLリポジトリ」を構築した経緯についてお話ししました。今回はその実践編として、実際に10年以上前(2014年)に出版した論文のWordファイルを発掘し、最新のAI向けフォーマット(HTML)に蘇らせる過程で直面した「壁」と、その解決策についてシェアしたいと思います。
古い論文データに立ちはだかる「Symbolフォントの壁」
過去の論文をオープンアクセス化しようと、昔のWordファイルを開いた経験がある方なら、おそらくピンとくるはずです。
2010年代前半ごろまでのWordファイルでは、ギリシャ文字(α、β、γなど)や特殊記号を入力する際、正規のUnicodeではなく、アルファベットの「a, b, g」を打ち込んでからフォントを「Symbol」に変更する、という手法が一般的でした。
今回、前回の記事で作成した「WordからHTMLへ一発変換するPythonスクリプト」に2014年の原稿を流し込んだところ、見事にこの罠にハマりました。変換されたHTMLをブラウザで開くと、本文中の至る所にあったはずの「α」や「γ」が、見慣れない四角い記号や全く別の文字に文字化け(欠落)していたのです。
「ああ、これはやっかいなことになったぞ……」
手作業で論文全体を見渡し、一つひとつの文字化けを拾い上げて正しいUnicodeのギリシャ文字に打ち直していく。そんな途方もない苦労が頭をよぎりました。
教訓:「手動で直すな。まずはAIに聞け」
ここで私が得た、皆さんにも強くお伝えしたい最大の教訓があります。それは、「自動化できるところは絶対に手動でやらない。自動化できるかよく分からない場合も、とりあえずAIに聞いてみる」ということです。
私はすぐに作業の手を止め、壁打ち相手であるAIに「古いWordのSymbolフォントが原因で文字化けした。何か良い方法はないか?」と尋ねました。
するとAIは、「Symbolフォント特有のプライベート文字コード(U+F000番台)を、正しいUnicodeに一括置換する処理をスクリプトに追加しましょう」と提案し、瞬時にPythonのコードを書き換えてくれました。さらに、「変換漏れがないか自動でスキャンして警告を出すチェッカー」まで追加してくれたのです。
改訂されたスクリプトを実行すると、結果は完璧でした。ほんの数秒で、すべてのギリシャ文字や記号が正しい状態に修復されたクリーンなHTMLが生成され、「手作業による地獄の修正」は完全に回避されました。
AIへのDiscoverabilityを「100点」にする図表の最適化
文字化けの問題がクリアになった後、AI(検索エンジンのクローラー)に対するDiscoverability(発見されやすさ)をさらに高めるための調整を行いました。
Wordから変換された直後のHTMLは、図表が「単なる画像」や「段落の羅列」として出力されることがあります。人間の目には見出しや図表に見えても、AIにとっては構造が分かりにくい状態です。
そこで、ブログ(Blogger)の編集画面上でひと手間を加えます。
- 図(Figure):
<figure>タグで画像を囲み、その説明文を<figcaption>タグでくくる。 - 表(Table): 画像として貼り付けるのではなく、必ずテキストデータの
<table>タグとして記述し、タイトルは<caption>、見出し行は<th>を使う。
こうすることで、AIに対して「推測」させるのではなく、「ここからここまでが図表のセットであり、この文章が間違いなくその説明文である」と、100%の精度で意味(セマンティクス)を伝えることができるようになります。
過去の資産に再び光を当て、新しい読者を獲得する
なぜ、ここまでして10年前の論文をHTML化するのか。
手動検索が主流だった時代には、引用数がそこそこあり、関連分野の専門家には周知されている「重要な論文(名著)」であっても、オープンアクセスになっていない(PDFの壁の向こうにある)場合、AIを用いた検索を多用する新しい読者層には、今後どんどんリーチしにくくなっていくと危惧しています。
過去の死蔵されがちなデータであっても、AIが確実に読み取れるHTMLという形に変換してWeb上に再登録することで、異分野の研究者や新しい世代の読者を獲得できる可能性が大きく広がります。
独自ドメインをわざわざ取得する必要はありません。Bloggerなどの無料ブログサービスを使えば、誰でも簡単にこの「個人リポジトリ」を始めることができます。もしご自身のPCの奥底に眠っている大切なWordファイルがあれば、ぜひAIの力を借りてHTML化を試してみてください。
※注意:論文をセルフアーカイブ(著者最終稿の公開)する際は、出版社ごとに著作権や公開可能時期(エンバーゴ)の規定が異なります。実践される際は各ジャーナルのポリシーを必ずご確認ください。この著作権に関するクリアランスの話題については、反響があればまた別の記事で取り上げたいと思います。
0 件のコメント:
コメントを投稿