(※この記事は、私と生成AIとの対話・インタビューをもとに、AIが構成および出力したテキストを一部修正したものです。)
前回の記事に引き続き、今回は私が新たに構築した個人的な論文リポジトリ(https://repository.nakaix.com/)を例に、これからの研究発信のあり方について詳しく書きたいと思います。
本題に入る前に、「そもそもなぜ、自分個人のドメイン(nakaix.com)なんて持っているのか?」という点について少し触れておきます。
実のところ、このドメインを取得した当初は「研究者としての確固たる情報基盤を作ろう!」といった立派な意義を考えていたわけではありません。「自分の名前のドメインを持ってみたら面白そうだな」という、ちょっとした興味と好奇心から取得し、そこからなんとなく維持して運用してきただけでした。
しかし、この「遊び半分で持っていた自分だけの家(ドメイン)」が、生成AIの台頭によって、にわかに強力な武器としての意味合いを持ち始めています。
「PDFじゃダメだ!」と痛感した悔しい出来事
独自ドメインという「家」を持った上で、そこに「どのような形式で」研究成果を置くべきか。
結論から言うと、今の時代は論文をオープンアクセス(OA)にするだけでは不十分であり、「生成AIによっていかに収集されやすい状態(HTML)を作っておくか(AI Discoverability)」が極めて重要になっています。
これまで私は、エンバーゴ(公開猶予期間)が明けた著者の最終稿(ポストプリント)を、ZenodoなどのデータリポジトリにPDFファイルとして登録し、満足していました。人間の読者にとってはそれで十分だったからです。
しかしある日、自分の関連分野の研究動向を生成AIに要約させたとき、愕然としました。
出力された要約では、私たちより「後」に発表された別の研究室の論文が大きくフィーチャーされ、私たちの先行研究がうまく反映されていなかったのです。理由を調べてみると、非常にシンプルでした。後発の論文はPubMed Central (PMC) などで「フルテキストがWebページ(HTML/XML)」として公開されていたのに対し、私の論文はZenodoに「PDF」として置かれていただけだったからです。
生成AIの背後にある検索クローラーは、通常のウェブ検索において、ダウンロードが必要なPDFの奥深くまでは積極的に読みに行かない傾向があります。この時、「どんなに良い研究でも、AIが読み取れないフォーマットで置いておくだけでは機会損失になる」と強く痛感し、少し腹立たしくもなりました。これが、今回ブログシステムを利用してHTMLベースの個人リポジトリを構築しようと決意した最大の原動力です。
WordからHTMLへの変換は「AI×Python」で一瞬
とはいえ、「論文のテキストをわざわざブログ用のHTMLに変換するなんて面倒くさい」と思われる研究者の方も多いでしょう。
実は私も最初は、AIのチャット画面に論文全体を貼り付けて「HTMLタグをつけて」とお願いしようとしました。しかし、数万文字に及ぶ論文を一気に処理させることは文字数(トークン)制限の壁に阻まれ、うまくいきませんでした。
そこで発想を変えました。「Wordファイルを読み込んで、クリーンなHTMLファイルと画像フォルダを自動で出力するPythonプログラムを作って」とAIに依頼したのです。
結果は大成功でした。AIが一瞬で完璧なスクリプトを書いてくれたので、あとは自分の手元(ローカル環境)でそのプログラムを走らせるだけ。Wordファイルが一瞬でブログ用のHTMLコードに変換されるため、変換作業の苦労は「ほぼゼロ」になりました。
もし「自分はPythonの環境を持っていない」という方でも心配はいりません。今の時代、それすらもAIに「自分のPCでPythonを動かすにはどうすればいい?」と聞けば、数分で環境構築のサポートをしてくれます。
Materials and Methodsに眠る「知」がブレークスルーを生む時代
なぜ、そこまでして論文の「全文(フルテキスト)」をAIに読ませる必要があるのでしょうか。それは、研究の細かなノウハウは「Materials and Methods(材料と方法)」の中にこそ眠っているからです。
旧来のキーワード検索では、タイトルやアブストラクト(要旨)の言葉しか引っかかってきません。かといって、人間の研究者が関連するすべての論文の実験手法や条件を隅々まで読み込んで、有益なノウハウを探し出すのは現実的ではありません。
しかし、AIならそれが可能です。膨大なフルテキストの海から、特定の試薬の濃度、酵素の精製条件、ゲノム編集の細かなプロトコルなどを拾い上げ、点と点を繋いでくれます。
実は最近、私自身が現在進行形で取り組んでいる実験において、まさにこの恩恵を受けました。AIが他者の論文の片隅(Materials and Methodsの記述)から見つけ出してくれた情報が、思いがけないブレークスルーのきっかけになったのです。
おわりに:あなたの研究を世界の「化学反応」のタネに
論文を書いて、ジャーナルに採択されて終わり、ではありません。
少しの好奇心で取得した独自ドメインであっても、それは今やあなたの研究を世界に届けるための強力な発信塔になります。そこに、自分の研究データ(特に実験手法の細かな条件や、Discussionでの深い考察)を、AIが正確に咀嚼できる「HTML」という形で置いておく。ブログシステム等を利用すれば、サイトマップを通じて確実にGoogleやAIのインデックスに登録させることができます。
そうすることで、世界のどこかの誰かがAIに壁打ちをしているとき、あなたの研究が予期せぬ形で引用され、新たな「化学反応」を起こすかもしれません。
生成AIが把握していない情報は存在しない時代。AI時代のアウトリーチ戦略として、「独自ドメイン×個人用HTMLリポジトリの構築」は、すべての研究者にとって検討する価値のある次の一手だと確信しています。