Scribble at 2020-05-19 10:22:57 Last modified: 2020-05-19 12:23:10

jannes 3 hours ago | unvote [–]

You could try the awesome SingleFile extension: https://github.com/gildas-lormeau/SingleFile

It might be a good compromise between PDF and plain text. It's pretty nice because it essentially serialises a snapshot of the current DOM tree, so it works with all kinds of JS-generated pages.

The files should be relatively grep-able, because it's normal HTML. Of course, you might want to strip HTML tags for more sophisticated searching.

WorldBrain's Memex: Bookmarking for the power users of the web (getmemex.com)

今日の Hacker News で紹介されていたブックマーク（履歴）管理のサービスという memex について、ウェブ・コンテンツの管理という話題だから Scrapbook アドオンについて書く人がいないものかと検索してみると、すぐにコメントは出てきた。そして、そのコメントに対して上記のような返信がついていた。ウェブ・ページを単独のファイルとして保存できるということだ。でも、もともと同じような趣旨で実装された Microsoft の MHT 形式とか、Mozilla にも似たようなアーカイブ形式が昔からあって、IE5 や IE6 の頃は LiteStep など互換シェルに関する一部のウェブ・ページをこういう形式でローカルに保存していたことがあるため、さほど驚きはない。ただ、最近は PDF にしてしまう人とか（PDF のテキスト検索をサポートして）、色々とアイデアはあるから、いつまでも Scrapbook だけに拘るのもよくないのだろう。試しに、上記のコメントで紹介されていた SingleFile を Waterfox（Quantum でなくても使えるようだ）に入れてみると、なるほど JavaScript で生成された DOM の要素から画像までもインラインのテキスト・データにエンコードしてしまうから、一つの HTML ファイルに全てが入れられるわけだ。あとは、これの管理方法さえあれば、Scrapbook と同じくらいの使い勝手にはなるのだろう。ただ、かなり単純なランディング・ページであっても、バイナリの画像をテキスト形式にするとファイルサイズは HTML ファイルと個々の画像ファイルを足したよりも大きいファイル・サイズになる。これを更に圧縮してくれる SingleFileZ とかいうものもあるようだ。（ただし、圧縮されると検索できなくなる。）

冒頭に戻る