Firefox拡張なスクラップソフトScrapBook

**名無しさん＠お腹いっぱい。** · 2022/05/02(月) 12:56:23.53

(12) WebScrapBookでリンクの階層をたどって複数ページを一括保存するには
OptionsでAuto-captureをオフにしておく。そしてCapture - captrue linksで下記の設定をする

・Download linked files: → Match HTTP header and URL file extension
・Included file types for downloading linked files: の欄に「リンク先」であってもダウンロードしたいMIMEタイプまたはファイル拡張子を記述する (これは<img>等で埋め込まれたものではなく<A>タグでリンクとされているもののこと)
デフォルトで記述されているものはすべて#でコメントアウトされているので必要なものの#を外す

### MIME type
mime:/text/.*/i
### image
bmp, gif, ico, jpg, jpeg, jpe, jp2, png, tif, tiff, svg
### audio
aac, ape, flac, mid, midi, mp3, ogg, oga, ra, ram, rm, rmx, wav, wma
### video
avc, avi, flv, mkv, mov, mpg, mpeg, mp4, wmv
### archive
zip, rar, jar, bz2, gz, tar, rpm, 7z, 7zip, xz, jar, xpi, lzh, lha, lzma
### document
pdf, doc, docx, xls, xlsx, ppt, pptx, odt, ods, odp, odg, odf, rtf, txt, csv
### executable
exe, msi, dmg, bin, xpi, iso
### any non-web-page
/(?!$|html?|xht(ml)?|php|py|pl|aspx?|cgi|jsp)(.*)/i

・Depth to capture linked pages: → たどる階層の深さを数字で記入。helpの説明では最上位のページが0とされているが実際には最上位からの最初のリンクが深さ0。例えば1にするとリンク先のリンクも収集される。 (一般に指数関数的なので)設定は慎重に
・Delay for capturing linked pages (ms): 空欄でよい。DoS攻撃と思われたくないなら 10000 (10秒)くらいを入れる
・Included URLs for capturing linked pages: 空欄でよい
・Excluded URLs: デフォルトでよい
最後に最下部の「Save」をクリックする。

キャプチャしたい最上位のページを開いたら、ページ内で右クリックして“WebScrapBook >” → “Capture page”を選ぶとキャプチャが実行される。 (“Capture page as...”を選べばその場で設定を変更もできる)