(12) WebScrapBookでリンクの階層をたどって複数ページを一括保存するには
OptionsでAuto-captureをオフにしておく。そしてCapture - captrue linksで下記の設定をする
・Download linked files: → Match HTTP header and URL file extension
・Included file types for downloading linked files: の欄に「リンク先」であってもダウンロードしたいMIMEタイプまたはファイル拡張子を記述する (これは<img>等で埋め込まれたものではなく<A>タグでリンクとされているもののこと)
デフォルトで記述されているものはすべて#でコメントアウトされているので必要なものの#を外す
### MIME type
mime:/text/.*/i
### image
bmp, gif, ico, jpg, jpeg, jpe, jp2, png, tif, tiff, svg
### audio
aac, ape, flac, mid, midi, mp3, ogg, oga, ra, ram, rm, rmx, wav, wma
### video
avc, avi, flv, mkv, mov, mpg, mpeg, mp4, wmv
### archive
zip, rar, jar, bz2, gz, tar, rpm, 7z, 7zip, xz, jar, xpi, lzh, lha, lzma
### document
pdf, doc, docx, xls, xlsx, ppt, pptx, odt, ods, odp, odg, odf, rtf, txt, csv
### executable
exe, msi, dmg, bin, xpi, iso
### any non-web-page
/(?!$|html?|xht(ml)?|php|py|pl|aspx?|cgi|jsp)(.*)/i
・Depth to capture linked pages: → たどる階層の深さを数字で記入。helpの説明では最上位のページが0とされているが実際には最上位からの最初のリンクが深さ0。例えば1にするとリンク先のリンクも収集される。 (一般に指数関数的なので)設定は慎重に
・Delay for capturing linked pages (ms): 空欄でよい。DoS攻撃と思われたくないなら 10000 (10秒)くらいを入れる
・Included URLs for capturing linked pages: 空欄でよい
・Excluded URLs: デフォルトでよい
最後に最下部の「Save」をクリックする。
キャプチャしたい最上位のページを開いたら、ページ内で右クリックして“WebScrapBook >” → “Capture page”を選ぶとキャプチャが実行される。 (“Capture page as...”を選べばその場で設定を変更もできる)
探検
Firefox拡張なスクラップソフトScrapBook
■ このスレッドは過去ログ倉庫に格納されています
2022/05/02(月) 12:56:23.53ID:v84fq1T70
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 今年の漢字 [ぐれ★]
- 「偽サッチャー」「自滅的」「時代遅れ」 高市首相の経済政策を海外メディアが酷評 ★4 [蚤の市★]
- ミス・ユニバース フィンランド代表の「つり目」写真が波紋… 本人釈明も批判やまず 協会謝罪「徹底的に検証」へ★3 [冬月記者★]
- 今年の漢字は「熊」に決定! 相次ぐクマ被害 去年は「金」 [冬月記者★]
- あぼーん
- 【速報】衆院議員定数削減法案、自民・維新が今国会成立見送りで調整 [Hitzeschleier★]
- おこめ券の値下げを発表した鈴木農水大臣、「どうして簡単に割引できるの?」「利益誘導?」とまた叩かれてしまう [594040874]
- メキシコ🇲🇽中国に対し50%の関税これに対し中国ブチ切れ😡なんか分からんけど笑う🤭 [993451824]
- 一人殺したい奴がいる
- 残クレタワマン、始まるwwwwwwwwwwwwwwwwwwwwwwwww [329329848]
- 【速報】今年の漢字、「熊」!wwwwwwwwwwwwwwwwwwwwwwwww [279254606]
- __トランプ、G7に代わる「Core 5」構想、米 中 露 印 日をまとめる巨大枠組み、世界秩序の再編につながる可能性 [827565401]
