サイトマップとは?
Web サイトのサイトマップファイル (sitemap.xml
) には、次のような形で全ページの URL 情報が記載されています。
このファイルは、主に Google などの検索エンジンのために提供されています。
sitemap.xml から URL の一覧を取得する
次の Python スクリプトは、上記のような sitemap.xml
ファイルから、すべての URL 情報を抽出します。
sitemap.xml
ファイル自体のダウンロードには urlopen を使用し、XML のパースには ElementTree を使用しています。
(おまけ)URL が示すリソースをまとめてダウンロードする
上記のように作成した URL リストを使って、まとめて HTML ファイルとしてダウンロードするサンプルコードです。
ダウンロードするときのファイル名を自動で生成するのは意外と面倒なので、ここでは単純に 1.html
、2.html
、3.html
といった連番のファイル名で保存しています。