archivebox.extractors package

Submodules

archivebox.extractors.archive_org module

archivebox.extractors.archive_org.should_save_archive_dot_org(link: Link, out_dir: Path | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.archive_org.save_archive_dot_org(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: submit site to archive.org for archiving via their service, save returned archive url

archivebox.extractors.archive_org.parse_archive_dot_org_response(response: bytes) → Tuple[List[str], List[str]][source]

archivebox.extractors.dom module

archivebox.extractors.dom.should_save_dom(link: Link, out_dir: Path | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.dom.save_dom(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: print HTML of site to file using chrome –dump-html

archivebox.extractors.favicon module

archivebox.extractors.favicon.should_save_favicon(link: Link, out_dir: str | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.favicon.save_favicon(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: download site favicon from google’s favicon api

archivebox.extractors.git module

archivebox.extractors.git.should_save_git(link: Link, out_dir: Path | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.git.save_git(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: download full site using git

archivebox.extractors.media module

archivebox.extractors.media.should_save_media(link: Link, out_dir: Path | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.media.save_media(link: Link, out_dir: Path | None = None, timeout: int = 3600) → ArchiveResult[source]: Download playlists or individual video, audio, and subtitles using youtube-dl or yt-dlp

archivebox.extractors.pdf module

archivebox.extractors.pdf.should_save_pdf(link: Link, out_dir: Path | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.pdf.save_pdf(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: print PDF of site to file using chrome –headless

archivebox.extractors.screenshot module

archivebox.extractors.screenshot.should_save_screenshot(link: Link, out_dir: Path | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.screenshot.save_screenshot(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: take screenshot of site using chrome –headless

archivebox.extractors.title module

class archivebox.extractors.title.TitleParser(*args, **kwargs)[source]

Bases: HTMLParser

property title

handle_starttag(tag, attrs)[source]

handle_data(data)[source]

handle_endtag(tag)[source]

archivebox.extractors.title.get_html(link: Link, path: Path, timeout: int = 60) → str[source]: Try to find wget, singlefile and then dom files. If none is found, download the url again.

archivebox.extractors.title.should_save_title(link: Link, out_dir: str | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.title.extract_title_with_regex(html)[source]

archivebox.extractors.title.save_title(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: try to guess the page’s title from its content

archivebox.extractors.wget module

archivebox.extractors.wget.should_save_wget(link: Link, out_dir: Path | None = None, overwrite: bool | None = False) → bool[source]

archivebox.extractors.wget.save_wget(link: Link, out_dir: Path | None = None, timeout: int = 60) → ArchiveResult[source]: download full site using wget

archivebox.extractors.wget.wget_output_path(link: Link) → str | None[source]

calculate the path to the wgetted .html file, since wget may adjust some paths to be different than the base_url path.

See docs on wget –adjust-extension (-E)

Module contents

archivebox.extractors.get_default_archive_methods() → List[tuple[str, Callable[[Link, Path | None, bool | None], bool], Callable[[Link, Path | None, int], ArchiveResult]]][source]

archivebox.extractors.get_archive_methods_for_link(link: Link) → Iterable[tuple[str, Callable[[Link, Path | None, bool | None], bool], Callable[[Link, Path | None, int], ArchiveResult]]][source]

archivebox.extractors.ignore_methods(to_ignore: List[str]) → Iterable[str][source]

archivebox.extractors.archive_link(link: Link, overwrite: bool = False, methods: Iterable[str] | None = None, out_dir: Path | None = None) → Link[source]: download the DOM, PDF, and a screenshot into a folder named after the link’s timestamp

archivebox.extractors.archive_links(all_links: Iterable[Link] | QuerySet, overwrite: bool = False, methods: Iterable[str] | None = None, out_dir: Path | None = None) → List[Link][source]

Read the Docs v: latest

Versions: master; latest; v0.7.2; v0.7.1; v0.7.0; v0.6.2; v0.6.0; v0.5.6; v0.5.4; v0.5.3; v0.4.24; v0.4.21; v0.4.20; v0.4.19; v0.4.18; v0.4.17; v0.4.16; v0.4.15; v0.4.14; v0.4.13; v0.4.12; v0.4.9; v0.4.3; v0.4.2; v0.4.1; v0.4.0; v0.2.4; v0.2.3; v0.2.2; v0.2.1; v0.2.0; v0.1.0; dev; v0.0.3; v0.0.2; v0.0.1

Downloads: pdf; epub

On Read the Docs: Project Home; Builds