معرفی شرکت ها


datahtml-0.4.0rc0


Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

A lib to work with html and web data
ویژگی مقدار
سیستم عامل -
نام فایل datahtml-0.4.0rc0
نام datahtml
نسخه کتابخانه 0.4.0rc0
نگهدارنده []
ایمیل نگهدارنده []
نویسنده -
ایمیل نویسنده Xavier Petit <nuxion@gmail.com>
آدرس صفحه اصلی -
آدرس اینترنتی https://pypi.org/project/datahtml/
مجوز -
# datahtml [![PyPI - Version](https://img.shields.io/pypi/v/datahtml.svg)](https://pypi.org/project/datahtml) [![PyPI - Python Version](https://img.shields.io/pypi/pyversions/datahtml.svg)](https://pypi.org/project/datahtml) [![readthedocs](https://readthedocs.org/projects/datahtml/badge/?version=latest)](https://datahtml.readthedocs.io/en/latest/) ------- **datahtml** is a library for crawling and extraction of data from html and xml content. Datahtml lets you: * Extract ld+json data from html * Extract frequently used meta tags from html (those that are used for SEO and social media, between others) * Extract Article data from a html, usually from Newspaper sites * Parse RSS feeds from sites * Crawl some specific social media sites like google and youtube Under the hood datahtml uses libraries like BeautifoulSoup, Newspaper2k, feedparser between others, but datahtml takes an opinionated approach for crawling based on our expriencies doing so. ## Quickstart ```console pip install datahtml ``` ```python from datahtml import web, crawler c = crawler.LocalCrawler() w = web.download("https://www.infobae.com", crawler=c) w.links() ``` ## License `datahtml` is distributed under the terms of the [MPL-2.0](https://www.mozilla.org/en-US/MPL/2.0/) license.


نیازمندی

مقدار نام
- beautifulsoup4~=4.10.0
- extruct~=0.13.0
- feedparser~=6.0.8
- httpx~=0.23.0
- lxml~=4.6.3
- newspaper3k~=0.2.8
- ujson~=4.2.0


زبان مورد نیاز

مقدار نام
>=3.7 Python


نحوه نصب


نصب پکیج whl datahtml-0.4.0rc0:

    pip install datahtml-0.4.0rc0.whl


نصب پکیج tar.gz datahtml-0.4.0rc0:

    pip install datahtml-0.4.0rc0.tar.gz