معرفی شرکت ها


aioscrape-0.0.2


Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

Async scraping library
ویژگی مقدار
سیستم عامل -
نام فایل aioscrape-0.0.2
نام aioscrape
نسخه کتابخانه 0.0.2
نگهدارنده []
ایمیل نگهدارنده []
نویسنده Alexander Schepanovski
ایمیل نویسنده suor.web@gmail.com
آدرس صفحه اصلی http://github.com/Suor/aioscrape
آدرس اینترنتی https://pypi.org/project/aioscrape/
مجوز BSD
AioScrape ========= A scraping library on top of `aiohttp <https://aiohttp.readthedocs.io>`_ and `parsechain <https://github.com/Suor/parsechain>`_. Note that this is **alpha** software. Installation ------------- :: pip install aioscrape Usage ----- .. code:: python from aioscrape import run, fetch, settings from aioscrape.middleware import last_fetch, make_filecache from aioscrape.utils import SOME_HEADERS # To not look like a bot from urllib.parse import urljoin from parsechain import C from funcy import lcat, lconcat def main(): # Settings are scoped and can be redefined later with another "with" cache = make_filecache('.fcache') with settings(headers=SOME_HEADERS, middleware=[cache, last_fetch]): print(run(scrape_all())) async def scrape_all(): # All the settings in scope like headers and middleware are applied to fetch() start_page = await fetch(START_URL) # AioScrape integrates with parsechain to make extracting a breeze urls = start_page.css('.pagingLinks a').attrs('href') list_urls = [urljoin(start_page.url, page_url) for page_url in urls] # Using asyncio.wait() and friends to run requests in parallel list_pages = [start_page] + await wait_all(map(fetch, list_urls)) # Scrape articles result = lcat(await wait_all(map(scrape_articles, list_pages))) write_to_csv('export.csv', result) async def scrape_articles(list_page): urls = list_page.css('#headlines .titleLink').attrs('href') abs_urls = [urljoin(list_page.url, url) for url in urls] return await wait_all(map(scrape_article, abs_urls)) async def scrape_article(url): resp = await fetch(url) return resp.root.multi({ 'url': C.const(resp.url), 'title': C.microdata('headline').first, 'date': C.microdata('datePublished').first, 'text': C.microdata('articleBody').first, 'contacts': C.css('.sidebars .contact p') .map(C.inner_html + html_to_text) + lconcat + ''.join, }) if __name__ == '__main__': main() TODO ---- - Response.follow() - non-GET requests - work with forms


نحوه نصب


نصب پکیج whl aioscrape-0.0.2:

    pip install aioscrape-0.0.2.whl


نصب پکیج tar.gz aioscrape-0.0.2:

    pip install aioscrape-0.0.2.tar.gz