معرفی شرکت ها


etk-2.2.8


Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

extraction toolkit
ویژگی مقدار
سیستم عامل -
نام فایل etk-2.2.8
نام etk
نسخه کتابخانه 2.2.8
نگهدارنده []
ایمیل نگهدارنده []
نویسنده Amandeep Singh
ایمیل نویسنده amandeep.s.saggu@gmail.com
آدرس صفحه اصلی https://github.com/usc-isi-i2/etk
آدرس اینترنتی https://pypi.org/project/etk/
مجوز -
# ETK: Information Extraction Toolkit ETK is a Python library for high precision information extraction from many document formats. It proivdes a flexible framework of **composable extractors** that enables you to combine a host of **predefined extractors** provided in ETK with custom extractors that you may need to develop for your application. It supports extraction from HTML pages, text documents, CSV and Excel files and JSON documents. ETK is open-source software, released under the MIT license. ![MIT License](https://img.shields.io/badge/license-MIT-blue.svg) ![travis ci](https://travis-ci.org/usc-isi-i2/etk.svg?branch=master) ## Documentation Read the documentation [here](https://usc-isi-i2.github.io/etk/) ## Features * Extraction from HTML, text, CSV, Excel, JSON * High-precision predefined extractors for common entities (dates, phones, email, cities, ...) * Extraction of microdata, schema.org and RDFa markup * Integration with [spaCy](https://github.com/explosion/spaCy) for text processing * Automatic identification and extraction of HTML tables containing data * Automatic identification and extraction of time series * Semi-automatic generation of Web wrappers * Scalable execution and management of extraction pipelines * Automatic provenance recording # Releases - [Source code](https://github.com/usc-isi-i2/etk/releases) - [Docker images](https://hub.docker.com/r/uscisii2/etk/tags/) ## Installation <table> <tr><td><b>Operating system:</td><td>macOS / OS X, Linux, Windows</td></tr> <tr><td><b>Python version:</td><td>Python 3.6+</td></tr> <table> Install using pip ``` pip install etk ``` ### OR You can also install ETK Manually. Clone or fork this repository, open a terminal window and in the directory where you downloaded ETK type the following commands ``` python3 -m venv etk2_env source etk2_env/bin/activate pip install -e . ``` Load the spacy modules ``` python -m spacy download en_core_web_sm python -m spacy download en_core_web_lg (optional) ``` Note: If the above commands fail with s SSL error, run this: ``` python -m spacy download en_core_web_sm-2.0.0 --direct ``` To deactivate this virtual environment ``` deactivate ``` ## Run Tests `python -m unittest discover` ## Run ETK CLI > ETK needs to be installed as python package. `python -m etk <command> [options]` For example: `python -m etk regex_extractor "a.*c" "abcd"` ## Docker Build image `docker build -t etk:test .` Run container `docker run -it etk:dev /bin/bash` Mount local volume for test `docker run -it -v $(pwd):/app/etk etk:dev /bin/bash`


نیازمندی

مقدار نام
>=3.0.4 chardet
>=1.0.3 cssselect
>=1.31.2 cymem
>=0.8.2 cytoolz
>=4.2.1 decorator
>=0.2.7.1 dill
>=4.4.3 ftfy
>=1.0b8 html5lib
>=2.6 idna
>=0.6.0 isodate
>=1.0.7 langdetect
>=1.1.6 langid
>=4.1.1 lxml
<0.4.4.0 msgpack-numpy
>=0.5.4 msgpack-python
>=0.28.0 murmurhash
>=1.14.1 numpy
>=0.22.0 pandas
>=1.0.1 pathlib
>=0.9.6 plac
>=3.11 ply
>=1.0.0 preshed
>=2.2 pygtrie
>=2.2.0 pyparsing
>=2.7.2 python-dateutil
>=2018.3 pytz
>=5.0.0 rdflib
>=0.4.0 rdflib-jsonld
>=2.18.4 requests
>=1.11.0 six
==2.2.4 spacy
>=1.1.0 termcolor
>=0.9.0 toolz
>=4.19.5 tqdm
>=1.5.1 tzlocal
>=1.35 ujson
>=1.22 urllib3
>=0.1.7 wcwidth
>=1.10.11 wrapt
>=1.4.3 jsonpath-ng
>=0.7.0 dateparser
>=1.3 jdcal
>=0.0.1 lml
>=4.6.0 beautifulsoup4
>=0.5.7 pyexcel
>=0.5.6 pyexcel-io
>=0.5.6 pyexcel-xls
>=0.5.6 pyexcel-xlsx
>=1.8.2 SPARQLWrapper
>=0.9.10 pyshacl
>=1.4.3 tabula-py


نحوه نصب


نصب پکیج whl etk-2.2.8:

    pip install etk-2.2.8.whl


نصب پکیج tar.gz etk-2.2.8:

    pip install etk-2.2.8.tar.gz