معرفی شرکت ها


document-processing-1.0.1.202208310820


Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

Pre-process documents for Natural Language Processing using spaCy models
ویژگی مقدار
سیستم عامل -
نام فایل document-processing-1.0.1.202208310820
نام document-processing
نسخه کتابخانه 1.0.1.202208310820
نگهدارنده []
ایمیل نگهدارنده []
نویسنده Guillaume Bernard
ایمیل نویسنده contact@guillaume-bernard.fr
آدرس صفحه اصلی https://gitlab.univ-lr.fr/cross-lingual-event-tracking/developpement/from-documents-to-events/document_processing
آدرس اینترنتی https://pypi.org/project/document-processing/
مجوز GPLv3
# `document_processing` ## Install ```bash pip install document_processing ``` This package provides functions to pre-process text for various NLP tasks. It uses [`spaCy`](https://spacy.io/) and its models to analyse the text. ## Behaviour The entry point of this package is `process_dcouments` in which you put the `Series` of documents to process and the `spaCy` model name that will be loaded to transform the texts. From a document, you can extract tokens, lemmas and entities with the `get_tokens_lemmas_entities_from_document` function, giving it the document returned by the previous function, and the preprocessing function, as described below. ### Pre-processing functions - `preprocess_list_of_texts`: process tokens, remove stopwords, non-standard characters, etc. - `preprocess_list_of_tweets`: same as above, and remove all token that seem to be HTTP links, which are often present in Tweets.


نیازمندی

مقدار نام
~=1.3.5 pandas
~=53.0.0 setuptools
~=3.2.1 spacy


زبان مورد نیاز

مقدار نام
>=3.9 Python


نحوه نصب


نصب پکیج whl document-processing-1.0.1.202208310820:

    pip install document-processing-1.0.1.202208310820.whl


نصب پکیج tar.gz document-processing-1.0.1.202208310820:

    pip install document-processing-1.0.1.202208310820.tar.gz