معرفی شرکت ها


dupecheck-0.7.1


Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر
Card image cap
تبلیغات ما

مشتریان به طور فزاینده ای آنلاین هستند. تبلیغات می تواند به آنها کمک کند تا کسب و کار شما را پیدا کنند.

مشاهده بیشتر

توضیحات

Check for duplicate word series between generated text and a dataset
ویژگی مقدار
سیستم عامل -
نام فایل dupecheck-0.7.1
نام dupecheck
نسخه کتابخانه 0.7.1
نگهدارنده []
ایمیل نگهدارنده []
نویسنده Jakob Anderson
ایمیل نویسنده fictionisfiction@gmail.com
آدرس صفحه اصلی https://github.com/spacerockzero/dupecheck-py
آدرس اینترنتی https://pypi.org/project/dupecheck/
مجوز MIT
# Dupecheck Analyze your generated text for plagiarizing your dataset Use this to prevent ["Thomas Riker" situations](https://memory-alpha.fandom.com/wiki/Thomas_Riker), when generating text with machine learning systems. At [Eclectic Beams](https://eclecticbeams.com/), when generating stories from finetuned GPT-2 models, I kept finding nice stories, but whole segments of them were just copied verbatim from the dataset text. I started battling this by using my editor's "find" feature on each line of generated text, or random subsequences against the dataset. It was time-consuming, and caused much eye pain and frustration, each time I'd read a story I liked, only to find out it had large sections copied verbatim. Time to automate the tedious away. Dupecheck will search for substrings of given length in a larger text dataset for you. Use this to validate uniqueness before saving generated text, and you'll save yourself a huge headache. It compares word series without punctuation. ```sh pip install dupecheck ``` ```py from dupecheck import chunks, sliding_window, sliding_window2 ``` ## Chunking method Find word series at least 5 words long in dataset. (Prone to mid-pattern window-splitting false negatives, since the window doesn't slide. Your pattern might get cut and split between two chunks, then not found even if it should match) ```py duplicates = chunks.dupecheck( min=5, max=10, text=my_gen_text, dataset=my_dataset, verbose=False ) ``` ## Sliding window `find`, try 1 - find word series at least 5 words long of your text string in dataset string ```py duplicates = sliding_window.dupecheck( min=5, max=10, text=my_gen_text, dataset=my_dataset, ) ``` ## Sliding window `find` try 2 - find word series at least 5 words long of your text string in dataset string. - cleans text and dataset for you if you don't provide cleaned and specify `cleaned=True`. - Cleaning is currently VERY slow. ```py duplicates = sliding_window2.dupecheck( min=5, max=10, text=my_gen_text, dataset=my_dataset, cleaned=False, verbose=False ) ``` ## Preprocessing helpers ```py from dupecheck.preprocess import pre_process_text dataset = pre_process_text(dataset) text = pre_process_text(text) ```


نیازمندی

مقدار نام
- tqdm
- nltk
- autocorrect


نحوه نصب


نصب پکیج whl dupecheck-0.7.1:

    pip install dupecheck-0.7.1.whl


نصب پکیج tar.gz dupecheck-0.7.1:

    pip install dupecheck-0.7.1.tar.gz