Text zusammenfassen oder Text vereinfachen

Gibt es irgendeine Bibliothek, vorzugsweise in Python, aber zumindest Open Source, die den Text der natürlichen Sprache zusammenfassen und vereinfachen kann?

7 Solutions collect form web for “Text zusammenfassen oder Text vereinfachen”

Ich bin mir nicht sicher, ob es derzeit irgendwelche Bibliotheken gibt, die dies tun, da Textzusammenfassung oder zumindest verständliche Textzusammenfassung nicht etwas ist, das leicht durch eine einfache Plug & Play-Bibliothek erreicht wird.

Hier sind ein paar Links, die ich geschafft, in Bezug auf Projekte / Ressourcen, die im Zusammenhang mit Text Verdichtung, um Ihnen den Start zu finden?

  • Das Lemur-Projekt
  • Python Natural Language Toolkit
  • O'Reillys Buch über natürliche Sprachverarbeitung in Python
  • Google Resource auf natürliche Sprachverarbeitung
  • Tutorial: So erstellen Sie eine Keyword-Zusammenfassung des Textes in Python

Ich hoffe, das hilft 🙂

Vielleicht kannst du sumy versuchen Es ist eine ziemlich kleine Bibliothek, die ich in Python geschrieben habe. Es gibt Luhns und Edmundsons Ansätze, LSA-Methode, SumBasic, KL-Summe, LexRank und TextRank-Algorithmen. Es ist Apache2 lizenziert und unterstützt tschechische, slowakische, englische, französische, japanische, chinesische, portugiesische, spanische und deutsche Sprachen.

Fühlen Sie sich frei, ein Problem zu öffnen oder senden Sie eine Pull-Anfrage, wenn es etwas, das Sie fehlen.

Ich brauchte auch das Gleiche, aber ich konnte in Python nichts finden, was mir half, ein umfangreiches Ergebnis zu haben.

So fand ich diesen Web Service wirklich nützlich, und sie haben eine kostenlose API, die ein JSON Ergebnis gibt, und ich wollte es mit Ihnen teilen.

Überprüfen Sie es hier: http://smmry.com

Nicht python aber MEAD wird Textzusammenfassung machen (es ist in Perl). In der Regel ist das, was herauskommt, verständlich, wenn nicht immer besonders fließend. Überprüfen Sie auch summarization.com für viele gute Informationen über die Textzusammenfassungsaufgabe.

Versuchen Sie Open Text Summarizer, der unter der GPL Open Source Lizenz veröffentlicht wird. Es funktioniert einigermaßen gut, aber seit 2007 gibt es keine Entwicklungsarbeit.

Der ursprüngliche Code ist in C geschrieben (sowohl eine Bibliothek als auch ein Kommandozeilen-Dienstprogramm), aber es gibt Wrapper in einer Reihe von Sprachen:

  • Perl
  • Rubin
  • Python
  • C #

Werfen Sie einen Blick auf diesen Artikel, die eine detaillierte Studie über diese Methoden und Pakete:

  1. Lex'rank ( sumy )
  2. LSA (sumy)
  3. Luhn (sumy)
  4. PyTeaser
  5. Gensim TextRank
  6. PyTextRank
  7. Google TextSum

Das Ende des Artikels macht eine " Zusammenfassung ".

Der Autor von sumy @ miso.belica hat eine Beschreibung in einer Antwort oben gegeben.

Verschiedene andere ML-Techniken sind gestiegen, wie zB Facebook / NAMAS und Google / TextSum, aber immer noch umfangreiche Schulungen in Gigaword Dataset und ca. 7000 GPU Stunden. Der Datensatz selbst ist ziemlich teuer.

Abschließend würde ich sagen, sumy ist die beste Option auf dem Markt jetzt, wenn Sie keinen Zugang zu High-End-Maschinen haben. Vielen Dank @ miso.belica für dieses wunderbare Paket.

Eine Weile zurück, schrieb ich eine Verdichtungsbibliothek für Python mit NLTK, mit einem Algorithmus aus der Classifier4J Bibliothek. Es ist ziemlich einfach, aber es kann den Bedürfnissen von jedermann entsprechen, das Verdienst braucht: https://github.com/thavelick/summarize

Python ist die beste Programmiersprache der Welt.