استخراج النص من تنسيقات المستندات المتنوعة
ربما تكون ملفات PDF و DOC هي الامتدادات الأكثر شيوعًا للمستندات الرقمية في الوقت الحاضر. هذا يعني أنك بحاجة إلى قارئ PDF وتطبيق متوافق مع DOC ، وإلا ستهزمك. p>
لحسن الحظ ، هناك خدعة أخرى تمكنك من قراءة تنسيقات PDF و DOC وغيرها من تنسيقات المستندات الشائعة دون الحاجة إلى ذلك تثبيت البرامج المرتبطة بهم. ما عليك سوى استخدام أداة Text Mining Tool ، وهي أداة مساعدة بسيطة تستخرج النص من أي ملف تقوم بتحميله على البرنامج ويعرضه على شاشته. ثم ما عليك سوى حفظه بتنسيق عادي أو نسخه مباشرة إلى الحافظة لاستخدامه لاحقًا. p>
لا يتضمن البرنامج أي خيارات تكوين أخرى ، مما يجعله سهل الاستخدام للغاية. على الجانب السلبي ، فإنه يفتقر إلى إمكانية تخصيص الإخراج. أثناء اختباراتنا ، قمنا بنسخ النص من مستند PDF وكان ملف TXT الناتج مشوهًا عند فتحه في Notepad (وليس عند فتحه في Wordpad الصعب). p>
أداة تعدين النص هي أداة جيدة اختيار لاستخراج النص من PDF و DOC إلى ملفات عادية. ضع في اعتبارك أنه سيتم فقد كل من التنسيق والصور. strong>