R dan foydalanib, PDFni tozalash

XML jadvalini HTML jadvallarini disk raskadrovka uchun muvaffaqiyatli ishlatib kelmoqdaman, ammo PDF-fayllarni kengaytirishni xohlayman. Avvalgi savollardan ko'rinib turibdiki, oddiy R echimi mavjud, ammo so'nggi paytlarda sodir bo'lgan voqealar haqida o'ylash mushkul

Buning amalga oshirilmasligi, Pythonda (menda to'liq boshlang'ichman) qandaydir yo'l bor va R xml paket bilan ishni tugatishim uchun pdf-larni boshqaring

10

4 javoblar

PDF-lardan matnni chiqarish qiyin va deyarli har doim juda ko'p g'amxo'rlik talab etiladi.

Men pdftotext kabi buyruq vositasi vositalaridan boshlayman va nima tupurishlarini ko'rishni istayman. Muammo shundaki, PDFlar har qanday tartibda matnni saqlay olishi mumkin, noqulay shrift kodlash usullaridan foydalanishi mumkin va lotingiz belgilaridan foydalanishingiz mumkin (siz yozmoqchi bo'lgan 'ff' va 'ij').

pdftotext har qanday Linux tizimida o'rnatilishi mumkin ...

10
qo'shib qo'ydi
Yaxshi pdftotext toza matnli sahifani ishlab chiqarishda yaxshi ishlaydi, lekin uni xohlagan narsani osongina yaratish uchun hech qanday shaklda emas. Baribir rahmat
qo'shib qo'ydi muallif pssguy, manba
qo'shib qo'ydi muallif pssguy, manba
Ildirilgan. Rda bajarish, R.ning tashqarisida juda yaxshi saqlanadigan variantlar mavjud bo'lganda, har kimning ishlashiga va qiymatini saqlab qolishga arzigulik emas. Agar juda ko'p faylni kerak bo'lsa, find
qo'shib qo'ydi muallif Iterator, manba
Bizni vakil PDF fayliga ko'rsatib bera olasizmi?
qo'shib qo'ydi muallif Spacedman, manba
Pdf faylini ishga tushirish bu sahifada porloq emas, lekin birinchi marta PS ga aylantirish yoki PDF-da ishlaydigan ps2txt ishni olib tashlash uchun ba'zi bir sahifa boshlari/oyoqlari bilan deyarli mukammal jadval ishlab chiqaradi.
qo'shib qo'ydi muallif Spacedman, manba
Men derazada pdftotext bilan ham yaxshi imkoniyatlarga ega bo'ldim
qo'shib qo'ydi muallif pguardiario, manba

matnni tekshirish to'plamini tm kodi>. O'quvchilar deb atalganlarni eslashni unutmaslik kerak, shuningdek, PDF-lar uchun ham birinchisi bor edi.

5
qo'shib qo'ydi
Rahmat. hujjatlarni tekshirdim. Pdfftotext-ni qandaydir tarzda ishlatadi
qo'shib qo'ydi muallif pssguy, manba

AFAIK PDF-jadvallarni ma'lumotlarni tahlil qilish uchun foydali bo'lgan narsaga aylantirishning oson usuli yo'q. Siz Data Science Toolkit ning File to Text yordam dasturidan (R interfeysi RDSTK to'plami), natijada olingan matnni ajrating. E'tibor qiling: tortishish ko'pincha ahamiyatsiz emas.


EDIT: PDF-ni XML-ga discerning.com ustida konvertatsiya qilish haqida foydali ma'lumot mavjud. Qisqa javob shuki, ehtimol savdo vositasini sotib olishingiz kerak bo'ladi.

4
qo'shib qo'ydi
Buning uchun rahmat. munozarani tekshirib chiqdim va ABBYY mahsulotini sinovdan o'tkazishga urinib ko'rdim, biroq bu o'z-o'zidan tuzilmaydi. Tasavvur qiling, men mahkum edim
qo'shib qo'ydi muallif pssguy, manba

PDF hujjatidan jadvallarni chiqarib olish mumkin bo'lgan tabula ilovasining oddiyligi oddiy buyruq qatori Java ilovasi sifatida mavjud, tabula-extractor .

Ushbu Java ilovasi Rga tabulyator to'plami bilan o'ralgan. PDF fayliga yo'lni o'tkazing va u siz uchun ma'lumotlar jadvallarini chiqarishga harakat qiladi va ularni ma'lumot sifatida qaytaradi.

Misol uchun qarang: Hujjatlar Ma'lumotlar bazalari bo'lganda - Tabula PDF Tablosa Extractor uchun tabulyator R Wrapper .

1
qo'shib qo'ydi
Python
Python
372 ishtirokchilar

Bu guruh python dasturlash tilini muhokama qilish uchun. Iltimos, o'zingizni hurmat qiling va faqat dasturlash bo'yicha yozing. Botlar mavzusini @botlarhaqida guruhida muhokama qling! FAQ: @PyFAQ Offtopic: @python_uz_offtopic

Python offtopic group !
Python offtopic group !
150 ishtirokchilar

@python_uz gruppasining offtop gruppasi. offtop bo'lsa ham reklama mumkin emas ) Boshqa dasturlash tiliga oid gruppalar @languages_programming