To'g'ri matnni ishlab chiqarish uchun magazindan sana ajratish va normalizatsiya qilish

Jadval tasniflash tasnifi (X: delivery_string, y: delivery_string_relevance (0 yoki 1 qiymatlari)) bajarishga harakat qilaman. Funktsiyani olish uchun DTM (hujjat matni matritsasi) dan foydalanmoqdaman va matnni ishlab chiqarish algoritmlari bilan tajriba o'tkazmoqdaman. Shu bilan birga, men hali ham xom freymlarni (DTM yaratmasdan oldin) etkazib berish sanalarini aniqlashtirish va ularning barchasida bitta umumiy formatli vakillikni olish orqali oldindan tayyorlay olishim mumkinligiga ishonaman. Yaxshi tarixiy ayrıştırıcılar haqida biron-bir taklif bormi? Python'da datefinder.find_dates() juda yaxshi ish qilyapti, ammo ba'zi bir holatlarda, masalan, magistrada "etkazib berish muddati 10 - 12 kun" 10-12-2017 gacha.

Sample data (language used Dutch): beschikbaar vanaf 04 okt//beschikbaar vanaf: 05-08-2017//8 - 9 weken//8 - 9 werkdagen//8 dag(en)

0

1 javoblar

Eng yaxshi variant - golland tilini qo'llab-quvvatlash orqali tabiiy tillar tarixini tahlil qilish uchun mo'ljallangan dayparser . Yana bir takrorlanuvchi to'plami mavjud.

1
qo'shib qo'ydi