Apache Spark yordamida xususiyatni qanday chiqarish kerak

Mashinani o'rganish uchun yangi odamman va men soxta jarayonlarni aniqlash/aniqlash uchun bank dasturini ishlab chiqarishni bajarishim kerak.

Pythonda Scipy/Sci-kit o'rganish orqali "Feature Extraction" -ga bir nechta maqolalarni ko'rib qoldim, lekin bilmoqchi edimki, Spark-da ba'zi paketlar yoki modullardan foydalanib Apache Spark-da xuddi shunday qilishning biron bir usuli mavjudmi?

Bu erda men Pysparkdan foydalanishga imkon beradigan har qanday fikrlar ham mamnuniyat bilan qabul qilinadi

Bu boradagi fikrlaringizni qadrlang. Oldindan rahmat

1
DataScience.SE saytiga xush kelibsiz! Avvaliga pandalar bilan buni o'rganing; xuddi shu paradigmadan foydalanadi.
qo'shib qo'ydi muallif David, manba
Qaysi xususiyatni olishni bilasizmi?
qo'shib qo'ydi muallif CalZ, manba
Sizda sana (MM/DD/YYYY) bilan ma'lumotlar majmui mavjudligini ayting. Xususiy muhandislik haftaning kuniga (yakshanbadan shanbagacha) ustun qo'shib, hafta ichi va boshqalar bilan kunduzgi faoliyatni aniqlashi mumkin. Google "qanday qilib" pandada ma'lumotlar doirasidan ustun qo'shish "va keyinchalik" Spark "ma'lumot doirasi bilan qanday qilib amalga oshiriladi.
qo'shib qo'ydi muallif CalZ, manba
qo'shib qo'ydi muallif CalZ, manba
Yorliqlarni aniqlash orqali nimani nazarda tutasiz? Siz ta'riflagan narsalar muntazam ravishda mashinani o'rganish singari tovushlarni keltirib chiqardi - siz bir nechta kirib borasiz va teglarni taxmin qilish uchun model yaratadi.
qo'shib qo'ydi muallif CalZ, manba
OK, siz tasvirlaydigan narsalar faqat muntazam nazorat qilinadigan ta'lim kabi eshitiladi.
qo'shib qo'ydi muallif CalZ, manba
Sizga tasnifni tushunish uchun oddiy boshlashni tavsiya eting, keyin Sparkni qayta ishlashga harakat qiling: orange.biolab.si/docs
qo'shib qo'ydi muallif CalZ, manba
Tashakkur @Emre, lekin sizning fikringizni batafsil o'rganib chiqsangiz yaxshi bo'lardi: Pandas bilan Feature Extraction/Selection
qo'shib qo'ydi muallif Shifty Fingers, manba
Ha @CalZ nazariy jihatdan
qo'shib qo'ydi muallif Shifty Fingers, manba
@CalZ fikringizni oldim, lekin men pythonda "Avtomatik tanlov xususiyati" deb nomlangan bir narsaga keldim. Ma'lumotlar to'plamini skanerlash va avtomatik ravishda aniq taxminni beradigan ustunlarni tanlaydi. Lekin buni qanday amalga oshirayotganini tushunmayman. Xususiy muhandislik uchun yangi ustun qo'shish o'rniga muhim ustunlarni aniqlash uchun o'xshash yondashuv bormi? Agar noto'g'ri bo'lsam, iltimos meni to'g'rilab qo'ying
qo'shib qo'ydi muallif Shifty Fingers, manba
@CalZ Ko'rsatgichlaringiz uchun rahmat. Iltimos, barcha ustunlarni funktsiyalar sifatida qabul qilib, u yoki bu 0 yoki 1 bo'ladimi-yo'qligini aniqlash uchun bizga xabar bering.
qo'shib qo'ydi muallif Shifty Fingers, manba
Ha, @CalZ. Misol uchun: muayyan bitimni firibgarlik deb belgilash yoki bir nechta xususiyatlarga asoslanmaganligini aniqlash (transactionCity, transactionCountry, va boshqalar ...). Bu erda 0 tamg'asi firibgarliksiz ishlovni ifodalaydi va etiketka 1 firibgarlik jarayoni.
qo'shib qo'ydi muallif Shifty Fingers, manba
Ha, bunga qanday erishish mumkin? U erda juda ko'p foydali maqolalar bor, lekin men uchun zarur bo'lgan narsalarni aniq ko'rsatuvchi yaxshi maqola ko'rmayapman
qo'shib qo'ydi muallif Shifty Fingers, manba

Javob yo'q

0