Ierarxik kümelenmeden oldin markazlashtirilgan va miqyosi qachon talab qilinadi?

100 dan ortiq bemor namunalari bo'yicha oqsil ma'lumotlarni to'plash bo'yicha kümelenme loyihasi ustida ishlayapman. Ushbu ma'lumotlar normallashtirilib, logni o'zgartiradi. Maqsadlar ularning o'xshashligiga asoslangan namunalarni to'plashdan iborat bo'lib, ierarxik kümelenmeyi ishlatib, masofa o'lchovlari va kümelenme algoritmalarının kombinasyonlarını harakat qilaman. (Masofali metod yoki kümeleme algoritmaları haqida qaror qabul qilmadik) Mening savolim markazlashtiruvchi va ölçekleme bilan bog'liq, ma'lumotlarning miqyosini va ma'lumotlarini markazlashtirish uchun mutlaqo kerakmi? Hatto barcha ma'lumotlar bir xil platforma va o'lchov birliklari bilan.

Sizning ma'lumotingizni qadrlang.

Rahmat

1

2 javoblar

Mening savolim markazlashtiruvchi va miqyosga bog'liq bo'lib, barcha ma'lumotlarning bir xil platformadan va bir xil o'lchov birliklari bilan kelgan stsenariylarda ham, kerakli ma'lumotlarni o'lchash va markazlashtirish uchun mutlaqo kerakmi?

Bu sizning ma'lumotlaringiz turiga bog'liq. Yaxshi aniqlangan ayrim ma'lumotlarga ko'ra, miqyosi va markazga ehtiyoj yo'q. Yaxshi namuna - geolokatsiya ma'lumotlari (uzunliklar va kenglik). Agar siz shaharlarni ko'paytirishga intilsangiz, ularning joylarini kengaytirish va markazlashtirishga ehtiyoj qolmaydi.

Turli xil jismoniy o'lchovlar yoki birliklarga tegishli bo'lgan ma'lumotlar uchun, uni o'lchash va markazlashtirish uchun yaxshi fikr bo'lishi mumkin. Misol uchun, transport vositalarini to'plashda ma'lumotlar g'ildiraklar soni, eshiklar soni, gallon uchun milya, ot kuchiga ega bo'lishi mumkin. Bunday holatda, o'lchash va markaz o'rtasida yaxshi munosabatlar bo'lishi mumkin, har bir xususiyati.

Qolaversa, sezgining ko'pligi, ko'plab kümeleme algoritmalarının masofani belgilashga ehtiyoj duyduğundan, ma'lumotlarni ölçeklemezseniz va markazga koymuyorsanız, undan katta ahamiyatga ega bo'lgan atributlarni berishi mumkin.

Muammoingiz nuqtai nazaridan men bemorning balandligi, vazni, yoshi va boshqalar

This answer on a similar question has more.

0
qo'shib qo'ydi
Sizning javobingiz uchun katta rahmat. Mening davrimda 100 kasalda ~ 600 ta protein darajasini o'lchagan edik. Mening maqsadim - bemorlarni protein darajasining o'xshashligi asosida klasterlashtirishdir. Barcha oqsillar uchun jismoniy o'lchash/birliklar bir xil va shuning uchun miqyosi muhim emas. Biz barcha oqsillarni normalizatsiya qildik, shuning uchun ma'lumotlarni hali markazlashtirish mantiqiy emasmi?
qo'shib qo'ydi muallif Purvaja Suresh, manba
Protein ma'lumotlarini normalizatsiya qilish uchun qanday usulni qo'lladingiz? Nima qilganingizga qarab, siz allaqachon ma'lumotlarni markazlashtirgandirsiz. Bundan tashqari, birliklar bir xil bo'lsa ham, o'lchov endi zarur emas degani emas.
qo'shib qo'ydi muallif ukemi, manba

Argumentlaringiz sizning tengsiz birliklaringiz bo'lsa, siz parametrlarni o'lchov bilan standartlashtirishingiz kerak. K-kümeleme, barcha yo'nalishlarda "izotropik" dir, ya'ni klasterlar ko'p yoki kamroq dumaloq bo'lib qoladi. O'lchovsiz emas, balki muayyan o'zgaruvchanlarga og'irlik qilasiz.

0
qo'shib qo'ydi