Muvofiqlashuv, gradient yo'qolishi va mahalliy minimallik o'rtasidagi munosabatlar.

Men chuqur o'rganishni o'rganmoqchiman.

Men bu muammolarni shunchaki chalkashtirdim: haddan tashqari moslash, Gradient vanishing va Mahalliy Minimal.

Xozircha men ko'p narsalar sababli tayyorgarlikdan o'tgan RBM haqida tushundim. Ammo ba'zi odamlar "Gradient Vanishing" tufayli dastlabki tayyorgarlikni talab qilishadi va ba'zi odamlar "Mahalliy Minima" tufayli gapirishadi.

Shunday qilib, savol shuki, qaysi biri to'g'ri? Agar barcha insonlar to'g'ri gapirsa, bu tushunchalar orasidagi munosabatlar haqida menga xabar bering.


Men hali ham chalkashman. Hozirgi kunga qadar Gradient yo'qolganligi haqida tushundim, chunki erta qatlamlar gradiyent nolga erishish uchun yaxshi o'qiy olmadilar. Demak, nimani nazarda tutsangiz, yaxshi ta'lim olmaydigan erta qatlamlar mahalliy minimal darajaga tushgan tushunchaga o'xshaydi. Agar shunday bo'lsa, barcha qatlamlar yaxshi tarbiyalangan global optimaldir. Men haqmi?

Ikkinchidan, oldingi tayyorgarlik holida, ko'pgina ma'lumotlarni olish va tasodifiy ravishda ishga tushirilgan og'irliklarni olish orqali ko'proq e'tiborga olinmaganini bilib oldim. Ko'p ma'lumotni qabul qilish, ko'plab taqiqlarning oldini olish bilan bog'liq. Shunday qilib, ushbu nuqtai nazardan qarama-qarshilikning oldini olish uchun ishlab chiqilgan. Noto'g'ri fikrmi?

1
Bu juda keng savol. Ushbu mavzular haqida onlayn ma'lumotlar mavjud. Shuningdek, chuqur ta'lim kitobini o'qishingiz mumkin.
qo'shib qo'ydi muallif Parag S. Chandakkar, manba
Bu juda keng savol. Ushbu mavzular haqida onlayn ma'lumotlar mavjud. Shuningdek, chuqur ta'lim kitobini o'qishingiz mumkin.
qo'shib qo'ydi muallif Parag S. Chandakkar, manba

6 javoblar

Mulohaza o'rganish algoritmlariga o'tirishdan oldin kompyuterni o'rganishning asosiy kontseptsiyalarini (maxsus statistika vositalarini o'rganish), statistikani va ehtimollik nazariyasini o'rganish juda foydali. statistik o'rganish elementlari va ehtimollik nazariyasi .

Men bilganimdek, RBMning oldingi tayyorgarligi, orti-tarqatish delta qoidasi bilan o'rgatilgan, besleme tarmog'i bo'lgan CNNsni o'qitish uchun oldindan ishlov berish sifatida ishlatiladi. Umuman olganda, oldinga tarqalish yo'nalishidagi tarmoqlarda amalga oshiriladi, chunki biz xatolarni (haqiqiy va prognozlangan chiqim o'rtasidagi farq bo'yicha aniqlangan) nolga erishishni xohlaymiz, bu sizning gradient yo'qolgan .

Endi bitta muammo - xatolik gradiyenti mahalliy minimal ga nolga tenglashishi; va bizning taraqqiyotimiz u erda to'xtadi, chunki vaznni to'g'rilash bosqichlari gradientning kattaligiga mutanosib (u kamida mahalliy yoki global miqyosda). Buni oldini olish uchun "tasodifiy og'irlik boshlanishi" kabi usullar mavjud.

Over-fitting is totally a different story. it is a statistical phenomenon which indicates that your algorithm has almost "memorized" training data instead of "learning" them (training error is much smaller than your test error). not only neural networks, but also every machine learning algorithm (as a data-driven statistical model) has the risk of being over-fitted to your data, when the degree of freedom of your model (number of adjustable parameters i.e. weights in neural networks) is much higher compared to the size of your training set. suppose you have 1 point in a 2D-space you can fit countless lines and curves to that point. So there is no guarantee that the selected model also fits an unseen test instance which occurs after the model is selected.

Endi esa, CNN bilan bog'liq muammo, qatlamlar va neyronlarning soni shunchalik balandki, nol gradiyentga erishish uchun doimiy ravishda davom etadi (har bir neylon aloqaning og'irligi bo'lishi kerak). siz Neural tarmog'ining hajmini bosqichma-bosqich oshirish va mashg'ulot vaqtini o'lchash orqali bu fikrni sinab ko'rishingiz mumkin. Shuning uchun gradient yo'qolgan bu erda amaliy muammodir. Hozir RBM bu sizning dastlabki tarozilaringizni samarali ravishda moslashtiruvchi usul bo'lib, sizning dastlabki tarozilaringiz ularning yakuniy qiymatiga mazmunli yaqinlashganda siz orqa taraflama jarayonni boshlashingiz mumkin. Buni bosh boshlash deb o'ylang. Sizning savolingizga javob sifatida, ovozlarim g'oyib bo'layotgan muammoga aylanadi.

Shunga qaramay CNN bilan ishlashda boshqa ikki muammo hali ham mavjud. Lekin shuni bilamanki, ular o'z echimlarini talab qilishadi: "katta ma'lumotlar to'plami va tartibga solish texnikasi" va "minimal o'zgarishlarni va tasodifiy og'irlikning boshlanishi" ni mahalliy minima ichida tuzoqqa tushirish uchun diqqat bilan o'rganish.

1
qo'shib qo'ydi
Degradiyani yo'qolgan savolni boshqacha tushunaman. Mening fikrimcha, u orqadan tarqalishda xato signalini yo'qotish haqida so'raydi. Klassik sigmoidal birliklarda standart xatolikni bekor qilish plyaj poezdida ikkita ortiqcha qatlamdan ko'proq muammolarga duch kelmoqda. Chiqishdagi xato signallari past va pastki qiymatlarga ega, shuning uchun birinchi qavatlar o'rgatilmagan. Data-neyronlarning o'zaro ta'siri asosida RBM oldindan tayyorlangan vazn o'lchovlari. Pre-treningdan so'ng siz "oqilona" boshlang'ich og'irliklarga ega bo'lasiz va BP qo'llanilishi mumkin.
qo'shib qo'ydi muallif viceriel, manba
O'ylaymanki, siz yangi savollarni to'g'ri qabul qilmadim ... lekin tushunganimga qaramay, ushbu izohlarga diqqat qilaylik: - normal qayta tarqatish uslubida (RBM emas), barcha ulanishlar bir vaqtning o'zida yangilanadi. erta va kech qatlam o'rtasida farq yo'q. - tasodifiy og'irlikning boshlang'ich usuli hali ham qo'llanilmoqda va eskirmaydi - "ALWAYS" ning chuqur o'rganilishi katta hajmdagi ma'lumotlarni talab qiladi. shuning uchun siz "chuqur o'rganish" dan tashqari "katta ma'lumot" ni doimo eshitishingiz mumkin Google Deep Mind lab laboratoriyalari ushbu qiziqarli duo
qo'shib qo'ydi muallif Alireza, manba
btw iltimos, yangi savollarni javobimga sharh sifatida bering. Sizning postingiz boshqa odamlar uchun ham o'qiydi, savollar va javoblar tartibi esa ko'proq izlenecektir
qo'shib qo'ydi muallif Alireza, manba
@viceriel Ha, deb o'ylayman degradatingiz haqida g'oyib bo'lasiz ... Katta sharh, rahmat!
qo'shib qo'ydi muallif Alireza, manba
Kechikkanim uchun kechiring. Men bir muncha vaqt band edim, shuning uchun yaqinda men ilgari qayd etgan savollarimni yana bir marta ko'rib qoldim. Yaxshi izohlar uchun rahmat.
qo'shib qo'ydi muallif Wonseok Choi, manba

Mulohaza o'rganish algoritmlariga o'tirishdan oldin kompyuterni o'rganishning asosiy kontseptsiyalarini (maxsus statistika vositalarini o'rganish), statistikani va ehtimollik nazariyasini o'rganish juda foydali. statistik o'rganish elementlari va ehtimollik nazariyasi .

Men bilganimdek, RBMning oldingi tayyorgarligi, orti-tarqatish delta qoidasi bilan o'rgatilgan, besleme tarmog'i bo'lgan CNNsni o'qitish uchun oldindan ishlov berish sifatida ishlatiladi. Umuman olganda, oldinga tarqalish yo'nalishidagi tarmoqlarda amalga oshiriladi, chunki biz xatolarni (haqiqiy va prognozlangan chiqim o'rtasidagi farq bo'yicha aniqlangan) nolga erishishni xohlaymiz, bu sizning gradient yo'qolgan .

Endi bitta muammo - xatolik gradiyenti mahalliy minimal ga nolga tenglashishi; va bizning taraqqiyotimiz u erda to'xtadi, chunki vaznni to'g'rilash bosqichlari gradientning kattaligiga mutanosib (u kamida mahalliy yoki global miqyosda). Buni oldini olish uchun "tasodifiy og'irlik boshlanishi" kabi usullar mavjud.

Over-fitting is totally a different story. it is a statistical phenomenon which indicates that your algorithm has almost "memorized" training data instead of "learning" them (training error is much smaller than your test error). not only neural networks, but also every machine learning algorithm (as a data-driven statistical model) has the risk of being over-fitted to your data, when the degree of freedom of your model (number of adjustable parameters i.e. weights in neural networks) is much higher compared to the size of your training set. suppose you have 1 point in a 2D-space you can fit countless lines and curves to that point. So there is no guarantee that the selected model also fits an unseen test instance which occurs after the model is selected.

Endi esa, CNN bilan bog'liq muammo, qatlamlar va neyronlarning soni shunchalik balandki, nol gradiyentga erishish uchun doimiy ravishda davom etadi (har bir neylon aloqaning og'irligi bo'lishi kerak). siz Neural tarmog'ining hajmini bosqichma-bosqich oshirish va mashg'ulot vaqtini o'lchash orqali bu fikrni sinab ko'rishingiz mumkin. Shuning uchun gradient yo'qolgan bu erda amaliy muammodir. Hozir RBM bu sizning dastlabki tarozilaringizni samarali ravishda moslashtiruvchi usul bo'lib, sizning dastlabki tarozilaringiz ularning yakuniy qiymatiga mazmunli yaqinlashganda siz orqa taraflama jarayonni boshlashingiz mumkin. Buni bosh boshlash deb o'ylang. Sizning savolingizga javob sifatida, ovozlarim g'oyib bo'layotgan muammoga aylanadi.

Shunga qaramay CNN bilan ishlashda boshqa ikki muammo hali ham mavjud. Lekin shuni bilamanki, ular o'z echimlarini talab qilishadi: "katta ma'lumotlar to'plami va tartibga solish texnikasi" va "minimal o'zgarishlarni va tasodifiy og'irlikning boshlanishi" ni mahalliy minima ichida tuzoqqa tushirish uchun diqqat bilan o'rganish.

1
qo'shib qo'ydi
Degradiyani yo'qolgan savolni boshqacha tushunaman. Mening fikrimcha, u orqadan tarqalishda xato signalini yo'qotish haqida so'raydi. Klassik sigmoidal birliklarda standart xatolikni bekor qilish plyaj poezdida ikkita ortiqcha qatlamdan ko'proq muammolarga duch kelmoqda. Chiqishdagi xato signallari past va pastki qiymatlarga ega, shuning uchun birinchi qavatlar o'rgatilmagan. Data-neyronlarning o'zaro ta'siri asosida RBM oldindan tayyorlangan vazn o'lchovlari. Pre-treningdan so'ng siz "oqilona" boshlang'ich og'irliklarga ega bo'lasiz va BP qo'llanilishi mumkin.
qo'shib qo'ydi muallif viceriel, manba
O'ylaymanki, siz yangi savollarni to'g'ri qabul qilmadim ... lekin tushunganimga qaramay, ushbu izohlarga diqqat qilaylik: - normal qayta tarqatish uslubida (RBM emas), barcha ulanishlar bir vaqtning o'zida yangilanadi. erta va kech qatlam o'rtasida farq yo'q. - tasodifiy og'irlikning boshlang'ich usuli hali ham qo'llanilmoqda va eskirmaydi - "ALWAYS" ning chuqur o'rganilishi katta hajmdagi ma'lumotlarni talab qiladi. shuning uchun siz "chuqur o'rganish" dan tashqari "katta ma'lumot" ni doimo eshitishingiz mumkin Google Deep Mind lab laboratoriyalari ushbu qiziqarli duo
qo'shib qo'ydi muallif Alireza, manba
btw iltimos, yangi savollarni javobimga sharh sifatida bering. Sizning postingiz boshqa odamlar uchun ham o'qiydi, savollar va javoblar tartibi esa ko'proq izlenecektir
qo'shib qo'ydi muallif Alireza, manba
@viceriel Ha, deb o'ylayman degradatingiz haqida g'oyib bo'lasiz ... Katta sharh, rahmat!
qo'shib qo'ydi muallif Alireza, manba
Kechikkanim uchun kechiring. Men bir muncha vaqt band edim, shuning uchun yaqinda men ilgari qayd etgan savollarimni yana bir marta ko'rib qoldim. Yaxshi izohlar uchun rahmat.
qo'shib qo'ydi muallif Wonseok Choi, manba

Shunday qilib, mahalliy eng kam. Ta'lim algoritmining vazifasi xato funksiyasini minimallashtirishdir. Ko'p ishlatilgan 1/2 (istalgan - erishilgan) ^ 2

Buning uchun backprop minimallashtirishni olish uchun ushbu funktsiyani birinchi derivatsiyasidan foydalanadi. Og'irlik va gradientga asoslangan xatolarning BP hisoblash gradiyenti ko'payish xatoligining yo'nalishi hisoblanadi. Shunday qilib, BP xatolarni ko'payishiga qarama-qarshidir.

Xo'sh, muammo qaerda? Ushbu usul global minimallashni kafolatlamaydi. Global minimal - eng kichik xatolarni keltirib chiqaradigan og'irliklar konfiguratsiyasi.

Bundan tashqari, ortiqcha ishlash. Yuzlab o'lchovli kirish vektori va millionlab og'irliklar tasavvur qiling. Nazariy jihatdan tarmoq ma'lumotlar bazasidan har bir kirish qiymatini xotiraga oladi va uni tasniflaydi. Biroq, agar siz test datasetidan tarmoqqa biror narsa olsangiz, yuqori ehtimollik bilan tarmoq muvaffaqiyatsiz bo'ladi. Tarmoqni umumlashtirmaslik esingizdami. Buni bartaraf qilish uchun siz (siz ta'lim jarayonida siz sinaps yoki neyronlarni qoldirasiz) va tasdiqlash ma'lumotlar to'plamidan foydalanishingiz mumkin. Tarmoqqa ta'lim ma'lumotli to'plam va xatolikni kamaytirish bilan mashg'ul bo'lasiz, lekin siz tasdiqlash datasetida xatolarni kuzatasiz (lekin tarmoq ushbu ma'lumotlardan o'rganmaydi). Shunday qilib, har ikkala ma'lumotlar to'plami ham pasayib ketadi, ammo agar ma'lumotlar xatolikka yo'l qo'ysa va ma'lumotlarni tekshirishda kuchayishni boshlasangiz, bu holat semptomni yo'qotganligi sababli o'rganishni to'xtatadi.

0
qo'shib qo'ydi

Shunday qilib, mahalliy eng kam. Ta'lim algoritmining vazifasi xato funksiyasini minimallashtirishdir. Ko'p ishlatilgan 1/2 (istalgan - erishilgan) ^ 2

Buning uchun backprop minimallashtirishni olish uchun ushbu funktsiyani birinchi derivatsiyasidan foydalanadi. Og'irlik va gradientga asoslangan xatolarning BP hisoblash gradiyenti ko'payish xatoligining yo'nalishi hisoblanadi. Shunday qilib, BP xatolarni ko'payishiga qarama-qarshidir.

Xo'sh, muammo qaerda? Ushbu usul global minimallashni kafolatlamaydi. Global minimal - eng kichik xatolarni keltirib chiqaradigan og'irliklar konfiguratsiyasi.

Bundan tashqari, ortiqcha ishlash. Yuzlab o'lchovli kirish vektori va millionlab og'irliklar tasavvur qiling. Nazariy jihatdan tarmoq ma'lumotlar bazasidan har bir kirish qiymatini xotiraga oladi va uni tasniflaydi. Biroq, agar siz test datasetidan tarmoqqa biror narsa olsangiz, yuqori ehtimollik bilan tarmoq muvaffaqiyatsiz bo'ladi. Tarmoqni umumlashtirmaslik esingizdami. Buni bartaraf qilish uchun siz (siz ta'lim jarayonida siz sinaps yoki neyronlarni qoldirasiz) va tasdiqlash ma'lumotlar to'plamidan foydalanishingiz mumkin. Tarmoqqa ta'lim ma'lumotli to'plam va xatolikni kamaytirish bilan mashg'ul bo'lasiz, lekin siz tasdiqlash datasetida xatolarni kuzatasiz (lekin tarmoq ushbu ma'lumotlardan o'rganmaydi). Shunday qilib, har ikkala ma'lumotlar to'plami ham pasayib ketadi, ammo agar ma'lumotlar xatolikka yo'l qo'ysa va ma'lumotlarni tekshirishda kuchayishni boshlasangiz, bu holat semptomni yo'qotganligi sababli o'rganishni to'xtatadi.

0
qo'shib qo'ydi

Over-Fitting: Over-fitting is all about the difference of accuracy between training and test data. If difference is big then either you have to increase the size of data set (data augmentation) or use regularization technique. Over-fitting indicates that your model has memorized training data not generalize on training data.

Gradient Vanishing: Gradient Vanishing is difficulty which occurs because of activation functions with small range. For example, if you are using sigmoid activation function, then inputs to each layer even with larger values will fall in the range of [0,1]. What does it mean? It means if you change parameters with larger value, it will not cause big change in output as it will again fall within [0,1]. So the rate of change of output with respect to parameter will be too small. As a result, no parameter update will occur means vanishing gradient will occur.

Local Minimum: Local minimum is a point where model gets stuck because of small learning rate. This issue can be resolve by using large learning rate or different optimizer like rmsprop, Adam etc.

0
qo'shib qo'ydi

Over-Fitting: Over-fitting is all about the difference of accuracy between training and test data. If difference is big then either you have to increase the size of data set (data augmentation) or use regularization technique. Over-fitting indicates that your model has memorized training data not generalize on training data.

Gradient Vanishing: Gradient Vanishing is difficulty which occurs because of activation functions with small range. For example, if you are using sigmoid activation function, then inputs to each layer even with larger values will fall in the range of [0,1]. What does it mean? It means if you change parameters with larger value, it will not cause big change in output as it will again fall within [0,1]. So the rate of change of output with respect to parameter will be too small. As a result, no parameter update will occur means vanishing gradient will occur.

Local Minimum: Local minimum is a point where model gets stuck because of small learning rate. This issue can be resolve by using large learning rate or different optimizer like rmsprop, Adam etc.

0
qo'shib qo'ydi