Základní experimentální výzkum v strojového učení

23 Aug 3:03 pm


Original: http://web.engr.oregonstate.edu/~tgd/experimental-research/

Thomas G. Dietterich
Ústav výpočetní techniky
Oregon State University
Corvallis, Oregon 97331

Návrh na 24.června 1997.

Základní výzkum v strojovém učení je ve své podstatě empirická, protože je výkon algoritmů strojového učení je dána tím, jak dobře jejich předpoklady odpovídat struktuře světa. Proto žádné množství matematické analýzy určit, zda strojového učení algoritmus bude fungovat dobře. Experimentální studie jsou požadovány.

Abychom pochopili tento bod, zvažte dobře řešený problém kontrolovaného učení z příkladů. Tento problém je obvykle uvedeny v následující tabulce. Příkladem tex2html_wrap_inline211 je n-tice vyvodit z nějakého souboru X podle nějakého pevného, ​​neznámého rozdělení pravděpodobnosti D. neznámé funkce f je aplikována na každý příklad pro vytvoření štítku tex2html_wrap_inline221. Štítky mohou být buď reálná množství (v tomto případě je tento problém nazývá regresní problém) nebo diskrétní symboly (v takovém případě je problém jen klasifikační problém).

Cílem algoritmů strojového učení je vytvořit aproximační h na neznámé funkce f tak, že s vysokou pravděpodobností bude nový příklad tex2html_wrap_inline227 vypracován podle D být správně označeny: h (x) = f (x).

Například, zvažovat problém diagnostikovat onemocnění srdce. Příklady se skládají z prvků popisujících pacienta, jako je věk, pohlaví, zda pacient kouří, krevní tlak, výsledky různých laboratorních testů, a tak dále. Štítek označuje, zda pacient byl diagnostikován s onemocněním srdce. Úkolem algoritmu učení je naučit se postup rozhodování, které umožní správné diagnózy pro budoucí pacienty.

Učící algoritmy práci tím, že hledá nějaký prostor hypotéz H, pro hypotézy H, který je nejlepší “” v nějakém smyslu. Dvě základní otázky strojového učení výzkumu jsou (a), co jsou dobré hypotéza prostory pro vyhledávání a (b) to, co definice “ nejlepších” by měly být použity? Například velmi populární hypotéza prostor H je prostor rozhodovacích stromů a definice “ nejlepší” je hypotéza, že minimalizuje tzv. pesimistický odhad chyby [Qui93].

Dá se dokázat, že pokud by všechny neznámé funkce f jsou stejně pravděpodobné, pak všechny učící se algoritmy bude mít stejný výkon, bez ohledu na prostor hypotéza H hledají a které definice “ nejlépe”, které zaměstnávají [Wol96, Sch94]. Tyto tzv. “ není zadarmo” věty vyplývají z jednoduchého pozorování, že jediná informace, učení algoritmus je školení příklady. A školení příklady neposkytují žádné informace o štítcích nových bodů x, které se liší od příkladů. Z tohoto důvodu, a to bez jakéhokoli jiného zdroje informací, neexistuje žádný matematický základ pro vytváření předpovědí o f (x).

Proto účinnost algoritmů strojového učení v praxi závisí na tom, zda hypotéza prostor H je dostatečně malý a obsahuje dobré přiblížení k neznámému funkce f. (Hypotéza prostor musí být malé, aby mohly být hledány schůdnou dobu a za účelem podpory statistických hypotéz kvalitu rozsudků na základě realistických množství tréninkových dat.)

Základní výzkum v strojového učení tedy zahrnuje navržení různých hypotéz prostory H a optimalizační kritéria, provádění těchto návrhů jsou programy a jejich zkoušení na velkou sbírku reálných dat. Velký a stále rostoucí sbírka studijních problémů se udržuje na Kalifornské univerzitě v Irvine [MM96] a byl použit jako základ pro stovky experimentálních studií.

Obrázek 1 ukazuje přehled o jedné takové studie. V této studii, byl široce používán C4.5 rozhodovací strom algoritmus ve srovnání s novým algoritmem, s názvem výřezů, vyvinutý Freund a Schapire [FS96]. Oba algoritmy byly aplikovány na 27 různých studijních problémů. Pro každou učení problém, že je dané množství dat, jsou k dispozici v kolekci Irvine. Vyhodnotit učení, která se používá jeden ze dvou metod. V jednoduchém způsobu protahování, je odepřeno náhodně vybraná podmnožina dostupných údajů, algoritmus učení je “ vyškolený” na zbývajících dat k výrobě hypotézu H, a přesnost hodin se pak měří na zadržovaných údajů . V 10-násobné křížové kontroly způsobu, jsou data náhodně rozděleny do 10 stejně velkých podskupin. Algoritmus učení se provádí 10 krát – pokaždé, je vyškolen na všech ale jeden z 10 podskupin a následně vyhodnoceny na zbývající podmnožiny. Výsledky těchto 10 běhů jsou zprůměrovány pro odhad chybovosti algoritmu.

figure74

Obrázek č. 1: Srovnání výkonnosti C4.5 učení algoritmu s algoritmem výřezů aplikované na C4.5.

Obrázek 1 je bodový graf, ve kterém každý bod odpovídá jinému učení problém. X Souřadnice každého bodu je chybovost výřezů na tomto problému, a souřadnice y je chybovost C4.5. Body, které leží nad přímkou ​​y = x mají nižší chybovost výřezů. Vzor bodů vyplývá, že výřezů obecně lepší než C4.5 o těchto testovacích problémů.

Kromě základních srovnání výkonů, jsou experimentální studie se uskutečnily porozumět a vysvětlit rozdíly mezi algoritmů. Základní strategií je vzít dva algoritmy a zvážit dopady změn těchto algoritmů, které zvyšují nebo odstranit rozdíly mezi algoritmy. Například ve srovnání C4.5 a backpropagation pro sítě vzdělávacích nervových, Dietterich, Hild, a Bakiri [DHB95] poznamenal, že neuronové sítě fungovala lépe, než C4.5 na problematiku mapování anglických slov do řetězce fonémů (pro syntéza řeči). Jsou identifikovány tři hypotézy se tento rozdíl vysvětlit a testovány hypotéz o zkoumání účinků změn C4.5 a zpětného šíření. Například změna jak C4.5 a Backpropagation zachytit určité formy statistických informací eliminovat většinu rozdílů mezi oběma algoritmy. Toho je dosaženo tím, že zlepší přesnost C4.5 přičemž přesnost backpropagation beze změny. Proto poskytuje věrohodné vysvětlení, proč byla backpropagation funguje lépe – a to, že zpětné šíření už zachycení této statistické informace, ale C4.5 nebyl.

Další výzkumná strategie zahrnuje opuštění nezměněné algoritmy, ale změny školicích příklady zavést nebo odstranit faktory, jež mají být důležité. Například, pro testování hluku tolerance různých algoritmů, může umělý hluk být zavedeny do trénovací data. Mnoho algoritmů činit předpoklady o povaze interakcí mezi různými prvky vstupních příkladů. Experimenty, které systematicky manipulovat těchto interakcí prokázaly, že některé z těchto předpokladů nejsou tak silné bylo se předpokládalo. Například, “ naivní” Bayes algoritmus pro klasifikaci se předpokládá, že každý má z trénovacích případů vzniká nezávisle na ostatních uvedených označení f (x). Tato silná nezávislost je zřídka pozorována v praxi, ale experimentální studie prokázaly, že naivní Bayes je velmi robustní porušování tohoto předpokladu [DP96].

Vzhledem k zásadní roli empirického výzkumu v oblasti strojového učení, dalo by se předpokládat, že matematické metody mají co nabídnout. Nicméně, tam byl silný souhra mezi teoretickým a experimentálním výzkumem v strojového učení. AdaBoost algoritmus je příkladem. Algoritmus byl původně vyvinut na základě teoretického modelu známé jako slabý studijním modelu. Tento model předpokládá, že existuje slabá “” algoritmy učení, které mohou udělat o něco lepší než náhodné hádání určitou sadu hypotéz H, bez ohledu na základní rozdělení pravděpodobnosti, D, které generuje příklady. Adaboost ukazuje, jak zvýšit “” tyto slabé algoritmy učení dosáhnout libovolně vysoké přesnosti. Zatímco experimentální úspěch výřezů je nesporná, teoretické vysvětlení pro jeho úspěchu v podmínkách slabého učení modelu je sporný. Leo Breiman [Bre96] provedli sérii experimentů, zpochybňoval slabé učení vysvětlení a poskytuje alternativní vysvětlení založené na rozšíření známého zaujatost / rozptyl chyb rozkladu v oblasti statistiky. Schapire, Freund, Bartlett a Lee [SFBL97] vyzval Breiman vysvětlení s jemnější teoretickou úvahu (a související experimenty) v závislosti na maximální mez modelu nejprve vyvinut Cortes a Vapnik [CV95]. Breiman [Bre97] nedávno odpověděl s novým souborem experimentů a nové vysvětlení založené na novém modelu, který se nazývá “ posílení okraj”. Toto živé interakce mezi teorií a experimentem vyrábí v krátké době zlepšit naše chápání těchto algoritmů a pomáhá zaměřit matematickou analýzu na nejdůležitější základní otázky, jakož i navrhnout nové algoritmy praktický význam.

Stručně řečeno, strojové učení je neodmyslitelně empirický výzkumný prostor. Základní otázky v této oblasti vyžaduje empirické studie přes hypotéz a jejich experimentální výzkum. Tyto experimenty využívat datových souborů získaných z reálných aplikacích strojového učení, a je tudíž důležitý vztah mezi základním a aplikovaným výzkumem. Nicméně, experimentální výzkum strojové učení není aplikovaný výzkum – snaží se odpovědět na základní otázky, spíše než k výrobě ziskových aplikací. Úspěch či neúspěch konkrétního aplikačního úsilí neposkytuje vhled do základních otázek – úspěch či neúspěch je obvykle nesouvisí s kvalitou nebo vhodnosti algoritmů strojového učení. Poněkud, to je obvykle stanovena na řídících a finančních aspektech projektu. Dále jsou aplikační projekty navržen tak odpovědět na zásadní otázky, ale obejít je. Pokrok v základním výzkumu vyžaduje pečlivou konstrukci, realizaci a interpretaci experimentů. Studenti potřebují výcvik ve statistice pro experiment návrhu a analýzy, jakož i solidní znalosti z matematických modelů vyvinutých ve výpočetní teorie učení.

Naše chápání základních otázek strojového učení bylo rychlé pokroky (spolu s kvalitou výsledných algoritmů). Hodně z tohoto pokroku lze vysledovat na sloučení experimentálního výzkumu (vedený vytvoření a rozšíření úložiště Irvine) a teoretického výzkumu (zahájeno průkopnické práci Vapnik [VC71] a Valiant [Val84]) spolu s pokroky v počítačový hardware, které umožňují rozsáhlé experimentování. Nicméně výpočetního account síly na lidi učit velmi složité schopnosti, například as vision a jazykových processing stále leží v určité vzdálenosti do budoucnosti. Existuje mnoho důležitých základních výzev pro strojové učení výzkumem v následujících desetiletích a experimentální výzkum bude mít zásadní význam pro řešení těchto problémů.

Reference

Bre96
Leo Breiman. Bias, rozptyl a opalovací klasifikátory. Technická zpráva 460, Ústav statistiky, University of California, Berkeley, CA, 1996.

Bre97
Leo Breiman. Jiskření okraj. Technická zpráva, Ústav statistiky, University of California, Berkeley, CA, 1997.

CV95
Corinna Cortes a Vladimír Vapnik. Podpora vektor sítě. Strojové učení, 20:273-297, 1995.

DHB95
T. G. Dietterich, H. Hild a G. Bakiri. Srovnání ID3 a backpropagation pro anglický text-to-speech mapování. Machine Learning, 18:51-80, 1995.

DP96
Pedro Domingos a Michael Pazzani. Kromě nezávislosti: Podmínky optimality jednoduché bayesovské třídění. V Lorenza Saitta, editor, Sborník z mezinárodní konference o třinácté strojového učení, str. 105-112, San Francisco, CA, 1996. Morgan Kaufmann.

FS96
Yoav Freund a Robert E. Schapire. Experimenty s novým zvyšování algoritmu. V L. Saitta, editor, Sborník z mezinárodní konference o třinácté strojového učení, str. 148-156, San Francisco, CA, 1996. Morgan Kaufmann.

MM96
Christopher J. Merz a Patrick M. Murphy. UCI úložiště databází strojového učení. http://www.ics.uci.edu/ ~ mlearn / MLRepository.html, 1996.

Qui93
J. R. Quinlan. C4.5: Programy pro empirickou učení. Morgan Kaufmann, San Francisco, CA, 1993.

Sch94
Cullen Schaffer. Zákon zachování generalizace výkon. V Williama Cohena a Haym Hirsh, editory, Sborník z mezinárodní konference o jedenácté strojového učení, str. 259-265, San Francisco, CA, 1994. Morgan Kaufmann.

SFBL97
Robert E. Schapire, Yoav Freund, Peter Bartlett a Wee Sun Lee. Posílení marže: nová vysvětlení pro účinnost způsobu hlasování. V Doug Fisher, editor, učení stroje: Sborník z mezinárodní konference XIV. Morgan Kaufmann, 1997.

Val84
L. G. Valiant. Teorie learnable. Commun. ACM, 27 (11) :1134-1142, listopad 1984.

VC71
V. N. Vapnik a A. Y. Červoněnkisova. Na stejnoměrné konvergence relativních četností událostí na jejich pravděpodobností. Teorie Probab. a její aplikace, 16 (2) :264-280, 1971.

Wol96
David H. Wolpert. Absence rozdílů mezi priori algoritmů. Nervové počítání, 8 (7) :1341-1390, 1996.

O tomto dokumentu …

Základní experimentální výzkum v strojového učení

Tento dokument byl vytvořen pomocí latex2html překladatel verze 96.1-h (skončil 30. září 1996) Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.

Argumenty příkazového řádku jsou:
latex2html-no_navigation-split 0 papíru.

Překlad byl zahájen Tom Dietterich v stř 24 červen 1997 17:00:06 PDT

Comments are closed