教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 高等教育> 经济学> A New Learning Algorithm for Optimal Stopping

A New Learning Algorithm for Optimal Stopping

上传者:甘祥超
|
上传时间:2015-04-22
|
次下载

A New Learning Algorithm for Optimal Stopping

DiscreteEventDynSyst(2009)19:91–113

DOI10.1007/s10626-008-0055-2

ANewLearningAlgorithmforOptimalStopping

VivekS.Borkar·JervisPinto·TarunPrabhu

Received:1July2007/Accepted:14October2008/

Publishedonline:1November2008

©SpringerScience+BusinessMedia,LLC2008

http://wendang.chazidian.comingthisformulation,areinforcementlearningschemebasedonaprimal-dualmethodandincorporatingasamplingdevicecalled‘splitsampling’isproposedandanalyzed.Anillustrativeexamplefromoptionpricingisalsoincluded.

KeywordsLearningalgorithm·Optimalstopping·Linearprogramming·

Primal-dualmethods·Splitsampling·Optionpricing

1Introduction

Inrecentyears,therehasbeenmuchactivityindevelopingreinforcementlearningalgorithmsforapproximatedynamicprogrammingforMarkovdecisionprocesses,basedonrealorsimulateddata.Thisisusefulwhenexactanalyticalornumericalsolutioniseitherinfeasibleorexpensive.SeeBertsekasandTsitsiklis(1996),SuttonResearchsupportedinpartbyagrantfromGeneralMotorsIndiaPvt.Ltd.ThisauthorthanksArnabBasuforsomeusefulinputs.

V.S.Borkar(B)

TataInstituteofFundamentalResearch,HomiBhabhaRoad,Mumbai400005,India

e-mail:borkar@tifr.res.in

J.Pinto·T.Prabhu

St.FrancisInstituteofTechnology,Mumbai400103,India

PresentAddress:

J.Pinto

SchoolofElectricalEngineeringandComputerScience,

OregonStateUniversity,Corvallis,OR97331,USA

e-mail:pinto@eecs.oregonstate.edu

PresentAddress:

T.Prabhu

SchoolofComputing,UniversityofUtah,SaltLakeCity,UT84112,USA

e-mail:tarunp@cs.utah.edu

92DiscreteEventDynSyst(2009)19:91–113andBarto(1998)forbooklengthtreatmentsofthisissueandoverview.Someexamplesofsuchschemesare:Q-learning,actor-critic,orTD(λ)(BertsekasandTsitsiklis1996).ThesecanbeviewedasbeingderivedfromthetraditionaliterativeschemesforMDPssuchasthevalueorpolicyiteration,withadditionalstructure(suchasapproximationarchitectureoradditionalaveraging)builtontopofit.Thereis,however,athirdcomputationalschemeforclassicalMDPssuchas?nite/in?nitehorizondiscountedcostoraveragecost,viz.,thelinearprogrammingapproach.The‘primal’formulationofthisisalinearprogram(LPforshort)overthesocalled‘occupationmeasures’.Its‘dual’isanLPoverfunctions.AnextensiveaccountofthesedevelopmentsmaybefoundinHernández-LermaandLasserre(1996).Ouraimhereistoformulatealearningschemefortheoptimalstoppingproblembasedonanoldformulationofoptimalstoppingasalinearprograminthespiritoftheaforementioned.

Somerelevantliteratureisasfollows:

?TheLPformulationofoptimalstoppingisthesameasthe‘minimalexcessive

majorantfunction’characterizationofthevaluefunction(formaximizationproblems)thatdatesbacktoDynkin(1963),orthe‘maximalsubsolution’(forminimizationproblems)asinBensoussan(1982),ChapterIII,Section5.1.ThecomputationalimplicationshavebeenexploredinChoandStockbridge(2002).Ourschemeleadstoanalternativetothoseproposedin,e.g.,ChoiandVanRoy(2006),LongstaffandSchwartz(2001),TsitsiklisandVanRoy(1999,2001),YuandBertsekas(2007),foroptionpricing,whichisperhapstheprimeapplicationareaforoptimalstoppingatpresent.ThesearebasedontheclassicallearningalgorithmssuchasQ-learning,notontheLPformulation.

Alsomotivatedby?nanceproblems,AndersenandBroadie(2004),HaughandKogan(2004),Rogers(2002)arriveataformulationakintooursviaanabstractdualityresult,buttheiremphasisison?ndingboundsonthesolutionviaMonteCarlo.Ourschemediffersfroma‘pure’MonteCarlointhatitisareinforcementlearningscheme.AsobservedinAhamedetal.(2006),suchaschemecanbeviewedasacrossbetweenpureMonteCarloandpure(deterministic)numericalschemes,withitsperiteratecomputationmorethantheformer,butlessthanthelatter,andits?uctuations(variance)morethanthelatter(whichiszero)andlessthantheformer.ThekeydifferencewithpureMonteCarloisthatourschemeisbasedononestepconditionalaveragingratherthanaveraging,whichleadstothedifferencesmentionedabove.??

WepresenttheLPformulationandthealgorithminthenextsection.Section3providesthemathematicaljusti?cationforthescheme.Thefocusofthisworkisprimarilytheoretical.Nevertheless,Section4describesnumericalexperimentsforasimpleillustrativeoptionpricingmodel.Section5sketchesanextensiontothein?nitehorizondiscountedcostproblemtoindicatethebroaderapplicabilityoftheapproach.

2Thealgorithm

ConsideradiscretetimeMarkovchain{Xn}takingvaluesinacompactmetricspaceSwiththetransitionprobabilitykernelp(dy|x).LetN>0beaprescribedinteger.

DiscreteEventDynSyst(2009)19:91–11393Givenaboundedcontinuousfunctiong:S→Randadiscountfactor0<α<1,ourobjectiveisto?ndtheoptimalstoppingtimeτ?thatmaximizes

????(1)EαN∧τg(XN∧τ)

overallstoppingtimesτw.r.t.thenatural?ltrationof{Xn}.Astandarddynamicprogrammingargumentthentellsusthatthevaluefunction

????def?Vn(x)=supEα(N∧τ?n)g(XN∧τ)|Xn=x,

wherethesupremumisoverallstoppingtimes≥n,satis?es

????Vn(x)=g(x)∨αVn+1(y)p(dy|x),0≤n<N,

?(x)=g(x).VN(2)(3)

OurschemewillbebasedonthefollowingobservationthatessentiallygoesbacktoDynkin,whoseproofisincludedforthesakeofcompleteness:

?Theorem1{Vn}aboveisgivenbythesolutiontotheLP:

MinimizeV0(i0)s.t.

Vn(x)≥g(x),0≤n≤N

Vn(x)≥α??

y

?}isfeasibleforthisLP.Atthesametime,if{Vn}isanyotherProofNotethat{Vnsolution,then??

Vn(x)=ζn(x)+g(i)∨αVn+1(y)p(dy|x),0≤n<N,p(dy|x)Vn+1(y),0≤n<N

VN(x)=ζN(x)+g(x),

forsomeζn(·)≥0,0≤n≤N.Thisissimplythedynamicprogrammingequationfortheoptimalstoppingproblemwithreward

??N∧τ??αmζm(Xm)+αN∧τg(XN∧τ).E

m=n

(Notethatforthedecisiontostopattimeninstatex,the‘runningreward’ζn(x)willalsobegrantedinadditiontothe‘stoppingreward’g(x).)Astandardargumentthenshowsthat??N∧τ ???V0(x)=supEαmζm(Xm)+αN∧τg(XN∧τ)|X0=x≥V0(x)

m=n

wherethesupremumisoverallstoppingtimes.ThusthesolutionoftheaboveLPdoesindeedcoincidewiththevaluefunction.????

94DiscreteEventDynSyst(2009)19:91–113Itisworthnotingthat:(i)theconstraintsaboveneedholdonlya.s.withrespecttothelawofXnforeachn,and,(ii)thenonnegativityconstraintsVn(·)≥0donothavetobeexplicitlyincorporated.ByLagrangemultipliertheory(Luenberger1968,pp.216),theaboveoptimizationproblembecomes

minmax[L(V,??)]Vλ(4)

where??=[??1(N,dx),??2(n,dx),??3(n,dx),0≤n<N]istheLagrangemultiplier(astringofpositivemeasuresonS)andtheLagrangianL(V,??)isgivenby

??defL(V,λ)=V0(x0)+??1(N,dx)(g(x)?VN(x))

+N?1????

n=0????2(n,dx)g(x)?Vn(x)??

+N?1????

n=0????????3(n,dx)αp(dy|x)Vn+1(y)?Vn(x).(5)

NowweshalldescribeagradientschemeforestimatingVn(x)usinglinearfunctionapproximationsfor{Vn}andthesquare-rootsoftheLagrangemultipliers.Forthis,?rstsupposethat??i(n,dx)=λi(n,x)m(dx),1≤i≤3,forsomeprobabilitymeasurem(dx)onSwith√full√support.1√Inparticular,λi(n,·)’sarenonnegative.Approxi-mateVn(x)and1,2and3asfollows.Letr∈Rt,q1∈Rs1,q2∈Rs2andq3∈Rs3,with

t??????rk??φk??(n,x),Vn(x)≈

k??=1

??λ1n,x)≈s1??

j=1q1(j)?1j(n,x),??λ2n,x)≈s2??

j=1q2(j)?2j(n,x),??λ3n,x)≈s3??

j=1q3(j)?3j(n,x),

where{φk,?ij}arebasisfunctionsor‘features’selectedapriori.Squaringthelastthreeexpressionsabovegivesanapproximationtoλ1(n,x),λ2(n,x)andλ3(n,x),ensuringtheirnonnegativityautomatically.

itselfcanbethe?rststepoftheapproximationprocedureifthe??(i,dx)arenotabsolutelycontinuousw.r.t.m(dx),thelatterusuallybeingsome‘natural’candidatesuchasthenormalizedLebesguemeasure.Forexample,whenm(dx)=thenormalizedLebesguemeasure,convolutionof??i(n,dx)withasmoothapproximationofDiracmeasurewouldgivethedesiredapproximation.1This

DiscreteEventDynSyst(2009)19:91–11395

ThentheoriginalLagrangianEq.5isapproximatedintermsofr,q1,q2,q3by

??

L(r,q)=r(k??)φk??(0,x0)

k??

??+

?????2????

?????q1(l)?1l(N,x)r(k??)φk??(N,x)g(x)?

lN?1??n=0

+

??

??????

ll

??2??

q2(l)?2l(n,x)

k??

g(x)?

??

k??

??

r(k??)φk??(n,x)

+

N?1??n=0

????2??????

??

αp(dy|x)q3(l)?3l(n,x)r(k??)φk??(n+1,y)

?? m(dx).

k??

?

??

k??

r(k??)φk??(n,x)

(6)

Considerthefollowing‘primal-dual’recursiveschemeforsolvingthisproblem:????2??????

????

q1,m(l)?1l(N,x)rm+1(j)=rm(j)?am?φj(0,x0)+??φj(N,x)

N?1??n=0

??

+

??

l

??2

q2,m(l)?2l(n,x)????2

?1????????N

?φj(n,x)+q3,m(l)?3l(n,x)

n=0

l

l

?????? ??

×αp(dy|x)φj(n+1,y)?φj(n,x)+ηrm(j)m(dx)

??????

q1,m+1(j)=q1,m(j)+bm

2?1j(N,x)??×??????N?1??

n=0

(7)

??

??

l

??

q1,m(l)?1l(N,x)

????

m(dx)??

q2,m(l)?2l(n,x)

????

m(dx)

(9)(8)

g(x)?

??

k??

rm(k??)φk??(N,x)

q2,m+1(j)=q2,m(j)+bm2?2j(n,x)g(x)?

??

??

l

??

×

??????N?1??

n=0

??

k??

rm(k??)φk??(n,x)

q3,m+1(j)=q3,m(j)+bm

??×

??

k??

2?3j(n,x)

??

??

??

l

??????

q3,m(l)?3l(n,x)αp(dy|x)

????

m(dx)

(10)

rm(k??)φk??(n+1,y)?

??

k??

rm(k??)φk??(n,x)

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注

焦虑与大学生英语听力水平相关性的研究
IaaS设备测试规范
四上重点服务业
[精华]德语白话句型
第四章 语法分析-自上而下分析
社交网络中俄语词汇的使用的研究
德语专业英文简历模板
Sqlserver2008版本功能及参数比较
为Silverlight 2创建自定义控件
俄语词汇5[精品]
【最新编排】新视野大学英语视听说教程第四册听力练习录音文本和答案(第二版)
[指南]课程称号:算法与数据结构84954
关于高职高专院校俄语专业实践教学改革初探中英文对照
数据结构与算法 复习
浅谈二语习得理论在大学英语听力和口语教学中的应用
功能语法理论和俄语教学研究 Functional Grammar and Russian Teaching
英语四级听力30天学习笔记
Word2007使用技巧大全(超经典)_3
ASP.NET连接MySql数据库的2个方法及示例
.电脑全自动视频下载 > 全自动电脑洗车机
[指南]考点一:基础概念(算法、数据结构、线性表)1267
图书馆送磁带语种:德语编号磁带名称图书分
[指南]计算机二级公共基础常识数据结构与算法84549
浅谈英语听力教学[权威资料]
java 课件 第二章 中文版
商务俄语、俄语翻译个人简历模板
中俄文化差异下的俄语教学 Russian Teaching under the Background of Cultural Dif-ferences between China and Russia
1.1数据结构基本概念2
[资料]考点一:基础概念(算法、数据结构、线性表)329
[指南]考点一:基础概念(算法、数据结构、线性表)5354

网友关注视频

冀教版小学数学二年级下册1
30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
苏科版八年级数学下册7.2《统计图的选用》
苏科版数学 八年级下册 第八章第二节 可能性的大小
北师大版数学 四年级下册 第三单元 第二节 小数点搬家
第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
化学九年级下册全册同步 人教版 第18集 常见的酸和碱(二)
沪教版八年级下次数学练习册21.4(2)无理方程P19
外研版英语三起5年级下册(14版)Module3 Unit1
沪教版八年级下册数学练习册一次函数复习题B组(P11)
《空中课堂》二年级下册 数学第一单元第1课时
二年级下册数学第二课
化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
沪教版牛津小学英语(深圳用) 四年级下册 Unit 8
19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
北师大版数学四年级下册3.4包装
人教版历史八年级下册第一课《中华人民共和国成立》
外研版英语七年级下册module3 unit1第二课时
沪教版牛津小学英语(深圳用) 六年级下册 Unit 7
沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T1406126
冀教版英语三年级下册第二课
苏科版数学八年级下册9.2《中心对称和中心对称图形》
每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
小学英语单词
沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,湖北省
冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
沪教版牛津小学英语(深圳用)五年级下册 Unit 1
【获奖】科粤版初三九年级化学下册第七章7.3浓稀的表示