A New Learning Algorithm for Optimal Stopping
上传者:甘祥超|上传时间:2015-04-22|密次下载
A New Learning Algorithm for Optimal Stopping
DiscreteEventDynSyst(2009)19:91–113
DOI10.1007/s10626-008-0055-2
ANewLearningAlgorithmforOptimalStopping
VivekS.Borkar·JervisPinto·TarunPrabhu
Received:1July2007/Accepted:14October2008/
Publishedonline:1November2008
©SpringerScience+BusinessMedia,LLC2008
http://wendang.chazidian.comingthisformulation,areinforcementlearningschemebasedonaprimal-dualmethodandincorporatingasamplingdevicecalled‘splitsampling’isproposedandanalyzed.Anillustrativeexamplefromoptionpricingisalsoincluded.
KeywordsLearningalgorithm·Optimalstopping·Linearprogramming·
Primal-dualmethods·Splitsampling·Optionpricing
1Introduction
Inrecentyears,therehasbeenmuchactivityindevelopingreinforcementlearningalgorithmsforapproximatedynamicprogrammingforMarkovdecisionprocesses,basedonrealorsimulateddata.Thisisusefulwhenexactanalyticalornumericalsolutioniseitherinfeasibleorexpensive.SeeBertsekasandTsitsiklis(1996),SuttonResearchsupportedinpartbyagrantfromGeneralMotorsIndiaPvt.Ltd.ThisauthorthanksArnabBasuforsomeusefulinputs.
V.S.Borkar(B)
TataInstituteofFundamentalResearch,HomiBhabhaRoad,Mumbai400005,India
e-mail:borkar@tifr.res.in
J.Pinto·T.Prabhu
St.FrancisInstituteofTechnology,Mumbai400103,India
PresentAddress:
J.Pinto
SchoolofElectricalEngineeringandComputerScience,
OregonStateUniversity,Corvallis,OR97331,USA
e-mail:pinto@eecs.oregonstate.edu
PresentAddress:
T.Prabhu
SchoolofComputing,UniversityofUtah,SaltLakeCity,UT84112,USA
e-mail:tarunp@cs.utah.edu
92DiscreteEventDynSyst(2009)19:91–113andBarto(1998)forbooklengthtreatmentsofthisissueandoverview.Someexamplesofsuchschemesare:Q-learning,actor-critic,orTD(λ)(BertsekasandTsitsiklis1996).ThesecanbeviewedasbeingderivedfromthetraditionaliterativeschemesforMDPssuchasthevalueorpolicyiteration,withadditionalstructure(suchasapproximationarchitectureoradditionalaveraging)builtontopofit.Thereis,however,athirdcomputationalschemeforclassicalMDPssuchas?nite/in?nitehorizondiscountedcostoraveragecost,viz.,thelinearprogrammingapproach.The‘primal’formulationofthisisalinearprogram(LPforshort)overthesocalled‘occupationmeasures’.Its‘dual’isanLPoverfunctions.AnextensiveaccountofthesedevelopmentsmaybefoundinHernández-LermaandLasserre(1996).Ouraimhereistoformulatealearningschemefortheoptimalstoppingproblembasedonanoldformulationofoptimalstoppingasalinearprograminthespiritoftheaforementioned.
Somerelevantliteratureisasfollows:
?TheLPformulationofoptimalstoppingisthesameasthe‘minimalexcessive
majorantfunction’characterizationofthevaluefunction(formaximizationproblems)thatdatesbacktoDynkin(1963),orthe‘maximalsubsolution’(forminimizationproblems)asinBensoussan(1982),ChapterIII,Section5.1.ThecomputationalimplicationshavebeenexploredinChoandStockbridge(2002).Ourschemeleadstoanalternativetothoseproposedin,e.g.,ChoiandVanRoy(2006),LongstaffandSchwartz(2001),TsitsiklisandVanRoy(1999,2001),YuandBertsekas(2007),foroptionpricing,whichisperhapstheprimeapplicationareaforoptimalstoppingatpresent.ThesearebasedontheclassicallearningalgorithmssuchasQ-learning,notontheLPformulation.
Alsomotivatedby?nanceproblems,AndersenandBroadie(2004),HaughandKogan(2004),Rogers(2002)arriveataformulationakintooursviaanabstractdualityresult,buttheiremphasisison?ndingboundsonthesolutionviaMonteCarlo.Ourschemediffersfroma‘pure’MonteCarlointhatitisareinforcementlearningscheme.AsobservedinAhamedetal.(2006),suchaschemecanbeviewedasacrossbetweenpureMonteCarloandpure(deterministic)numericalschemes,withitsperiteratecomputationmorethantheformer,butlessthanthelatter,andits?uctuations(variance)morethanthelatter(whichiszero)andlessthantheformer.ThekeydifferencewithpureMonteCarloisthatourschemeisbasedononestepconditionalaveragingratherthanaveraging,whichleadstothedifferencesmentionedabove.??
WepresenttheLPformulationandthealgorithminthenextsection.Section3providesthemathematicaljusti?cationforthescheme.Thefocusofthisworkisprimarilytheoretical.Nevertheless,Section4describesnumericalexperimentsforasimpleillustrativeoptionpricingmodel.Section5sketchesanextensiontothein?nitehorizondiscountedcostproblemtoindicatethebroaderapplicabilityoftheapproach.
2Thealgorithm
ConsideradiscretetimeMarkovchain{Xn}takingvaluesinacompactmetricspaceSwiththetransitionprobabilitykernelp(dy|x).LetN>0beaprescribedinteger.
DiscreteEventDynSyst(2009)19:91–11393Givenaboundedcontinuousfunctiong:S→Randadiscountfactor0<α<1,ourobjectiveisto?ndtheoptimalstoppingtimeτ?thatmaximizes
????(1)EαN∧τg(XN∧τ)
overallstoppingtimesτw.r.t.thenatural?ltrationof{Xn}.Astandarddynamicprogrammingargumentthentellsusthatthevaluefunction
????def?Vn(x)=supEα(N∧τ?n)g(XN∧τ)|Xn=x,
wherethesupremumisoverallstoppingtimes≥n,satis?es
????Vn(x)=g(x)∨αVn+1(y)p(dy|x),0≤n<N,
?(x)=g(x).VN(2)(3)
OurschemewillbebasedonthefollowingobservationthatessentiallygoesbacktoDynkin,whoseproofisincludedforthesakeofcompleteness:
?Theorem1{Vn}aboveisgivenbythesolutiontotheLP:
MinimizeV0(i0)s.t.
Vn(x)≥g(x),0≤n≤N
Vn(x)≥α??
y
?}isfeasibleforthisLP.Atthesametime,if{Vn}isanyotherProofNotethat{Vnsolution,then??
Vn(x)=ζn(x)+g(i)∨αVn+1(y)p(dy|x),0≤n<N,p(dy|x)Vn+1(y),0≤n<N
VN(x)=ζN(x)+g(x),
forsomeζn(·)≥0,0≤n≤N.Thisissimplythedynamicprogrammingequationfortheoptimalstoppingproblemwithreward
??N∧τ??αmζm(Xm)+αN∧τg(XN∧τ).E
m=n
(Notethatforthedecisiontostopattimeninstatex,the‘runningreward’ζn(x)willalsobegrantedinadditiontothe‘stoppingreward’g(x).)Astandardargumentthenshowsthat??N∧τ ???V0(x)=supEαmζm(Xm)+αN∧τg(XN∧τ)|X0=x≥V0(x)
m=n
wherethesupremumisoverallstoppingtimes.ThusthesolutionoftheaboveLPdoesindeedcoincidewiththevaluefunction.????
94DiscreteEventDynSyst(2009)19:91–113Itisworthnotingthat:(i)theconstraintsaboveneedholdonlya.s.withrespecttothelawofXnforeachn,and,(ii)thenonnegativityconstraintsVn(·)≥0donothavetobeexplicitlyincorporated.ByLagrangemultipliertheory(Luenberger1968,pp.216),theaboveoptimizationproblembecomes
minmax[L(V,??)]Vλ(4)
where??=[??1(N,dx),??2(n,dx),??3(n,dx),0≤n<N]istheLagrangemultiplier(astringofpositivemeasuresonS)andtheLagrangianL(V,??)isgivenby
??defL(V,λ)=V0(x0)+??1(N,dx)(g(x)?VN(x))
+N?1????
n=0????2(n,dx)g(x)?Vn(x)??
+N?1????
n=0????????3(n,dx)αp(dy|x)Vn+1(y)?Vn(x).(5)
NowweshalldescribeagradientschemeforestimatingVn(x)usinglinearfunctionapproximationsfor{Vn}andthesquare-rootsoftheLagrangemultipliers.Forthis,?rstsupposethat??i(n,dx)=λi(n,x)m(dx),1≤i≤3,forsomeprobabilitymeasurem(dx)onSwith√full√support.1√Inparticular,λi(n,·)’sarenonnegative.Approxi-mateVn(x)and1,2and3asfollows.Letr∈Rt,q1∈Rs1,q2∈Rs2andq3∈Rs3,with
t??????rk??φk??(n,x),Vn(x)≈
k??=1
??λ1n,x)≈s1??
j=1q1(j)?1j(n,x),??λ2n,x)≈s2??
j=1q2(j)?2j(n,x),??λ3n,x)≈s3??
j=1q3(j)?3j(n,x),
where{φk,?ij}arebasisfunctionsor‘features’selectedapriori.Squaringthelastthreeexpressionsabovegivesanapproximationtoλ1(n,x),λ2(n,x)andλ3(n,x),ensuringtheirnonnegativityautomatically.
itselfcanbethe?rststepoftheapproximationprocedureifthe??(i,dx)arenotabsolutelycontinuousw.r.t.m(dx),thelatterusuallybeingsome‘natural’candidatesuchasthenormalizedLebesguemeasure.Forexample,whenm(dx)=thenormalizedLebesguemeasure,convolutionof??i(n,dx)withasmoothapproximationofDiracmeasurewouldgivethedesiredapproximation.1This
DiscreteEventDynSyst(2009)19:91–11395
ThentheoriginalLagrangianEq.5isapproximatedintermsofr,q1,q2,q3by
??
L(r,q)=r(k??)φk??(0,x0)
k??
??+
?????2????
?????q1(l)?1l(N,x)r(k??)φk??(N,x)g(x)?
lN?1??n=0
+
??
??????
ll
??2??
q2(l)?2l(n,x)
k??
g(x)?
??
k??
??
r(k??)φk??(n,x)
+
N?1??n=0
????2??????
??
αp(dy|x)q3(l)?3l(n,x)r(k??)φk??(n+1,y)
?? m(dx).
k??
?
??
k??
r(k??)φk??(n,x)
(6)
Considerthefollowing‘primal-dual’recursiveschemeforsolvingthisproblem:????2??????
????
q1,m(l)?1l(N,x)rm+1(j)=rm(j)?am?φj(0,x0)+??φj(N,x)
N?1??n=0
??
+
??
l
??2
q2,m(l)?2l(n,x)????2
?1????????N
?φj(n,x)+q3,m(l)?3l(n,x)
n=0
l
l
?????? ??
×αp(dy|x)φj(n+1,y)?φj(n,x)+ηrm(j)m(dx)
??????
q1,m+1(j)=q1,m(j)+bm
2?1j(N,x)??×??????N?1??
n=0
(7)
??
??
l
??
q1,m(l)?1l(N,x)
????
m(dx)??
q2,m(l)?2l(n,x)
????
m(dx)
(9)(8)
g(x)?
??
k??
rm(k??)φk??(N,x)
q2,m+1(j)=q2,m(j)+bm2?2j(n,x)g(x)?
??
??
l
??
×
??????N?1??
n=0
??
k??
rm(k??)φk??(n,x)
q3,m+1(j)=q3,m(j)+bm
??×
??
k??
2?3j(n,x)
??
??
??
l
??????
q3,m(l)?3l(n,x)αp(dy|x)
????
m(dx)
(10)
rm(k??)φk??(n+1,y)?
??
k??
rm(k??)φk??(n,x)
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 增值型内部审计研究——基于完善的公司治理结构
- 2014年托福写作中如何巧用倒装句
- 三个儿子Word
- ;保守主义人学视角的审视
- 客服人员话术及常出问题的解决办法
- Unit 5 what were you doing when the rainstorm came Section A (1a—2d)Word
- 1.社会心理学是什么Word
- How to keep healthWord
- 设计变更管理规定
- 发电生产专项指标奖惩管理办法
- 项目责任人管理办法
- 马克思主义中国化的世界影响
- 寻找不一般的易班宝藏 (2)
- 2017工会工作计划
- 高考英语写作技巧 writingWord 文档
- 消防培训Word
- 消防安全教育课件-25pWord
- 物资购置申请表
- 昆明市成立5个市级地条钢排查督查工作组 督查地条钢企业
- 考研“真人书”上架啦
- 周末舞会策划书111
- XXX地区危险化学品运输泄漏事故演练脚本
- 2017年5月13日托福口语及写作范文
- 上海市户口办理下来到底值多少钱?算一笔账你就知道了!
- 三级综合医院评审标准实施细则第六章第九节医学装备管理
- 操作规程考核记录
- 小政府与大市场:服务和管理奏乐章
- 归去来兮辞
- 血防健康教育责任状
- 经营计划部岗位说明及分工
网友关注视频
- 第12章 圆锥曲线_12.7 抛物线的标准方程_第一课时(特等奖)(沪教版高二下册)_T274713
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T3763925
- 第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
- 外研版英语三起5年级下册(14版)Module3 Unit2
- 沪教版八年级下册数学练习册21.3(3)分式方程P17
- 二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 8
- 《小学数学二年级下册》第二单元测试题讲解
- 沪教版八年级下次数学练习册21.4(2)无理方程P19
- 化学九年级下册全册同步 人教版 第25集 生活中常见的盐(二)
- 苏科版数学八年级下册9.2《中心对称和中心对称图形》
- 沪教版八年级下册数学练习册21.3(2)分式方程P15
- 冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
- 冀教版小学英语五年级下册lesson2教学视频(2)
- 六年级英语下册上海牛津版教材讲解 U1单词
- 第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
- 沪教版牛津小学英语(深圳用)五年级下册 Unit 1
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
- 人教版历史八年级下册第一课《中华人民共和国成立》
- 第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T1406126
- 二年级下册数学第一课
- 冀教版英语五年级下册第二课课程解读
- 苏科版数学七年级下册7.2《探索平行线的性质》
- 外研版英语七年级下册module3 unit1第二课时
- 冀教版小学数学二年级下册第二单元《租船问题》
- 七年级英语下册 上海牛津版 Unit9
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 苏科版八年级数学下册7.2《统计图的选用》
- 沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
- 三年级英语单词记忆下册(沪教版)第一二单元复习
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理