research note - some thoughts on empirical process theory
쉰만큼의 시간을 다시 일을 해야 제 컨디션이 돌아오는 것 같다. 하루 반 정도 쉬었더니 어제 오늘해서야 컨디션이 다시 조금씩 돌아오고 있다. 오늘은 어깨를 했는데 무척 기분좋게 됐다.
-
작업하는 main theorem의 결론을 위한 디테일들은 어느정도 된 거 같은데 근데 가장 fundamental하달까 한 부분이 잘 안된다. 어떤 의미에서 안되냐면, 나는 이걸 기존의 결과를 refer하려고 하는데 기존의 결과가 empirical process의 전통에 있고 그래서 내가 이 가정들을 어디까지 쓸 수 있고 어느정도로 구체적으로 이야기해야하는지 감이 안온다..
Pollard의 책을 중심으로 읽고 있는데 그러니까 80년대 후반 즈음의 논의들을 읽고 있는 셈이다. 이 때 Vapnik-Cervonenkis theory가 한참 주목을 받은 거 같고 그래선지 이 책에서는 VC theory의 도구들이 주로 사용되고 있고 이거를 이해하는 게 시간이 걸린다. 오늘은 그래도 어느정도의 감이 왔는데.. packing number라는 도구로 주어진 함수의 집합에 있어서 원소들이 조밀하게 배치되어 있는 정도를 재려고 하는 거 같고, 그 정도에 대한 특정 가정을 통해서 asymptotic result를 내려고 하는 거 같다..
Pollard는 manageability라는 개념을 주로 사용하는데 이 사람만 특정 시점에 이야기하던 개념이라는 게 문제다. 그래서 다른 저자의 다른 페이퍼를 보면 그 개념들이 다른 형식으로 적혀져 있는데 그게 아예 equivalent한건지 아님 뭔가 약화/강화가 된 가정들인지 구분이 안된다는 점이 또 하나의 난관임..
어쩄든 오늘 든 생각은 - 이런 기획이랄까 세계관을 통해 하려는 작업을 정리해보자면: (1) stochastic process들의 집합을 조밀하게 재기 위한 도구로서 packing number를 떠올림. (2) 또 나아가서 그 집합의 ‘envelope’이라는, 즉 집합을 적절하게 덮어버리는 또 다른 process를 떠올리고 거기에서 작업하자는 발상.
앞의 거는 디테일을 더 깊게 봐야겠지만 어느정도 납득은 되는데 근데 envelope를 사용하는 아이디어는 아직 잘 모르겠음. 예를 들어 결과적으로 FCLT를 보일 때 envelope는 그냥 또 다른 (원래 집합의 원소들을 bound하는) 확률과정들로 잡히게 되는데 근데 얘네를 가지고 (Lindeberg condition이라든지 하는 걸) 작업하는 게 어떤 의미가 있냐? 혹은 왜 이렇게 작업을 하는 게 더 편하냐? 이걸 잘 모르겠고 이런 것들 좀 확인하고 집 가려고 한다..
- 추가:
-
Envelope라는 건 packing number가 충족해야할 일종의 ‘거리’의 정의를 위해서 사용되는 거 같다. 그러니까 함수의 원소들이 얼마나 (pairwisely) 조밀하게 위치해야하느냐? 에 대한 기준을 제시하기 위한 bounding set.
-
그런 packing number에 대한 일종의 capacity bound로서의 lambda function (lambda(x))가 만족해야할 조건은 일종의 uniform entropy의 꼴이지 않나.. 그런 의미에서 entropy에 대한 일반적 직관이 필요하다고 느낀다.
-
그리고 이 모든 걸 도대체 왜 하는데? 에 대한 이야기를 하자면 주어진 processes들의 expectation에 대한 maximum deviation에 대해 얘기하고 싶은데, 그걸 얘기하기 위해선 일종의 uniform bound가 필요하기 때문인 것으로 본문에선 언급하고 있음..
-
이 모든 이야기에 대해 나는 아주 희미한 직관을 가지고 있을 뿐이다(그러니까 위에 적은 이야기 이상으로 할 얘기가 없음;). 근데 꽤 재밌어보이는데 언젠가 깊게 공부할 기회가 있기를 바란다..