..

research note - some thoughts on empirical process theory

쉰만큼의 시간을 다시 일을 해야 제 컨디션이 돌아오는 것 같다. 하루 반 정도 쉬었더니 어제 오늘해서야 컨디션이 다시 조금씩 돌아오고 있다. 오늘은 어깨를 했는데 무척 기분좋게 됐다.

-

작업하는 main theorem의 결론을 위한 디테일들은 어느정도 된 거 같은데 근데 가장 fundamental하달까 한 부분이 잘 안된다. 어떤 의미에서 안되냐면, 나는 이걸 기존의 결과를 refer하려고 하는데 기존의 결과가 empirical process의 전통에 있고 그래서 내가 이 가정들을 어디까지 쓸 수 있고 어느정도로 구체적으로 이야기해야하는지 감이 안온다..

Pollard의 책을 중심으로 읽고 있는데 그러니까 80년대 후반 즈음의 논의들을 읽고 있는 셈이다. 이 때 Vapnik-Cervonenkis theory가 한참 주목을 받은 거 같고 그래선지 이 책에서는 VC theory의 도구들이 주로 사용되고 있고 이거를 이해하는 게 시간이 걸린다. 오늘은 그래도 어느정도의 감이 왔는데.. packing number라는 도구로 주어진 함수의 집합에 있어서 원소들이 조밀하게 배치되어 있는 정도를 재려고 하는 거 같고, 그 정도에 대한 특정 가정을 통해서 asymptotic result를 내려고 하는 거 같다..

Pollard는 manageability라는 개념을 주로 사용하는데 이 사람만 특정 시점에 이야기하던 개념이라는 게 문제다. 그래서 다른 저자의 다른 페이퍼를 보면 그 개념들이 다른 형식으로 적혀져 있는데 그게 아예 equivalent한건지 아님 뭔가 약화/강화가 된 가정들인지 구분이 안된다는 점이 또 하나의 난관임..

어쩄든 오늘 든 생각은 - 이런 기획이랄까 세계관을 통해 하려는 작업을 정리해보자면: (1) stochastic process들의 집합을 조밀하게 재기 위한 도구로서 packing number를 떠올림. (2) 또 나아가서 그 집합의 ‘envelope’이라는, 즉 집합을 적절하게 덮어버리는 또 다른 process를 떠올리고 거기에서 작업하자는 발상.

앞의 거는 디테일을 더 깊게 봐야겠지만 어느정도 납득은 되는데 근데 envelope를 사용하는 아이디어는 아직 잘 모르겠음. 예를 들어 결과적으로 FCLT를 보일 때 envelope는 그냥 또 다른 (원래 집합의 원소들을 bound하는) 확률과정들로 잡히게 되는데 근데 얘네를 가지고 (Lindeberg condition이라든지 하는 걸) 작업하는 게 어떤 의미가 있냐? 혹은 왜 이렇게 작업을 하는 게 더 편하냐? 이걸 잘 모르겠고 이런 것들 좀 확인하고 집 가려고 한다..

  • 추가:
  1. Envelope라는 건 packing number가 충족해야할 일종의 ‘거리’의 정의를 위해서 사용되는 거 같다. 그러니까 함수의 원소들이 얼마나 (pairwisely) 조밀하게 위치해야하느냐? 에 대한 기준을 제시하기 위한 bounding set.

  2. 그런 packing number에 대한 일종의 capacity bound로서의 lambda function (lambda(x))가 만족해야할 조건은 일종의 uniform entropy의 꼴이지 않나.. 그런 의미에서 entropy에 대한 일반적 직관이 필요하다고 느낀다.

  3. 그리고 이 모든 걸 도대체 왜 하는데? 에 대한 이야기를 하자면 주어진 processes들의 expectation에 대한 maximum deviation에 대해 얘기하고 싶은데, 그걸 얘기하기 위해선 일종의 uniform bound가 필요하기 때문인 것으로 본문에선 언급하고 있음..

  4. 이 모든 이야기에 대해 나는 아주 희미한 직관을 가지고 있을 뿐이다(그러니까 위에 적은 이야기 이상으로 할 얘기가 없음;). 근데 꽤 재밌어보이는데 언젠가 깊게 공부할 기회가 있기를 바란다..

Comments