erlangen program
한 몇주에서 몇달 끌던 문제 하나를 푼 것 같다. 복잡하지 않은 아이디어라 증명까지 다 적어놨고 내일 다시 보고 교수님들한테 확인 부탁드려야지. 몇주에서 몇달 내내 이 문제만을 붙잡고 있던 건 아니고 - 계속 신경쓰였던 걸 잠깐 덮고 넘어갔다가 다시 보니까 아무래도 안될 것 같아서 지난 이 주 내내 계속 붙잡고 있었음.
문제를 푸는 데 있어서 요즘 나한테는 어떤 종류의 직관이 있는데 - 문제를 푸는 데 너무 근본적인 발상들을 필요로 하는 아이디어들은 왠지 틀렸을 것 같다는 느낌이 그것이다. 이번 문제를 예로 들자면 예를 들어서 어떤 joint process로부터 정의된 functional의 bound를 주기 위해서 지난 몇주간 나는 계속 mixing coefficient로부터 정의될 수 있는 종류의 부등식들을 찾아봤다. 즉 특정한 kernel들을 mixing coefficient로 bound 지을 수 있는 부등식과 그를 위한 테크닉들 - 그리고 이 때 mixing은 strongly mixing이 아니라 absolutely regular(혹은 베타믹싱)으로 정의된다. 근데 하면서도 계속 이건 뭔가 아닐 거 같은데.. 느낌이 들었고 오늘 낸 아이디어는 매우 간단하고 딥하게 들어가지 않아서 내게 무척 자연스럽게 느껴졌다. 이런 감각의 원인이 일반적인 수학의 성격 때문인지 아니면 응용 수학으로서의 통계학에서의 문제들을 푸는 때문인지는 잘 모르겠음..
여튼 그 과정에서 여러가지 레퍼런스들을 미친듯이 봤다.. 진짜 쥐잡듯이 다 뒤져봄. 결과적으론 안썼지만.. 그 중에서 geometric deep learning에 대한 교과서? 같은 것을 얻을 수 있었고 그거를 좀 보다가 무척 멋있는 멘트가 나와서 옮겨 적는다:
“In a research prospectus, which entered the annals of mathematics as the Erlangen Programme, Klein proposed approaching geometry as the study of invariants, i.e. properties unchanged under some class of transformation, called the symmetries of the geometry. This approach created clarity by showing that various geometries known at the time could be defined by an appropriate choice of symmetry transformation, formalized using the language of group theory. For instance, Euclidean geometry is concerned with lengths and angles, because these properties are preserved by the group of Euclidean transformations (rotations and translations), while affine geometry studies parallelism, which is preserved by the group of affine transformation.”
위키백과를 읽어보니 클라인이라는 수학자는 서로 다른 종류의 기하학은 다른 종류의 대칭성 및 그 대칭성을 보존하는 연산으로 규정된 언어를 가지며, 각 언어들은 군론을 통해 서로 번역될 수 있다고 생각한 것 같다. 그리고 그런 아이디어에서 출발한 기획을 ‘에를랑겐 프로그램’이라고 부르는듯. 이 프로그램의 직접적(?)인 결과로 뇌터 정리를 이야기할 수 있겠는데, 물리도 수학도 잘 모르는 내 눈에서 봐도 그에 대한 요약이 매우매우매우매우 멋있다:
“어떠한 계에 연속적인 대칭성이 있으면, 대응되는 보존되는 물리량이 존재한다.” (나무위키)
이 세상에서 제일 똑똑한 사람들은 아마 수학자들이나 물리학자들이고 이들은 보통 불변량에 관심이 있다. 추상화된 불변량에 대한 인류의 탐구는 자연에 적응하고 나아가 만물의 영장으로 군림하기에 기가 막히게 유용하게 적용했다. 근데 어떤 시점에서 불변량을 일종의 보상reward로 주는 learning process보다 더 나은 learning process가 나온다면 - 즉 불변량에 대한 수학의 언어를 어느 시점에서 멈춘 채 수학의 언어로는 묘사되지 않는 블랙박스들로 구성된 모델이 더 나은 성과를 보인다면 우리는 그에 대해서 어떤 이야기를 해야할까? 그런 생각을 했다. 며칠 전에 봤던 대수기하로 뚝딱뚝딱 만든 모델보다 트랜스포머가 훨씬 잘 작동된다는 썰을 보고 이런 생각이 들었나보다.