달력

12025  이전 다음

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

새로운 수학은 기계 학습을 다음 단계로 끌어 올릴 수 있습니다

포르투갈 리스본에있는 CCU (Champalimaud Center for the Unknown)의 신경 과학자를 포함한 이탈리아 수학자 팀은 인공 비전 기계가 25 년 전에 개발 된 수학적 이론을 사용하여 복잡한 이미지를 더 빨리 인식 할 수 있음을 보여 주었다 이 새로운 연구의 공동 저자 중 한 명이 그들의 결과는 Nature Machine Intelligence 저널에 발표되었다 .


최근 수십 년 동안 머신 비전 성능이 크게 향상되었습니다. 인공 시스템은 이제 거의 모든 사람의 얼굴 을 인식 하거나 탱크에서 움직이는 개별 물고기를 식별하는 방법을 배울 수 있습니다 .

실제로 이러한 기계 는 생물학적 뉴런 네트워크의 전자 모델이며, 그 목표는 뇌의 기능을 시뮬레이션하는 것이며, 이는 우리의 의식적인 노력 없이도 이러한 시각적 작업에서 탁월합니다.

그러나 이러한 인공 신경망은 실제로 어떻게 학습합니까? 예를 들어, 얼굴 인식의 경우 일련의 인물 사진으로 인간의 얼굴이 어떻게 보이는지에 대한 경험을 습득하여 수행합니다. 보다 구체적으로, 픽셀 값의 매트릭스로 디지털화 된 후, 각 이미지는 신경망 내부에서 "크런치"되어 샘플 얼굴 세트 (예 : 눈, 입, 코 등)에서 일반적이고 의미있는 특징을 추출합니다.

이 딥 러닝을 통해 머신은 또 다른 값 세트를 뱉어 낼 수 있으며, 이로 인해 얼굴 데이터뱅크에서 이전에는 볼 수 없었던 얼굴을 식별 할 수 있습니다 (지문 데이터베이스와 유사). 큰 정확도로.

영리 한스의 이야기

그러나 신경망이이 기능을 제대로 수행하려면 일반적으로 수천 개의면 (예 : 행렬)을 표시해야합니다. 더욱이,이 기계들은 패턴 인식에서 점점 더 성공적 이었지만 사실은 그들이 과제를 배울 때 그 내부에서 무슨 일이 일어나는지 아무도 모른다는 것입니다. 기본적으로 블랙 박스입니다.

이것이 의미하는 바는 기계가 초기 데이터에서 실제로 추출하는 피처 또는 몇 개의 피처를 결정할 수 없으며, 그러한 피처 중 얼마나 많은 것이 얼굴 인식에 의미가 있는지를 결정할 수 없다는 것입니다.

CCU의 시스템 신경 과학 연구실에서 근무하는 연구 Mattia Bergomi의 첫 번째 저자는“이를 설명하기 위해 현명한 말의 패러다임을 고려하십시오. 이 이야기는 20 세기 초부터 독일의 클레버 한스 (Clever Hans)라는 말과 관련이 있습니다. 올바른 횟수. 많은 사람들이 그가 셀 수 있다고 확신했습니다. 말은 심지어 뉴욕 타임즈에 의해보고되었다 . 그러나 1907 년에 독일의 심리학자는 말이 실제로 태핑을 멈추어야 할 시점을 알려주는 무의식 신호를 주인의 신체 언어로 고르는 것으로 나타났습니다.

Bergomi는 "머신 러닝과 동일하다. 머신 러닝의 작동 방식이나 학습 과정에서 배운 것을 제어 할 수 없다"고 설명했다. 얼굴에 대한 사전 지식이없는 기계는 어떻게 든 작동하며 작동합니다.

이로 인해 연구원들은 가능한 모든 기능을 고려하지 않고 제한된 기능의 공간을 탐색하기 위해 훈련 전에 얼굴이나 다른 물체에 대한 실제 지식을 신경망에 주입 할 수있는 방법이 있는지 묻게되었습니다. 현실에서는 불가능한 것들을 포함 해서요 Bergomi는“우리는 학습 된 기능의 공간을 제어하고 싶었습니다. "이것은 평범한 체스 플레이어와 전문가의 차이점과 유사합니다. 첫 번째는 가능한 모든 움직임을 볼 수 있지만 후자는 좋은 움직임 만 볼 수 있습니다."

"우리의 연구는 다음과 같은 간단한 질문을 다룬다. 우리는 도로 표지판을 구별하기 위해 심층 신경망을 훈련시킬 때 어떻게하면 그 일이 훨씬 쉬워 질지 네트워크에 알릴 수 있을까?" 원이나 삼각형과 같은 단순한 기하학적 모양을 신경 써야합니까? "

과학자들은이 접근법이 훈련 시간을 크게 단축시킬 것이며, 중요한 것은 기계가 결과를 얻기 위해 무엇을하는지에 대한 힌트를 제공 할 것이라고 추론했습니다. "인간이 학습 기계의 학습 과정을 추진할 수있게하는 것은보다 이해하기 쉬운 인공 지능으로 나아가고 현재의 신경망이 훈련되기 위해 필요한 시간과 자원의 급격한 비용을 줄이는 데 필수적입니다"라고 그는 말합니다.

모양이 뭐야?

위상 데이터 분석 (TDA)이라는 추상 수학적 이론 이 핵심이었습니다. TDA 개발의 첫 단계는 1992 년 현재 볼로냐 대학 (University of Bologna)에있는 새로운 연구의 공동 저자 인 Patrizio Frosini에 의해 1992 년에 취해졌다. Bergomi는“토폴로지는 가장 순수한 형태의 수학 중 하나입니다. "최근까지 사람들은 TDA가 지난 몇 년간 잘 알려지기 전까지는 구체적으로 오랫동안 토폴로지에 적용 할 수 없다고 생각했습니다."

토폴로지는 삼각형, 사각형, 원뿔 등과 같이 단단한 모양의 선과 각도를 측정하는 대신 모양에 따라 매우 복잡한 개체를 분류하려고하는 확장 된 지오메트리입니다. 예를 들어, 위상 학자의 경우 도넛과 머그잔은 같은 물체입니다. 하나는 스트레칭이나 압축을 통해 다른 것으로 변형 될 수 있습니다.

현재 신경망은 토폴로지에 좋지 않습니다. 예를 들어 회전 된 객체를 인식하지 못합니다. 그들에게 같은 물체는 회전 할 때마다 완전히 다르게 보일 것입니다. 이것이 바로 이러한 네트워크가 각 구성을 개별적으로 "암기"하도록 만드는 유일한 솔루션 인 이유입니다. 그리고 그것은 저자들이 TDA를 사용하여 피하려고 계획했던 것입니다.

TDA는 거대한 숫자 집합으로 표현 될 수있는 복잡한 개체에서 의미있는 내부 구조 (토폴로지 특징)를 찾기위한 수학적 도구라고 생각하십시오. 이것은 잘 선택된 특정 "렌즈"또는 필터를 통해 데이터를 보면 달성됩니다. 데이터 자체는 얼굴, 금융 거래 또는 암 생존율에 관한 것일 수 있습니다. TDA는 공간에서 얼굴이 가정 할 수있는 각각의 다른 방향을 제시하지 않고도 신경 네트워크가 얼굴을 인식하도록 가르 칠 수있게합니다. 기계는 이제 다른 회전 위치에서도 모든면을면으로 인식합니다.

그들의 연구에서 과학자들은 손으로 쓴 숫자를 인식하도록 신경망을 교육함으로써 기계 학습과 TDA 결합의 이점을 테스트했습니다. 결과는 스스로를 말합니다.

이러한 네트워크는 나쁜 토폴로지 학자이며 필기는 매우 모호 할 수 있으므로 두 개의 서로 다른 손으로 쓴 숫자는 현재 기계와 구별 할 수없는 것으로 판명 될 수 있습니다. 이 작업에는 모든 종류의 경사, 서예 등으로 작성된 10 자리 각각의 수천 개의 이미지가있는 실제 세계의 숫자에 대해서는 아무것도 모르는 네트워크를 제시해야합니다.

팀은 자릿수에 대한 지식을 주입하기 위해 의미있는 것으로 간주되는 일련의 우선 기능 (즉, 네트워크에서 자릿수를 볼 수있는 "렌즈"집합)을 구축하고 기계가이 렌즈 중에서 선택하도록 강요했습니다. 이미지에서. TDA가 강화 된 신경망이 5와 7을 구별하는 법을 배우는 데 필요한 이미지의 수 (즉, 시간)는 예측력을 유지하면서 잘못 기록되었지만 50 개 미만으로 떨어졌습니다.

Bergomi는“우리 연구에서 수학적으로 설명하는 것은 특정 대칭을 적용하는 방법이며, 이는 제약으로 주입 된 지식을 활용하여 몇 가지 예에서 두드러진 특징을 배울 수있는 기계 학습 에이전트를 구축하는 전략을 제공합니다. .

이것은 미래에 뇌를 모방 한 학습 기계의 내부 작용이 더 투명 해져서 뇌 자체의 내부 작용에 대한 새로운 통찰을 가능하게 할 것입니까? 어쨌든 이것이 Bergomi의 목표 중 하나입니다. "인공 지능의 명료성은 생물학적 지능과의 상호 작용 및 통합을 위해 필요하다"고 그는 말했다. 그는 현재 신경 새로운 종류의 개발에, 그의 동료 피에트로 Vertechi와 협력하고있다 네트워크 인간이 신속하게 제어하고 훈련 속도를 높이기 위해이 네트워크에 높은 수준의 지식을 주입 할 수 있도록 아키텍처를.

Posted by 100명
|