I spent a few weeks building a Neuro-Symbolic Manufacturing Engine. I proved that AI can design drones that obey physics. I also proved that asking AI to pivot that code to robotics is a one-way ticket to a circular drain. 지난 몇 주 동안, 나는 내 여행 건물을 문서화하고있다. AI 시스템은 불확실한 사용자 의도를 비행 증명 하드웨어로 번역 할 수 있습니다. OpenForge 목표는 구글의 논리 능력을 테스트하는 것이었다. 나는 구체적인 질문에 대답하고 싶었다 : LLM은 파이썬 스크립트를 작성하고 실제로 관대도, 전압 및 호환성이 중요한 물리적 시스템을 엔지니어링 할 수 있습니까? Gemini 3.0 답은, 그것은 복잡한 "예, 하지만..." 나는 오늘이 프로젝트를 포장하고 있습니다.여기에 무엇이 작동했는지, 무엇이 실패했는지, 그리고 중요한 차이점이 있습니다. 코드 및 시스템을 Generating Refactoring The Win: Drone_4 Works에 대한 리뷰 보기 첫째, 좋은 소식입니다.박물관의 drone_4 지점은 성공적입니다. 레포를 복제하고 "장거리 영화 드론"을 요청하면 시스템은 씨앗에서 시뮬레이션에 이르기까지 작동합니다. 그것은 의도를 이해합니다 : 그것은 "Cinema"는 부드러운 비행을 의미하고 "Long Range"는 GPS 및 Crossfire 프로토콜을 의미한다는 것을 알고 있습니다. 그것은 물리학에 순종합니다 : 호환성 엔진은 과열 또는 폭발 할 수있는 모터 / 배터리 조합을 성공적으로 거부합니다. 그것은 현실을 시뮬레이션합니다 : NVIDIA Isaac Sim에 대해 생성 된 USD 파일은 실제로 날아갑니다. 나는 실용적이어야한다고 인정합니다. make_fleet.py에서 나는 약간의 "기만"을했다. 나는 역동적으로 함대 논리를 발명하기 위해 LLM에 의존하지 않았고 단단한 코드 파이썬 조작에 더 많은 것을 필요로했습니다.나는 이것이 쌍둥이 3.0의 추론의 테스트였다는 것을 상기시켜야했습니다.이 코드의 단일 줄을 작성하는 것을 피할 수 있는지 확인하기위한 경쟁이 아닙니다. 개념의 증거로서 LLM이 창조적 인 번역을 다루고 파이썬이 물리학의 법칙을 다루는 곳에서 OpenForge는 승리합니다. Neuro-Symbolic AI 원제 : The Failure: The Quadruped Pivot 도전의 두 번째 절반은이 작동 엔진을 가져 와서 그것을 돌리고 싶었습니다 드론 디자이너를 로봇 개 디자이너 (Ranch Dog)로 바꾸고 싶었습니다. 나는 쌍둥이 3.0 전체 코드베이스 (88k 토큰)를 먹이고 그것을 refactor에 요청했다. I am officially shelving the Quadruped branch. 내가이 회전을 시작한 방법이 나를 문제 해결의 원형 배출 토끼 구멍으로 이끌었다는 것이 분명해졌습니다.나는 회전 회전 계산을 고정하면 재고 소싱을 끊을 것이고 소싱을 고정하면 시뮬레이션을 끊을 것입니다. 만약 내가 랜치 개를 만들고 싶다면, 나는 뒤로 걸어가서 드론 엔진을 단순히 참조 모델로 사용하여, 글을 쓰기위한 기초가 아닙니다. The Lesson: The Flattening Effect에 대한 리뷰 보기 왜 드론 엔진이 성공했지만 Quadruped refactor가 실패했습니까? 그것은 내가 쌍둥이 3.0에서 관찰 한 특정 행동 (그리고 다른 높은 컨텍스트 모델)으로 간주됩니다. 당신이 지상에서부터 건설 할 때, 당신과 AI는 단계별로 아키텍처를 구축합니다.당신은 기초를 놓고, 그 다음에는 프레임링, 그 다음에는 지붕을 놓습니다. 그러나 당신이 LLM을 요청할 때 기존 응용 프로그램, 그것은 코드의 역사를 볼 수 없습니다. 그것은 전투 흉터를 볼 수 없습니다. pivot 원래 드론 코드는 분리 된 선형 단계로 분리되었습니다. 이전의 실패로 인한 특정 오류 처리 게이트와 대기 상태가 있었다. 쌍둥이 3.0, 효율성을 높이기 위해, 그것은 단일, 단일 프로세스로 구별 된 논리적 단계를 집합했습니다. 표면에서 코드는 더 깨끗하고 더 피톤적 인 것처럼 보였습니다.하지만 현실에서는 응용 프로그램을 안정적으로 유지하는 구조적 부하를 지닌 벽을 제거했습니다. flattened the architecture 코드는 스타일 가이드가 아니라 구조적 필요성이라고 가정했다. 능력의 논란 : 쌍둥이 2.5 vs. 3.0 이 프로젝트는 직관적 인 현실을 강조했습니다 : Gemini 2.5 was safer because the code it confidently spit out was truncated pseudo-code. 이전 버전에서, 출력은 당신이 건설에 대해 어떻게 갈 수 있는지 보여주기 위해 구조화되었습니다.당신은 프로그램 내부의 뇌를 구축하기위한 계획을 구축해야합니다.때로는, 그것은 전체 파일을 쓸 수 있습니다.때로는,당신은 기능에 따라 이동해야했습니다. 쌍둥이 2.5는 나를 건축가로 강요했습니다.나는 프로그램에 따라 나가고, 내가 원하는 것을 정확하게 매핑해야했습니다. 쌍둥이 3.0은 한 번에 모든 것을 할 수있는 속도와 이유를 가지고 있습니다. Gemini 3.0은 즉시 작동할 수 있는 코드를 생성하지만 내부는 구조적으로 썩어 있습니다. 최종 판결 당신이 생성 제조 엔진, 또는 LLM과 복잡한 시스템을 구축하고자하는 경우에, 여기에 OpenForge 실험에서 나의 최종 촬영: 그린필드 쉬운, 브라운필드 쉬운 : LLMs는 처음부터 건설에서 우수합니다.그들은 거대한 인간의 손을 잡지 않고 복잡하고 기존의 건축물을 개조하는 데 끔찍합니다. Prompts를 사용하여 Refactor하지 마십시오 : 앱의 목적을 변경하려는 경우 AI가 X를 위해 이것을 다시 작성하도록 요청하지 마십시오. 아키텍처는 여전히 왕입니다 : 당신은 LLM에 의해 변형 될 수있는 유동 문서로 코드베이스를 볼 수 없습니다. OpenForge는 우리가 불확실한 사용자 의도와 물리적 엔지니어링 사이의 격차를 제거 할 수 있다는 것을 입증했습니다.We just can't take the human out of the architecture chair yet. 즉, 쌍둥이 3.0은 2.5에서 거대한 점프입니다.이곳에서 탐구하고있는 부분은 완전히 새로운 도구에서 최선을 다하는 방법입니다.