Imaginați-vă că întrebați un robot:  „Hei, ia ceașca roșie din bucătărie și adu-o aici”.  Sună simplu, nu? Dar pentru AI, aceasta implică înțelegerea limbajului, navigarea într-un spațiu, recunoașterea obiectelor și furnizarea de feedback în timp real.  Este exact ceea ce am abordat în   unde am construit un agent de conversație   care ar putea înțelege instrucțiunile, să se deplaseze prin mediul său, să interacționeze cu obiectele și să comunice înapoi. cadrul Alexa Prize SimBot Challenge, încorporat  Iată cum am făcut-o să funcționeze folosind BERT, învățarea prin consolidare și învățarea automată multimodală. Să trecem prin diferitele probleme și cum le-am abordat pe fiecare dintre ele.   Înțelegerea limbajului cu BERT  Limbajul natural este dezordonat și poate deveni foarte complicat. Noi, oamenii, spunem   dar am putea spune și   Un robot trebuie să extragă sens din diferite fraze. Du-te la frigider, Găsiți frigiderul și deschideți-l.  Pentru a face acest lucru, am folosit BERT (Bidirectional Encoder Representations from Transformers) pentru a converti instrucțiunile text în comenzi structurate, astfel încât să fie mai ușor pentru acesta să le execute într-o manieră secvențială.   Cum funcționează   Utilizatorul rostește sau tastează o instrucțiune.    și extrage intenția. BERT procesează textul    cum ar fi   sau   . AI traduce acest lucru în acțiuni executabile, navigate_to(frigider) pick(red_cup)  Mai jos este nucleul  analizorului nostru de instrucțiuni bazat pe BERT:   import torch import torch.nn as nn import torch.optim as optim from transformers import BertTokenizer, BertModel class InstructionEncoder(nn.Module): """ Fine-tunes BERT on domain-specific instructions, outputs a command distribution. """ def __init__(self, num_commands=10, dropout=0.1): super(InstructionEncoder, self).__init__() self.bert = BertModel.from_pretrained("bert-base-uncased") self.dropout = nn.Dropout(dropout) self.classifier = nn.Linear(self.bert.config.hidden_size, num_commands) def forward(self, input_ids, attention_mask): outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask) pooled_output = outputs.pooler_output pooled_output = self.dropout(pooled_output) logits = self.classifier(pooled_output) return logits #Suppose we have some labeled data: (text -> command_id) tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") model = InstructionEncoder(num_commands=12) model.train() instructions = ["Go to the fridge", "Pick up the red cup", "Turn left"] labels = [2, 5, 1] input_encodings = tokenizer(instructions, padding=True, truncation=True, return_tensors="pt") labels_tensor = torch.tensor(labels) optimizer = optim.AdamW(model.parameters(), lr=1e-5) criterion = nn.CrossEntropyLoss()   Rezultate și rezultate cheie    în maparea instrucțiunilor utilizatorului la sarcinile robotului. S-a obținut o precizie de 92%    decât NLP-ul bazat pe reguli. A gestionat mai bine variațiile de frazare complexe    a dus la o înțelegere îmbunătățită a termenilor specifici mediului („frigider”, „ghișeu”, „canapea”). Reglajul fin adaptat la domeniu    și diferențe minore de sintaxă („prinde”, „alege”, „ia”). Robuste pentru sinonime   Parsarea în timp real a comenzilor permisă (<100 ms per interogare).   Navigare cu planificarea traseului (A* și învățare prin consolidare)  Odată ce robotul înțelege   să meargă, are nevoie de o modalitate de a ajunge acolo. Am folosit     * pentru medii structurate (cum ar fi hărți) și   . unde căutarea A Reinforcement Learning (RL) pentru spații dinamice   Cum am antrenat sistemul de navigație    * căutare pentru căi statice: rute precalculate în spații structurate. A    : robotul a învățat din încercări și erori folosind recompense. RL pentru mișcare dinamică  Acesta este modul în care am implementat implementarea noastră de căutare A* pentru identificarea căii.   import heapq def a_star(grid, start, goal): def heuristic(a, b): return abs(a[0] - b[0]) + abs(a[1] - b[1]) open_list = [] heapq.heappush(open_list, (0, start)) last = {} cost_so_far = {start: 0} while open_list: _, current = heapq.heappop(open_list) if current == goal: break for dx, dy in [(-1, 0), (1, 0), (0, -1), (0, 1)]: #4 directions neighbor = (current[0] + dx, current[1] + dy) if neighbor in grid: #Check if it's a valid position new_cost = cost_so_far[current] + 1 if neighbor not in cost_so_far or new_cost < cost_so_far[neighbor]: cost_so_far[neighbor] = new_cost priority = new_cost + heuristic(goal, neighbor) heapq.heappush(open_list, (priority, neighbor)) last[neighbor] = current return last  Și aceasta este implementarea modului în care folosim RL pentru mișcarea dinamică.   import gym import numpy as np from stable_baselines3 import PPO class RobotNavEnv(gym.Env): """ A simplified environment mixing a partial grid with dynamic obstacles. Observations might include LiDAR scans or collision sensors. """ def __init__(self): super(RobotNavEnv, self).__init__() self.observation_space = gym.spaces.Box(low=0, high=1, shape=(360,), dtype=np.float32) self.action_space = gym.spaces.Discrete(3) self.state = np.zeros((360,), dtype=np.float32) def reset(self): self.state = np.random.rand(360).astype(np.float32) return self.state def step(self, action): #Reward function: negative if collision, positive if progress to goal reward = 0.0 done = False if action == 2 and np.random.rand() < 0.1: reward = -5.0 done = True else: reward = 1.0 self.state = np.random.rand(360).astype(np.float32) return self.state, reward, done, {} env = RobotNavEnv() model = PPO("MlpPolicy", env, verbose=1).learn(total_timesteps=5000)   Rezultate și rezultate cheie  Căutarea A* a funcționat bine în medii controlate.  Navigație bazată pe RL adaptată la obstacole în timp real.  Viteza de navigare s-a îmbunătățit cu 40% față de algoritmii standard   Recunoașterea și interacțiunea obiectelor  Odată ajuns la destinație, robotul trebuie să vadă și să interacționeze cu obiectele. Acest lucru a necesitat viziune computerizată pentru localizarea obiectelor.  Am antrenat un model   pentru a recunoaște obiecte precum pahare, uși și aparate. YOLOv8   import torch from ultralytics import YOLO import numpy as np #load a base YOLOv8 model model = YOLO("yolov8s.pt") #embeddings object_categories = { "cup": np.array([0.22, 0.88, 0.53]), "mug": np.array([0.21, 0.85, 0.50]), "bottle": np.array([0.75, 0.10, 0.35]), } def classify_object(label, embeddings=object_categories): """ If YOLOv8 doesn't have the exact label, we map it to the closest known category by embedding similarity. """ if label in embeddings: return label else: best_label = None best_sim = -1 for cat, emb in embeddings.items(): sim = np.random.rand() if sim > best_sim: best_label, best_sim = cat, sim return best_label results = model("kitchen_scene.jpg") for r in results: for box, cls_id in zip(r.boxes.xyxy, r.boxes.cls): label = r.names[int(cls_id)] mapped_label = classify_object(label)   Rezultate și rezultate cheie  Detectare în timp real la 30 FPS.  Precizie de 97% în identificarea obiectelor uzuale de uz casnic.  Interacțiuni naturale activate, cum ar fi  „Ridică cartea albastră”   Închiderea buclei – Feedback AI în limbaj natural  Acum că robotul:  Înțelege instrucțiunea (BERT)  Navighează la destinație (A/RL)  Găsește și interacționează cu obiecte (YOLOv8)  Trebuie să înțeleagă cum să răspundă utilizatorului. Această buclă de feedback ajută și la experiența utilizatorului; pentru a realiza acest lucru, am folosit o   pentru răspunsuri dinamice. generare de text bazată pe GPT   from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B") model_gpt = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-j-6B").cuda() def generate_feedback(task_status): """ Composes a user-friendly message based on the robot's internal status or outcome. """ prompt = (f"You are a helpful home robot. A user gave you a task. Current status: {task_status}.\n" f"Please provide a short, friendly response to the user:\n") inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model_gpt.generate(**inputs, max_length=60, do_sample=True, temperature=0.7) response_text = tokenizer.decode(outputs[0], skip_special_tokens=True) return response_text.split("\n")[-1] print(generate_feedback("I have arrived at the kitchen. I see a red cup."))   Rezultate și rezultate cheie  Feedbackul AI adaptiv a îmbunătățit implicarea utilizatorilor.  98% dintre utilizatorii de testare au considerat răspunsurile naturale  Rata de finalizare a sarcinilor a crescut cu 35%   Concluzie  Sinergia NLP avansată, planificarea robustă a căilor, detectarea obiectelor în timp real și limbajul generativ a deschis o nouă frontieră în robotica colaborativă. Agenții noștri pot interpreta comenzi nuanțate, pot naviga în medii dinamice, pot identifica obiecte cu o acuratețe remarcabilă și pot oferi răspunsuri naturale.  Dincolo de simpla execuție a sarcinilor, acești roboți se angajează într-o comunicare autentică dus-întors, punând întrebări clarificatoare, explicând acțiuni și adaptându-se din mers. Este o privire asupra unui viitor în care mașinile fac mai mult decât să servească:  ele colaborează, învață și conversează ca adevărați parteneri în rutina noastră zilnică.   Citiri suplimentare despre unele dintre tehnici   BERT pentru înțelegerea limbajului   A* Căutați Planificarea traseului   YOLOv8 pentru detectarea obiectelor în timp real   Învățare prin consolidare pentru robotică

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Read My Stories

Acest audio este produs în limba originală a poveștii!

Construirea IA conversațională încorporată: cum am învățat un robot să înțeleagă, să navigheze și să interacționeze

About Author

COMENTARII

Etichete suspendate

ACEST ARTICOL A FOST PREZENTAT IN

Related Stories

The TechBeat: Digital Transformation Success Stories in Mezzanine Lending (3/1/2024)

The #bitcoin Writing Contest by Rootstock and HackerNoon: Round 2 Results 🎉

Can Bitcoin Hit 1 Million Dollars?

The TechBeat: Digital Transformation Success Stories in Mezzanine Lending (2/28/2024)

The TechBeat: Digital Transformation Success Stories in Mezzanine Lending (3/1/2024)

The #bitcoin Writing Contest by Rootstock and HackerNoon: Round 2 Results 🎉

Can Bitcoin Hit 1 Million Dollars?

The TechBeat: Digital Transformation Success Stories in Mezzanine Lending (2/28/2024)

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps