Raha miasa ao amin'ny orinasa izay mampiasa angon-drakitra an-tserasera ianao, dia azonao antoka fa izy io ihany no lafiny voalohany amin'ny vokatra sarotra kokoa. Raha ny marina, ny angon-drakitra voasoratra an-tserasera dia voatahiry ao amin'ny rakitra na databases (cloud storage buckets, data lakes, na data warehouses) ary avy eo dia novolavolaina amin'ny fampiasana ny Business Intelligence (BI) fitaovana, na ara-barotra na ara-barotra. Ohatra, ny ekipa dia afaka manapaka ny vidin'ny vokatra na ny valin'ny mpanjifa avy amin'ny tranonkala, mamonjy ny angon-drakitra voajanahary amin'ny CSV / JSON rakitra, mametraka azy ireo Amin'izao fotoana izao, ny Big Language Models (LLMs) dia manova ity paradigma ity. Fa tsy miankina amin'ny tabilao statika na fanontaniana SQL, ny fikambanana dia afaka mampiasa mpiara-miasa amin'ny AI mba hahazoana fahalalana avy amin'ny angon-drakitra voasoratra amin'ny alalan'ny fiteny voajanahary. Amin'ny teny hafa, fa tsy ny fanoratana fanontaniana na fanazavana tabilao amin'ny olombelona, ny mpiara-miasa AI dia afaka mamaly mivantana ny fanontaniana momba ny angon-drakitra. Mieritreritra ny manana ny fifandraisana mitovy amin'ny ChatGPT ianao ary manoratra fanontaniana vitsivitsy mba hahazoana fahalalana, mandositra ny famoronana tabilao. Efa hitako Tsapako ny fanontaniana, raha tsy mahita ny tabilao tsara na ny tatitra Excel ianao mba hahazoana ny valiny. Ity fomba ity dia manantena fidirana haingana kokoa, mahatsikaiky kokoa amin'ny fampahalalana ho an'ny mpampiasa tsy ara-teknika tsy misy ny fanapahan-kevitry ny famolavolana grafika na manoratra code. Ao amin'ny orinasa teo aloha izay niara-niasa aho, efa hitako matetika ny fitomboan'ny tabilao samihafa isaky ny vondrona mpampiasa (raha tsy isaky ny mpampiasa), indraindray manangona isa samihafa. Iza amin'ireo mpifaninana no nahazo ny vidiny avo indrindra tamin'ny volana lasa? Mazava ho azy fa misy fanamby vaovao miteraka: ahoana ny momba ny fanahy? Raha tsy mahita ny isa fototra amin'ny valiny isika, azontsika azo antoka 100% fa marina ny valiny? Ao amin'ity lahatsoratra ity (ary ao amin'ny manaraka ao amin'ny Lab sarimihetsika), dia hanorina tetikasa end-to-end izay hanomboka amin'ny fanapahana ny lahatsoratra ao amin'ity gazetiboky ity, mametraka azy ireo ao amin'ny tahirin-kevitra mety amin'ny fampiasana AI, mahazo izany fahalalana izany, ary avy eo manambara fampiharana tranonkala izay afaka mampiasa dikan'ny GPT. Ny fanatsarana ny fahalalana LLM Ny fampidirana ny angon-drakitra manokana (ohatra ny angon-drakitra voafafa) ao amin'ny LLM dia azo atao amin'ny fomba roa: amin'ny alalan'ny Ny modely na ny fampiasana , ary ny tsirairay amin'ireny fomba ireny dia manana tombony sy tsinontsinona. Andeha hojerentsika hoe ahoana ny fahasamihafana ary inona ny fomba mety ho tsara indrindra ho an'ny toe-javatra fampiasana. fine-tuning Retrieval-Augmented Generation (RAG) Fine-Tuning vs. Retrieval-Augmented Generation amin'ny alalan'ny famerenana midika ny fampiofanana ny LLM fototra amin'ny angon-drakitra fanampiny mba handray ny fahalalana vaovao. Amin'ny ankapobeny, ianao dia mandray modely efa nianatra ary hanohy ny fampiofanana azy amin'ny angon-drakitra manokana ao amin'ny sehatry ny sehatra, manova ny lanjany mba hampifangaro izany fahalalana izany. Ohatra, raha nanapaka fanangonana lahatsoratra ara-teknika ianao, dia azonao atao ny mamolavola ny LLM amin'ireo lahatsoratra ireo. Ny fanamafisana dia matetika atao amin'ny alàlan'ny fanomezana ny modely miaraka amin'ny vondrona lehibe amin'ny fanontaniana sy valiny na lahatsoratra avy amin'ny angon-drakitrao mba hahafantatra ny hamaly amin'izany fampahalalana izany rehefa ilaina. – ny fahalalana dia lasa ampahany amin'ny parametra. Amin'ny manaraka ianao manontany ny modely, dia afaka mampiasa ity fampahalalana ity tsy mila fanampiana ivelany. Fine-tuning intrinsically knows augmented from the inside mitaky fomba hafa: ny modely dia mitoetra tsy miova, fa manome azy ny fidirana amin'ny tahirin-kevitra ivelany (matetika amin'ny alàlan'ny fikarohana vektor). avy amin'ny angon-drakitrao ary mampiditra azy ireo ao amin'ny modely miaraka amin'ny fanontaniana. Ny LLM dia mamorona ny valiny amin'ny fampiasana ity fifandraisana fanampiny ity. Ho an'ny boomers toy ny ahy, mieritreritra izany toy ny fametrahana CD ao amin'ny lohan'ny Neo ao amin'ny Matrix mba hianatra fahaiza-manao vaovao sy mandeha. Amin'ny tranga antsika, ny fototry ny fahalalana dia mety ho fanangonana lahatsoratra voasoratra an-tserasera voatahiry ao amin'ny tahirin-kevitra manokana. Ny RAG dia tahaka ny fanadinana boky misokatra ho an'ny LLM - amin'ny fotoana fanontaniana dia mijery ny " pejy" manan-danja amin'ny angona ary mampiasa Retrieval-Augmented Generation (RAG) retrieve relevant documents Araka ny azonao eritreretinao, ny fahasamihafana lehibe iray dia ny toerana misy ny fahalalana fanampiny: amin'ny fanitsiana tsara, ny fahalalana dia tafiditra ao. (Ny habetsahan'ny modely dia manatsara). Amin'ny RAG, ny fahalalana dia mitoetra Fine-tuning dia mitovy amin'ny fampianarana ny modely vaovao zava-misy mandrakizay, raha ny RAG dia toy ny manome ny modely amin'ny library dynamic izay afaka mifandray amin'ny fly. in the model itself external Ireo fomba roa ireo dia manana tombony sy tsinontsinona samihafa: Fine-Tuning: Once fine-tuned, the model can respond faster and more integratedly to new knowledge. It doesn't need lengthy prompts with documents each time. A well-fine-tuned model typically outperforms the base model on domain-specific questions because it has a deeper understanding of that niche terminology and content. Pros: Fine-tuning can be resource-intensive and time-consuming – you need sufficient training data and computing power (or budget if using a service). It also makes the model static concerning that training snapshot. If your scraped data changes or new information comes in, you’d have to fine-tune again to update the model. There’s also a risk of the model or overriding some of its original knowledge if not carefully managed. Importantly, fine-tuning means your data becomes part of the model’s parameters, which could be a privacy concern if the model weights are exposed or if using a third-party service to fine-tune (your data is uploaded for training). Last but not least, once the knowledge is embedded in the model, you cannot cite any article used to improve it. Cons: forgetting Retrieval-Augmented Generation (RAG): No need to modify the LLM itself – you leave the base model as-is and simply provide relevant context at query time. This makes updating or expanding the knowledge base easy: add or remove documents in your external index, and the model will use the latest data. It’s very flexible and (which can be more secure). RAG can reduce hallucinations by grounding answers in real sources – essentially, the model has the “receipts” to back up its answer. It also typically requires less upfront work than full fine-tuning; most effort goes into setting up the retrieval system. Pros: keeps your proprietary data external RAG introduces more moving parts – you need a system for embedding and indexing documents and retrieving them at runtime. At query time, you pay the cost in latency and token length for feeding documents into the model’s prompt. If the retrieved documents aren’t relevant (due to a bad query or vector mismatch), the answer will suffer. The LLM is also limited by its input size; if the documents plus question exceeds the model’s context window, you might have to truncate or select fewer documents. Additionally, the raw text of documents might influence the model's style, which could lead to less coherent or conversational answers unless you prompt it to refine the wording. Cons: Amin'ny ankapobeny, ny fanamafisana tsara dia manampy amin'ny fahatakarana mifantoka, raha ny RAG dia mamela ny fidirana amin'ny fahalalana amin'ny fotoana tena izy. Ho an'ny tranga fampiasana antsika amin'ny fampidirana ny angon-drakitra voamarina hatrany, ny RAG dia toa fomba tsara kokoa: azonao atao ny mandritra ny fotoana maharitra ny angon-drakitra vaovao ary ny mpanampy anao dia mampiasa azy avy hatrany fa tsy mandritra ny fotoana mahazatra ny modely manontolo. Alohan'ny hivoaka, dia mendrika ny manamarika fa ny fanaraha-maso tsara sy ny RAG dia tsy miankina amin'ny tsirairay; Azonao atao ny manatsara ny hafa. Ohatra, azonao atao ny manatsara ny modely mba hanova ny feo na ny fahafahana manaraka ny torolàlana (na hanampy ny fahalalana izay kely sy statika), ary mbola mampiasa ny RAG mba hanome azy fidirana amin'ny tahirin-kevitra lehibe kokoa izay manatsara matetika. Na izany aza, amin'ny fampiharana, ny RAG irery dia matetika manome lalana tsotra sy azo ampiharina kokoa mba ahafahan'ny mpiara-miasa amin'ny AI handray ny fahalalana, izay lalana izay hifantoka amin'ny fampiharana antsika. Amin'ny fampiasana modely an-toerana vs. API ivelany Ny fiheverana hafa dia ho an'ny mpiara-miasa amin'ny AI: modely an-toerana (open-source) izay mihazakazaka ianao na modely hosted amin'ny alalan'ny API (ohatra ny OpenAI GPT-3.5 / GPT-4 na ny hafa). Ny fanamafisana tsara sy ny RAG dia azo atao amin'ny na, fa misy fifanarahana: what LLM to use – Modely toy ny LLaMA 2, Mistral, na Falcon dia afaka mihazakazaka amin'ny mpizara manokana. Ny angon-drakitra napetraky anao dia tsy mandao ny tontolo iainanao, izay zava-dehibe raha misy fampahalalana miavaka. Azonao atao ny manova ny angon-drakitrao amin'ny angon-drakitrao na manova ny fomba miasa azy ireo. Amin'ny fomba ara-barotra, ny fandefasana modely an-toerana dia mety ho mora kokoa amin'ny habetsaky ny fanontaniana lehibe (tsy misy saram-pandraharahana API), fa tsy maintsy mandoa fitaovana na rafitra cloud ianao mba hanompo azy. Ny tsy fahampiana dia ny hoe maro ireo modely misokatra dia tsy afaka mifanaraka amin'ny fampisehoana amin'ny GPT farany. Mety mila mampiasa modely lehibe kokoa na matihanina kokoa ianao mba hahazoana fampisehoana mitovy, izay mety ho sar manana dataset manokana amin'ny sehatry ny sehatra sy ny fahaiza-manao, ny modely ao an-toerana dia azo ampiharina tsara mba hanana fahombiazana amin'izany sehatra izany, izay mahatonga azy io ho vahaolana mahery vaika ho an'ny "GPT manokana". Local Open-Source LLMs control and privacy Ny – Ny fampiasana API toy ny GPT-4 amin'ny OpenAI dia midika fa tsy mila manahy momba ny fandefasana ny modely ianao; ianao ihany no mandefa ny fangatahanao amin'ny serivisy ary mahazo ny fanatanterahana. Izany dia tena mahomby ary matetika manome anao ny fidirana amin'ny kalitaon'ny modely avo lenta amin'ny tsy misy olana ara-barotra. Ho an'ny toe-javatra, azonao atao ny mampiasa RAG amin'ny alàlan'ny fametrahana ny antontan-taratasy hita ao amin'ny fangatahanao ary mangataka ny API hamaly. Ny tsy fahasamihafana eto dia mifandray amin'ny fametrahana sy ny tsiambaratelo. Ianao koa dia voafehin'ny fitsipika ny mpamatsy (ohatra, mety manana filtra votoaty izay afaka manakana ny fanontaniana sasany mifandraika amin'ny fanodinana). Amin'ny fomba fiarovana ny fiainana manokana, ianao dia mandefa ny angon-drakitrao (fanontaniana sy ny fifandraisana) amin'ny antoko fahatelo, noho izany dia tsy manoro hevitra ity fomba ity ho an'ny angon-drakitra miavaka na ny zon'ny mpamorona. External API LLMs (e.g. OpenAI’s) Ny OpenAI, ohatra, dia mamela anao hanao izany amin'ny GPT4-o sy GPT4-mini Ny OpenAI, ohatra, dia mamela anao hanao izany amin'ny GPT4-o sy GPT4-mini Amin'ny ankapobeny, raha misy fiantraikany goavana amin'ny angon-drakitra ianao na mitaky fanaraha-maso tanteraka, dia ilaina ny LLM ao an-toerana na dia eo aza ny ezaka fanampiny. Raha ny lanjanao dia ny fahaiza-manaon'ny fiteny tsara indrindra sy ny fametrahana haingana, ny modely hosted toy ny OpenAI dia mety ho safidy tsara kokoa. Ao amin'ny fametrahana ity lahatsoratra ity dia hampiseho ny fampiasana ny GPT API amin'ny OpenAI noho ny tsotra sy ny kalitao, fa ny rafitra famerenana dia afaka miditra amin'ny modely loharanom-baovao toy ny Llama2 amin'ny alàlan'ny HuggingFace na LangChain library. Miaraka amin'ireo fanapahan-kevitra ireo, aoka isika hampifandray ireo lahatsoratra voafafa ao amin'ny mpanampy AI. Hampiasa ny fomba fiasa RAG miaraka amin'ny modely OpenAI isika, izay mifanaraka tsara amin'ny angon-drakitra an-tserasera tsy tapaka ary manakana ny ilaina amin'ny asa fanamafisana sarobidy. Ny famerenana ny TWSC amin'ny Firecrawl ny tranonkala scraping milina hita ho toy ny REST API sy SDK. Izy io dia natao manokana mba hanova tranonkala amin'ny (ao amin'ny endrika toy ny taratasy madio na marika), manara-maso ny fampitomboana lehibe rehetra, toy ny rohy crawling, JavaScript rendering, sns. Ny tombontsoa lehibe amin'ny Firecrawl dia ny hoe amin'ny antso API iray, azonao atao ny manapaka tranonkala manontolo. Ny fiarovana LLM-ready data Ny fiarovana Ny fiarovana Ho an'ny bilaogy The Web Scraping Club, dia hampiasa ny sitemap izahay mba hahita ny URL lahatsoratra rehetra. (Ny bilaogy dia voatahiry ao amin'ny Substack, izay manome sitemap XML izay mamaritra ny lahatsoratra rehetra.) Voalohany indrindra, dia nametraka ny Firecrawl amin'ny fametrahana ny Python SDK sy ny fanamarinana amin'ny API key (amin'ny alàlan'ny fanamafisana ianao ary nahazo ny fanamafisana): from firecrawl import FirecrawlApp import os os.environ["FIRECRAWL_API_KEY"] = "YOURKEY" # or load from .env app = FirecrawlApp() # Define the sitemap URL (we can loop this for multiple years if needed) map_result = app.map_url('https://substack.thewebscraping.club/sitemap.xml', params={ 'includeSubdomains': True }) print(map_result) for article in map_result['links']: if '/p/' in article: print(article) response = app.scrape_url(url=article, params={'formats': [ 'markdown' ]}) Amin'ny fehezan-dalana vitsivitsy fotsiny, ny lahatsoratra dia efa ao amin'ny format Markdown. Mifidiana amin'ny Database Vector ho an'ny RAG Ny dia singa manan-danja amin'ny fametrahana RAG. Mitahiry ny fametrahana ny antontan-taratasy (vektor representations) izy io ary mamela ny fikarohana haingana amin'ny fahasamihafana mba hahazoana antontan-taratasy manan-danja ho an'ny fametrahana fanontaniana. Misy safidy maromaro azo jerena, anisan'izany ny lisitry ny loharanom-baovao misokatra sy ny tolotra amin'ny raharaham-barotra, fa ho an'ny fametrahana antsika dia hampiasa . vector database Pinecone Ny a Natsangana ho an'ny fikarohana haingana sy azo ampiharina. Tsy toy ny tahirin-tsary misokatra izay mitaky ny fampiantranoana ny tenany, ny Pinecone dia vahaolana avy amin'ny rahona, izay midika fa tsy mila manahy momba ny fitantanana ny infrastructure isika. Ny Pino fully managed vector database Ny Pino Ny fametrahana ny Pinecone Ny dingana voalohany dia, mazava ho azy, hanoratra anarana amin'ny Pinecone ary mahazo ny API_KEY sy ny tontolo iainana avy amin'ny tabilao. Avy eo, afaka mametraka ny Python SDK toy ny mahazatra pip install pinecone Farany, dia afaka mifandray amin'ny Pinecone isika amin'ny script from pinecone import Pinecone, ServerlessSpec pc = pinecone.Pinecone( api_key="YOUR API KEY" ) Ny lanjan'ny tontolo iainana dia avy amin'ny Pinecone web console rehefa mamorona ny API key. Ny famolavolana ny Pinecone Index Indices dia toerana izay ny angon-drakitra dia voatahiry ho an'ny retrivial avy amin'ny LLM. Fa tsy ao amin'ny lahatsoratra tsotra, dia ao amin'ny endrika vektor (amin'ny ankapobeny ny andian-teny), izay mamela ny LLM hahatakatra izay entana ao amin'ny indices dia mety ho valiny tsara ho an'ny fanontaniana ny LLM. Ny a Toy ny , ankoatra ny angon-drakitra vetra, dia manana metadata koa isika: metadata dia Ao anaty fitafiana vita amin'ny lamba. vector database Pinecone, , or Ny ChromaDB Ny vovoka extra information Ny ChromaDB Ny ChromaDB Ny vovoka Ny vovoka Rehefa Ny fampisehoana ampiasaina amin'ny fikarohana ny fahasamihafana, manome fampahalalana voajanahary momba izay ahitana ny vektor. Izany dia mamela Raha ao amin'ny angon-drakitra vektory isika dia hampidirina ny famantarana ny lahatsoratra, ao amin'ny metadata dia hampiasa ny fampahalalana sasany tiantsika ny LLM mba hizara amintsika, toy ny mpanoratra ny bilaogy ampiasain'ny valiny, ny lohateny ary ny rohy amin'ny lahatsoratra. vectors numerical embeddings metadata filtering, categorization, and interpretability index_name = "article-index" if not pc.has_index(index_name): index_model = pc.create_index_for_model( name=index_name, cloud="aws", region="us-east-1", embed={ "model":"llama-text-embed-v2", "field_map":{"text": "chunk_text"} } ) #pc.describe_index(index_name) #to get the host index=pc.Index(host='YOURINDEXENDPOINT') ..... article_data = [ {"id": f"article-{i}", "text": page["markdown"], "url": page["metadata"]["url"], "title": page["metadata"]["title"], "author": page["metadata"]["author"][0]} for i, page in enumerate(scrape_results['data']) ] #print(article_data) # Generate embeddings using LLaMA v2 for article in article_data: # Estrai il testo dell'articolo text = article["text"] #print(text) # Single article insert to avoid failures embedding = pc.inference.embed( model="llama-text-embed-v2", inputs=[text], parameters={"input_type": "passage"} ) # Prepare data for Pinecone upsert vector_data = { "id": article["id"], # Unique article ID "values": embedding[0]["values"], # Embedding vector "metadata": { "url": article["url"], # Store article URL "content": text[:300], # Store first 500 chars as a preview/snippet "title": article["title"][:100], "author": article["author"][:50] } } #print(vector_data) # Upsert the single article into Pinecone index.upsert(vectors=[vector_data], namespace="articles") print(f"✅ Upserted: {article['id']} ({article['title']})") # Optional: Add a short delay to prevent API rate limits (adjust as needed) time.sleep(1) Araka ny hitanao avy amin'ny code, dia manova ny lahatsoratra tsirairay navoakan'ny teo aloha izahay ary manampy azy amin'ny indices novolavolaina antsoina hoe . article-index Raha tianao ny hilalao bebe kokoa amin'ny Pinecone misy an extensive documentation on their website. Manana antontan-taratasy goavana ao amin'ny tranonkala. Fa ankehitriny dia nametraka ny lahatsoratra rehetra ao amin'ny indices aho, azontsika atao ve ny mahazo ny fampahalalana ilaintsika? Efa namorona script fototra antsoina hoe query.py aho mba hanandrana ny valin'ny fikarohana ao amin'ny indeksy. Rehefa nangataka hoe "Ahoana ianao, azafady, ny lisitry ny lahatsoratra momba ny fandehan'i Kasada?" ny fanontaniana dia miverina ireo lahatsoratra manaraka ireto: {'matches': [{'id': 'article-0', 'metadata': {'author': 'Pierluigi Vinciguerra', ..., 'title': 'THE LAB #76: Bypassing Kasada With Open ' 'Source Tools In 2025', 'url': 'https://substack.thewebscraping.club/p/bypassing-kasada-2025-open-source'}, 'score': 0.419812053, 'values': []}, {'id': 'article-129', 'metadata': {'author': 'Pierluigi Vinciguerra', ..., 'title': 'How to by-pass Kasada bot mitigation?', 'url': 'https://substack.thewebscraping.club/p/how-to-by-pass-kasada-bot-mitigation'}, 'score': 0.418432325, 'values': []}, {'id': 'article-227', 'metadata': {'author': 'Pierluigi Vinciguerra', ..., 'title': 'Scraping Kasada protected websites', 'url': 'https://substack.thewebscraping.club/p/scraping-kasada-protected-websites'}, 'score': 0.378159761, 'values': []}], 'namespace': 'articles', 'usage': {'read_units': 6}} Tsy ratsy! ireo lahatsoratra telo ireo dia tena momba ny lohahevitra! Ho an'izao fotoana izao dia ampy izany, ao amin'ny fizarana manaraka dia ho hitantsika ny fomba mifandray ity DB ity amin'ny GPT4 ary avy eo ny famoronana interface tsotra mba hanoratra fangatahana ary hahazoana ny angon-drakitra ilainao. Ity lahatsoratra ity dia ampahany amin'ny andian-dahatsoratra "The Lab" nataon'i Pierluigi Vinciguerra. Jereo ny pejy Substack ho an'ny fahalalana bebe kokoa momba ny Web Scraping. Ny lahatsoratra dia ampahany amin'ny Sary avy amin'ny Jereo ny azy pejy ho an'ny fahalalana bebe kokoa momba ny Web Scraping. “The Lab” Ny fahafatesan'i Pierluigi Vinciguerra Ny ampahany Ny laboratoara