Introduction Въведение В най-новите си публикации, аз гледах , и Това ме накара да мисля за това, което може да бъде полезно разширение в това пространство, което ме накара да мисля за навигацията в сложността на съвременните екосистеми с данни. , платформа с отворен код, предназначена да рационализира управлението на метаданните, предлагайки стабилно решение за откриване, наблюдение и управление на данните. В тази публикация в блога ще се потопим в техническите основи на OpenMetadata, ще изследваме неговата архитектура, ключови функции и случаи на използване и ще ви предоставим визуални помощни средства, за да ви помогнем да разберете защо тя придобива привличане в общността на инженеринга на данни. Апач Iceberg Апач Кафка Страхотен Apache Отворени метаданни Апач Iceberg Апач Кафка Страхотен Apache Отворени метаданни What is OpenMetadata? Какво е OpenMetadata? OpenMetadata е унифицирана платформа за метаданни с отворен код, която дава възможност на организациите да управляват своите данни ефективно.Представена през 2021 г. и вдъхновена от уроците от инфраструктурата за метаданни на Uber, OpenMetadata осигурява централизирано хранилище за метаданни, което позволява откриване на данни, проследяване на линиите, мониторинг на качеството и сътрудничество в екип.С повече от 300 участници и приемане в различни индустрии, OpenMetadata се отличава със своята простота, разширяемост и жизнена общност.Той е създаден, за да отговори на предизвикателствата на фрагментираните екосистеми за данни, където метаданните често се превръщат в препятствие за мащабиране и управление. За разлика от традиционните инструменти за метаданни, които разчитат на сложни графични бази данни или собствени системи, OpenMetadata приема рационализирана архитектура с подход на първо ниво. Той поддържа над 90 конектора за поглъщане на метаданни от бази данни, складове за данни, тръбопроводи и табла, което го прави гъвкав избор за съвременни масиви от данни. Why OpenMetadata Matters Защо OpenMetadata са важни Четенето на база данни и изготвянето на доклад беше доста просто в старите дни. Направихте някои съединения, някои филтриране, някои форматиране и удар, направихте. Сега имате сложни тръбопроводи, които улавят данни от различни източници и видове. Когато, ако не, нещо отива на юг с резултатите, не е лесно да се проследи къде се е объркало и това е мястото, където влизат OpenMetadata. Фрагментирани източници на данни: Организациите често използват множество инструменти (напр. Snowflake, dbt, Metabase), водещи до силодирани метаданни. Откриваемостта на данните: Намирането на съответните данни може да отнеме време. Възможностите за търсене на OpenMetadata и обогатяването на метаданните правят откриването интуитивно. Управление и съответствие: OpenMetadata поддържа стабилно управление без прекомерно ръчно усилие чрез функции като версиониране на метаданни и автоматизирани работни потоци. Мащабируемост: Неговата лека архитектура и обширна поддръжка на конектора са подходящи за предприятия от всички размери. Architecture of OpenMetadata Архитектура на OpenMetadata Въз основа на времето, което прекарах, изглежда, че OpenMetadata се състои от четири основни компонента: Метаданни магазин: Централно хранилище, което съхранява метаданни график, свързващи данни активи, потребители и метаданни, генерирани от инструменти.Той използва релационна база данни (например, MySQL, Postgres) за съхранение, избягвайки сложността на графични бази данни като Neo4j. Ingestion Framework: Достъпна рамка, която поглъща метаданни от над 90 източника, включително бази данни (напр. BigQuery, Snowflake), езера на данни (напр. S3, Iceberg) и BI инструменти (напр. Power BI). Схеми за метаданни: Схеми, базирани на JSON, определят метаданни (например таблици, табла) и взаимоотношения.Тези схеми са разширяеми, което позволява на организациите да персонализират метаданните според нуждите си. Потребителски интерфейс: Уеб-базиран интерфейс, изграден с React, предлагащ инструменти за търсене, визуализация на линии и сътрудничество.Той се интегрира с Elasticsearch за цялостно търсене на текст и поддържа съкращения CMD + K за бърза навигация. Например, създаването на локална среда отнема минути, а платформата поддържа разгръщане в облака в AWS, Azure и Google Cloud. Ключови характеристики OpenMetadata предлага богат набор от функции, които, въз основа на моя опит в пространството, наистина обхващат това, което хората трябва / искат да направят. Data Discovery The full-text search engine, powered by Elasticsearch, indexes entity names, descriptions, tags, and even conversation threads. Users can refine searches with filters or use advanced queries to explore tables, dashboards, pipelines, and more. Data Lineage Lineage tracking provides column-level visibility into data flows across pipelines and tools. For example, you can trace how data moves from a PostgreSQL table through a dbt transformation to a Power BI dashboard. Lineage can be exported as PNG or PDF for documentation. Data Quality and Profiling Includes no-code data quality tests and profiling tools. Users can define test suites, monitor data health, and view results in an interactive dashboard. AutoPilot, an AI-driven feature, automates metadata extraction and profiling for new services, reducing onboarding time. Collaboration The platform fosters collaboration through conversation threads, task creation, and event notifications. Data producers and consumers can communicate directly on data assets, reducing silos. Governance Supports metadata versioning, tagging, and ownership assignment, enabling compliance with data governance policies. Its two-way metadata synchronization pushes enriched metadata (e.g., tags) back to source systems like Snowflake, ensuring consistency. The schema-first approach and REST APIs allow developers to extend metadata entities and integrate with custom tools. The ingestion framework supports community-contributed connectors, ensuring flexibility. Extensibility Use Cases Използвайте случаи Гъвкавият дизайн го прави приложим в много индустрии. Централизация на данните: Компанията за търговия на дребно използва OpenMetadata, за да консолидира метаданни от Snowflake, dbt и Metabase, като осигурява единен източник на истина за аналитичните екипи. Автоматизация на управлението: Финансова институция използва AutoPilot за автоматизиране на етикетирането на метаданни и прилагане на политики за маскиране на данни в BigQuery, като гарантира спазването на GDPR. Откриване на данни за AI: доставчикът на SaaS използва OpenMetadata за стандартизиране на метаданни за различни набори от данни на клиентите, което позволява безпроблемна интеграция в моделите на AI. Платформа за електронна търговия използва инструментите за сътрудничество на OpenMetadata, за да преодолее различията между бизнес анализатори и инженери по данни, като подобри ефективността на създаването на табла. Getting Started Да започнеш Има няколко начина да започнете с OpenMetadata и опциите са ясно описани Не искам да ги възпроизвеждам в този блог, защото те могат да се променят с времето.Това, което не трябва да се променя, обаче, е UI адресът, така че: тук тук Достъп до потребителския интерфейс: Навигация до http://localhost:8585 за достъп до уеб интерфейса. Конфигуриране на съединители: Свържете се с вашите източници на данни, като използвате рамката за поглъщане. Както казах няколко пъти, има над 90, от които да избирате по време на това писане. Можете да избегнете стъпката за инсталиране и да опитате OpenMetadata Sandbox на • Общността Каналът също така е отличен ресурс за поддръжка и дискусии. от sandbox.open-metadata.org Сладък Сладък Challenges and Considerations Предизвикателства и съображения Въпреки че OpenMetadata е мощен, той има ограничения.За съвременните архитектури на езерото за данни (например Delta Lake), функционалността на съединителя може да бъде ограничена, а процесите на поглъщане (например Athena) могат да породят разходи, ако не се оптимизират, така че не го насочвайте сляпо към масивно езеро за данни и го изключвайте. Summary Резюме Това е проект с отворен код, който осигурява унифицирано решение за управление на метаданни. Неговата лека архитектура, обширна поддръжка на конектора и фокус върху сътрудничеството го правят убедителен избор за съвременните масиви от данни. Чрез централизиране на метаданните, подобряване на откриваемостта и автоматизиране на управлението, OpenMetadata дава възможност на организациите да отключат пълния потенциал на своите данни. Независимо дали изграждате култура, базирана на данни, или се справяте с предизвикателствата на съответствието, OpenMetadata си струва да се проучи. Искате ли да прочетете повече в моята серия "Какво е Heck???" По-долу е полезен списък: Какво е DuckDB? Какво е гърба на Malloy? Какво е гърба на PRQL? Какво представлява GlareDB? Какво представлява SeaTunnel? Какво представлява LanceDB? Какво представлява SDF? Каква е ролята на ГЕРБ? Какво представлява Proton? Какво е PuppyGraph? Какво представлява GPTScript? Какво представлява WarpStream? ** Какво е задната част на DeltaStream? ** Какво е DuckDB? Какво е DuckDB? Какво е гърба на Malloy? Какво е гърба на Malloy? Какво е гърба на PRQL? Какво е гърба на PRQL? Какво представлява GlareDB? Какво представлява GlareDB? Какво представлява SeaTunnel? Какво представлява SeaTunnel? Какво представлява LanceDB? Какво представлява LanceDB? Какво представлява SDF? Какво представлява SDF? Каква е ролята на ГЕРБ? Каква е ролята на ГЕРБ? Какво представлява Proton? Какво представлява Proton? Какво е PuppyGraph? Какво е PuppyGraph? Какво представлява GPTScript? Какво представлява GPTScript? Какво представлява WarpStream? Какво представлява WarpStream? Какво представлява DeltaStream?