組織がストリーム処理によるリアルタイムの洞察と、バッチ処理による規模とこれまでの履歴を踏まえた分析を両立させたいと考えても、従来のデータインフラストラクチャでは、そのギャップを埋めるために異なるツールやマニュアル作業に頼らざるを得ませんでした。ロンドンで開催されたイベント「Current London」にてライブで公開された今四半期のリリースでは、Confluent Cloud にストリーム処理とバッチ処理のシームレスな統合機能が追加されました。これは、前述の課題を根本改善します。私達は Apache Flink® 向け Confluent Cloud のスナップショット クエリなどの革新的な機能を発表します 。Apache Kafka® および Tableflow のデータ全てに高速なバッチスタイルのクエリが可能になることで、リアルタイムのストリーミングによる分析に加え、豊富にあるこれまでの文脈も活用して、AIおよび分析のワークロードを強化できます。さらに、Databricks エコシステムのワークロードを強化する Tableflow support for Delta Lake tables 、サーバーレスクラスタ向けのクラウドとコストの管理強化、そしてプライベートネットワーク環境のシンプルな運用のためにデザインされた Schema Registry および Apache Flink® 向けの一連の機能も発表します。
新しいクラウド機能を最大限に活用するための詳細な情報については、このまま読み進めてください。
Early Access版 Snapshot Queries in Confluent Cloud for Apache Flink® を発表いたします。これにより、Tableflow を介して Kafka トピックだけでなく 、Apache Iceberg™️ や Delta Lake テーブルを横断しての高速なバッチ形式のクエリが可能となります。Snapshot Queries を使用すると、Confluent Cloud 上で共通の Flink SQL を使用してバッチとストリーミング、両方のワークロードが実行可能です。
Snapshot Queries では以下が可能になります。
Flink SQL を使用して履歴データとリアルタイムデータをクエリし、ストリーム処理とバッチ処理を統合処理
Tableflow 上の長期保持テーブルをインタラクティブな速度で活用し、豊富なこれまでの履歴文脈を把握
パイプラインの開発とデバッグを、アドホックなポイントインタイム・クエリを利用して高速化
スナップショットモード(例:SET 'sql.snapshot.mode' = 'now')を設定すると、データソースは自動的にバインドされ、処理はバッチに切り替わります。これにより、一時的に結果を算出〜終了するクエリを使用して、データの検索、テスト、分析が可能となります。
現代のデータチームは、リアルタイムにデータに対応しこれまでのコンテキストを活用するために、ストリーミングとバッチの両方を利用しています。現在、これらのワークロードは通常複数のツールに分割されており、開発者のワークフローは断片化されてしまいます。Confluent のサーバーレス Flink は、ストリーミングモードとスナップショットモードの両方を提供することで、この 問題を解消します。
特に、Tableflow のスナップショットクエリはインタラクティブな速度で実行するように最適化されており、保存された過去データに対してストリーミングジョブと同じロジックを実行する場合と比較して、最大 50~100 倍高速に結果を提供することで、パイプライン開発、クエリテスト、データ再処理が大幅に柔軟かつ便利になります。開発者は、従来の長時間実行される継続的なジョブでは現実的ではなかったユースケースに対して、反復的なワークフローの一部としてこの機能を活用できます。
この機能は現在、Kafka と Tableflow の両方で追加専用クエリをサポートしています。スナップショットクエリを試すには、Early Accessプログラムにご登録ください。今後は一般提供に向け全てのクエリモードへのサポートを拡張する予定です。
UDFは Flink SQLの組み込み機能にとどまらず、リアルタイムアプリケーションに合わせてカスタマイズされたより高度な変換、フィルタリング、集計を可能にします。Confluentは、今年初めに AWS 上でJavaのUDF(スカラー関数とテーブル関数の両方を含む)が利用可能になったことを発表しました。そして新たに UDFをAzureにも拡張します。
Azure 環境で作業する開発者は、以下が可能になります。
Flink SQLのカスタマイズ:ユースケースに合わせてカスタムビジネスロジックや複雑な変換を実装することで、Flink SQL をカスタマイズ
任意のプログラミング言語と既存のライブラリを活用し、既存システムとの統合を効率化
再利用性の向上:複数のアプリケーションやパイプライン間での再利用性を高め一貫性を確保し、開発時間を短縮
SQLエディターから UDF を直接呼び出すことができるため、より表現力豊かなクエリを、特定のデータ処理ニーズに合わせて作り込めます。UDF サポートは Python やその他のクラウドプラットフォームにも拡張される予定です、ご期待ください。
Confluent は年初に Confluent for VS Code 拡張機能のGA版をリリースをしました。これにより、開発者は複数のツールを切り替えることなく任意の Kafka クラスタに容易に接続し、リアルタイムデータストリームを開発、管理、監視できるようになりました。本日、この拡張機能が Confluent Cloud for Apache Flink® を使用したアプリケーション開発をサポートするようになったことをお知らせします。ストリーミングエンジニアは、使い慣れたコードエディタである Visual Studio (VS) Code から直接、Flink を活用したリアルタイムデータ処理アプリケーションをシームレスに構築、管理、監視することが可能になります。
この機能強化により、開発者は以下が可能になります。
Flink SQL のデプロイメントと Kafka リソースを1つの開発 環境で管理
Flink SQL ステートメントの作成、検証、デプロイを、コンテクスト切替無しで容易に実行
ストリーミングおよびストリーム処理アプリケーション向けの組み込みテンプレートを活用し、プロジェクトのセットアップと開発ワークフローを効率化
Visual Studio Marketplace から Confluent for VS Code extension を無料でインストールし、お試しください。統合開発環境でリアルタイムのデータ開発を体験できます。
前四半期に、Kafka のトピックと関連スキーマをオープンテーブルフォーマットで表現し、あらゆるデータレイク、ウェアハウス、分析エンジンにデータをフィードする Tableflow の一般公開を発表しました。そしてこのたび、Tableflow が Delta Lake テーブルのサポートを開始し、オープンプレビュー版としてご利用いただけることをお知らせします。このアップデートにより、高品質なデータストリームを Databricks やその他の互換性のある分析エンジンに直接受け渡すプロセスが簡素化され、AI や分析ワークロードの強化が容易になります。さらにまもなく、変換された Delta Lake テーブルを Unity Catalog に公開し、中央集権的なガバナンスを実現できるようになります。
より柔軟性の実現のため、Tableflow は2つ同時に変換することも可能です。単一のトピックを Delta Lake と Iceberg の両方テーブルへ同時にデータを入力でき、基礎となるデータを効率的に共有できます。
セキュアな接続を簡素化するためのさらなるステップとして、Flink と Schema Registry に向けた Confluent Cloud Network(CCN)ルーティングサポートもご紹介します。PrivateLink Attachments のプロビジョニングは両製品に専用のプライベート接続を設定する方法の一つですが、CCNルーティングはさらなる効率性をもたらします。既存のCCNインフラストラクチャを再利用し、追加のネットワーク設定なしで Flink と Schema Registry 両方に安全に接続できるため、運用効率が向上し、複雑さが軽減されます。各CCNには専用の Flink および Schema Registry エンドポイントが含まれ、パブリックDNSとプライベートDNS、いずれもサポートすることで、安全かつ柔軟なアクセスが可能となります。
CCN routing for Flinkは Flink がサポートされている全てのリージョンにて AWS 上で一般提供されており、近日中に Azure でもサポート予定です。また、 CCN routing for Schema Registry も近日中に AWS にて提供予定です。
厳格なセキュリティによるコン プライアンスの実現ときめ細かなアクセス制御の維持は適切なツールを導入することで容易になります。そのために、Flink と Schema Registry 両方でIPフィルタリングの一般提供を開始しました。IP Filtering は、これらのサービスへのパブリックアクセス方法をより詳細に制御しネットワーク管理者が信頼できるIPアドレスの範囲(CIDRブロック)を指定することで、Schema Registry と Flink のパブリックエンドポイントへのアクセスの明示的な許可/拒否を実現します。CCNルーティングなどの機能と併用することで、IPフィルタリングはネットワークオーバーヘッドを最小限に抑えながら Confluent Cloud リソースを柔軟に保護します。
AWS PrivateLink for Schema Registry のGA版発表はとても嬉しいことです。これは、セキュリティオプションをさらに強化したもので、組織は Amazon Virtual Private Cloud (VPC) 内のプライベートエンドポイント 経由で Schema Registry に接続できるようになります。全てのトラフィックが VPC 内に留まり、パブリックインターネット経由でのスキーマメタデータ漏洩を防ぎます。サポート対象リージョンの全リストは、こちらをご覧ください。
Google Cloud で Enterprise Clusters が利用可能にな ったこともお伝えしなければなりません。つまり、主要3社のクラウドサービスプロバイダ全てに対応することとなりました。Enterprise Clusters は、あらゆるレイテンシとスループットのストリーミングワークロードのニーズを満たす、フルマネージドで費用対効果の高いソリューションを提供します。サーバーレスで自動スケーリング可能なこれらのクラスタは、複雑なキャパシティのプランやオーバープロビジョニングを必要とせずに増加する要求をシームレスに処理し、最適な費用対効果を実現します。また、Google Cloud のEnterprise Clusters は、Google Cloud Private Service Connect による安全な接続も提供しているため、Kafka ワークロードを安心して実行できます。
Enterprise Clusters は現在、Google Cloud の12のリージョンでサポートされており、今後さらに多くのリージョンで利用可能になる予定です。リージョンの一覧はこちらをご覧ください。
多くの組織は、コストの最適化や規制要件の遵守、データの耐障害性確保のために複数のクラウドプロバイダーをまたがって運用しています。しかし、Kafka のワークロードをリンクし異なるクラウド間でデータを複製することは複雑さを招き、多くの場合、カスタムネットワーク設定、VPNトンネル、または面倒なピアリング契約が必要になります。これらの課題に対処するため、Confluentは限定公開版として本番環境に対応可能な、cross-cloud Cluster Linking を提供します。この機能により、VPCピアリングまたはプライベートリンクを介してプライベートネットワーク化された AWS および Azure 上の Kafka クラスタ間でのデータレプリケーションが可能になります。
この機能は、マルチクラウド戦略の実装、ダウンタイムのないスムーズなクラウド間移行、異なるクラウドにホットスタンバイのクラスタを維持することによる災害復旧の確保など、さまざまなユースケースで不可欠です。cross-cloud Cluster Linking により、組織は AWS および Azure 上のEnterprise ClustersとDedicated Clustersの任意の組み合わせ間でデータを複製できます。さらにこの機能はVPCピアリングまたはプライベートリンクを介してプライベートネットワーク化されたクラスタもサポートし、セキュアなデータ転送を保証します。
WarpStream Diagnostics は、クラスタの潜在的な問題、コストの非効率性、そして改善策を特定するための継続的な分析を行います。20種類以上(追加予定有り)のチェック事項が組み込まれており、不要な AZ 間ネットワーク、ビンパックされたインスタンスや最適化されていないインスタンス、非効率な生成リクエストと消費リクエス トといった非効率性の特定に役立ちます。
メトリクスは WarpStream コンソールで確認できます。詳細については、ブログをご覧ください。
WarpStream は、Confluent 互換のスキーマレジストリを WarpStream Bring Your Own Cloud (BYOC) スキーマレジストリに継続的に移行するためのツールである Schema Linking の導入によりデータガバナンス 機能を強化します。WarpStream Schema Linking の主な利点は、既存のスキーマアーキテクチャを詳細に保持することです。スキーマID、サブジェクト、サブジェクトバージョン、互換性ルールを忠実に維持します。
WarpStream Agent にネイティブに組み込まれた Schema Linking は、追加のインフラを不要とします。移行以外にも、スケーラブルな読取レプリカ、マルチリージョンスキーマ同期、堅牢なDRなどにも Schema Linking を活用できます。詳細は、ブログをご覧ください。
新しいフル・マネージサービスの Snowflake Source Connector を使用すると、Snowflakeテーブルから Kafka トピック に直接データをストリーミングできるため、リバースETLが容易になります。JDBCベースのこのコネクタは、カスタムクエリとオフセット管理をサポートし、どのデータがいつ移動するかをきめ細かく制御できます。
信頼性、スケーラビリティ、そしてセキュリティに優れたデータ統合を実現するために開発された、Azure Cosmos DB v2 ソース と Sink コネクタをご紹介します。v2 コネクタは、1 回限りの配信セマンティクス、マルチコンテナのサポート、そして強化された一括操作を提供し、より高速で一貫性のあるパイプラインを実現します。Source コネクタではリースコンテナが不要になり、オフセットベースの変更をトラックする機能がサポートされ、Sink コネクタでは、パッチの適用や削除といった柔軟な書き込みの設計が追加されています。これらの新しいコネクタは、よりスケーラブルでセキュリティに優れ、運用に則した統合環境を提供します。
Confluent 初の Kafka Streams 向け専用UIは、Kafka Streams アプリケーションの運用を監視できるUIとなりました。アプリケーション所有者の容易な識別、専用ビューによるワークロード管理、インスタントバージョンチェックによる互換性の確保など、様々な機能をご利用いただけます。
Apache Kafka 4.0 リリースに含まれる新しいコンシューマーリバランスプロトコル(KIP-848)は、特に大規模なデプロイメントにおいて、コンシューマーグループの信頼性と応答性を大幅に向上させます。この新しいプロトコルは Confluent Cloud の本番環境で利用可能で、Confluent Platform でも近日中にサポートされる予定です。KIP-848 は、より多くのr連携ロジックをブローカー側に移行することで、サーバー支援による増分リバランスを高速化します。これにより、クライアントの軽量化、ダウンタイムの削減、そしてストリーミングアプリケーション全体の安定性の向上が実現します。
Confluentを初めてご利用になる方は、Confluent Cloudのフリートライアル版にご登録のうえ新機能をお試しください。新規登録された方には、最初の30日間、 Confluent Cloud を400ドル分ご利用いただけます。コード「CCBLOG60」をご利用いただくと、さらに60ドル相当の無料利用枠をご利用いただけます。*
本記事は Confluent の製品開発の方向性を示すものであり、いかなる資料、コード、または機能の提供を約束するものではありません。記されている機能の開発、リリース、時期、価格は変更される可能性があります。 お客様は、現在利用可能なサービス、機能、および機能に基づいて購入を判断ください。
Confluent および関連する関連する名称は Confluent, Inc. の商標または登録商標です。
Apache®、Apache Kafka®、Apache Flink®、Apache Iceberg™️、およびそれぞれのロゴは、米国およびその他の国における Apache Software Foundation の登録商標または商標です。これらの使用は、Apache Software Foundationによる推奨を意味するものではありません。その他の全ての商標は、それぞれの所有者に帰属します。
Tableflow は、数回のクリックで Kafka Topic を Apache Iceberg® (一般提供) および Delta Lake (早期アクセス) テーブルとして表現し、任意のデータウェアハウス、データレイク、分析エンジンにフィードします。
This blog post outlines the top four challenges of using hyperscaler-hosted Kafka, focusing on high costs, manual maintenance, reliability gaps, and vendor lock-in. It then explains how Confluent Cloud is architected to solve each of these specific problems for customers.