API Reference kreuzberg v#4.9.7

Modules

Kreuzberg

High-performance document extraction for Elixir.

Kreuzberg.Application

OTP Application callback for Kreuzberg.

Kreuzberg.ArchiveEntry

Structure representing an entry extracted from an archive file.

Kreuzberg.AsyncAPI

Asynchronous extraction operations using Elixir Tasks.

Kreuzberg.BatchAPI

Batch extraction operations for processing multiple documents efficiently.

Kreuzberg.BibtexMetadata

BibTeX bibliography metadata.

Kreuzberg.BoundingBox

Bounding box coordinates for element positioning in documents.

Kreuzberg.CacheAPI

Cache management operations for the Kreuzberg extraction library.

Kreuzberg.Chunk

Structure representing a text chunk with embedding for semantic search.

Kreuzberg.ChunkMetadata

Metadata for a text chunk, tracking byte positions, indices, and page range.

Kreuzberg.CitationMetadata

Citation file metadata (RIS, PubMed, EndNote).

Kreuzberg.CodeChunk

Code chunk with source span and optional parent context.

Kreuzberg.CodeChunkContext

Context for a code chunk (parent scope information).

Kreuzberg.CodeCommentInfo

Comment information.

Kreuzberg.CodeDiagnostic

Parse diagnostic (error or warning from tree-sitter).

Kreuzberg.CodeDocSection

Section within a docstring.

Kreuzberg.CodeDocstringInfo

Docstring information with parsed sections.

Kreuzberg.CodeExportInfo

Export statement information.

Kreuzberg.CodeFileMetrics

File-level code metrics from tree-sitter analysis.

Kreuzberg.CodeImportInfo

Import statement information.

Kreuzberg.CodeProcessResult

Result of tree-sitter code processing.

Kreuzberg.CodeSpan

Byte and line/column span for a code element.

Kreuzberg.CodeStructureItem

Structural code element (function, class, method, etc.).

Kreuzberg.CodeSymbolInfo

Symbol definition information.

Kreuzberg.ContentLayer

Enumeration of content layers within a document.

Kreuzberg.ContributorRole

JATS contributor with role.

Kreuzberg.CsvMetadata

CSV/TSV file metadata.

Kreuzberg.DbfFieldInfo

dBASE field information.

Kreuzberg.DbfMetadata

dBASE (DBF) file metadata.

Kreuzberg.DjotAttributes

Element attributes in Djot ({.class #id key="value"} syntax).

Kreuzberg.DjotContent

Comprehensive Djot document structure with semantic preservation.

Kreuzberg.DjotFootnote

Footnote in a Djot document.

Kreuzberg.DjotFormattedBlock

Block-level element in a Djot document (paragraph, heading, list, etc.).

Kreuzberg.DjotImage

Image element in a Djot document.

Kreuzberg.DjotInlineElement

Inline element within a Djot block (text, emphasis, link, etc.).

Kreuzberg.DjotLink

Link element in a Djot document.

Kreuzberg.DocumentNode

A single node in the document tree.

Kreuzberg.DocumentStructure

Structured document representation with hierarchical node tree.

Kreuzberg.DocumentTextAnnotation

Inline text annotation with byte-range formatting and links.

Kreuzberg.Element

Semantic element extracted from a document.

Kreuzberg.ElementMetadata

Metadata for a semantic element extracted from a document.

Kreuzberg.ElementType

Enumeration of semantic element types in a document.

Kreuzberg.EmbeddingConfig

Configuration for standalone text embedding generation.

Kreuzberg.EpubMetadata

EPUB metadata (Dublin Core extensions).

Kreuzberg.Error

Exception module for Kreuzberg extraction errors.

Kreuzberg.ErrorMetadata

Error metadata when extraction partially failed.

Kreuzberg.ExtractionConfig

Configuration structure for document extraction operations.

Kreuzberg.ExtractionResult

Structure representing the result of a document extraction operation.

Kreuzberg.FictionBookMetadata

FictionBook (FB2) metadata.

Kreuzberg.Helpers

Shared helper functions for Kreuzberg extraction modules.

Kreuzberg.HierarchicalBlock

A hierarchical block within a page, representing heading-level structure.

Kreuzberg.Image

Structure representing an extracted image from a document.

Kreuzberg.ImagePreprocessingMetadata

Metadata about image preprocessing applied before OCR.

Kreuzberg.JatsMetadata

JATS (Journal Article Tag Suite) metadata.

Kreuzberg.Keyword

Structure representing an extracted keyword with score and algorithm info.

Kreuzberg.KeywordAlgorithm

Enumeration of keyword extraction algorithms.

Kreuzberg.LayoutRegion

A detected layout region on a page.

Kreuzberg.LegacyAPI

Legacy API functions using deprecated patterns.

Kreuzberg.Metadata

Structure representing document metadata extracted from files.

Kreuzberg.OcrBoundingGeometry

Bounding geometry for OCR-extracted text elements.

Kreuzberg.OcrConfidence

Confidence scores for OCR text detection and recognition.

Kreuzberg.OcrElement

OCR-extracted text element with detailed positioning and confidence information.

Kreuzberg.OcrElementLevel

Enumeration of OCR element hierarchical levels.

Kreuzberg.OcrRotation

Rotation information for OCR-detected text.

Kreuzberg.OutputFormat

Enumeration of output content formats.

Kreuzberg.Page

Structure representing a single page extracted from a multi-page document.

Kreuzberg.PageBoundary

Byte offset boundary for a page.

Kreuzberg.PageHierarchy

Hierarchy information for a page, containing heading-level blocks.

Kreuzberg.PageInfo

Metadata for an individual page/slide/sheet.

Kreuzberg.PageStructure

Page structure information for a document.

Kreuzberg.PageUnitType

Enumeration of page unit types in documents.

Kreuzberg.PdfAnnotation

Structure representing a PDF annotation extracted from a document page.

Kreuzberg.PdfAnnotationType

Enumeration of PDF annotation types.

Kreuzberg.Plugin

Public Plugin API facade for registering and managing Kreuzberg plugins.

Kreuzberg.Plugin.OcrBackend

Behaviour module for OCR backends in the Kreuzberg plugin system.

Kreuzberg.Plugin.PostProcessor

Behaviour module for post-processor plugins in the Kreuzberg plugin system.

Kreuzberg.Plugin.Registry

GenServer for managing Kreuzberg plugins.

Kreuzberg.Plugin.Supervisor

OTP Supervisor for the Kreuzberg plugin system.

Kreuzberg.Plugin.Validator

Behaviour module for Kreuzberg document extraction validators.

Kreuzberg.ProcessingWarning

Structure representing a warning generated during document processing.

Kreuzberg.PstMetadata

Outlook PST archive metadata.

Kreuzberg.RelationshipKind

Enumeration of relationship kinds between document elements.

Kreuzberg.ResultFormat

Enumeration of result structure formats.

Kreuzberg.Table

Structure representing an extracted table from a document.

Kreuzberg.TreeSitterConfig

Tree-sitter configuration for code parsing.

Kreuzberg.TreeSitterProcessConfig

Tree-sitter process configuration for code extraction.

Kreuzberg.Uri

Structure representing a URI extracted from a document.

Kreuzberg.UriKind

Enumeration of URI kinds.

Kreuzberg.UtilityAPI

Utility functions for Kreuzberg extraction operations.

Kreuzberg.Validators

Configuration validators for Kreuzberg extraction options.

Kreuzberg.YearRange

Year range for bibliographic metadata.