AIAS/README.md at 4a7b8be7746f8c93a256d00f83dda0f786e5d858

test/AIAS

mirror of https://gitee.com/mymagicpower/AIAS.git synced 2024-11-29 18:58:16 +08:00

- 1. 通用一键抠图
- 2. 人体一键抠图
- 3. 动漫一键抠图

2024-10-19 20:30:50 +08:00

44 KiB

Raw Blame History

中文 | English

官网 | http://www.aias.top/

项目清单:

1. 1_image_sdks - [图像识别 SDK]

  1). 工具箱系列：图像处理工具箱（静态图像）
  2). 目标检测
  3). 图像分割
  4). GAN
  5). 其它类别：OCR等
      ...

OCR工具箱 1：OCR方向检测与旋转 - ocr_sdks/ocr_direction_det_sdk OCR图像预处理。
OCR工具箱 2：OCR文字识别 - ocr_sdks/ocr_v3_sdk 1. V3 文本检测: - 中文文本检测 - 英文文本检测 - 多语言文本检测 2. V3 文本识别: - 中文简体 - 中文繁体 - 英文 - 韩语 - 日语 - 阿拉伯 - 梵文 - 泰米尔语 - 泰卢固语 - 卡纳达文 - 斯拉夫
OCR工具箱 3：OCR文字识别 - ocr_sdks/ocr_v4_sdk 原生支持旋转倾斜文本文字识别。
OCR工具箱 4：版面分析 - ocr_sdks/ocr_layout_sdk 可以用于配合文字识别，表格识别的流水线处理使用。 1. 中文版面分析 2. 英文版面分析 3. 中英文文档 - 表格区域检测
OCR工具箱 5：表格识别 - ocr_sdks/ocr_table_sdk 中英文表格识别。
OCR工具箱 6： led文字识别 - ocr_sdks/ocr_led_sdk led表盘文字识别。
人脸工具箱 1：人脸检测(含5个人脸关键点) - face_sdks/face_detection_sdk 人脸检测(含5个人脸关键点)提供了两个模型的实现。
人脸工具箱 2：人脸对齐- face_sdks/face_alignment_sdk 根据人脸关键点对齐人脸。
人脸工具箱 3：人脸特征提取与比对- face_sdks/face_feature_sdk 人脸识别完整的pipeline：人脸检测(含人脸关键点) --> 人脸对齐 --> 人脸特征提取 --> 人脸比对
人脸工具箱 4：人脸分辨率提升- face_sdks/face_sr_sdk 包含两个功能： 1.单张人脸图片超分辨。 2.自动检测人脸，然后对齐人脸后提升分辨率。
人脸工具箱 5：图片人脸修复- face_sdks/face_restoration_sdk - 自动检测人脸及关键地，然后抠图，然后根据人脸关键点转正对齐。 - 对所有转正对齐的人脸提升分辨率。 - 使用分割模型提取人脸，逆向变换后贴回原图。
人脸工具箱 6：口罩检测 - face_sdks/mask_sdk 口罩检测，给出检测框。
动物分类识别 - classification/animal_sdk 动物识别sdk，支持7978种动物的分类识别。
菜品分类识别 - classification/dish_sdk 菜品识别sdk，支持8416种菜品的分类识别。
烟火检测 - fire_smoke_sdk 烟火检测，给出检测框和置信度。
行人检测 - pedestrian_sdk 行人检测，给出检测框和置信度。
反光衣检测 - reflective_vest_sdk 实现施工区域或者危险区域人员穿戴检测。
智慧工地检测 - smart_construction_sdk 支持检测的类别：人体，安全帽。
车辆检测 - vehicle_sdk 车辆检测，给出检测框和置信度。
图片特征提取(512维)SDK - feature_extraction_sdk 提取图片512维特征值，并支持图片1:1特征比对，给出置信度。
图像&文本的跨模态相似性比对检索 SDK【支持40种语言】 - image_text_40_sdk -图像&文本特征向量提取 -相似度计算 -softmax计算置信度
图像矫正 - image_alignment_sdk -自动检测边缘，透视变换转正
文本图像超分辨 - image_text_sr_sdk -可以用于提升电影字幕清晰度。
图像超分辨(4倍)- super_resolution_sdk -提升图片4倍分辨率。
黑白图片上色 - image_colorization_sdk -应用到黑白图像中，从而实现黑白照片的上色。
一键抠图工具箱 - 1. 通用一键抠图 - seg_unet_sdk -包括三个模型：满足不同精度，速度的要求。
一键抠图工具箱 - 2. 动漫一键抠图 - seg_unet_sdk 无需手动绘制边界，大大提高了抠图的效率和精准度。应用场景如： - 广告设计 - 影视后期制作 - 动漫创作等
一键抠图工具箱 - 3. 衣服一键抠图 - seg_unet_sdk 衣服一键抠图应用场景可以在很多方面发挥作用，以下是一些简要介绍： - 电子商务 - 社交媒体 - 广告设计 - 时尚设计 - 虚拟试衣
一键抠图工具箱 - 4. 人体一键抠图 - seg_unet_sdk -人体一键抠图可以将人体从背景中抠出，形成一个透明背景的人体图像。

1. 2_nlp_sdks - [自然语言 SDK]

  1). 工具箱系列：sentencepiece，fastText，npy/npz文件处理等。
  2). 大模型
  3). 词向量
  4). 机器翻译
      ...

fastText - kits/fasttext_sdk fastText是一个快速文本分类算法。
解析npy/npz文件 - kits/npy_npz_sdk java读取python numpy保存的npz、npy文件。。
Sentencepiece分词 - kits/sentencepiece_sdk Sentencepiece分词的Java实现。
jieba分词 - lexical_analysis/jieba_sdk jieba分词java版本的简化实现。
词法分析SDK [中文] - lexical_analysis/lac_sdk 词法分析模型能整体性地完成中文分词、词性标注、专名识别任务。
202种语言互相翻译 - translation/trans_nllb_sdk 支持202种语言互相翻译,支持 CPU / GPU。
中英互相翻译 - translation/translation_sdk 可以进行英语和中文之间的翻译,支持 CPU / GPU。
代码特征向量提取工具箱 - embedding/* 3个SDK： 1.code2vec_sdk 2.codet5p_110m_sdk 3.mpnet_base_v2_sdk 自然语言与代码特征提取工具箱提供3个SDK，以满足不同精度与速度的需要。。
文本特征提取向量工具箱【中文】 - embedding/* 文本语义特征提取工具箱提供4个 SDK： 1.m3e_cn_sdk 2.text2vec_base_chinese_sdk 3.text2vec_base_chinese_sentence_sdk 4.text2vec_base_chinese_paraphrase_sdk
文本特征提取向量工具箱【中文】 - embedding/* 文本语义特征向量提取工具箱【多语言】提供 3 个 SDK： 1.sentence_encoder_15_sdk（支持 15 种语言） 2.sentence_encoder_100_sdk（支持100种语言） 3.text2vec_base_multilingual_sdk（支持50+种语言）

1. 3_audio_sdks - [语音处理 SDK]

  1). 工具箱系列：音素工具箱，librosa，java sound，javacv ffmpeg, fft, vad工具箱等。
  2). 声音克隆
  3). 语音合成
  4). 声纹识别
  5). 语音识别
      ...

语音识别（ASR）【短语音】 - asr_whisper_sdk 中文语音识别。
语音识别（ASR）【长语音】 - asr_whisper_long_sdk 中文语音识别。
语音处理包Librosa- librosa_sdk python语音处理库librosa的java实现。
TTS 文本转为语音 - tts_sdk TTS 文本转为语音。

1. 4_video_sdks - [视频解析SDK]

  1). 摄像头口罩检测 - camera_facemask_sdk
  2). MP4检测口罩 - mp4_facemask_sdk
  3). rtsp取流检测口罩 - rtsp_facemask_sdk

摄像头口罩检测 - camera_facemask_sdk 读取本地摄像头，实时（需要有显卡的台式机，否则会比较卡顿）检测口罩。
MP4检测口罩 - mp4_facemask_sdk 读取本地MP4文件，实时（需要有显卡的台式机，否则会比较卡顿）检测口罩。
rtsp取流检测口罩 - rtsp_facemask_sdk 通过rtsp取流，实时（需要有显卡的台式机，否则会比较卡顿）检测口罩。

1. 5_bigdata_sdks - [大数据SDK]

  1). flink-情感倾向分析【英文】- flink_sentence_encoder_sdk
  2). kafka-情感倾向分析【英文】- kafka_sentiment_analysis_sdk
      ...

flink-情感倾向分析【英文】SDK - flink_sentiment_analysis_sdk 情感倾向分析（Sentiment Classification）针对带有主观描述的文本，可自动判断该文本的情感极性类别并给出相应的置信度。
kafka-情感倾向分析【英文】SDK - kafka_sentiment_analysis_sdk 情感倾向分析（Sentiment Classification）针对带有主观描述的文本，可自动判断该文本的情感极性类别并给出相应的置信度。

1. 6_web_app - [Web应用，前端VUE，后端Springboot]

  1). 训练引擎
      ...

AI 训练平台 - training AI训练平台提供分类模型训练能力。并以REST API形式为上层应用提供接口。
代码语义搜索 - code_search 用于软件开发过程中的，代码搜代码，语义搜代码。 1. 代码语义搜索【无向量引擎版】 - simple_code_search 主要特性 - 支持100万以内的数据量 - 随时对数据进行插入、删除、搜索、更新等操作 2. 代码语义搜索【向量引擎版】 - code_search 主要特性 - 底层使用特征向量相似度搜索 - 单台服务器十亿级数据的毫秒级搜索 - 近实时搜索，支持分布式部署 - 随时对数据进行插入、删除、搜索、更新等操作
202种语言互相翻译 Web 应用 - text_translation - 支持202种语言互相翻译。 - 支持 CPU / GPU
一键抠图 Web 应用 - image_seg 当前版本包含了下面功能： - 1. 通用一键抠图 - 2. 人体一键抠图 - 3. 动漫一键抠图

1. 7_aigc - [图像生成]

  1). 图像生成预处理工具箱 controlnet_sdks
  2). 图像生成SD工具箱 stable_diffusion_sdks
      ...

7.1 图像生成预处理工具箱 controlnet_sdks

1. Canny 边缘检测 - canny_sdk - Canny 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，常用于生成线稿。 - 对应ControlNet模型： control_canny
2. MLSD 线条检测 - mlsd_sdk - MLSD 线条检测用于生成房间、直线条的建筑场景效果比较好。 - 对应ControlNet模型： control_mlsd
3. Scribble 涂鸦 - scribble_hed_sdk - scribble_pidinet_sdk - 不用自己画，图片自动生成类似涂鸦效果的草图线条。 - 对应ControlNet模型： control_mlsd
4. SoftEdge 边缘检测 - softedge_hed_sdk - HED - HedScribbleExample - HED Safe - HedScribbleExample - softedge_pidinet_sdk - PidiNet - PidiNetGPUExample - PidiNet Safe - PidiNetGPUExample - SoftEdge 边缘检测可保留更多柔和的边缘细节，类似手绘效果。 - 对应ControlNet模型： control_softedge。
5. OpenPose 姿态检测 - pose_sdk - OpenPose 姿态检测可生成图像中角色动作姿态的骨架图(含脸部特征以及手部骨架检测)，这个骨架图可用于控制生成角色的姿态动作。 - 对应ControlNet模型： control_openpose。
6. Segmentation 语义分割 - seg_upernet_sdk - 语义分割可多通道应用，原理是用颜色把不同类型的对象分割开，让AI能正确识别对象类型和需求生成的区界。 - 对应ControlNet模型： control_seg。
7. Depth 深度检测 - depth_estimation_midas_sdk - Midas - MidasDepthEstimationExample - depth_estimation_dpt_sdks - DPT - DptDepthEstimationExample - 通过提取原始图片中的深度信息，生成具有原图同样深度结构的深度图，越白的越靠前，越黑的越靠后。 - 对应ControlNet模型： control_depth。
8. Normal Map 法线贴图 - normal_bae_sdk - NormalBaeExample - 根据图片生成法线贴图，适合CG或游戏美术师。法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图，便于AI给图片内容进行更好的光影处理，它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多，常用于贴在低模上模拟高模的复杂光影效果。 - 对应ControlNet模型： control_normal。
9. Lineart 生成线稿 - lineart_sdk - lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，用于生成线稿。 - 对应ControlNet模型： control_lineart。
10. Lineart Anime 生成线稿 - lineart_anime_sdk - LineArtAnimeExample - Lineart Anime 边缘检测预处理器可很好识别出卡通图像内各对象的边缘轮廓，用于生成线稿。 - 对应ControlNet模型： control_lineart_anime。
11. Content Shuffle - content_shuffle_sdk - ContentShuffleExample - Content Shuffle 图片内容变换位置，打乱次序，配合模型 control_v11e_sd15_shuffle 使用。 - 对应ControlNet模型： control_shuffle。

7.2 图像生成SD工具箱 stable_diffusion_sdks

1. 文生图：输入提示词（仅支持英文），生成图片（仅支持英文） - txt2image_sdk
2. 图生图：根据图片及提示词（仅支持英文）生成图片 - image2image_sdk
3. Lora 文生图 - lora_sdk
4. Controlnet 图像生成-4.1. Canny 边缘检测 - controlnet_canny_sdk - Canny 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，常用于生成线稿。
4. Controlnet 图像生成-4.2. MLSD 线条检测 - controlnet_mlsd_sdk - MLSD 线条检测用于生成房间、直线条的建筑场景效果比较好。
4. Controlnet 图像生成-4.3. Scribble 涂鸦 - controlnet_scribble_sdk - 不用自己画，图片自动生成类似涂鸦效果的草图线条。
4. Controlnet 图像生成-4.4. SoftEdge 边缘检测 - controlnet_softedge_sdk - SoftEdge 边缘检测可保留更多柔和的边缘细节，类似手绘效果。
4. Controlnet 图像生成-4.5. OpenPose 姿态检测 - controlnet_pose_sdk - OpenPose 姿态检测可生成图像中角色动作姿态的骨架图(含脸部特征以及手部骨架检测)，这个骨架图可用于控制生成角色的姿态动作。
4. Controlnet 图像生成-4.6. Segmentation 语义分割 - controlnet_seg_sdk - 语义分割可多通道应用，原理是用颜色把不同类型的对象分割开，让AI能正确识别对象类型和需求生成的区界。
4. Controlnet 图像生成-4.7. Depth 深度检测 - controlnet_depth_sdk - 通过提取原始图片中的深度信息，生成具有原图同样深度结构的深度图，越白的越靠前，越黑的越靠后。
4. Controlnet 图像生成-4.8. Normal Map 法线贴图 - controlnet_normal_sdk - 根据图片生成法线贴图，适合CG或游戏美术师。法线贴图能根据原始素材生成一张记录凹凸信息的法线贴图，便于AI给图片内容进行更好的光影处理，它比深度模型对于细节的保留更加的精确。法线贴图在游戏制作领域用的较多，常用于贴在低模上模拟高模的复杂光影效果。
4. Controlnet 图像生成-4.9. Lineart 生成线稿 - controlnet_lineart_sdk - controlnet_lineart_coarse_sdk - Lineart 边缘检测预处理器可很好识别出图像内各对象的边缘轮廓，用于生成线稿。
4. Controlnet 图像生成-4.10. Lineart Anime 生成线稿 - controlnet_lineart_anime_sdk - 通过提取原始图片中的深度信息，生成具有原图同样深度结构的深度图，越白的越靠前，越黑的越靠后。
4. Controlnet 图像生成-4.11. Content Shuffle - controlnet_shuffle_sdk - Content Shuffle 图片内容变换位置，打乱次序，配合模型 control_v11e_sd15_shuffle 使用。

8 8_desktop_app - [桌面App]

  1). 大模型离线桌面App
  2). OCR文字识别桌面App
  3). 图像高清放大桌面App
      ...

大模型离线桌面App - desktop_app_llm - 支持中/英文 - 模型支持chatglm3，llama3，alpaca3等 - 支持4位，8位量化，16位半精度模型。 - 支持windows及mac系统 - 支持CPU，GPU
OCR文字识别桌面App - desktop_app_ocr - 图片文字识别 - 支持windows, linux, mac 一键安装
图像高清放大桌面App - desktop_app_upscale - 单张图片分辨率放大 - 批量图片分辨率放大 - 支持 windows, macos, ubuntu